AI数据安全问题及治理

2020/08/09

根据观安信息和赛博研究院共同发布的《人工智能数据安全治理报告》,我将分享四个方面的内容:第一,当前人工智能有什么样的发展趋势,其面临哪些数字安全风险挑战;第二,全球人工智能数据治理现状如何;第三,人工智能数据安全治理的方向在哪里;第四,针对典型的人工智能场景,有什么具体的数据安全解决方案。


数据安全问题亟待解决

数字新基建、数据新要素、在线新经济是今年以来的几大热词,这也一定程度上昭示着人工智能的发展趋势。


5G、工业互联网等新型基础设施在逐步建设,再加上疫情中远程办公、经济活动、新业态都催生了新的人工智能应用场景。今年4月,国家提出将数据作为和土地、劳动力并列的新元素,数据至此上升到了国家战略的高度。


当前,人工智能从“探索期”逐步进入到“成长期”。这一阶段的人工智能有四个关键特征:第一,包括专用的AI硬件、芯片在内的人工智能专用技术逐渐获得突破;第二,人工智能产业生态蔚然成型;第三,人工智能投融资日趋理性成熟;第四,人工智能应用场景向深层拓展。


数据安全已经成为人工智能发展不得不解决的瓶颈问题。一方面,人工智能增加了传统数据的安全风险;另一方面,新技术又引发了新型数据安全风险。在数据全生命周期,人工智能将带来如下新风险:一是数据采集的风险,如隐私保护、过度采集,智能终端、APP不在应用范围内收集个人信息,数据过量采集将引发安全风险。二是数据处理的风险。利用“数据中毒”的方式来攻击人工智能系统,会造成人工智能模型计算的偏差,导致无法达到预期结果。三是数据流通的风险。人工智能依托于算力、算法、数据,因为这些数据很可能是由多个企业协同完成,如有的企业做数据采集,有的企业做数据标注。数据在各企业流转过程中,会出现数据交互、数据跨境的风险。四是数据处置的风险。人工智能的关联分析、还原、攻击、对抗样本攻击等,都会带来数据安全风险。


AI数据安全缺乏标准

针对风险,我们再来看全球人工智能数据安全治理现状。包括中国在内的各国在战略层面都非常重视数据安全,美国、欧盟在各种人工智能案件倡议、伦理规范中,都强调了对于数据安全的应对措施。


在法律层面,各国的人工智能立法差异较大,各有不同。举例来说,美国是通过场景化立法来推进人工智能数据安全,在加州推出了人脸识别的安全技术法;欧盟则是在加快统一数据安全立法下,进行场景化监督。前几年,欧盟推出在“GDPR”(General Data Protection Regulation,通用数据保护条例,简称GDPR)的框架下持续推进自动驾驶、人脸识别、生物制造等典型场景的数据安全立法。而中国目前还需要进一步加快数据安全立法和人工智能标准化立法。


在标准层面,无论是国内或是国外,通用的、专门针对人工智能数据安全的标准尚未出台,缺乏特定的标准。在技术层面,有四个前沿技术与人工智能数据安全相关联。


一是隐私计算。其核心是当数据交给合作方、第三方之时,不给对方未公开的数据。通过这种手段,保证模型训练,满足业务场景的需要,比较典型的如同台加密、联邦学习。二是区块链。区块链是针对去中心化的技术,主要作用于数据安全的防篡改、防泄漏。三是数据偏见检测。在数据安全风险里,人工智能有典型的应用和场景,如果训练数据存在偏见性,就会导致人工智能模型算出来的结果出现偏差,产生不可预期的影响。四是数据安全检测,主要是对数据集污染、对抗安全攻击方面进行检测。


AI数据治理的路径

关于人工智能数据治理框架主要涉及三个方面。


第一,治理思路。保障数据安全是为了让人工智能得到更可靠、更有效的发展,而非阻碍其前行的脚步。在人工智能的动态发展中,实现对数据安全风险的可知和可控是治理的思路。我们要充分发挥“安全”对人工智能发展的赋能作用,让其成为赋能的机制而非瓶颈。第二,治理原则。鼓励和推进AI发展,要保护主体在发展过程中的权益。以隐私数据个人所有权合法权益为例,我们要通过重视技术解决技术赋能的问题,防范风险,聚焦行业场景,推动多元参与。人工智能数据安全的问题,单凭某一家企业是不行的,它需要国家、社会团体、行业、企业等进行多方参与,最后再加强国际合作,确定治理原则。第三,治理路径。一要从宏观战略、法律法规、监管机制层面完善数据安全治理的底层设计;二要建立人工智能数据安全标准体系,如建立通用标准、行业标准、技术标准、人工智能应用场景安全标准;三要不断提高企业自身数据安全能力,通过组织、管理手段、技术手段结合的方式,提高数据安全的能力,包括组织建设、制度规范、文化、技术、人员的能力;四要多方参与,打造全面立体的人工智能数据的安全能力供给,解决数据安全的问题。我们要从技术研发、产品服务、测评认证、合规咨询、安全生态五个层次,打造整体数据的安全能力供给。


AI场景风险的解决方案

我们从接口、数据、核心功能、承建四个层面,完成了针对人工智能场景和平台的风险评估、数据管理、知识库管理及威胁情报;通过对人工智能场景的敏感数据探测、数据质量评估、差异评估、特异性评估,实现整体数据安全检测。


针对三个典型的人工智能场景,我们提出了针对性的数据安全解决方案。


场景一:无人驾驶。存储和传输环节会存在数据被窃听的安全风险,过度采集会侵犯隐私,还会涉及到数据跨境带来的数据安全风险。针对这些数据风险,我们提出了解决建议:加强车载端访问控制,实施分域管理,降低数据安全风险。基于KPI和数据通信加密,构建“车—云”数据通讯,在网络层进行异常流量检测,以提升整体车联网网络安全防护水平。场景二:人脸识别。有些企业内部管理较为薄弱,其内部数据安全制度、整体网络安全防护能力都有待加强,整体数据存在泄漏风险。这会导致在AI平台中进行人脸识别时出现数据泄漏和数据偏差。所以,我们要在解决方案中强调加强准入,包括准入认证和控制,以保障数据链路、数据传输与共享的安全;同时,采取技术手段,实现敏感数据的追踪和溯源。场景三:工业互联网。工业互联网平台架构层、平台层、IaaS、PaaS、SaaS、边缘计算层面都存在数据泄漏的安全风险。对此,我们建议建立数据防泄漏子系统,通过各个层面,加强数据安全审计和防泄漏;同时,针对敏感数据传输、接口传输,用数据脱敏子系统、脱敏技术实现敏感数据保护,建立完整的数据安全交换子系统,最终建立数据安全风险与预警平台。通过预警平台,实现工业互联网场景下数据安全的可知可控,从而保障整体数据安全,最终提升工业互联网场景下的数据安全能力。


(胡绍勇   上海观安信息技术股份有限公司首席技术官)