联系我们 |
 |
合作经济与科技杂志社
地址:石家庄市建设南大街21号
邮编:050011
电话:0311-86049879 |
|
|
信用/法制 |
生成式人工智能对个人信息造成的风险探析 |
第741期 作者:□文/张宣宣 时间:2024/11/16 9:02:18 浏览:16次 |
[提要] 由于生成式人工智能需要海量的数据用于其模型训练,以及生成式人工智能模型内在的黑箱特性,对个人信息的知情同意、最小必要原则造成挑战,且有可能导致个人信息的泄露。应在兼顾生成式人工智能的经济和社会价值条件下寻求个人信息权益的保护,创建个人信息风险等级治理路径;完善生成式人工智能个人知情同意、删除、拒绝等信息权益相关规定;强化生成式人工智能服务提供者对个人信息的安保义务。
关键词:生成式人工智能;个人信息;风险等级
中图分类号:D922.16 文献标识码:A
收录日期:2024年5月16日
一、生成式人工智能对个人信息造成风险的缘由
(一)生成式人工智能技术分析。生成式人工智能(AI)是一种通过大规模数据的学习以生成新的图像、文本、音乐、视频等形式内容的新型人工智能。其不同于传统的人工智能,不仅是对已有数据进行分类或决策,其主要任务是构建模型以生成具有逼真性和创意性的输出,经过大量数据训练之后创建的模型,能够创造性输出与其训练数据相似的内容,应用于多个领域。生成式人工智能的学习方式类似人脑神经网络的深度学习模式,人工智能系统从大量数据中学习模式和规律,所形成的人工智能模型通过模拟数据特征和规律帮助人工智能系统从数据中学习并做出预测或决策。生成式人工智能应用正式投入运行之前,需要收集海量数据,通过将这些数据用于生成式人工智能模型的训练,并通过对模型不断调整实现迭代更新,从而形成一个成熟的生成式人工智能模型,其中用于训练模型的海量数据是模型开发的关键。
(二)生成式人工智能的数据依赖性。生成式人工智能模型的训练依赖大量数据。生成式人工智能的核心是训练模型,通过大量数据的“投喂”训练,模型能够学习到语言、图像、音频等领域的复杂模式和规律,数据量越大,模型学习到的信息也就越丰富,生成的内容也就越具有质量。生成式人工智能的模型训练语料来源多种多样,包括网络爬虫数据、书籍、学术论文和期刊、开放数据集等,其中可能涉及到个人信息的相关内容,尤其是网络爬虫技术获取的数据,其中可能包含大量未脱敏处理的个人信息。另外,也不能排除模型开发者购买包含个人信息的数据来训练模型的可能性,而这也对公民的个人信息权益造成更加严重的侵害风险。
生成式人工智能应用投入使用后,用户主动输入的反馈数据也会被应用收集并存储在服务器中,用于模型的迭代训练。有研究发现,不法行为人有可能为了取得模型训练数据中的个人信息而攻击大规模语言模型。以ChatGPT为例,可能存在不法行为人通过攻击其模型来获取其训练数据中的个人信息,如果数据存在敏感个人信息,那么由于不法行为人的攻击,可能造成个人敏感信息的泄露。
(三)生成式人工智能模型的黑箱特性。生成式人工智能模型的构建基础是深度神经网络,由多层神经元组成,包括输入层、若干隐藏层和输出层,输入层接受原始数据,输出层产生模型预测结果,其中若干隐藏层由于难以为外界所观察、不具有可解释性,而被称为算法黑箱。算法的黑箱特性加剧了个人信息泄露的风险。2023年3月,ChatGPT用户反映在网站侧边栏随机出现其他用户的聊天记录,虽然在暴露个人信息方面相对有限,但这一问题表明了人工智能工具数据泄露的可能性,也反映出模型内部的黑箱特性对个人信息保护造成的风险。还有研究发现,像ChatGPT这种大语言模型,即便其训练数据中没有具体的个人信息,模型在运行中仍有可能推断出诸如年龄、性别、种族等个人信息,可能会对个人信息权益造成侵害。
二、生成式人工智能对个人信息造成风险的表现
(一)知情同意原则的适用困境。2024年3月1日,全国网络安全标准化技术委员会颁布了《生成式人工智能服务安全基本要求》,其中第5条针对个人信息的保护作出了合规要求:在使用包含个人信息的语料进行模型训练前,应取得对应个人同意或者符合法规规定的其他情形,该条规定也是对《个人信息保护法》中处理个人信息时应当遵循告知同意原则的体现。然而,在生成式人工智能的研发阶段,其训练参数的数量是千亿级别,当生成式人工智能提供者为了满足告知同意规则,需要分析海量的个人信息并与信息主体取得联系,这显然是不现实的。在提供服务阶段,以ChatGPT为例,首先,用户在注册时输入的个人信息,隐私政策也只是对信息的收集作出规定,并未提及个人信息的处理方式,而这是生成式人工智能个人信息处理的关键内容,并且OpenAI的服务条款显示,用户使用时输入的内容是可以被OpenAI收集并用作ChatGPT训练的数据;其次,用户对隐私政策中规定的处理个人信息内容的同意也并非完全出于自愿,因为个人如果不同意隐私政策内容,就无法使用该服务。由此可见,个人信息保护的告知同意规则在生成式人工智能数据的强制性收集下陷入困境。
(二)最小必要原则的虚置困境。生成式人工智能生成的数据是以现有的数据为基础,且数据的需求量巨大。我国《个人信息保护法》第6条规定了处理个人信息应当具有明确、合理的目的,且应当采取与处理目的直接相关、对个人权益影响最小的方式,即处理个人信息时要遵循最小必要原则,该原则也是各国处理个人信息所普遍遵循的原则,但是在生成式人工智能发展与应用的过程中,涉及到个人信息的处理时,该原则并没有得到有效的落实。以ChatGPT为例,它基于神经网络算法模型,对用户输入的内容进行分析,模拟人脑的思考,从其巨大的参数库中调取相关数据,提供给用户最优解。从ChatGPT的运行机制可以看出,用户输入的信息也将被用于模型的优化训练,以提高模型输出信息的准确性。可以看出,生成式人工智能的运行机理就决定了它自发获取输入数据的机制,其运行的过程是以最大化获取和分析数据为导向,而这也将个人信息保护最小必要原则置于虚置的困境中。
(三)个人信息的泄露风险。海量数据用于生成式人工智能模型训练的同时,也存在着泄露的风险。生成式人工智能训练模型从各种途径获取的包含个人信息的数据,比如个人姓名、账户、邮箱、聊天数据等,这些信息被嵌入生成式人工智能模型中,面临个人信息泄露的风险。生成式人工智能应用在运行过程中,信息主体与相关开发模型之间涉及到数据的传输,用户可能会向模型中披露个人信息、商业信息甚至是商业秘密等。以ChatGPT为例,用户在人机交互过程中输入的内容会存储到历史消息对话栏,并传输到服务器中,这就意味着相关模型开发者可以自由访问交互信息,这也标示着交互信息存在泄露风险,从而使得个人信息权益被侵害。根据ChatGPT工作机理可以看出用户在使用过程中的交互信息也会被用于模型的迭代训练,而关于这些信息的安全保障存在很大的风险,虽然OpenAI声明会采取诸如匿名或加密的安全保障措施来提高数据安全性,但根据报道显示相关的数据泄露风险仍然可能发生。
生成式人工智能对个人信息的处理行为,应该符合我国《民法典》《个人信息保护法》以及《生成式人工智能服务管理暂行办法》中对处理个人信息的处理者的保护个人信息安全义务的规定,如果生成式人工智能的服务提供者未尽到安保义务,有可能导致个人信息泄露,在网络飞速发展的生成式人工智能背景下,个人信息的泄露可能会导致诈骗、敲诈勒索等侵害财产安全的行为。但生成式人工智能关涉主体复杂,技术的服务主体包括研发机构、服务提供商、云服务提供商等多个参与方,涉及主体的多样性使得提供服务时,个人信息在传递、使用过程中更加不易控制,过程中可能导致个人信息泄露,从而威胁个人信息的安全。
三、应对策略
(一)建立生成式人工智能个人信息风险等级治理。在制定个人信息保护策略时,应兼顾生成式人工智能的经济和社会价值,平衡相关主体的核心需求才是解决问题的关键。在实践中,应当合理匹配风险的大小与控制措施的选择,在确保立法价值下,释放信息的流动性。对生成式人工智能在个人信息处理中潜在的隐私风险进行评估,主要包括数据泄露、信息误用、身份盗用等方面的风险,将评估出的风险分为不同的等级或类别,可以根据风险的严重程度、影响范围和潜在损害等指标进行分类,制定信息的安全风险等级制度,以便更好地实行差异化监管治理。比如,对涉及敏感程度较高的个人信息情况下,应当实行较高风险程度应对策略,生成式人工智能应当遵循更加严格的信息披露和通报规定。例如,在医疗领域,往往涉及病患的敏感个人信息,一旦泄露可能会造成严重的信任危机,应遵守更加严格的治理模式。在对个人信息造成风险较低的生成式人工智能领域,可以遵守较为宽松的治理模式,以兼顾其经济效益和信息流通性,达到个人权益与科技发展之间价值平衡。
(二)完善生成式人工智能个人信息权益
1、完善用户的知情同意权。知情同意权是个人信息处理者在处理个人信息时信息主体的基础性、核心的权利,信息主体对其个人信息的处理享有决定权。此外,个人信息还有着丰富的社会以及经济价值,信息在合理范围内的流动对社会数字经济的发展能起到助力作用,我国《个人信息保护法》因此对个人信息的合理使用作出了相应的规定,但是对“合理的范围”不够明确,不利于个人信息权益的保护和生成式人工智能的发展。因此,在生成式人工智能的背景下,以达成个人权益与公共利益的平衡为出发点,对“合理的范围”作出更为明确的规定。
2、完善用户的撤回权。《个人信息保护法》第15条规定了个人有权撤回其同意。在生成式人工智能背景下,首先,不应该将损害结果的发生作为用户行使撤回权的必要条件;其次,不应对用户的撤回权设置过多的障碍,比如,为了减少用户行使权力时有过多顾虑且符合该制度设置的最初目的,不宜赋予个人信息处理者损害赔偿请求权。
3、完善用户的拒绝权。《个人信息保护法》第44条规定信息主体有权拒绝他人对其个人信息进行处理,该规定是对个人信息拒绝权的法益保障。在生成式人工智能背景下,要对用户该权益的行使范围作出较为详细的规定,保障个人的拒绝权,尤其是要禁止用户的被迫同意,在提供服务时,即便用户不同意隐私政策中处理个人信息的内容,也要保障用户使用该服务的权利。
(三)强化生成式人工智能服务提供者对个人信息的安保义务。《生成式人工智能服务管理暂行办法》第9条中规定了服务提供者需要对网络信息的生成内容承担责任,处理个人信息时,也应当承担个人信息处理者的责任,且负有个人信息的保护义务,但对保护义务并未作出更加具体可操作的规定。实践中,由于生成式人工智能涉及的数据量、用户量巨大,由它所引发的个人信息权益侵害的影响不可估量。因此,不能完全依照传统个人信息受到侵害时的事后救济方式,应当重视事前的风险预防,强化生成式人工智能服务提供者对个人信息的安保义务。在相关规定并不具体的情况下,可以从涉及到的个人信息原则以及模型自身层面强化生成式人工智能服务提供者对个人信息的安保义务。
1、完善知情同意制度在生成式人工智能模型的应用。从遵循个人信息保护的知情同意规则的角度出发,将知情同意规则应用于生成式人工智能的算法模型中,完善生成式人工智能算法模型,在提供服务时,确立个人信息输入的识别机制,及时提示并向用户发出输入内容涉及个人信息的预警,遵守相关的隐私法规和数据保护原则,并建立相应的流程和机制,以保障个人权利的行使。
2、确保生成式人工智能技术稳定性。在生成式人工智能研发阶段,确保生成式人工智能技术的安全与稳定,从源头出发,避免因技术问题对个人信息造成风险。有针对性地对生成式人工智能服务提供者建立一套完整的标准技术体系,主要包括算法的设计、模型性能评估等,为个人信息的保护保驾护航。
3、确保算法逻辑客观性。理论上而言,生成式人工智能的输出内容应当是客观公正无偏见的,但是基于生成式人工智能模型的神经网络系统,模型基于数据“投喂”的深度学习并不能完全达到人脑的理性判断与思考方式,可能会输出带有主观偏见的信息,甚至捏造虚假信息,产生个人信息权益的侵害风险。因此,应当加强生成式人工智能底层算法逻辑的客观性,建立模型相应敏感个人信息以及虚假个人信息的剔除机制,以确保算法逻辑的客观性。
(作者单位:中原工学院)
主要参考文献:
[1]钭晓东.风险与控制:论生成式人工智能应用的个人信息保护[J].政法论丛,2023(04).
[2]毕文轩.生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角[J].比较法研究,2023(03).
[3]王东方.生成式人工智能对个人信息权益的侵害风险及其法律规制[J].征信,2024(02).
[4]胡宏涛.论生成式人工智能服务提供者的个人信息合理使用[J].江苏社会科学,2024(02).
[5]邹开亮,刘祖兵.生成式人工智能个人信息安全挑战及敏捷治理[J].征信,2024(01).
[6]萧鑫.个人信息拒绝权的界定与适用[J].社会科学研究,2023(02).
|
|
|
|