采访、编辑:郭晓静
ChatGPT的热浪席卷全球,当人们在讨论AI有多强大的同时,也会关注AI的“可怕之处”——一方面源于技术本身,人工智能会出现“幻觉”,就是我们所说的“一本正经地胡说八道”。另外一方面,源于人类的“滥用”——侵犯知识产权、传播虚假信息、违规使用数据等等。如何让人类与AI更和谐美好地共处,是摆在我们面前越来越严峻且复杂的问题。本期为《AIGC未来指北》系列内容第三期,腾讯科技专访清华大学人工智能国际治理研究院副院长、人工智能治理研究中心主任、公共管理学院教授梁正,请他分享了人工智能治理中,关于弱势群体保护、知识产权、及数据治理等最受关注的几个问题。
丨划重点
1保护自身辨别能力不足的弱势群体,研发AI产品的平台要做好“守门人”的工作,一方面在产品上标注“识别标记”,如数字水印等,另外一方面,要让产品使用轨迹可追溯,责任能落实到人。 2对待新技术的发展,敏捷治理的思路是,在可控范围内容让“领先用户”先顺畅地进来,去体验;同时在公测阶段就考虑到“治理的边界性问题”。 3近日,美欧达成了“人工智能促进公共利益行政协议”,值得注意的是,美欧双方此次在AI领域的合作并不以数据共享为前提,双方在数据流通上仍有所保留。“数据不动,联合建模”,有可能成为未来各国在数据领域合作的新范式。
01
破解“克林格里奇困境”,要靠更敏捷的治理思路
Q1:如何降低利用 AI 传播虚假信息和敏感信息的风险?一旦出现虚假信息如何鉴别,并降低对大众的影响?
梁正:《互联网信息服务深度合成管理规定》已经2022年11月3日国家互联网信息办公室2022年第21次室务会议审议通过,并自2023年1月10日起施行。另外,《互联网信息服务算法推荐管理规定》已经2021年11月16日国家互联网信息办公室2021年第20次室务会议审议通过,并自2022年3月1日起施行。当前国内算法治理的框架已较为清晰,[1] 但人工智能产业发展尚在早期,相关规定怎样去落实,也还有很多问题需要解决。在人工智能,特别是机器学习领域,最典型的特征是不存在放之四海而皆准的通用解决方案。针对AI传播虚假信息这件事,要分层来看:
①目前ChatGPT只是在公测阶段,大家使用它,大部分也都是娱乐性的聊天,它的回应到底有多靠谱,可能并没有太多人去认真追究,顶多会调侃一句”它在一本正经地胡说八道“。
②未来,当ChatGPT真正被使用到专用场景的时候,比如法律服务、金融服务的时候,真实性、严谨性问题就变得特别重要。
③但是,往往在非专用场景下,大家不太关注它的严谨性和真实性,警惕性放松,更容易被AI迷惑。这时候怎么办?我认为还是要把责任归因到具体的人。首先是使用者,使用了AI的人,应该选择标识出来,这样,看到AI生成内容的人,就可以选择相信或者不相信。
另外,对一些老年人、未成年人,自身的辨别能力不足,这时候,不仅仅是使用者,也要对服务的提供方(平台方),提出具体的要求,从我的平台生成的内容,是需要有明确的标识的,平台要做好“守门人”的工作。就好像现在的互联网电商平台,我们把“打假”的责任也给到了平台方,指望用户去打假是不现实的。
既然平台提供了自动化的服务,就有义务去帮助用户鉴别和防范。之前网信办强调“要压实互联网主体责任”,这句话落实的一个点就是,当大平台“手中有矛”的时候,更要落实自己的责任。我们看到国外大公司对这点十分看重,我们能注意到,当有新的技术诞生的时候,其实并不需要出台一个专门的规定去约束这种新技术或新产品。因为国外的法律体系中,如果某个公司的产品出现问题,这个公司肯定是第一责任人。
Q2:从AI公司的角度来讲,如何把好第一道关?
梁正:对公司来讲,最佳解决方案是在产品上标注“识别标记”,数字水印可能是其中一个解决方案,还可以有其它的办法,核心是对平台产生的内容做标注:首先可以识别这条内容是AI生成的、并不是人类创作的;另外,可以识别这条内容是在哪个平台生成的,由哪个用户生成并传播出去的。这样,有清晰的追溯链条,就能更清晰地定义责任人。我们看到OpenAI实际上已经在这样做了,推出了AI识别的工具,所谓的“用魔法打败魔法”。
OpenAI针对内容的识别并作出判断,图源:网络
Q3、新技术发展初期,如何破解“科林格里奇困境”?监管政策如何在确保新技术发展空间的同时,有效降低风险?
梁正:科林格里奇困境是指,在新技术发展的初期,当问题还没出现时,你无法预见它会带来怎样的问题,但是问题出现以后再去解决又太晚。历次我们经历新技术的爆发,都会碰到这个问题。
我们现在的解决办法应该聚焦在“对新技术有没有更敏捷的治理思路”?新技术在实验和推广过程中,可以先控制在可控的范围内,不要一下子大范围铺开,比如金融领域已经在采用的沙箱监管、自动驾驶领域的先行实验区。以前我们很少首先考虑到商业价值,一般更先讲到“新技术到底有什么危害”。但敏捷治理的思路是,应该让所谓的“领先用户”先顺畅地进来,去体验和探索,然后不断迭代。就像小米刚刚开始推MIUI的时候,也是先有一批种子用户,让用户参与到产品开发设计中来,这个思路可以被推广到新兴技术的治理上,也就是国外现在讲到的负责任的创新。
其次,之前的所谓的公测阶段,更多是从产品体验、底层代码等角度考虑,其实应该在公测阶段就加入“治理的边界性问题”,也就是同时进行治理规则的实验,这种治理不应该只是自上而下的,而是更大程度上是由业界首先意识到,并提出治理的需求和方案,后来才有监管者监督。业界要有主动治理的意识,变成企业社会责任的一部分。
现在我们又处于一轮新技术发展的初期阶段,产品设计上要有价值观的嵌入,如果不考虑这个因素,它带来的问题可能很大程度上要靠事后的规制,这是很难从根本上解决问题的。因为规则不是从某个个体的角度就能识别出来,必须在应用的过程中才能识别出来,应当尽量避免造成大面积的伤害之后才能定位到相关问题上。
Q4:在新技术诞生之时,国外有没有成熟的治理经验可以借鉴?
梁正:由于法律体系的不同,在英美法系国家,不需要法律有具体的规定,法官的判例就可以作为判罚依据,特别是在新兴领域,大量的法律积累就是来源于新的问题出现之后,法官怎么判,宣判以后又可以作为其他法官来判刑的依据。最终积累很多案例之后,会找到一个共识,那么就会写入法条,甚至最后形成法典。我们国家是大陆法系,采用的是成文法,习惯在法律规定中穷尽可能的情境,这其实在新兴技术治理上很难做到。对新技术领域用判例去解决,更加敏捷灵活。在美国,如果有用户认为自己的利益受损,就有权基于相关法律、包括宪法赋予的权利去起诉。所以美国的公司,对于推出新的技术、产品十分谨慎,因为一旦出现重大失误,即使没有相关的法律法规推出,只要基于宪法去提起诉讼,最终这家公司因为推出新产品不谨慎而犯下的某个失误,就有可能给自己造成灭顶之灾。
02
AIGC内容的知识产权之争
Q5:利用AI生成内容是“高科技剽窃”吗?
梁正:围绕AIGC的版权界定问题,一直是争论焦点,目前业界也很难有清晰的答案。本质上来讲,界定是不是剽窃的唯一标准应当是生成新内容后新信息的含量。不同国家关于著作权的法律规定当中,新颖性、创造性都是构成实体要求的基本条件。目前来看AIGC只能发现关联性,并不能发现因果性,所以可能并不能无中生有,创造严格意义上的新内容。但是未来是否量变会引起更大的质变,目前尚很难判定。
引发争议的AIGC作品,《太空歌剧院》图源:网络
从产业发展的角度来看,如果把AI生成内容的著作权给了使用者,有利于使用者创作优质内容,比如新闻、文学艺术创作,可以繁荣创意和创作,激励创作者,这个创作者是人,基本假定人是创意的来源。但如果大量内容都界定给使用者,对于优质工具的提供者而言激励不足,也会影响到此类工具开发者的积极性。
虽然目前在立法上,还没有明文规定,但是业界还是有一定的共识:比如,在科学研究领域,本来研究成果是为了人类共享,所以对于之前研究的引用,即使是借用了AI,一般标明署名和出处,可追溯就好;而基于商业目的的创作,把别人的作品打散重组,比如说小说、文学作品,肯定是不受欢迎的,如果没有标注或声明,是有侵权嫌疑的。
03
探索人工智能领域“数据合作”新范式
Q6:随着AI产业的发展,数据资源变得无比重要,近日,美国与欧盟达成了一项号称“关乎互联网未来”的人工智能合作协议,这对我们的数据治理有什么启示?
梁正:2023年2月,美欧达成了“人工智能促进公共利益行政协议”,拟在预测极端天气和应对气候变化、应急响应、医保事业、电网运行,以及农业发展等五大重点领域带来公共利益。值得注意的是,美欧双方此次在AI领域的合作并不以数据共享为前提,双方在数据流通上仍有所保留。
这件事涉及的领域更大一些,我们一直讨论的ChatGPT所使用的底层数据,其实更多的是互联网领域公共、公开的数据。而美国与欧美达成合作协议所讲的数据,则可能来源于公共部门和社会领域,涉及到公共安全、个人隐私等,它与公开数据不同,但这个合作模式对未来的数据治理提供了很大的启示。
关于数据的流动,从技术发展的角度来讲,大家最希望能有一个共享的数据池,在上面去做训练肯定效果最好,但是这里涉及到数据安全、隐私、版权、产权等各种复杂的问题。即使美欧在数据问题上经过这么长时间谈判,也并不能做到“共享数据池”
美欧现在达成的“联合建模”模式可能是未来的可以考虑的解决方式之一。过去大家的想法是要“让数据动”,但数据一动就会带来一系列问题,如匿名化的问题、数据安全的问题等等。其实从公司的角度来讲,真正要做到匿名化是做不到的,怎么办?现在的方向就是往多方可信安全计算、联邦学习等方向去做。联邦学习的模式,可以让数据不动,只要最后共同建模,得到分析结果,就能解决很大的问题。比如在自动驾驶领域,各个国家都很难去分享交通数据,但是中国的自动驾驶汽车,如何在美国、欧洲安全地行驶?如果用这个模式,不必非要拿到数据,而是通过建模拿到分析结果就可以使用。
当然,目前这只是一个可能方向,也涉及到技术实现的问题,比如数据量超级巨大,模型如何部署,这方面也需要逐渐达成共识。欧洲目前在推工业数据空间,有100多个相关的公司企业参与其中,比如西门子这样的企业。欧洲的思路是建立一个没有流动障碍的统一的、安全的数据空间,大家都可以把自己的数据放到数据空间中,有点类似于数字银行,也是思路之一。
这个思路在工业领域实施相对更容易,虽然也有类似于产业安全等敏感问题,但个人隐私等方面涉及相对较少。在工业领域,主要关心的是谁用了我的数据,怎么使用的,这个要可追溯,放到数据空间中,意味着数据可以放心流动和使用,后台都会有轨迹记录。
美国的解决思路类似于基础公共设施的分层,美国政府开放了大概2000多个高质量数据集,都是基于政府掌握的公共数据。这些数据都是清洗好后再向社会去开放。所以现在去回溯ChatGPT的高质量数据基础,肯定也是基于这样一个更坚实的数据资源。
我国近年来一直在推广数据交易所,这种思路可能更适合大宗、同质化的交易。是不是也可以尝试一下,和数字协议、区块链等新技术相结合,借鉴欧美等国家数据治理的经验,获得一些启发?比如上述合作模式完全有可能成为未来的数据合作新范式,现在有一种观点,人工智能到了ChatGPT的出现,才真正进入大规模产业化、工程化实施的阶段。这个时候一定会有专业的数据服务商出现,不再是以场内交易方式出现,而更多是提供专业化的服务。
Q7:中国发展自己的AI产业,对数据的需求也会日益增加,如何应对国际的竞争与合作?
梁正:中国也有自己的大模型,虽然现在表现还没那么优异。大模型的训练目前确实面临着数据共享、数据安全、隐私保护等各种难题。从大环境来看,也迫切要求我国在国际合作中进行一系列思路上的转变。一方面,我国的数字平台企业要争取走向国际,拓展出更加广阔的发展空间;另一方面,从国家的层面而言,仍然要探讨如何融入全球创新网络,以更加开放的态度寻求国际间的科技合作与交流。而美欧此次合作恰恰提供了数字领域国际合作的一种可参考方案——在各国强调数字主权的大背景下,在数据不流动的前提下通过多方可信安全计算、联邦学习等方式实现对数据价值的共同发掘和利用。