4月11日,为促进生成式人工智能技术健康发展和规范应用,根据《中华人民共和国网络安全法》等法律法规,国家互联网信息办公室发布了关于《生成式人工智能服务管理办法(征求意见稿)》(以下简称《征求意见稿》)公开征求意见的通知。这是国家首次针对现下爆火的生成式人工智能产业发布规范性法规。
《征求意见稿》第七条要求提供者针对预训练数据、优化训练数据来源承担合法性义务,并保证数据的真实性、准确性、客观性、多样性。作为生成式人工智能产品的基础,数据的重要性不言而喻。但如何合理设定数据的法律基线,仍有待进一步研究。具体而言,第七条规定可能存在如下需要进一步解决的问题:
01 首先,数据质量和数据合法性的矛盾。
为了尽可能提升生成式人工智能产品的能力,胜任各种自然语言处理任务,其必须“识遍天下字,读尽人间书”。以ChatGPT为例,其预训练数据使用了多达175B的互联网文本数据,包括维基百科、互联网文本、书籍、报纸、杂志、电子邮件、聊天记录等。如果将合法性作为数据的前提,提供者在海量的数据面前,为了避免承担法律责任,必然采取“宁可错杀,不可放过”的原则,不但导致大幅限制输入的数据源,还可能损害数据的客观性、多样性。
02 其次,数据训练和信息生成的矛盾。
从风险预防和监管目标看,生成式人工智能产品的风险集中在信息生成阶段。在底层算法的作用下,开始训练的数据和最后信息的生成内容并不是一一映射的关系,其中间经过了预测、分类、聚类、关联等复杂的变换。因此,训练数据的合法性并非信息生成合法性的必要条件。
03 最后,责任承担者的矛盾。
第七条将合法性义务置于服务者身上,也就是“利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人”。但实践中,大量提供服务的主体并非生成式人工智能技术的开发者,其事实上并不参与数据的预训练和优化。从自己责任的原理出发,这里的责任主体应限定在生成式人工智能技术的开发者为宜。
总之,作为一项正在不断迭代,国内外竞争激烈的技术领域,生成式人工智能产品的研发过程应秉持“读书无禁区”的原则,而在向公众提供服务时则应坚持“发言须谨慎”的态度,从而实现技术创新和公共利益保障的双赢。