近日,OpenAI的首席技术官Murati在接受《华尔街日报》的采访时,对于Sora所使用的训练数据做出了回应。她表示,OpenAI在训练过程中既利用了公共数据,也使用了获得授权的数据,但对于具体的数据来源,她仍然语焉不详。
据《华尔街日报》报道, Murati说:「你知道,如果这些数据可以公开使用……对……可以公开使用的话……可能是用了这些数据,但我不确定,真的不太确定。」
这次采访在业界引起了广泛的关注和讨论。过去一年多时间里,关于用于训练人工智能模型的数据的版权争议一直备受瞩目,成为全球范围内的热门话题。
就在几周前,美国的数字新闻媒体The Intercept、Raw Story和AlterNet于2月28日对OpenAI提起了版权侵权诉讼。这些诉讼指出,OpenAI和微软都知晓潜在的版权侵权行为。据这些出版物称,这两家公司故意删除了训练数据中的重要版权信息。
无独有偶,《纽约时报》去年12月提起诉讼,指控ChatGPT抄袭了他们的新闻作品。去年9月,美国小说家对OpenAI提起侵犯版权的诉讼;去年6月,两位作家指控OpenAI出于商业目的使用他们受版权保护的书籍来训练ChatGPT。
在最近这一年多的时间里,新闻媒体、演员、记者、作家以及美国作家协会等多个行业的从业者对OpenAI、Stability AI、Meta、Alphabet和其他AIGC研发公司提起了诉讼,指控它们未经授权使用受版权保护的作品进行模型训练。随着大型语言模型(LLM)在市场上的崛起,它们正面临着知识产权方面的挑战。
1. 训练数据版权正成为生成式AI商业化的重点关注
对于OpenAI的集体诉讼,体现了当前媒体行业对生成式人工智能(简称Generative AI)技术的焦虑和担忧。
需要指出的是,我们所熟知的大语言模型(LLM)、多模态大语言模型(MLLM)以及生成式预训练Transformer(GPT)等技术,均属于生成式人工智能的范畴。
随着生成式人工智能技术的快速发展,确实出现了一系列与数据相关的问题,需要我们寻找有效的解决途径。
1.1 互联网公开数据的版权风险
大语言模型通过利用人类互联网积累的海量数据进行训练的过程,本质上是基于海量数据的「喂养」。然而,互联网上存在大量未经合法授权的内容。按照现有的版权保护法律法规,对这类互联网数据的获取和使用如何未经相关授权,将存在侵犯版权的风险。
1.2 互联网数据的准确性和专业性问题
大语言模型通过对海量互联网数据的压缩和预测,表现出了超过大多数人的知识表述能力。
然而,大语言模型在准确性和专业性方面存在明显的局限性,它所提供的专业领域的回答往往无法保证准确性和完整性。
这背后的原因恰恰是由于互联网高质量的专业领域数据的缺失,不同领域的知识体系具有高度的专业性,大型语言模型可能难以覆盖到所有领域的细节和特征。
即使在同一领域内,不同场景和任务的需求也可能大相径庭,这使得大语言模型在解决特定问题时可能不够有效。因此,克服准确性和专业知识的挑战是使用大语言模型在实际应用中的一个关键方面。
2. 大语言模型训练的专业领域数据:电子书籍和文档
去年6月的一场诉讼中,原告指控称,为ChatGPT提供支持的大语言模型(LLM)是侵权产物。他们指出,该模型是在未经原告许可的情况下制作的,因此侵犯了原告根据《版权法》所拥有的专有权利。原告还提到,ChatGPT所提供的内容是基于已有版权保护的作品所生成的。
OpenAI因非法下载数十万本版权书籍以训练其AI系统而受到指控。在未经作者同意、未给予适当认可或赔偿的情况下,公司使用了BookCorpus收集的超过7,000部小说数据集。
OpenAI在其后续的模型版本中,确实扩大了版权作品的使用量。根据2020年发表的一篇论文,OpenAI透露其模型训练数据集的15%来源于两个基于互联网的图书库——「Books1」和「Books2」。
因此,一个值得注意的点是,尽管大型语言模型训练使用了各种类型的内容,但书籍无疑是训练数据集的核心组成部分之一。这是因为书籍提供了高质量、长篇文本的最佳范例,对于训练模型理解和生成复杂、连贯的语言至关重要。
3.生成式AI大语言模型的训练数据合规进展
2023年8月15日,中国国家网信办联合七部门公布的《生成式人工智能服务管理暂行办法》开始实施,首次对生成式人工智能服务的开发和发布相关的训练数据的使用和版权问题进行了规范:
在生成式人工智能服务的开发阶段,《生成式人工智能服务管理暂行办法》第七条的规定:要确保“生成式人工智能产品的预训练数据、优化训练数据来源的合法性”,“ 不含有侵犯知识产权的内容”,同时保证“保证数据的真实性、准确性、客观性、多样性”。
在生成式人工智能服务的备案阶段,生成式人工智能服务管理暂行办法》第十七条的规定:要求提供“预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型”等必要信息。
4. 马达智数的生成式AI数据解决方案
马达智数致力于打造「以数据为中心」的专业化生成式AI数据服务,以及系列化生成式AI数据集产品,推进生成式AI技术的可持续性发展,加速生成式AI技术的行业落地。马达智数正式推出面向生成式AI大模型开发的大规模高质量数据集产品:
- 超大规模专业领域中文语科数据集;
- 生成式AI大模型专用图片-文本对数据集和视频-文本对数据集
4.1 产品的主要特点:
- 正版数据授权:所有数据均获得正版授权,确保在生成式AI 模型训练和应用过程中的版权合规性。
- 数据类型多样:涵盖文本、图片、视频、音频等多种类型的 大规模数据,充分满足多模态大模型开发的需求。
- 高质量专业标注:数据集包括图片-文本对、视频-文本对等,均经过精准语义标注与专业校准,确保大模型训练的准确性。
- 行业领域可定制:涵盖了近百种行业及应用领域的专业化数据集,可支持面向行业大模型开发的高质量数据集定制。
4.2 典型应用场景:
生成式人工智能搜索引擎、聊天机器人、专业问答、专业助理、特定领域内容生成等。
5. 总结
随着生成式人工智能技术的飞速发展,数据版权问题已成为业界关注的焦点。从OpenAI面临的多起诉讼到中国国家网信办发布的《生成式人工智能服务管理暂行办法》,全球范围内对于AI技术使用数据的合法性和伦理性问题展开了深入的讨论和规范。
马达智数作为专业的数据服务提供商,通过推出正版授权的高质量多模态数据集产品,为生成式AI技术的可持续发展和行业落地提供了强有力的支持。