美国人工智能公司OpenAI推出GPT Store,掀起AI应用新潮流;谷歌遭遇裁员风波,聚焦AI战略调整;特斯拉创始人埃隆·马斯克起诉OpenAI,指控其背离了初衷,将人工智能用于盈利而非为人类福祉服务……近期,人工智能领域大模型声势高涨,产品与服务推陈出新,但同时也伴随着诸多争议,尤其是在数据安全方面。
AI大模型训练是一个复杂而精细的过程,它依赖于大量的高质量数据来提升模型的性能和智能水平。在这个过程中,科技巨头为了保持竞争优势,不断寻求更丰富的数据资源,包括文本、图片、视频以及专业领域的知识等,从而使AI模型能够更好地生成和理解内容。
训练AI模型时,数据的来源和使用方式也引起了公众和法律界的广泛关注。特别是当涉及版权、隐私和知识产权等敏感问题时,数据的使用就更需谨慎。最近,视频网站YouTube首席执行官尼尔·莫汉(Neal Mohan)在一次采访中提到了这一问题,他表示,尽管没有直接证据表明OpenAI使用了YouTube的视频内容来训练其文生视频AI工具Sora,但如果确实存在这种行为,那么这将明显违反YouTube平台的使用条款。
莫汉表示,YouTube平台上的内容创作者有权对他们的作品进行控制,包括如何使用这些内容。当创作者将他们的作品上传到YouTube时,他们期望这些内容能够受到保护,并按照平台的规则和他们与平台之间的协议来使用。这意味着,任何未经授权的使用,尤其是用于商业目的的AI模型训练,都可能构成侵权行为。
此外,《纽约时报》的报道认为,OpenAI和谷歌可能使用了YouTube视频的转录文本来训练他们的AI模型,这可能侵犯了内容创作者的版权。OpenAI被指控使用其Whisper语音识别工具转录了超过100万小时的YouTube视频内容,并用这些数据来训练其模型。这一行为如果未经内容创作者的许可,就可能违反了版权法,并引发关于AI训练数据合法性的讨论。
在AI领域,数据的重要性不言而喻。随着数据资源的日益紧张,如何合法、合规地获取和使用数据成为一个亟待解决的问题。特别是在AI大模型备受瞩目且承载厚望的当下,数据的质量、多样性以及专业性等将直接决定AI模型生成内容的质量高低和适用场景的广泛程度。
推动人工智能产业快速发展,要把保障数据安全放在突出位置。近年来,我国高度重视人工智能安全发展,逐步完善相关政策法规。国务院印发《新一代人工智能发展规划》,提出面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施,部署构筑人工智能发展的先发优势,加快建设创新型国家和世界科技强国。面向算法治理,出台《关于加强互联网信息服务算法综合治理的指导意见》《互联网信息服务算法推荐管理规定》等。面向人工智能合成技术的快速突破,出台《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等。在全球数字经济激烈竞争格局下,科学把握风险防范的尺度至关重要。
以大模型为代表的人工智能技术,其潜能正日益显现。要抓住这一技术所带来的巨大机遇,必须同时警惕其潜在的安全风险和隐患。因此,科技企业需要采取更为透明和负责任的举措来对待数据问题。这要求企业积极与内容创作者建立合作关系,确保获取的数据拥有合法授权。同时,积极探索新的数据来源,例如利用合成数据和公开数据集。合成数据可以帮助解决数据匮乏、数据质量不高等问题,特别是在一些难以获取真实数据的场景中,合成数据成为训练AI模型的有效手段。此外,企业还需要加强内部的数据管理和合规审查,确保所有的数据使用都符合法律法规和道德标准。(作者 吴双)