GPT-4 训练引发版权争议：OpenAI 转录百万小时 YouTube 视频

OpenAI为开发其尖端的GPT-4语言模型，转录了逾百万小时YouTube视频内容，此举激发了一场关于版权的讨论。

在数据资源日益紧缺的背景下，公司不仅转录了视频，还从播客、有声读物、GitHub的编程代码、国际象棋游戏数据库以及Quizlet的学习资料中汲取了多元数据源。OpenAI将这些行为视为“合理使用”，但谷歌和YouTube的高层则对此表达了担忧，他们提到平台的服务条款明确禁止未授权的内容采集。

与此同时，Meta也在探索如何解决数据获取的挑战，包括支付版权费或是直接购买出版内容的可能性。这些动作凸显了AI技术进步与现行版权法律之间的紧张局势。