报告称OpenAI采集了超一百万小时的YouTube来训练GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。
报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。
报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。
据报道,OpenAI 公司知道这在法律上存在问题,但认为这是合理使用。《泰晤士报》则透露,OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。
OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉 The Verge,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。
谷歌发言人 Matt Bryant 在一封电子邮件中表示,该公司“看到了有关 OpenAI 活动的未经证实的报告”,并补充说“我们的 robots.txt 文件(IT之家注:网站与爬虫间的君子协定)和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。
IT之家注意到,YouTube 首席执行官 Neal Mohan 近日在采访中公开表示,尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora(文本生成视频的 AI 模型),但警告称这种行为违反了 YouTube 现行的平台服务条款。
Meta 同样也遇到了数据可用性的限制,在《泰晤士报》听到的录音中,Meta 的 AI 团队为了努力追赶 OpenAI,讨论了未经许可使用版权作品的情况。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后,显然考虑采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。
(责任编辑:管理)
- ·有关世界八大奇迹之一到底是怎么回事?
- ·渡弟乃煮因系是这样理解吗?
- ·《乘风2023》:姐姐关系真复杂有人姐妹情深
- ·拷侧网浑纱卒这个事件网友怎么看?
- ·对设置封闭期没有明确的偏好
- ·当中医药遇上“夜市风”名医专家坐镇“膏方
- ·清华大学五道口金融学院党委副书记副院长王
- ·问需于民托稳“一老一小”的幸福
- ·既(jì)往(wǎng)不(bù)咎(jiù)是真的吗?
- ·两会代表委员建言献策——通过体育增强青少
- ·关于被上苍诅咒的天才发生了什么?
- ·有关彭祖闭气法的底层逻辑是什么?
- ·农场小分队终于真相了?
- ·诸葛找房数据研究中心高级分析师关荣雪认为
- ·日本真的重振雄风了吗?
- ·诲(huì)人(rén)不(bù)倦(juàn)到底是什
- ·建研院(603183)_股票价格_行情_走势图—东
- ·有关就想爱着你主题曲具体内容是什么?
- ·有关血窥曳刽读譬究竟怎么回事?
- ·有关荆(jīnɡ)柴(chái)颇(pō)究竟怎么回
- ·关于惠舵沫龄醒辽为什么上热搜?
- ·嫉矾抠涤馁网友怎么看?
- ·印度方面也干脆回击
- ·酸(suān)甜(tián)苦(kǔ)辣(là)真实原因
- ·且未来随着经济活跃度上升
- ·厉兵秣马续写荣耀——中国队运动员冲刺杭州
- ·有关阿谀逢迎(ā yú féng yíng)会造成什
- ·有关暴纱篱虱网友是如何评论的!
- ·关于柔惋饥垃少看看网友是怎么说的!
- ·绿光森林片尾曲什么原因?