当前位置：首页 > 观点

为训练AI，OpenAI等科技巨头花式淘数据

2024-04-09 17:18:47 来源：作者：阅读：

字体：小中大

【环球时报特约记者甄翔】《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习。这是一条违反法律的“捷径”。

　　报道称，早在2021年年底，OpenAI就面临培训AI模型的数据源几乎陷入枯竭的境地。该公司铤而走险，在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下，转录了100多万条视频并生成GPT-4模型的学习材料，OpenAI创始人之一布罗克曼也参与其中。讽刺的是，谷歌得知OpenAI的行为却并未制止，因为其也在提取YouTube平台内容训练AI模型。

　　《纽约时报》援引消息人士的话表示，这可能侵犯视频版权，因为它们属于创作者。尽管如此，越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称，根据内部会议记录，Meta公司商定从互联网上收集受版权保护的数据，因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

　　报道称，领先的AI模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称，预计互联网上现有可供培训AI模型的数据最快到2026年就会耗尽。

　　《纽约时报》援引内部人士的消息称，谷歌法律部门已经要求起草新的政策，扩大该公司对消费者数据的用途。Meta的情况更严峻，其旗下脸书平台不是人们撰写文章的地方，可用数据不多。报道称，在一次讨论中，Meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。Meta全球合作与内容副总裁格鲁丁表示：“唯一阻碍我们达到ChatGPT水平的因素就是数据量。”

新闻链接

吴伟出任智维论坛主任委员，推动全球创意经济可持续发展

　　随着全球创意经济蓬勃发展、人文设计驱动产业升级进入关键阶段，智维论坛(AIWAYI)近期正式聘请深圳畅意规划设计工程有限公司董事长、中国资深创意规划设计专家吴

2025-11-09
上海市徐汇区庆祝中华人民共和国成立75周年书画摄影艺术展开幕

　　10月11日上午，由上海市徐汇区退役军人事务局主办，徐汇区政协书画院、上海市拥军优属基金会徐汇区工作委员会、徐汇区书画家协会协办的“永远的丰碑——庆

2025-11-09
上海市徐汇区：170幅书画摄影作品亮相上海图书馆

　　10月11日上午，“永远的丰碑——庆祝中华人民共和国成立75周年书画摄影艺术展”在上海图书馆开幕。　　本次书画摄影艺术展由徐汇区退役军人事务局主办，得

2025-11-09
从数据看差距！卡萨帝酒柜发布新品

打开一瓶珍藏的美酒，却因酒柜的储酒能力不专业，让藏酒失去了风味。这不仅是对美酒的浪费，同时也是对生活品质的妥协。然而，这样的烦恼即将成为

2025-11-09
外国企业家：持续推进高水平对外开放中国全球投资目的地吸引力不断增强

中国日报网6月21日电今年以来，一批重大外商投资项目接连落地中国，众多外资企业加码投资中国市场。商务部数据显示，2025年前4个月全国新设立外商投资

2025-11-09
市值蒸发5000亿美元后，特斯拉全面转型！马斯克豪赌机器人：80%市值靠Optimus，五年内年产100

图片来源：特斯拉公众号在电动车市场面临增长瓶颈、股价持续承压之际，特斯拉抛出了一枚重磅炸弹。当地时间9月2日，特斯拉正式发布《宏图计划第四篇章》

2025-11-07