Reddit数据测评:CEO直言没它LLM不会出现
摘要
Reddit首席执行官表示,用户生成内容是人工智能的现代石油,是大语言模型训练数据的最大
Reddit到底有多值钱?它的首席执行官Steve Huffman给出了一个很直白的答案:用户生成的内容,就是“人工智能的现代石油”。在最近与《Fast Company》的访谈中,他详细解释了为什么一些公司拿到了入场券,而另一些,则只能面对一纸诉状。
Huffman直言不讳:没有Reddit,大语言模型根本不可能像今天这样运作。“Reddit是LLM训练数据的最大来源之一,也是所有模型中被引用最多的平台。”他把这些引用数据的功劳,归给了专门追踪AI引用来源的公司Profound。
那为什么AI公司这么依赖Reddit?他打了个比方:“没有真正的智能,就没有人工智能。说到底,这些模型不过是把从别处吃进来的内容大规模复述出去。而其中很大一部分,其实就是Reddit上的人类对话——自然的、无所不包的、覆盖了几乎你能想到的任何话题。”嗯,这话有点意思。
Huffman关于Reddit对人工智能价值的评价
Huffman详细描述了Reddit在AI生态里的位置。在他看来,这些数据不是锦上添花,而是核心引擎。
“没有Reddit,LLM就不会像现在这样存在。Reddit是大型语言模型训练数据的最大来源之一,Reddit依然是训练数据的主要来源之一,同时我们也是所有模型中被引用最多、被引用最多的平台。”
他把引用声明归功于追踪AI引用数据的公司Profound。
他进一步解释了为什么AI公司离不开这些内容:
“没有真正的智能,就没有人工智能。归根结底,这些模型相当简单。他们大规模重复自己在别处消费的内容,而其中很大一部分其实就是Reddit上的人类对话,因为这是自然的,涵盖了几乎所有可以想象的话题。”
有些人有交易,有些人却面临诉讼
说到利益,就不得不提Reddit的两笔交易:2024年与谷歌和OpenAI签订的数据许可协议。Huffman表示,这是Reddit最初的两笔AI数据交易,而且截至目前,它们依然是唯一的。
“自从我们与谷歌和OpenAI签订最初的两笔交易以来,已经超过两年了,所以我们学到了很多。他们学到了很多。全世界都学到了很多。特别是Reddit数据的价值和实用性。所以我们在这方面非常有计划且有选择性。但没错,我们已经开放,随时营业。”
话说回来,对于那些不愿意坐下来谈合作的公司,Reddit的选择可就没那么友好了。它已经在加利福尼亚高等法院起诉了Anthropic,指控其未经授权使用Reddit内容并违反平台条款。同时,它在纽约南区对Perplexity发起了联邦诉讼,还连同三家数据抓取公司,指控他们违反了DMCA反规避条款。
Huffman把这两类公司分得很清楚:
“像谷歌和OpenAI这样的公司,我们曾经有良好关系,实际上可以达成协议,对用户的数据使用和访问设置一些保护措施,然后合作开发下一代互联网的产品。”
他补充说:“并非所有公司都愿意成为合作伙伴,所以很遗憾我们不得不走另一条路,那就是诉讼。”
Reddit对商业用途的立场其实很简单:“商业使用我们的数据需要商业条款。”自2023年起,Reddit就开始对商业API访问收费,这个动作早在当前的授权协议之前。但对于研究人员和大学,Reddit仍然提供免费的数据访问,保持灵活性,以应对非商业用途的需求。
是什么改变了Reddit的开放性
Huffman指出,随着AI行业逐渐远离开放研究,Reddit原本愿意自由分享数据的态度也发生了变化。正如SEJ之前报道过的,Reddit已经限制了许多搜索引擎爬虫的访问,而Google则成了例外。
“历史上,Reddit就像是我们诞生于开放互联网,而Reddit一直开放且非常宽松地访问其数据。说实话,如果AI公司仍然基本上是开放开源的,并且进行开放研究,我认为今天我们的处境会完全不同。”
Huffman表示,问题的核心在于Reddit无法再追踪自己的数据被用来做什么。“人们正在使用我们的数据,但我们不知道它们被用来做什么,”他说。除了商业条款之外,Reddit还希望防止其数据被用来识别用户、投放广告,或者取代平台本身。
Reddit 自有的人工智能努力
Huffman承认这中间存在一个“悖论”:Reddit的内容驱动着外部的AI系统,但公司自己也在平台上积极使用AI。
最引人注目的产品是Reddit Answers——一个基于LLM的搜索功能。它会阅读帖子和评论,然后将它们组织成由逐字用户引用组成的回复。Huffman指出,这个项目主要是为那些没有明确答案的问题设计的。
“Reddit Answers 做的事情有几个 Reddit 独有的特点。第一,它基本上只用真实人物的逐字引用回答。其次,它试图呈现多重视角,因为如果你在Reddit上,重点就是想要人性化的视角。”
在幕后,Reddit也在利用AI进行内容审核和分类。LLM可以评估一条评论是否构成欺凌——Huffman曾形容这因主观性而难以判断。他把AI审核定位为一种减少接触最糟糕内容的方式,而不是替代社区审核模式。
“互联网上最糟糕的工作,过去就是看最糟糕的内容,然后决定它们是否可以在线,”他说。“那份工作就这样消失了。”
AI写帖的灰色地带
Huffman还谈到一个越来越棘手的问题:用户使用AI工具撰写内容,然后粘贴到Reddit上。他强调,这和自动化机器人活动是两回事。
“我看到的最烦人的事情,不仅是在Reddit上,在整个互联网上,就是有人用ChatGPT写了帖子或评论,然后粘贴到Reddit上。那是机器人吗?确实感觉像个机器人,但背后有人类的存在。”
他把问题归结为意图:“对我们来说,有一个人在理念、内容和提示背后是个真人。”但问题在于,当用户依赖AI来撰写文章时,“写作很糟糕”。
Reddit的做法是:不制定政策来解决这个问题,而是让社区来处理。用户已经开始对AI创作的内容点踩,并在评论中指出。Huffman说Reddit会“让用户和子版块更有权力,完全拒绝这类内容。”
他把这个困境比作数学课上的计算器。“现在的孩子们只是学用人工智能写字。我们该怎么办?”他说。“我觉得我们得和其他人一起学习。”
为什么这很重要
Huffman的评论进一步强化了Reddit的核心观点:用户讨论是AI系统的关键输入。而他所描述的AI编写内容问题,也正是SEJ在更广泛的YouTube人工智能漏洞调查中报道过的趋势。Reddit决定让社区投票处理AI生成的帖子,而不是开发检测工具,这跟那些部署自动标签的平台走出了完全不同的路。
展望未来
Huffman告诉《Fast Company》,Reddit“一直在市场上与人们交流”新的数据交易,尽管他并未暗示第三份协议即将到来。
与此同时,Reddit对Anthropic和Perplexity的诉讼仍在进行中。人类案件已于三月成为联邦法院发回听证的主题。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。