其他资讯人工智能 Reddit数据

Reddit数据测评：CEO直言没它LLM不会出现

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

Reddit首席执行官表示，用户生成内容是人工智能的现代石油，是大语言模型训练数据的最大

Reddit到底有多值钱？它的首席执行官Steve Huffman给出了一个很直白的答案：用户生成的内容，就是“人工智能的现代石油”。在最近与《Fast Company》的访谈中，他详细解释了为什么一些公司拿到了入场券，而另一些，则只能面对一纸诉状。

Huffman直言不讳：没有Reddit，大语言模型根本不可能像今天这样运作。“Reddit是LLM训练数据的最大来源之一，也是所有模型中被引用最多的平台。”他把这些引用数据的功劳，归给了专门追踪AI引用来源的公司Profound。

那为什么AI公司这么依赖Reddit？他打了个比方：“没有真正的智能，就没有人工智能。说到底，这些模型不过是把从别处吃进来的内容大规模复述出去。而其中很大一部分，其实就是Reddit上的人类对话——自然的、无所不包的、覆盖了几乎你能想到的任何话题。”嗯，这话有点意思。

Huffman关于Reddit对人工智能价值的评价

Huffman详细描述了Reddit在AI生态里的位置。在他看来，这些数据不是锦上添花，而是核心引擎。

“没有Reddit，LLM就不会像现在这样存在。Reddit是大型语言模型训练数据的最大来源之一，Reddit依然是训练数据的主要来源之一，同时我们也是所有模型中被引用最多、被引用最多的平台。”

他把引用声明归功于追踪AI引用数据的公司Profound。

他进一步解释了为什么AI公司离不开这些内容：

“没有真正的智能，就没有人工智能。归根结底，这些模型相当简单。他们大规模重复自己在别处消费的内容，而其中很大一部分其实就是Reddit上的人类对话，因为这是自然的，涵盖了几乎所有可以想象的话题。”

有些人有交易，有些人却面临诉讼

说到利益，就不得不提Reddit的两笔交易：2024年与谷歌和OpenAI签订的数据许可协议。Huffman表示，这是Reddit最初的两笔AI数据交易，而且截至目前，它们依然是唯一的。

“自从我们与谷歌和OpenAI签订最初的两笔交易以来，已经超过两年了，所以我们学到了很多。他们学到了很多。全世界都学到了很多。特别是Reddit数据的价值和实用性。所以我们在这方面非常有计划且有选择性。但没错，我们已经开放，随时营业。”

话说回来，对于那些不愿意坐下来谈合作的公司，Reddit的选择可就没那么友好了。它已经在加利福尼亚高等法院起诉了Anthropic，指控其未经授权使用Reddit内容并违反平台条款。同时，它在纽约南区对Perplexity发起了联邦诉讼，还连同三家数据抓取公司，指控他们违反了DMCA反规避条款。

Huffman把这两类公司分得很清楚：

“像谷歌和OpenAI这样的公司，我们曾经有良好关系，实际上可以达成协议，对用户的数据使用和访问设置一些保护措施，然后合作开发下一代互联网的产品。”

他补充说：“并非所有公司都愿意成为合作伙伴，所以很遗憾我们不得不走另一条路，那就是诉讼。”

Reddit对商业用途的立场其实很简单：“商业使用我们的数据需要商业条款。”自2023年起，Reddit就开始对商业API访问收费，这个动作早在当前的授权协议之前。但对于研究人员和大学，Reddit仍然提供免费的数据访问，保持灵活性，以应对非商业用途的需求。

是什么改变了Reddit的开放性

Huffman指出，随着AI行业逐渐远离开放研究，Reddit原本愿意自由分享数据的态度也发生了变化。正如SEJ之前报道过的，Reddit已经限制了许多搜索引擎爬虫的访问，而Google则成了例外。

“历史上，Reddit就像是我们诞生于开放互联网，而Reddit一直开放且非常宽松地访问其数据。说实话，如果AI公司仍然基本上是开放开源的，并且进行开放研究，我认为今天我们的处境会完全不同。”

Huffman表示，问题的核心在于Reddit无法再追踪自己的数据被用来做什么。“人们正在使用我们的数据，但我们不知道它们被用来做什么，”他说。除了商业条款之外，Reddit还希望防止其数据被用来识别用户、投放广告，或者取代平台本身。

Reddit 自有的人工智能努力

Huffman承认这中间存在一个“悖论”：Reddit的内容驱动着外部的AI系统，但公司自己也在平台上积极使用AI。

最引人注目的产品是Reddit Answers——一个基于LLM的搜索功能。它会阅读帖子和评论，然后将它们组织成由逐字用户引用组成的回复。Huffman指出，这个项目主要是为那些没有明确答案的问题设计的。

“Reddit Answers 做的事情有几个 Reddit 独有的特点。第一，它基本上只用真实人物的逐字引用回答。其次，它试图呈现多重视角，因为如果你在Reddit上，重点就是想要人性化的视角。”

在幕后，Reddit也在利用AI进行内容审核和分类。LLM可以评估一条评论是否构成欺凌——Huffman曾形容这因主观性而难以判断。他把AI审核定位为一种减少接触最糟糕内容的方式，而不是替代社区审核模式。

“互联网上最糟糕的工作，过去就是看最糟糕的内容，然后决定它们是否可以在线，”他说。“那份工作就这样消失了。”

AI写帖的灰色地带

Huffman还谈到一个越来越棘手的问题：用户使用AI工具撰写内容，然后粘贴到Reddit上。他强调，这和自动化机器人活动是两回事。

“我看到的最烦人的事情，不仅是在Reddit上，在整个互联网上，就是有人用ChatGPT写了帖子或评论，然后粘贴到Reddit上。那是机器人吗？确实感觉像个机器人，但背后有人类的存在。”

他把问题归结为意图：“对我们来说，有一个人在理念、内容和提示背后是个真人。”但问题在于，当用户依赖AI来撰写文章时，“写作很糟糕”。

Reddit的做法是：不制定政策来解决这个问题，而是让社区来处理。用户已经开始对AI创作的内容点踩，并在评论中指出。Huffman说Reddit会“让用户和子版块更有权力，完全拒绝这类内容。”

他把这个困境比作数学课上的计算器。“现在的孩子们只是学用人工智能写字。我们该怎么办？”他说。“我觉得我们得和其他人一起学习。”

为什么这很重要

Huffman的评论进一步强化了Reddit的核心观点：用户讨论是AI系统的关键输入。而他所描述的AI编写内容问题，也正是SEJ在更广泛的YouTube人工智能漏洞调查中报道过的趋势。Reddit决定让社区投票处理AI生成的帖子，而不是开发检测工具，这跟那些部署自动标签的平台走出了完全不同的路。

展望未来

Huffman告诉《Fast Company》，Reddit“一直在市场上与人们交流”新的数据交易，尽管他并未暗示第三份协议即将到来。

与此同时，Reddit对Anthropic和Perplexity的诉讼仍在进行中。人类案件已于三月成为联邦法院发回听证的主题。

来源：互联网

上一篇 2024年数据为基曼孚科技AI数据解决方案最新权威精选评测排行榜 下一篇 英伟达黄仁勋：Token作为资产的投资逻辑

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。