开云(中国)kaiyun网页版登录入口开云体育并成为 Reddit 的额外盈利渠说念-开云·kaiyun(全站)体育官方网站/网页版 登录入口

发布日期:2025-02-08 18:01    点击次数:80

开云(中国)kaiyun网页版登录入口开云体育并成为 Reddit 的额外盈利渠说念-开云·kaiyun(全站)体育官方网站/网页版 登录入口

文 | 新态度 Pro

Reddit 在已往的 2024 年算得上是容光开心。这家创立了近 20 年的酬酢平台,去年 3 月在纽交所完成上市,并在上市后的第三季度收场初次盈利,到当前股票已涨到上市首日开盘价的 350% 把握。

上市得手、初次盈利和股票暴涨的无外乎来自销亡原因—— AI。

Reddit 上的实质,具有进一步发展 AI 大模子手艺所需要的语料库质地。

去年 2 月,Reddit 和 Google 达成公约,Reddit 实质可用于考验谷歌的东说念主工智能模子,这项公约价值约每年 6000 万好意思元。Reddit 称:"咱们深信,咱们不停增长的平台数据将成为跳跃大型言语模子(" LLM ")培训的流弊要素,并成为 Reddit 的额外盈利渠说念。"

上市后的 5 月,Reddit 和 OpenAI 也成立雷同勾通干系,Reddit 的问答实质将被带入 OpenAI 旗下居品,Reddit 平台的剪辑功能和附加模组也将加入由 OpenAI 手艺驱动的 AI 功能。该勾通是双向的,OpenAI 为 Reddit 平台提供手艺,Reddit 为 OpenAI 提供语料。

那么多 UGC 酬酢平台,为什么偏巧 Reddit 成为这些 AI 大模子厂商爱重的语料供应商?

业务生态上,Reddit 是一个相对沉着的平台,其背后由多个利益集团及个东说念主控股(康泰纳仕集团、腾讯等),而不像国内的一些酬酢平台母公司会领有丰富的居品生态以及产业链,无需顾及自身的生态组合,语料可以作为勾通时的筹码进行往还。

实质方式上,Reddit 通过 subReddit(子论坛)来组织实质,用户可以创建和加入不同的子论坛,在其中发帖和辩驳。用户还可以对帖子和辩驳进行"点赞"或"点踩",被点赞的实质会得到更多的曝光契机,而被点踩的实质可能会被折叠或荫藏,酿成了较好的语料产出正向轮回,与知乎、豆瓣等雷同。

发展阶段上,正如上述所说, 创立了二十年的 Reddit 去年才运行盈利,收入结构单一,此前主要收入开头是平台告白,当今(指近两年的 AI 大模子期间)对于 Reddit 来说即是最佳的业务拓展以求盈利的时机。

那么以此为模板来分析国内具有较多笔墨语料且业务较为沉着的 UGC 平台,B 站,小红书,微博,豆瓣,知乎,贴吧,在这几个平台之中,对比各方面情况,咱们可以粗略展望一下谁最有可能在 2025 年景为 AI 期间的中国 Reddit。

01、谁能卖语料,谁有好语料

朦拢来说,总计的大模子考验语料开头都得是正当且许可的实质渠说念,如 OpenAI 的语料开头,包括以下五种:

1、Common Crawl:基于大范围网页抓取酿成的数据集,由同名的非谋利机构总计;

2、WebText:由 OpenAI 构建的一个专注于文档质地的汇聚文本语料库,数据量为 40GB,用于 GPT-2、GPT-3 等模子的考验;

3、维基百科;

4、竹帛和期刊;

5、酬酢媒体实质,举例 Reddit 等酬酢媒体平台上的实质。

不出丑出,前四项的语料渠说念比较起第五项会竭力一些"东说念主味",酬酢媒体为 AI 带来的语料具有愈加落地的教授性以及即时性。自身竭力"东说念主味"语料库的 AI 厂商可能将会运行在各大 UGC 酬酢软件之中寻找一些合适的办法。

虽然并不是总计 UGC 酬酢平台的业务方式都能卖语料。如微信生态内的公众号,小绿书等实质渠说念。从其母公司的角度来讲,微信生态内的语料质地甚而会是腾讯在 AI 期间的荫藏杀手锏之一,至于具体怎么用起来即是后话了,本文不作念赘述。

雷同情况确虽然还有抖音的母公司字节(只是其更多为视频图像实质),这些以酬酢平台为生意帝国根基的大厂,同期又布局了云筹划,并在 AI 期间布局了大模子,都会将自身平台实质执在我方手里。

而其他相对比较沉着的 C 端酬酢平台居品,尤其是实质以笔墨类为主的平台,都有契机在接下来的 AI 期间,像 Reddit 一样老树发新芽。因此,B 站,小红书,微博,豆瓣,知乎,贴吧是指的进一步计议的平台。

表面上来说,惟有效户没意见,平台就可以处置这些语料,这波及到平台跟用户的实质公约,对于用户公约后文会提到,此处按下不表。

这时期更流弊的问题是,厂商如何判定谁的语料更好更相宜我方?

平台上用户自觉的实质判定机制会成为紧要身分,以 Reddit 为例,用户可以对帖子和辩驳进行"点赞"或"点踩",这酿成了较好的语料产出正向轮回。跟现如今用户使用各大 AI 软件时为生成的实质点赞点踩的作用是一样的,绝顶于 AI 考验阶段的东说念主工"数据标注"使命。

虽然,平台自身的实质判定机制也很紧迫,平台的"机审"机制可以行动是大模子发展向东说念主类看都的"超等对都"表情。

还有平台用户画像跟 AI 的适配度,这随机密字据厂生意务自身需求来。而在莫得具体需求时,用户画像更多元,年岁、性别、地舆位置、受西席进度等各个维度更平衡,粘性更高的平台语料更好。

虽然以上仅为分析模板,对于 B 站,小红书,微博,豆瓣,知乎等平台在以上这三个方面的发挥,需要在此模板上愈加细致的平台语料调研。

而笔者在此处初步揣摸,要是是想要用来考验一款面向相对较年青群体(这部分为挥霍主力军)的 AGI,那么在这三方面得分率较高的平台有 B 站,小红书,微博。因此,这三个平台将参加下一轮筛选。

02、谁想卖语料,怎么卖语料

只不外在厂商眼里相宜的办法,却不一定想卖。

B 站,小红书,微博这三者中,最不想卖的应该即是小红书。这是因为,小红书当前的发展阶段不相宜将自身平台语料出售。

生意方式上来讲,小红书正处于生意化探索上升期。此前《新态度》的著述就提过:小红书 2024 年四季过活均搜索量一经来到了 6 亿次隔壁,而客岁年中这一办法照旧 3 亿把握。要是都集此前双十一事后小红书发布的战报,"成交破千万的商家同比是去年的 5.4 倍"、"单场破千万的买手同比是去年的 3.6 倍"这些信息来看,小红书通盘生态的增长是有实质和往还双维度数据赞助的。

财务现象上来讲,小红书也许并不算太缺钱。英国《金融时报》曾报说念,小红书在 2023 岁首次收场盈利。小红书 2023 年的营收达到 37 亿好意思元,增长 85% ;净利润为 5 亿好意思元。尽管 2024 年年中小红书曾经裁人,但从裁人态状来看,更接近业务诊治。

另外,小红书当前我方也正在平台内测试多个 AI 功能。包括但不限于搜索成果页的 AI 回首,一些 AI 实质生成玩法等。

从 Reddit 跟 OpenAI 的勾通中不出丑出,勾通算是双向的, Reddit 为大模子厂商提供语料的同期,大模子厂商也会为平台提供手艺赞助。但小红书可能并不想成为其他厂商的语料供应商,反而,小红书需要的是大模子的供应商,偏向于在对于 AI 的勾通中成为都备的甲方。

而从 B 站和微博当前的发展阶段和生意方式来看,笔者以为都是相宜跟大模子厂商达成 Reddit 方式勾通的。

2024 年 B 站一经与 kimi 有较为深度的勾通,包括 kimi 在 B 站投放告白,以及 kimi 生成的成果信源之中包括 B 站。虽然,只是只可历练到 kimi 有将 B 站作为信息生成的信源,暂无法证明 kimi 是否有将 B 站的实质作为考验数据。可是有了这种进度的勾通,更进一步的勾通方式卡点当然会更少。

就 B 站自己而言,当前生意方式基本一经细目,去年第三季度初次收场单季度盈利,接下来有望靠着告白等业务板块的增长陆续盈利。

B 站的实质储备量及质地较高,长视频实质相当相宜调度成笔墨,同期具有无数的不雅点性想考,加之也有粘性较高的社区氛围,包括"一键三连"在内等实质判定机制能够较好酿成优质实质产出轮回。

只不外,由于将平台实质用于跟大模子厂商勾通之前,最需要先贬责的是用户公约。更具体来说,对 B 站有平台忠诚度的用户是否能继承我方的辩驳、视频、笔墨等实质用于 AI 考验,或如何让用户继承,这将是最大的卡点。

而微博跟 B 站的发展阶段一样一经趋于平稳。此前《新态度》著述也提到过,微博当今作念的事,是"提纯"这个平台的深度用户,让他们的价值"结晶"。从用户数据来看,微博的月活基本平稳在 5.8 亿高下,环比波动不大。从 2023Q4 到 2024Q2,微博的月活用户数离别为 5.98、5.88 和 5.83 亿,其用户定位和使用场景都一经弥散赫然,是以在高强度的提防力竞争顶用户范围还能保持相对平稳。

只不外与 B 站不同的是,微博用户对于我方的实质被用来生成 AI 实质似乎并不扬弃。微博的辩驳机器东说念主"罗伯特"即是一个很好的例子。

当今微博不同的圈子、用户辩驳区内,罗伯异常不同的发言作风,甚而罗伯特一经成为升迁微博用户粘性的技能之一。在促进用户粘性的同期,还能促进通盘平台用户对 AI 的高继承进度,达成这么的平衡并退却易。

是以综上看来,要是竭力语料库的大模子厂商需要找到一个活东说念主多的酬酢平台作为语料供应商,微博可能会是一个可以的选项。

要是不是微博,需要真实语料库的大模子厂商也可以历练有哪个酬酢平台的用户心智同期知足以上,能够在用户心里达成"我想在你这里说忠心话"同期"我不在乎我在你这里说的话被拿去喂 AI ",或者想要成为语料库供应商的酬酢软件可以向这个场地贴近。

而对于如何卖语料,正如上述所说,作念好平台和用户的实质公约是第一步。

03、写在临了

ChatGPT 刚爆火时期,有音讯称其华文恢复信源来自知乎后,知乎的股价就有所高涨。也许知乎等平台也可以纳入探讨范围,但篇幅有限,此处未几赘述。

而语料库的用户默契将如何影响大模子的考验,好意思国大模子圈有一个案例可让咱们具体感知。

2023 岁首,OpenAI 刚走进大家视线没多久就有一个"丑闻"爆出,OpenAI 正本对外称我方有一个 40 东说念主把握的数据标注团队,而音讯则称 OpenAI 在肯尼亚有一家外包公司为其提供数据标注处事,以每小时不到 2 好意思元的价钱雇佣肯尼亚工东说念主打标签。

当今来看,大模子厂商使用第三方数据标注处事一经成为公开的事情。只是要是"肯尼亚"这个信息点是真,这大概意味着在当时期的大模子圈,像 OpenAI 这么操作的也不啻一家。

2024 岁首,谷歌 Gemini 大模子生成图像幸免白东说念主实质的事情曾闹得沸沸扬扬,似乎跟上述 OpenAI 雇佣肯尼亚的数据标注外包团队的事情不谋而合。

不外有小数不必置疑,酬酢平台用户作风是什么样,其作为语料供应商所考验的 AI 极大可能也会领有相通的"秉性"。

可以笃定的是开云(中国)kaiyun网页版登录入口开云体育,2025 的 AI 考验行将参加语料比拼阶段。