品牌 资讯 搭配 材料 时尚 热点 行业 首饰 玉石 行情

今日关注:Reddit要收取API访问费,盯着AI厂商来薅羊毛

2023-05-02 10:36:09 来源:三易生活公众号

进入2023年后,或许已经鲜少有网友还没听过ChatGPT这个大名。这一继元宇宙之后出现的“新浪潮”,俨然已经成为了今年科技圈的风口,包括海外市场的微软、谷歌、亚马逊,以及国内的百度、阿里、腾讯、字节跳动在内,几乎但凡有一定技术实力的科技厂商也悉数下场,即便是技术力不够的厂商也是八仙过海各显神通,有诸如知乎这样联手合作伙伴的,也有像“美国贴吧”Reddit这样“卖资源”的。

日前Reddit方面宣布,将开始对使用其应用程序编程接口(API)的企业收费,该接口则提供了下载和处理人与人之间对话的相关数据。事实上,Reddit的API自2008年以来就一直javascript是以免费的方式开放给第三方,对于突然转向收费,Reddit方面的解释,是此举为了限制其API被用于训练人工智能工具,其中包括OpenAI的ChatGPT、谷歌的Bard,以及微软的Bing AI等。

尽管Reddit暂时还没有公布其API的具体收费标准,但官方已经透露,将为“需要额外功能、更高使用限制和更广泛使用权的第三方,引入一个新的高级接入点”。而为了避免被外界指责“吃相难看”,Reddit方面还表示将会对一些访问API的用户免费,而这类用户则主要包括科研机构的研究人员,或是从事非商业目的的研究员。


【资料图】

Reddit为何敢于去收这笔钱呢?其实成立于2005年的Reddit,已经是全球互联网中历史最悠久、同时也最有活力的社区之一。截止2021年10月,也就是Reddit官方最后一次披露的用户数据表明,其拥有5300万DAU和超过4.3亿MAU。而来自Statista的数据显示,Reddit是全美访问量第六大的社交媒体,月活水平与Instagram、Twitter几乎持平。

如此海量的用户也造就了Reddit的活跃社区总数超过了14万个,帖子总量超过3.66亿,评论总数为23亿,这也代表着沉淀在Reddit的内容已然成为了一个极为惊人的语料库。而在AI领域,语料(Corpus)通常是一定数量和规模的文本资源集合,作为一个以论坛为形式展开业务的平台,Reddit显然是当下英语互联网中最潮流、最日新月异的语料库。例如OpenAI开发的ChatGPT以及最新的GPT-4,就有很多训练数据被证实是来源于Reddit。

就android像数据之于算法一样,语料则是ChatGPT这类生成式AI更加智慧的基础所在。生成式AI的原理,大概可以总结为通过大量的语料库进行训练,以建立相应的模型,从而使得AI能够对人类的问题作出相应的回答和决策,其核心逻辑就是“猜谜游戏”。经过大量的训练后,AI预测出问题的答案,并不等于拥有智慧,而只是在玩文字游戏,进行一次又一次的概率解谜,本质上与人类玩数独或填字游戏是一样的。

那么ChatGPT为什么会表现得比以往的人工智能产品、比如Siri更聪明呢?其实单纯是因为语料规模更大。例如GPT-3就拥有的1750亿的参数量、45TB的训练数据,以及高达1200万美元的训练费用,这也是OpenAI打造ChatGPT的基础。而ChatGPT聪明的关键就在于涌现能力(Emergent ability)上,指的是在不进行参数更新的情况下,只在输入中加入几个示例,就能让模型进行学习。

涌现能力从何而来呢,根据Google&Deepmind联合发布的相关论文显示,模型在没有达到一定规模前,得到的表现较为随机,但在突破编程客栈规模的临界点后,表现则会大幅度提升。

例如在BIG-Bench上,GPT-3和LaMDA在未达到临界点时,模型的表现都是接近于零。而在GPT-3的规模突破210^22training FLOPs (13B参数),LaMDA的规模突破10^23training FLOPs (68B参数)后,表现就开始快速上升。

“力大砖飞”就是当下大语言模型的底层逻辑,在这种情况下,语料基本决定了大语言模型的上限。语料虽然是越多越好,但问题是已经没有更多高质量的数据供模型进行训练了。

AI研究团队Epoch在今年年初发表的论文表明,AI不出5年就会把人类所有的高质量语料用光。而且这一结果,则是Epoch将人类语言数据增长率,即全体人类未来5年内出版的书籍、撰稿的论文、编写的代码,都考虑在内预测出的结果。

Epoch团队将语料分为了高质量和低质量两种,其中高质量的语料指的是包括维基百科、新闻网站、github上的代码、出版书籍等,低质量语料则来源于Twitter、Facebook,以及Reddit上的内容。

正常情况下,AI厂商自然更愿意使用高质量的语料,毕竟这能够在最大限度上避免被偏见和歧视性言论“污染”。但问题是,据统计,高质量语料数据的存量只剩下约4.610^12~1.710^13个单词,相比当前最大的文本数据集大了不到一个数量级。

所以当高质量语料不够用的情况下,低质量语料即便再不好用也得用,不然大语言模型要如何成长。而对于低质量语料,充其量也只是在数据标注和清洗上投入更多成本,所以OpenAI、谷歌、亚马逊等公司相当于就没得选。所以Reddit如今就正是挟语料自重,料定了AI厂商只能硬着头皮买。

标签:

(责任编辑:)

相关文章

今日关注:Reddit要收取API访问费,盯着AI厂商来薅羊毛

​进入2023年后,或许已经鲜少有网友还没听过ChatGPT这个大名。这一继元宇宙之后出现的“新浪潮”,俨然已经

2023-05-02 10:36:09

最资讯丨国际论坛:中国是全球互联互通的关键驱动力量

​国际论坛麦肯锡全球研究院对30条价值链、约6000种产品的调查研究显示,经济全球化的趋势并未逆转,而是在不

2023-05-02 10:11:45

“益企同行 隐患未燃”燃气安全座谈会顺利召开

​2023年4月25日,天津市行业协会组织开展了主题为“益企同行隐患未燃”的燃气安全座谈会。天津市人民检察院

2023-05-02 08:59:52

兰帕德:球员时期切尔西总是换教练,我本该赢得五六次联赛冠军 当前速讯

​兰帕德:球员时期切尔西总是换教练,我本该赢得五六次联赛冠军,切尔西队,中超联赛,弗兰克·兰帕德

2023-05-02 07:58:01

美国伊利诺伊州州际公路发生连环车祸 致多人死亡

​当地时间5月1日,美国伊利诺伊州南部55号州际公路发生重大连环车祸,至少40辆至60辆汽车相撞,造成多人死亡

2023-05-02 07:01:21

每日信息:给老师的歌推荐_关于给老师的十首推荐

​欢迎观看本篇文章,小升来为大家解答以上问题。给老师的歌推荐,关于给老师的十首推荐很多人还不知道,现在

2023-05-02 06:04:54

世界讯息:炸鸡柳的家常做法视频_炸鸡柳的家常做法

​1、前言女儿很喜欢吃炸鸡柳,但是在外面买的又怕不安全,所以一般都不给她买。2、但是在家做也是会偶尔做,

2023-05-02 04:01:34

全球速讯:借贷宝服务热线_借贷宝客服热线电话

​1、是真正的客服电话。2、现在公司在返现金做推广,只要注册就能得到20元,先百度或者应用宝或者手机自带的

2023-05-02 00:53:02

焦点快播:交通运输部:“五一”前三天发送旅客近1.6亿人次

​交通运输部消息,5月1日(劳动节假期第3天),全国铁路、公路、水路、民航预计发送旅客总量4936万人次,比2

2023-05-01 22:25:13

全球今热点:魔神至尊传前16_魔神至尊

​1、人道至尊魔神境界境界是道神第三阶段。2、神魔:切神道与一切魔道之起源,居于古老宇宙神帝宫魔帝宫,著

2023-05-01 21:10:10

三角形中心在哪_三角形中心

​1、三角形的中心指三角形中心的交点。2、重心:三条中线的交点,这点到顶点的距离是它到对边中点距离的2倍;

2023-05-01 20:10:42

白银走势分析最新消息(2023年5月1日)

​基本消息面周一(5月1日),现货白银维持日内小幅升势,银价现报25 15美元 盎司附近。知名财经资讯网站cooi c

2023-05-01 18:45:01

徕芬科技LF03系列高速吹风机亮相2023上海AWE,引领行业风向

​本届展会主题为“智科技,创未来”,聚焦“智慧场景”、“智能科技”、“创新技术”等关键词,将展示5G、人

2023-05-01 17:48:54

AI+药筛专题报告:“快”AI与“慢”药筛

​AI+药筛专题报告:“快”AI与“慢”药筛

2023-05-01 16:34:16

天天亮点!Noise Colorfit Ultra 3智能手表发布:1.96英寸显示屏,4499卢比

​IT之家5月1日消息,据91mobiles报道,Noise今日在印度推出了NoiseColorfitUltra3智能手表,并将在5月12日正

2023-05-01 15:52:54

【环球热闻】2023上海车展:豪华新能源的“天花板” 静态体验迈巴赫EQS SUV

​这台迈巴赫EQSSUV的动力总成目前得到的消息,最大功率470kw,CLTC续航里程是600km,空气悬架,四轮转向功能

2023-05-01 14:40:59

原来,药监人的“五一”是这“五个一” 世界热门

​这个五一假期你是在各大旅游景点“人海浮沉”还是在家里“身未动心已远”?你知道吗?药监人的“五一”可不

2023-05-01 13:35:32

趵突泉“猪鲤”让警察叔叔操碎了心 不能再胖了 当前聚焦

​五一假编程期到来后,android济南景区出现了“人挤人”的情况,而android趵突泉景区内的锦鲤由于多年游客投

2023-05-01 12:44:43

微软将设置新的通知来减少Windows 11通知推送的数量|天天亮点

​桌面或手机上的通知和网页弹窗可能是令人讨厌和破坏性的。像手机一样,Windows11在很大程度上依赖于第一方

2023-05-01 11:43:51

appetite是什么意思英语翻译_appetite是什么意思

​appetite[英][ˈæpɪtaɪt][美][ˈæpɪˌtaɪt]n 欲望;胃口,食欲;嗜好,爱好;复数:appet

2023-05-01 11:03:14

吉林省2023年退休人员养老金会涨多少?吉林2022年养老金调整细则|新要闻

​2023年的养老金或将迎来19连涨,根据消息,预计2023年人社部将在4月中下旬公布,最迟不会超过5月上旬,据消

2023-05-01 09:59:20

世界百事通!移动小吃车加盟费多少 移动小吃车加盟怎么样

​今天来聊聊关于移动小吃车加盟费多少,移动小吃车加盟怎么样的文章,现在就为大家来简单介绍下移动小吃车加

2023-05-01 09:22:56

聚焦:数字对象唯一标识符是什么(标识符是什么)

​1、CREATETABLETableX(KeyColINTPRIMARYKEY,Descriptionnvarchar(80))此表还有一个未命名

2023-05-01 08:07:07

环球微动态丨吻和泪原唱周子寒_吻和泪原唱

​1、吻和泪-周子寒整个我的人整颗我的心交给你的时候有白色的梦有红色的情单纯而又执着轻轻挑着我的黑发你是

2023-05-01 06:42:22

2023(五一)华南国际车展开幕,埃安尖叫好礼疯狂加码

​4月30日-5月3日,2023(五一)华南国际车展在广州国际采购中心举行,AION家族悉数亮相,吸引了一大批消费者莅

2023-05-01 05:55:52

山西非茶之茶科技有限公司

​1、山西非茶之茶科技有限公司于2014年08月01日在太原市工商行政管理局登记成立。2、法定代表人邓奇珍,公司

2023-05-01 02:05:33

当前资讯!理想服务区充电引热议!网友:只有正在充电的理想 没有排队的理想

​理想服务区充电引热议!网友:只有正在充电的理想没有排队的理想

2023-04-30 22:09:56

“深水埗健康社区”计划在港启动 推广社区医疗和健康服务 环球观点

​(戴小橦王梁屹)香港社区医疗教育服务协会联同深水埗民政事务处、深水埗居民联会、九龙社团联会深水埗地区委

2023-04-30 21:03:26

【独家】遇见福建:“五一”去宁德邂逅“诗与远方”

​宁德市文化和旅游局供图碧海溢彩、落日熔金的霞浦滩涂,享有“国际滩涂摄影胜地”美誉,引得众多摄影家趋之

2023-04-30 19:55:32

谷爱凌与邓文迪何超欣聚会具体是什么情况

​很多人对谷爱凌与邓文迪何超欣聚会具体是什么情况比较关心,现在让我们一起来瞧瞧具体是什么情况吧!1、小

2023-04-30 18:56:43