首页
智能设备
数据安全
绿色科技
栏目分类

绿色科技

你的位置:未来探索网 > 绿色科技 > 决定AI下一步的要津问题:数据破费!

决定AI下一步的要津问题:数据破费!

发布日期:2025-01-12 06:13    点击次数:193

决定AI下一步的要津问题:数据破费!

开端:硬AI

作家:蒋紫涵

AI顾问员如故快将寰球上的学问“榨干”了,下一步,AI该如何发展?

昨日,前OpenAI斡旋首创东谈主、SSI首创东谈主Ilya Sutskever在NeurIPS 2024大会上发扮演讲时示意,预磨练时期行将戒指,数据算作AI的化石燃料是有限的,咫尺用于AI预磨练的数据如故达到了峰值。

简直,往时十年中,AI的爆炸性逾越在很猛流程上依赖于神经汇聚界限的扩大以及使用更多的数据进行磨练,这使得大讲话模子(LLMs),如ChatGPT能够更好地模拟对话并发展出推理等功能。但一些内行指出,咫尺AI磨练正在接近扩展的极限,一是因为野心能耗急剧加多,二是因为大讲话模子缔造者简直如故用尽了能够磨练模子的传统数据集。

Epoch AI的马德里顾问员Pablo Villalobos展望,到2028年傍边,用于磨练AI模子的数据集的界限将与各人在线文本总量相当,换句话说,AI磨练数据很可能在四年后破费。

为了处理这一问题,咫尺AI公司有的在采集非公开数据,有的转向使用专注于健康照看、环境等的专科数据集,还有的在尝试合成数据。这些体式齐在一定流程上缓解了数据不及的窘境,但齐存在一些残障,并不成透顶处理问题。

好像,AI的下一步不再是学习现存学问,而是自我反念念与智能进化,就像卡内基梅隆大学的顾问生Andy Zou说的这么:“当今它如故领有了一个基础学问库,可能杰出了任何一个东谈主所能掌捏的,这意味着它只需要静下心来念念考。”

破费的数据,扩张的需求

往时十年中,大讲话模子的缔造展现出了对数据的横暴需求。

Villalobos揣摸,自2020年以来,用于磨练大讲话模子的数据增长了100倍,可能如故占据了互联网中很大一部分的现实,而且,AI磨练数据集的界限每年翻倍。联系词另一边,互联网可用现实的增长速率却非凡的渐渐,揣摸每年增长不到10%。

基于这些趋势,Villalobos的顾问显现,到2028年,AI磨练数据很可能破费。

与此同期,现实提供商加入了越来越多的软件代码或完善其使用要求,远离AI公司抓取其数据用于磨练。

麻省理工学院的AI顾问员Shayne Longpre领导着一个成心审计AI数据集的草根组织,并撰写了数据开端追思倡议。Longpre的顾问显现,数据提供商对特定爬虫的封闭数目急剧加多,2023年到2024年间,三大清洗数据蚁合最常用的高质地汇聚现实,封闭比例从不及3%加多到了20%-33%。

而且,几起侵权诉讼也在进行中——2023年12月,《纽约时报》告状OpenAI和微软滋扰其版权;本年4月,Alden Global Capital旗下的八家报纸也斡旋拿起了近似诉讼。若是好意思法律解释院判定现实提供商应当得回抵偿,那么AI缔造者和顾问东谈主员将更难获取所需的数据。

AI公司的应酬技巧

靠近现实提供商越来越严格的管控,AI缔造者也在入部下手寻找处理主见。

OpenAI、Anthropic等著名AI公司公开承认了这个问题,示意他们有谋略通过技巧绕过这一管控,比如生成新的数据、寻找非惯例的数据开端等。OpenAI的一位发言东谈主对《当然》杂志示意:

“咱们使用多个开端,包括公开可用的数据、AI磨练师提供的数据、与非公开数据合营、生成合成数据等。”

分析师指出,若是指标是寻找更巨额据,咫尺,主流体式有二:

一是采集非公开数据,如WhatsApp讯息或YouTube视频的翰墨记载。举例,Meta曾示意他们使用造谣现实耳机Meta Quest采集的音频和图像数据来磨练AI。

Villalobos揣摸,这些数据大多质地较低或叠加,且总量较小,不外即便如斯,也足以减速一年半傍边时刻的数据不及窘境。

二是专注于快速增长的专科数据集,如天文体或基因组数据。

斯坦福大学的着名AI顾问员Fei-Fei Li非常辅助这种战略,她在5月的彭博时刻峰会上示意,担忧数据行将破费的不雅点过于忐忑,因为在健康照看、环境、诠释注解等领域有着丰富的未被缔造的数据。

但Villalobos示意,咫尺尚不澄澈这些数据集是否恰当磨练大讲话模子,“很巨额据类型之间似乎存在一定流程的迁徙学习,但我对这种体式并不抱太大但愿。”

不外,分析师也提醒谈,尽管有多样体式应酬数据垂危,但数据不及是实打实的问题,因此,这可能会迫使公司在构建生成AI模子时进行变革,使得AI的利用领域从大型、通用的大讲话模子转向更小、更专科的细分模子。

还不错合成数据?

除了以上两种神色,Meta首席AI科学家Yann LeCun提倡,若是无法找到数据,也不错尝试生成更巨额据。

举例,一些AI公司付钱让东谈主们生成现实用于AI磨练,另一些公司则径直使用AI生成的合成数据来磨练。

分析合计,这一数据开端后劲高大——OpenAI本年早些时候示意,他们每天生成1000亿个单词,相当于每年生成杰出36万亿个单词,与现时的AI磨练数据集界限相当,而且这一产出正在快速增长。

总的来说,内行们一致合计合成数据在有明确、可识别规章的领域发扬细致,如海外象棋、数学、野神思编码等。咫尺,AI器具AlphaGeometry如故通过1亿个合成示例进行磨练并到手处理了几何问题。

此外,合成数据在实在数据有限或有问题的领域也如故被泛泛利用,举例医疗领域,因为合成数据幸免了诡秘问题。

但合成数据也不是无缺的——合成数据的问题在于,递归轮回可能加重古怪、放大污蔑,并在全体上裁减AI模子的学习质地。

2023年,一项顾问提倡了“模子自噬远离(Model Autophagy Disorder)”这一术语,用于形容AI模子在这种情况下可能“崩溃”的酣畅。举例,一个部分使用合成数据磨练的面部生成AI模子运行绘图带有奇怪哈希标记的相貌。

风险请示及免责要求 阛阓有风险,投资需严慎。本文不组成个东谈主投资建议,也未商酌到个别用户特殊的投资指标、财务景况或需要。用户应试虑本文中的任何办法、不雅点或论断是否得当其特定景况。据此投资,职守欢悦。