撞上数据墙?OpenAI模子进步速率放缓 入辖下手休养开拓战略
高质料数据不够用,牵扯AI模子革新速率——OpenAI这位AI领头羊又遇到了贫寒。
一些测试过Orion的OpenAI职工发现,天然Orion的性能卓著了OpenAI现存的悉数模子,但其性能质料进步进度远远小于从GPT-3到GPT-4的飞跃。这意味着,跟着高质料数据趋于有限,AI模子的革新速率可能会放缓。
不仅如斯,Orion的测验中触及来自旧模子(举例GPT-4与一些推理模子)的AI生成数据,这可能导致其重现旧模子的一些四肢。
为此,OpenAI诞生了一个“基础”团队,以在高质料新数据供应减少的情况下,参议能让AI模子保握革新的新本事。据悉,公司谋划基于AI合成数据测验Orion,并在后期测验中对模子作出更多革新。
当今,OpenAI正在鼓励Orion的安全测试,谋划于来岁年头发布这一模子,其可能会冲突“GPT-X”的定名常规,以反应模子开拓的变化。
值得注重的是,OpenAI在本年收购了Chat.com域名,该域名已重定向至OpenAI的AI驱动聊天机器东说念主ChatGPT。
“撞上数据墙”
早在2020年,OpenAI就曾在一篇论文中冷漠Scaling law定律,意指大模子的最终性能主要与蓄意量、模子参数目和测验数据量三者的大小关连,而与模子的具体结构(层数/深度/宽度)基本无关。换言之,只是加多模子畛域和测验数据,就能显耀进步东说念主工智能本事,而无需取得根人性的算法突破。
AI界很多公司王人一度将Scaling Law奉为轨范,但如今,期货配资也有越来越多的质疑声出现。
Meta AI东说念主工智能参议院(FAIR)参议员及高档司理田渊栋指出,“我画过一张图,一初始数据量越大,模子性能说明越好,但模子离东说念主类越近就越难获取新的数据,模子就越来越难以革新,终末总会有些corner case(边角案例,即无法念念到的或不常见的案例)处分不了,这是data driven(数据驱动)最大的问题。”
非牟利参议机构Epoch AI在本年7月更新的一篇论文中指出,往日数年内,(原始)数据增长的速率将难以相沿AI大模子推广发展的速率,在2026-2032年之间的某个时代点,数据存量将消耗。
本色上,OpenAI已不是第一次遭受“数据资源不及”的问题。此前已有媒体报说念指出,在测验GPT-5时,OpenAI因文本数据不及,正在斟酌使用YouTube公开视频转录出的文本。
如今OpenAI再度碰上数据资源贫寒,致使因此影响到了新模子进展。“但这代表‘天塌了,’”The Information这篇著述的作家之一Amir Efrati指出,OpenAI正在作出休养,概况将有新的Scaling Law取代旧Scaling Law。
值得一提的,当地时代11月9日,OpenAI安全系统团队矜重东说念主翁荔(Lilian Weng)书记将离开还是责任了近7年的OpenAI。她公开共享了发给团队的下野信,但其中并未言明具体下野原因及往日办事行止,仅示意“是时候从头起程,探索新的畛域了”。