国产大模子竞技场首超GPT-4o!零一万物GLM共同踏进Top10

九游会J9·(china)官方网站-真人游戏第一品牌

九游会J9·(china)官方网站-真人游戏第一品牌

  • 首页
  • 资讯
  • 娱乐
  • 新闻
  • 旅游
  • 汽车
  • 电影
  • 你的位置:九游会J9·(china)官方网站-真人游戏第一品牌 > 资讯 > 国产大模子竞技场首超GPT-4o!零一万物GLM共同踏进Top10

    国产大模子竞技场首超GPT-4o!零一万物GLM共同踏进Top10

    发布日期:2024-10-17 05:32    点击次数:131

    西风 发自 凹非寺

    量子位 | 公众号 QbitAI

    国产大模子初度在公开榜单上越过GPT-4o!

    就在刚刚,“大模子六小强”之一的零一万物老成对外发布新旗舰模子——Yi-Lightning(闪电)。

    在大模子竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单比肩第6,数学分榜比肩第3,代码等其它分榜也名列三甲。

    总得益险些与马斯克最新xAI大模子Grok-2-08-13捏平,卓绝GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。

    同期,国内清华系大模子公司智谱AI的GLM-4-Plus也杀进了总榜,位居第9位。

    该榜单散伙来自公共累积超千万次的东说念主类用户盲测投票。

    前段时期大模子竞技场还刚刚更新了治安,新榜单对AI恢复的长度和作风等特征作念了降权处理,分数更能反应模子着实贬责问题的材干。

    此次Yi-Lightning杀出重围,Lmsys团队有益发帖子,称这是竞技场上的大新闻:

    大模子竞技场总榜第六、国产第一

    细看大模子竞技场分类榜上的“赛况”,Yi-Lightning各项材干王人排在前头。

    在汉文材干上,Yi-Lightning和GLM-4-Plus两个国产大模子王人名列前位。

    Yi-Lightning跃居比肩第二,和o1-mini出入无几。

    数学材干,Yi-Lightning和Gemini-1.5-Pro-002比肩第3,仅次于o1-preview、o1-mini。

    代码材干Yi-Lightning名次比肩第4。

    另外皮Hard Prompts和Longer Query分榜,Yi-Lightning也王人排在第4位。

    终末相通值得关怀的是,竞技场新功能作风放胆过滤,确保分数反应模子着实贬责问题的材干,而不是用漂亮的体式、增多恢复长度。

    在对长度和作风等特征作念了降权处理后,扫数模子分数均有着落,Yi-Lightning名次变化不大,合座还与GPT-4o、Grok-2消亡梯队。

    发布会上,零一万物首创东说念主兼CEO李开复博士展示了Yi-Lightning在不同场景上的材干。

    Yi-Lightning主打一个“推理速率更快,生成质地更好”。

    比较上半年Yi-Large,Yi-Lightning首包速率进步1倍,推理速率也进步了4成。

    像是翻译底下这种体裁作品,Yi-Lightning不仅速率更快:

    况兼用词更精确,更具体裁颜色:

    那么Yi-Lightning是怎样作念到的?

    好用还得极速

    Yi-Lightning接管MoE搀杂人人模子架构。

    底层时期上,Yi-Lightning在以下方面进行了进步。

    当先是优化搀杂小心力机制(Hybrid Attention),只在模子的部分头绪中将传统的全小心力(Full Attention)替换为滑动窗口小心力(Sliding Window Attention)。

    由此以来,模子在保证处理长序列数据高性能推崇的同期,还能大大数落推理资本。

    Yi-Lightning还引入了跨层小心力(Cross-Layer Attention, CLA),允许模子在不同的头绪之间分享键(Key)和值(Value)头,减少对存储需求。

    这使得Yi-Lightning能在不同头绪之间更有用地分享信息。

    总的来说,KV cache削弱了2-4倍,同期将揣摸的复杂度从O(L²)降至O(L)。

    其次,Yi-Lightning还接管了动态Top-P路由机制。

    也即是说,Yi-Lightning不错左证任务的难度动态自动选择最符合的人人收集组合——

    磨砺历程中会激活扫数人人收集,使模子能学习到扫数人人常识;而推理阶段,左证任务的难度,模子会选择性激活更匹配的人人收集。

    另外,之前有一些传言称国内大模子“六小强”,有一些一经不作念预磨砺了,李开复博士此次在发布会上径直“辟谣”:

    零一万物毫不撤消预磨砺。

    况兼在模子预磨砺阶段,团队还积聚了丰富的多阶段磨砺才略,将扫数这个词磨砺分为两块,一块作念好以后就把它固定起来,然后在这个固定的模子上再作念后段磨砺。

    磨砺前期,更小心数据万般性,使得Yi-Lightning尽可能学习不同的常识;磨砺后期更重本色更丰富、常识性更强的数据。

    同期团队还在不同阶段接管不同的batch size和LR schedule保证磨砺速率和表露性。

    李开复博士还示意,零一万物竖立模子认真“模基共建”,也即是共建模子和基础架构。

    模子的磨砺、就业、推理狡计,与底层的AIInfra架构和模子结构必须高度适配。

    这么作念的方向,不仅是让模子更好,况兼让它在推理的时候粗略更低廉。

    再加上以上万般抬升“性价比”的时期加捏,是以Yi-Lightning此次亦然打到了白菜价——

    0.99元每1M token

    在汉文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的订价是每百万输入3好意思元,每百万输出12好意思元。

    Yi-Lightning每百万token只需0.99RMB亦然打到了骨折。

    但李开复博士示意,即便这么也:不亏钱。

    除了发布新模子,零一万物此次还首发了AI2.0数字东说念主决议。

    当今该数字东说念主已接入Yi-Lightning,及时互动恶果比较以往更强更当然了,belike:

    重播 播放 00:00 / 00:00 直播 00:00 参加全屏 50 点击按住可拖动视频

    终末谈起和海外头部大模子的差距,李开复博士示意此次Yi-Lightning的名次发挥了国产大模子跟硅谷最顶尖模子的差距削弱到了五个月。

    去跟追上好意思国最顶尖的模子,裁减这个时期差相配繁重,要付出很大的竭力于和有私有的派遣。在国内不少公司王人在竭力于,“模基共建”则是零一万物我方摸索的私有旅途。

    参考畅通:[1]https://x.com/lmarena_ai/status/1846245604890116457[2]https://x.com/01AI_Yi/status/1845776529185476613

    — 完 —

    量子位 QbitAI · 头条号签约

    关怀咱们,第一时期获知前沿科技动态



    栏目分类