“在三天前,御风内部就已经完成了全部替换,现在源码科技所有应用都已经在使用汤圆模型做意图理解和任务编排。”
这几句话说完,弹幕彻底失控。
林一舟坐在电脑前,整个人都愣住了。
已经切换完了?
他突然反应了过来我之前被灰度到的,就是汤圆模型?
弹幕里也都在说。
【怪不得我觉得最近御风变聪明了!】
【韩总牛逼!】
直播画面里,韩路一已经切到了下一页。
“我相信,大家最关心的,肯定不是名字,而是模型能力。”
林一舟在屏幕前笑出了声。
屏幕上出现第一张表。
MMLU-Pro、GPQA Diamond、AIME等等一系列的测评集分数,评价的是汤圆模型在各个方面的能力。
这些测评集和金星、GPT-V在发布会上放出来的基本一致,不同的是,韩路一并没有把其他模型的分数放出来作为对比,一堆分数放在那,大家还对汤圆的能力没有直观的体现。
但是观众的反应很快,有的人手边就有另外两个发布会的截图。
很快弹幕上就有人报了分数对比。
【意图理解比GPT-V还高3%】
【复杂问题的分数超过了GPT-V】
【卧槽,这不是全比GPT-V还强吗?】
【如果是真的,这就不是国产第一,是全球第一了吧】
【我靠我鸡皮疙瘩起来了】
【前面的别急,这个没有多模态,还是OpenAI的牛逼一点】
韩路一用平静的语气说道:“这些是我们内部测评和部分第三方封闭评测的结果,完整技术报告会在今天晚些时候发布。”
“我们欢迎国内外开发者、研究者、企业客户进行复测。”
“但是由于算力和产能方面的限制,我们只能开放一部分标准评测接口,还无法对API接入提供服务。”
“汤圆现在会专注于为御风和开物的用户提供稳定的服务,我们将尽全力解决我们的算力问题,并尽快完成1.0版本的训练。”
“希望近期就可以把汤圆正式版的API开放给大家使用,到时候,我会再开一场发布会。”
苏念念接过话。
“从今天开始,御风所有用户无需做任何操作。”
“个人版、团队版、企业版服务正常。”
“现有项目、上下文、版本记录、工作流配置不会受到影响。”
“对于企业客户,我们会在本周内完成模型切换报告和合规说明的推送。”
“如果有客户需要单独的技术沟通,可以通过企业服务通道联系我们。”
直播结束了。
林一舟看着黑掉的屏幕,还能听到自己心脏砰砰跳动的声音。他太激动了。
早晨一醒过来,就看见硅谷的两个AI巨头打了一架,一个刚说自己成了第一,马上就被另一个按头超了过去。
这场戏已经够刺激的了。
没想到更刺激的还在后面。
几个小时以后,硅谷的两家领头的AI公司被中国的一家第一次听说名字的公司给干掉了。
林一舟舍不得就这么开始工作,直播结束了,他又去各个社交平台上搜关于汤圆的消息。
微博上关于【#汤圆】的热搜正在飙升,不了解AI圈的人还以为又要过元宵节了。
一个博主写了一句话,被转发了几十万次。
「昨天硅谷给我们看了一场AI神仙打架。
Nexus说自己全球第一,顺手把中国关在门外。
OpenAI两小时后说,你还不是第一。
结果今天上午,国内突然冒出一个汤圆。
名字很软,分数很硬。」
转发和评论的都很欢乐。
【名字很软,分数很硬,笑死】
【汤圆:我看起来很好吃,但我其实很能打】
【金星:我筑墙。汤圆:我出锅。】
【这名字太中国了,突然很亲切】
【谁能想到国产AI代表会叫汤圆】
【别急着吹,等第三方复测】
【能不能等复测是一回事,敢在这个节点把分数放出来,本身就说明有底气】
林一舟一直坐在电脑前,慢慢的刷着这些回复,起床之后刚看到Nexus断供的消息时紧张忐忑的心情已经全都消失不见了。
他现在的心情激动中夹杂着一丝自豪。
虽然汤圆不是他做出来的。
但是中国有人能做出这么厉害的模型,他也很高兴。
嘿嘿傻笑了两声,林一舟打开了御风。
接着干昨天没干完的活。
御风,不,汤圆
搞起!
第二百五十章 硅谷的晚上
晚上十点了,瑞恩还坐在办公室里。
透过透明玻璃墙看出去,外面的办公区也灯火通明,一个个研究员、程序员、产品经理以及市场团队成员坐在自己工位上,都在加班。
一般这个时间,所有的人都下班了,但是今天不一般。
今天上午,Nexus AI刚刚完成了一场本该载入公司历史的发布会。
过去大半年秘密训练的金星模型发布,榜单登顶,实现Atlas智能体的工程能力飞跃,再加上严格的访问限制公布。
这本来应该成为媒体这一星期的头条。
然而,仅仅两个小时之后,OpenAI发布了GPT-V和GPT-V Omni。
Nexus AI的金星模型发布会变成了笑话。
这样突如其来的打击,让每一个员工都像被人在脸上狠狠得抽了一个耳光。没人愿意走,也没人真的能静下心来工作。所有人都憋着一股劲,想把今天丢掉的脸找回来。
收回目光,瑞恩伸出手揉了揉自己的太阳穴,整个人往椅背上靠了一下。
然后他又强打精神,直起身来,在电脑上打开了一个新的网页。这是一个第三方大模型能力测评的聚合网站。
瑞恩也说不出为什么想再看一次。
从金星发布之后,他已经看了好几次了。有短暂的两个小时,金星排在榜首,但是之后就一直是第二名,排在第一名的是那个刺眼的名字GPT-V。
还是第二名……
瑞恩又扫了一眼榜单,突然觉得不对。
金星不是第二名。
第二名是GPT-V。
那第一名是谁?
瑞恩看着那个陌生的名字,TangYuan-0.9。
然后他的目光向下移动,看向了榜单下面一点的另一个名字,KunYuan-1.0。
看到这一幕,瑞恩觉得荒谬可笑。
不是,这些中国公司在搞什么鬼?
搞这些过拟合刷榜有意思吗?
瑞恩太清楚这个套路了。这些榜单的评测集是公开的,只要把训练数据和评测题混在一起,分数自然就上去了,这叫数据污染。
行业里人人都知道,但没人敢干,因为干了就是把自己的信誉扔进垃圾桶里了。Nexus AI做了这么多代模型,老老实实的把真实能力冲上第一,为什么?就是因为一个新公司就算通过微调能刷到榜单第一也没有任何意义,没有人会信的。这就好像,如果你是世界首富,即使你买的是地摊上的假货奢侈品,别人也都会认为是真的。而如果你只是个领着微薄薪水的上班族,即使你花一年的工资买一个真的路易斯威登,别人也只会以为是假的。
在这个行业,有时候名声比成绩重要。
实打实的例子就在眼前,上一个在榜单上作假的,是中国公司在月初发布的KunYuan,后来实测一出来,虚高的分数当场就穿帮了。
瑞恩皱着眉头看着屏幕,这又是哪家愣头青创业公司,连这个规矩都不懂吗?
然后他转念一想,这也不一定是坏事。现在霸占着榜单第一的是OpenAI的GPT-V,这种事情让山姆去头疼吧。
OpenAI刚刚把Nexus AI从第一的位置上踢下来,还没来得及把舆论热度坐稳,几个小时之后,又被一个不知道从哪里冒出来的模型给压了下去。
这太好笑了。
瑞恩正准备关掉页面,办公室的门被敲响了。
“进来。”
约翰推门走了进来,脸色比下午看见OpenAI发布会时还要难看。
瑞恩看了他一眼,问道:“怎么了?”
约翰没有立刻回答,而是走到瑞恩身后,说:“看看我刚发给你的链接。”
瑞恩打开Slack,约翰确实刚发来一个链接,点开,是一个视频。
视频里的画面很简陋,只是一间普通的会议室,一个中国男人坐在长桌后面,身边还坐着一男一女。
这个中国男人他见过,源码科技的CEO,Louis Han。
屏幕下方有英文字幕。
瑞恩看了一眼标题。
【TangYuan-0.9 Launch Event】
汤圆发布会。