牛逼啊。
带着这种想法,林一舟睡着了。
……
第二天一早,伴随着手机发出的闹钟铃声,林一舟迷迷糊糊的睁开眼,拿起枕头边的手机开始刷朋友圈,很快就看到了一条吸引他目光的文章。
标题是《比你聪明的人还比你卷?鼎盛坤元大模型连夜放出1.1版本》
林一舟揉了揉眼睛。
昨天开发布会,公测1.0,今天就更新1.1?这迭代的也太快了吧!大厂就是这么卷的吗?
一会去公司了试试。
林一舟这么想着,又躺在床上刷了半小时手机,等到第二个闹钟都响了,才拖着自己疲惫的身体起床,准备开启自己牛马的一天。
拿着路上买的豆浆油条进了公司,林一舟来到公位上,发现桌子上已经放着一份经理给的活了。
现在进行中的项目因为资源不足不得不延期,要写一个项目延期说明,和上下游的组同步。
这本来是经理的活,但是经理不干,甩给林一舟干,他也只能硬着头皮干了。
还好,有AI。
林一舟打开坤元的网页界面,果然见到昨天的模型型号1.0今天变成了1.1。
1.1自然要比1.0要好,他也不在意,直接把需求输了进去。
公司的代码不让上传到AI工具,我让他帮我写个报告,总可以吧?
很快,坤元输出了:
「项目延期说明应从以下几个方面展开:
一、项目背景(对勾)
介绍项目启动背景、建设目标和当前进展。
二、延期原因(对勾)
可以从需求变化、资源协调、技术难点、测试验证等方面进行说明。
三、后续计划(对勾)
明确下一阶段工作安排、责任人和时间节点。
四、保障措施(对勾)
加强项目管理,优化沟通机制,提升协同效率,确保项目顺利推进。」
林一舟看了这个回答,一头雾水。
啊不是,我用错模型了?这回答还不如ChatGPT呢?而且你这满屏幕的emoji是怎么回事啊?我那个善解人意、足智多谋的坤元呢?我昨天那么大一个坤元呢?
林一舟又试了几次不同的提示词,甚至把昨天问过的相同的问题又问了一遍,输出的答案跟昨天比起来一点儿也不一样。
诶?昨天的使用记录也不见了。
最后,林一舟不得不得出一个结论。
坤元1.1比坤元1.0大幅度降智了。
差距太明显了。
林一舟拿出手机,打开一个野生的AI社区交流群,发现里面已经有人在讨论这件事了。
【你们今天再试了吗?怎么感觉变蠢了?】
【不是感觉,是真的变蠢了。】
【坤元是不是换模型了?】
【页面显示1.1了。】
【不是吧,1.0才活了一晚上?】
【我昨晚让它帮我分析一个增长方案,它直接指出设计有漏洞。今天同样的问题,它给我贴了一个万金油回复。】
最后发话的这个人发了两张截图。
昨天的坤元1.0,在看完一份团购增长方案后,第一句话就是:
【这份方案最大的问题不是增长手段不足,而是默认履约能力可以承受增长,这个前提不成立。增长越快,履约压力越大,用户体验越差,反而会加速流失。】
今天再问同样的问题,坤元1.1回答:
【社区团购增长可以从用户拉新、活动运营、供应链优化、履约体验等多个方面展开,希望对您有所帮助!(笑脸)】
群里开始有人疯狂翻历史记录。
昨天用过坤元的人,都纷纷发出自己保存的对话截图。
群里又讨论了几百楼,突然有一句话引起了林一舟的注意。
【鼎盛是不是把发布会特供版下线了?】
奇怪的是,在微信上讨论这个问题的人很多,但是在微博上热搜榜上却没有,连昨天的热搜【#坤元发布】【#让AI听懂中国】都不见了。
林一舟甚至觉得自己在昨天短暂的出现了幻觉,幻想国产出了一个好用的AI。
坤元1.0,从此成了一个流传在互联网上的另一个都市传说。
……
鼎盛大厦,吕云的办公室里,吕云坐在办公桌后面,刘大海坐在他对面的椅子上,心里多少有些忐忑。
昨天晚上,他被从家里紧急叫回实验室,从过去两三个月里的模型里选了一个“干净”的,表现最好的出来,命名成坤元1.1,加班加点的过了一遍基础测试,然后就全网上线替换了坤元1.0。
所谓“干净”,就是指还没用那批高质量标注的版本。
虽然没有人和他明说,但刘大海大概猜到了,那批标注果然有问题,现在被爆出来了,才需要这样紧急处理。
这种事情他以前也不是没见过,几家大模型互相蒸馏,有的时候清洗不干净,会出现那种问A模型“你是谁”,回答“我是B模型”的情况,这种事出来的都会在圈子里有一波舆论,大家也习惯了。
但是这批数据清洗的时候他是仔细看过的,不应该犯这种低级错误啊。
“大海啊。”吕云开口,打断了刘大海飘飞的思绪,“你来鼎盛有两年了?”
“一年半了,吕总。”刘大海赶紧回神,回答道。
吕云微微点了点头,露出一点笑容:“不错,从你进来,乾元就交给你,坤元也是你主导的。”
刘大海额头开始冒汗了,确实,鼎盛大模型研发的技术方向都是他定的,现在坤元大概出事了,刚做了紧急处理,吕总这不会是要算总账了吧。
他想给自己辩解一下,说早在发布之前他就提出过不同意见,但是被林绍峰给堵嘴了。
但是他又怕这话说出口,反而被当成是在狡辩。
唉,刘大海连见郑晓波都紧张,今天见到传说中的吕总,心理压力实在有点儿大了。
吕云没让刘大海胡思乱想太久,很快就进入了正题:“大海啊,我今天叫你来,是想给你加点儿担子。”
刘大海一愣,什么意思?
“我自己思考过了,大模型研究想要成功,还是得由技术这边主导,研究院这边的架构改一改,你的职级提一级,还是叫首席科学家,但是研究院就由你来管了。”
刘大海反应了一下,喜悦还没涌上来,他问出口的第一个问题是:“那林总呢?”
首席科学家管研究院,原本管研究院的VP干什么?
吕云也没想到刘大海问的这么直接,但还是回答道:“他会调到鼎盛云去,你们两个以后还要配合。”
刘大海在心里合计了一下,鼎盛云本来不是张弛在管吗,那张弛呢?
但是这个离他就太远了,他没再问。
不管怎么样,升职了就是好事。
刘大海开口感谢大老板的赏识,吕云又开口问了几个技术上的问题。
“现在这个版本,和当初发布会上的差多少?”
这是吕云最关心的问题。
“意图理解,尤其是中文环境下的意图理解,差距比较大,从九十多降到了不到八十。”
要说这个,其实刘大海是最委屈的。
坤元系列所有的模型都是他花了很大心血一步一步带过来的,发布会上的版本,用了那批“黄金标注”做后训练,中文的语义理解能力提升了一大块。
可是坤元本身的知识、逻辑、数学能力,也是处在闭源模型的第一梯队的。
结果发布会上着重强调的语义理解能力,和现实情境结合的能力,回退之后全没了,现在他能看到的舆论都在说坤元变笨了。
这还是被公关过的舆论,要是真让网友们在网上放开了聊,坤元1.1不知道会被人骂成什么样了。
多他妈委屈啊!
吕云听完刘大海的回答,缓缓点了点头,又问了一个问题:“想要做回发布会上的那个效果,你有方向了吗?”
刘大海这次来了自信:“有的,吕总,有的。咱们已经验证过了,标注要做成什么标准,就能提升意图理解,接下来只要在这方面加大投入,组建高水准的标注团队不是普通的标注员,文科的高材生,什么学哲学的、心理学的、语言学的,花个半年的时间,我有信心做出发布会上的那个水准来。”
这才让吕云有点儿欣慰。
能快人一步自然好,如果做不快,那就做得好吧。
……
几天之后,美国,西海岸,Nexus AI的办公室里。
CEO瑞恩再次把坤元1.1的实测报告看了一遍。
这已经是第三份报告了。
第一份来自产品团队,第二份来自研究团队,第三份来自外部社区数据汇总。
三份报告的结论基本一致。
坤元1.1的综合能力不错,但远远没有发布会表现出的压迫感。
尤其是中文复杂业务场景,它仍然有优势,却不是不可追赶的优势。
CTO约翰坐在会议桌另一侧,脸上的表情明显很放松。
“所以,发布会那天他们展示的到底是什么?”瑞恩问。
约翰摊了摊手:“可能是一个特殊版本,可能是过拟合了评测和演示场景,也可能是他们上线后做了安全收缩。总之,现在我们能测到的版本,不值得我们修改金星的发布节奏。”
他当时就说过了,估计是规则层调教过的,不是模型的原生能力。
现在可以证实了。
市场负责人迈克尔也松了一口气。
前几天看完鼎盛发布会,他是真的有点紧张。
如果中国大厂真的做出了一个极度理解中文业务场景的模型,再叠加鼎盛的渠道和客户资源,那会对Nexus AI的海外扩张和中国市场判断形成很大压力,再加上现在增长势头正猛的御风和Kaiwu海外版,Nexus AI的处境会很危险。
但现在看来,事情远远没有那么可怕。
中国互联网的舆论已经替他们完成了第一轮质疑。
“刷分造假”这个标签一旦贴上去,想撕下来就很难了。