韩路一提的方案完全在他的决策树之外,也完全在他能负责的范围之外。
“逻辑很简单,”韩路一说,“鼎盛有国内最强的算力集群,我们有最强的训练方法。钱可以找别人要,算力不好找第二家,所以我们想谈谈合作。”
程远也不笨,听的挺明白:不好找,不是不能找。
又他妈被他拿捏了。
刘大海在旁边保持沉默,这些事情不需要他参与,他现在满脑子都是赵文渊到底是怎么做到的。
“不急,”韩路一合上笔记本电脑,“这个方案你们可以回去讨论一下,原型我带走,但是数据我留下一份。如果还有演示的需要,我们也可以远程开放权限。”
他边说边站起来把电脑装进背包,赵文渊也跟着起身。
程远也知道一时半会谈不出东西了,几步跟上,送他们往外走。
从图灵厅到电梯口,大概四十步。程远走在韩路一左边,客套的几句收尾闲聊,他的语调跟来时完全不一样了。他现在脑子一团乱麻,想着要怎么跟郑晓波交代这事。
“韩总的方案很有意思,我一定第一时间传达。”
“不急,程总慢慢看。”
电梯到了,韩路一走进去转过身。
“期待回复。”
电梯门关上。
韩路一和赵文渊出了鼎盛大厦,看到张彪已经把车开出来停在门口了。
“彪哥。”
“怎么样?”张彪按了个键,侧边的滑动门自动打开。
韩路一坐上后座,系好安全带,嘴角上扬。
赵文渊坐在他旁边,表情比韩路一克制一点,但嘴角也压不住。
张彪从后视镜里看了一眼。
两个人的表情都不太正常。
“谈得不错?”张彪问。
“这个啊,”赵文渊考虑到张彪的理解水平,尽量往简单了说,“他们那个模型,七十八分。”
“嗯,那咱们呢?”
“咱们的啊,八十五点二。”
张彪想了想。
七十八,八十五。
差了七分?
满分一百的话,一个七十八,一个八十五,不都是八十分左右吗?
他从后视镜里又看了一眼后座。
韩路一和赵文渊都笑的很诡异。
张彪决定不问了。
“恭喜韩总。”他发动了车子。
车子驶上公路,下午的阳光从挡风玻璃照进来,照得人暖洋洋的。
韩路一闭上眼睛,让自己放松了几分钟。
这场仗的第一步,赢了!
……
图灵厅。
程远走出门,正在给郑晓波的秘书打电话。
刘大海还坐在原位,投影幕布还亮着坤元的演示界面。
好奇心太重,他的脑子里一直在头脑风暴。
他关掉投影,打开自己的笔记本电脑,新建了一个空白文档。
写技术分析。
标题只有一行
《汤圆模型-意图理解:可能的技术路径分析》
他开始打字,速度很快。
“7B参数,一万条训练数据,意图理解测试85.2分。”
“架构层面不可能是核心差异化因素,7B是主流开源架构的标准配置,没有足以解释七个百分点领先的架构创新空间。”
“RLHF和DPO同理,对齐策略最多贡献两到三个点。”
那就只有一个解释了。
光标闪了很久。
刘大海没有接着写。
程远这时走了回来:“刘博士,郑总让咱们明天上午去一趟,技术方面我不太懂,你准备一下?”
第一百四十二章 唯一的解释
十二月十六日,上午九点半。
鼎盛大厦四十九层,郑晓波办公室。
程远和刘大海并排坐在沙发上。程远穿了一身浅灰色的西装,膝盖上放着一个黑色文件夹。刘大海还是那件灰色连帽衫。
郑晓波坐在对面,桌上放了一个杯子,里面是依云矿泉水。
“说说吧,复盘一下。”
程远翻开文件夹。
“郑总,是我没做好,整个会议都没在我的节奏里。”
先把锅接下来。
郑晓波挑了挑眉,他没想到程远上来就认错。
程远翻到第一页做好标记的地方。
“刘博士先做了展示,他们的反应很平淡,然后直接给我和刘博士做了一个反向展示。”
他看了刘大海一眼。
“技术这方面我不太懂,具体的让刘博士来讲。”
刘大海没听出来这话的意思,老老实实接过话头:“我先给他们展示了坤元,然后他们掏出自己的模型,说是开源7B模型调整的,让我出题测测。测了三道题,我都是用坤元并行测的,都不是公开的测试题,他们的模型全面的比坤元表现好。”
“然后他们给我们看了跑分,意图理解这条,他们跑到了85.2分,咱们坤元是78。”
刘大海把这话说完,还是带点苦涩,任谁辛辛苦苦带着团队干了好几个月的成果被别人碾压也不会好受。
程远看锅甩干净了,赶紧接上:“但他不是来拒绝我们的,他自己带了一套方案,让鼎盛以GPU使用权折算投资,换股。”
潜台词是,他们的要求没在我的权限里,实在是没法谈,非战之罪。
郑晓波的眉毛微微一皱:“换谁的股?”
“这是关键,不是源码科技的,是一家新公司。他说他和赵文渊正在筹备,方向就是专门做通用基座模型。”
程远合上文件夹,两手搭在上面。
“公司名字没给,注册状态没给,团队架构没给。他只说了个「正在筹备」,要么是真没注册,要么是故意不让我们做尽调。”
郑晓波静静地看着程远,没有说话。
上周他站在落地窗前,觉得韩路一不知道天高地厚。
没想到,没有见识的反而是自己了。
“技术是真的吗?”郑晓波问。
作为鼎盛这样一个科技巨头的掌舵人,他不需要懂技术细节,但他要保持对技术边界的敏锐。
什么东西做的到,什么东西做不到,什么东西是真的,什么东西能作假这些是他的第一反应。
程远没回答,转头看向刘大海。
刘大海开口道:“我一开始也寻(xin)思过,但是应该是真的。”
郑晓波盯着他。
“有没有可能是在骗我们?”
刘大海摇头:“那不能够的,跑分能刷,但现场的测试是我出的题,这没法准备,而且那差距,咋说呢,老明显了。”
郑晓波往前探了探身。
“过拟合呢?”
刘大海愣了一下,没想到郑晓波会问出这么专业的问题。
“郑总之前了解过机器学习?”
“你就说有没有这个可能。”
过拟合不是在大模型时代才有的新概念了。
在机器学习里,数据会分成训练集和测试集。训练集用来教模型,测试集用来考模型。
但是你不能直接把训练集当测试集,因为模型会把答案背下来。
就像你想教一个小学生加法,教一加一,考一加一,你不知道他是背的还是真会了;教一加一,考二十三加十九,才能验证是不是真会了。
过拟合,就是模型把训练集的答案背下来了,测出来的分是虚高。
刘大海组织了一下语言,回答道:
“我也想过,不太能够。三道测试题来源完全不同,一道从鼎盛内部题库选的,一道我现场手打的,还有一道是我私人题库里最难的,内部都没几个人见过。而且三道题覆盖了三种不同类型的意图推断,他们全部精准命中。最后他们还展示了完整的基准数据,一千两百道题,十六个场景交叉验证,不是挑好的给我看的。”
“咋说呢,这个85.2,确实是实打实的。”
办公室安静了下来。
空调出风口的声音突然变得很清晰。
程远地下意识合上了文件夹,咽了口口水,然后尴尬的听见自己咽口水的声音怎么这么响。
刘大海盯着茶几上的花瓶,里面插着几枝干枯的棉花。
郑晓波的脸上还是古井无波,但他的手握在杯子上,既没有拿起来,也没有松开。
过了一会郑晓波才慢慢开口:“他是怎么做到的,你有想法吗?”
刘大海从背包里摸出笔记本电脑,走到郑晓波的办公桌前面,打开电脑,屏幕亮了。