这个问题很直接,也很尖锐,直指核心。
“撑不住。”他很坦然,“天工在英文场景确实有天花板,这一点你比我清楚。但这恰好说明了我的判断,模型不是源码科技的壁垒,产品才是。如果有更好的模型出现,源码科技的产品就会接入更好的模型。天工是开物目前最好的选择,但源码科技没有这种傲慢,不会绑定在任何一个模型上。”
瑞恩点了一下头,但没有放过这个话题。
“所以你的意思是,源码永远做应用层,模型永远用别人的?”
韩路一摇了摇头,竖起一根手指。
“不是「永远用别人的」,而是模型本身并不是竞争的终局。”
“几年前,世界上只有一个顶级的基座模型,就是GPT-3。现在这个数量是五六个,明年可能会有十几个,而且差距在迅速缩小。”
“当基础设施变成大宗商品的时候,价值就会往上层移动。”
“这个论断恐怕我不能完全同意。”瑞恩说,“模型可不是光纤。”
“我这样判断,”韩路一从容不迫,“自然有我的依据。”
瑞恩做了个请的手势,示意他继续。
“互联网早期就是这样。”韩路一一边说一边打开视界确认一些数据,有数据才能更让人相信他做过研究。
“九十年代末,华尔街最疯狂的钱全砸在基础设施上:光纤、路由器、交换机。美国电话电报公司(AT&T)花了一千多亿美元收购有线电视网络,环球电讯(Global Crossing)铺海底光缆一铺就是几十亿,当时最大的共识就是:谁拥有管道,谁就拥有互联网。”
他伸出手比了一个五。
“2000年3月,思科(Cisco),一家卖路由器和交换机的公司,市值超过微软,成了全球市值最高的公司。五千五百亿美元。那一年全球电信行业累计融资超过一万五千亿美元。”
“做网站的呢?估值也很疯。Amazon巅峰时三百多亿,雅虎一千两百多亿。但华尔街的逻辑是这些公司能值钱,是因为底下有人在铺管道。管道才是真正的资产。”
瑞恩看着屏幕,没有打断。
他知道后面发生了什么,但他的思绪被韩路一的逻辑带了进来。
“人们都说2000年的泡沫是互联网泡沫(dot com bubble),在我看来,那是网络服务商的泡沫(ISP bubble)。”
“现在回头看,应用层的所谓泡沫只是时间错配。亚马逊当年三百亿美元的市值放到两万五千亿美元的今天来看简直是白送。真正破灭了再也没回来的,是基础设施那边。”
“3月之后泡沫破裂,世通公司(WorldCom)造假破产,一千零七十亿美元资产灰飞烟灭;环球电讯破产,几十家电信公司倒闭。”
“但废墟清完之后,活下来的是谁?铺管道的那些公司,倒了就没再起来。反观做应用层的企业,亚马逊市值跌去百分之九十之后涅重生,谷歌在泡沫最低谷的时候开始盈利,脸书(Facebook)在别人铺好的光纤上面野蛮生长。今天全球市值最高的十家公司,基本全是应用层。思科呢?二十五年过去了,市值两千多亿美元,还没回到巅峰的一半。”
“现在再看,苹果、微软、谷歌、亚马逊、Meta,五家应用层公司市值加起来超过十万亿美元。全球所有电信运营商和设备商加在一起,两万亿出头。五比一,管道变成了公用事业,价值全在上面的应用层。”
“今天也一样,基座模型很重要,但最大的价值空间在应用层。”
“这是我的判断。”
韩路一总结道,然后看向屏幕里的瑞恩。
瑞恩沉默了一会,终于开口:“AI模型跟网络服务商不一样。网络服务商没有飞轮效应,但模型有,用的人越多,数据越多,模型越好。”
“你说得对。”韩路一说,“但飞轮不是一个新概念。这个概念在应用层已经应用了很多年了。用户行为数据越多,产品闭环越紧,体验越好,用户越多。这个飞轮一旦转起来,底层的模型是可以换的,但上面的用户习惯和用户认可,换不了。”
他看着屏幕里的瑞恩。
“谁能把模型的能力翻译成用户真正需要的东西,谁就拿走了价值。不是谁的模型最大,而是谁最懂用户。你们在基础设施上的优势很明确,我不会拿源码的资源去做没有优势的事。在应用层把产品体验做到极致,让每一个不懂技术的人都能用AI解决自己的问题这才是源码要做的事。”
这话说的很有攻击性,直白一点:你做模型只是给我提供服务,我做应用才是走在正确的路上。
如果韩路一真的这么想,他可能反而不敢这么说。但正因为他知道瑞恩心里有不同的判断,才要用这段话让他放松警惕。
瑞恩在画面中再次陷入了沉默,像卡了一样。
“这真是一个好答案。”瑞恩终于开口了。
他不认可韩路一的判断,但韩路一的逻辑是完全自洽的,说明他不是为了敷衍随口一说,而是真的认真思考过这件事。
这一席对话的收获超过他的预期。
首先,能证实源码科技的CEO真的和他判断的方向不一样,没有威胁,合作起来更放心。
其次,这种思考的深度和广度本身,也代表了一个CEO的能力。
找合作伙伴,他当然倾向于找一个能力强的。
“我欣赏你的思考,但有件事我必须分享。”
瑞恩取消了屏幕共享,直接看着镜头。
“自动化工作流这个方向,不只是我们在做。我有消息,谷歌上周内部公布了一个类似的项目,我不知道代号,但内容跟我们展示的方向几乎一致。Meta也在这方面布局。”
“是不是要做已经不是问题了,谁先做到,才是真的问题。”
他停顿了一下。
“时间很紧。”
“如果想要合作,一个月内可以基于我们的模型发布开物的海外版,本地化、合规,尽快把用户增长跑到有意义的规模。同时双方合作开发自动化工作流的产品,尽快上市。”
“但如果源码想自己做通用模型”瑞恩的语气没变,“你们至少需要投入十亿美金,一年时间可能更多。”
可能是更多的时间,也可能是更多的钱。
韩路一听到这,知道瑞恩理所当然地认为,源码要想突破天花板,下一步就该往通用方向走。
这个判断跟韩路一正在做的事情指向同一个方向。
只不过瑞恩以为韩路一不会选他不知道赵文渊已经在训练原型了。
“谢谢你,瑞恩。”韩路一用标准商务英语收尾,“这是一个很有建设性的对话,我们需要在内部做一轮评估,创始团队对齐之后会给你答复。”
“当然,理解,不用急。”瑞恩笑着点头,然后补了一句,“不过不管你们是否同意,我们的节奏都不会慢下来。”
你这不是很急吗?
“期待你的消息,Louis。”
“我也是,期待下次谈话。”
画面一黑。
会议室突然安静得不太习惯,之前屏幕那头持续了将近一个小时的环境声全部消失,只剩中央空调送风的细响。
苏念念转头看向韩路一:“你真的是这么想的?”
韩路一哈哈一笑,肩膀松弛了下来,转头看向苏念念。
“当然是骗他的。怎么,你也相信啦?”
第一百三十四章 远超预期
两人来到韩路一的办公室,正准备就刚才的视频会议,谈谈应对策略。
这时,门外传来了急促的敲门声。
“韩总,在吗?”
是赵文渊的声音。
韩路一和苏念念对视了一眼。
韩路一走过去把门打开,赵文渊手里抱着笔记本电脑,一脸兴奋。
“韩总!真神了!”他一边说一边走进来,才突然注意到苏念念也在房间里,一愣。
随即他的表情放松下来,把笔记本电脑放在办公桌上。
“正好,苏总你也在,一起看看。”赵文渊说道,“第一轮训练的结果出来了。”
他翻开屏幕,手指在触控板上快速滑动,调出一个表格。
“先看基础数据。”赵文渊切到第一页,“7B的开源基座微调,参数量不到GPT-4的二十分之一。知识问答、逻辑推理、数学计算、代码生成,常规指标在同量级模型里中游偏上,没有惊喜。7B就是7B,没法跟几百B的大家伙比。”
他看了韩路一一眼,期待着他的反应。
“重点在下一页。”
赵文渊翻到第二页。
屏幕上是一张柱状图。横轴排列着十几个模型的名字,纵轴是分数。
韩路一认出了几个:GPT、Mercury、Gemini。
这些名字旁边的柱子高度差不多,分数集中在71到78之间。
最右边有一根单独的浅蓝色柱子,明显高出一截。
模型名称是PX-7B-post_trained-v0.1。
顶端的数字是83.7。
“意图理解维度的评测结果。”赵文渊的声音压低了,语速却很快。“评测集用的是IFEval标准框架加上我自己设计的深层意图还原测试,一共一千二百道题,覆盖十六个垂直场景。”
他拿手指点了点那根浅蓝色的柱子。
“83.7,断层领先。”
“第二名,GPT,78.2。”
“第三名,Gemini,76.9。”
韩路一自己看了一下 Mercury 3.1就是刚才瑞恩展示的那个,得分是74.8。
办公室安静了三秒钟。
韩路一没有说话。苏念念也没有。
“我跑了三遍验证。”赵文渊说。“第一遍以为评测代码写错了。第二遍换了评测框架,分数不同,但是结果排序一样。第三遍打乱评测集做交叉验证,误差在0.3个点以内。”
他往后翻了一页。屏幕上是具体的案例对比左列是用户输入,中间是各模型的理解结果,右列是标注的真实意图。
赵文渊翻了几页案例对比,没有逐条讲解,但每一页停留的时间特意拉长了一些,像是在确认韩路一和苏念念有没有跟上。
韩路一跟上了。
意图理解,简单来说,就是模型能不能读懂用户真正想要什么。用户打字输入的内容是表面,表面之下是处境、是约束、是没说出口的真实需求。绝大多数模型在做的事情是理解字面意思,然后给出一个正确但泛泛的回答。而PX-7B做到的,是从同样的输入中读出字面背后那个具体的人。
这是一个极其困难的任务。参数量大十倍的模型都未必做得好,因为它考验的不是知识储备,而是对人的理解。
赵文渊合上案例页,回到那张柱状图。
赵文渊郑重说出了这句话。
“韩总,我做这行这么多年了,从来没见过一个7B的东西能在任何单项维度上打赢GPT-4,从来没有。”
“而且这才是第一轮,只跑了几个epoch,超参数都没调到最优。在这个基础上再调试几轮,还有上升的空间。”
苏念念一直没说话,这时候才轻轻开口说了一句:“意图理解……这不就是开物一直想做的事吗?”
韩路一点了点头,心里好像都松了一些。
视哥,给力!
沉思了一下,韩路一问了一个问题。
“如果有十万条这种精度的数据呢?”
赵文渊仰起头,对着天花板想了一会儿。
“十万条这种精度的标注,”他慢慢说,“理论上足够在70B甚至更大的基座上把意图理解能力拉到当前行业天花板,之上。”