第一百一十七章 平台期
十二月的海城已经开始冷了。
韩路一裹着羽绒服走进前滩中心的写字楼大堂,把工牌在闸机上刷了一下,“滴”的一声,闸门打开。
他走进电梯,十二楼的按钮已经亮了。
电梯里还有两个人,正在聊天,穿着跟他一样的工牌,但他不认识。
看到韩路一和张彪进来,两人停止交谈,其中一个看了他一眼,犹豫了一下,叫了声“韩总”,另一个也跟着打招呼:“韩总早啊”。
韩路一点了下头,打开视界看了看名字:”小牛,小杨,早啊。”
打完招呼,电梯里陷入了一阵尴尬的沉默,两人也不再聊天了。
韩路一确实不认识这两个人。公司已经招满了五十人,中间隔了一轮集中招聘,好几个新面孔他连名字都没对上号。飞书群里有每个员工的名字和头像,但他没来得及一个一个记下来。
十二楼到了,电梯门一开,走廊里已经有人了。
前台换了个人,上个月的实习生离职了,现在坐着一个娃娃脸的姑娘,见他来了站起来说“韩总早”。
茶水间排着三个人在等咖啡机,有人端着杯子在聊天。走廊尽头的大会议室拉着百叶帘,里面影影绰绰坐了一排人,不知道是哪个组在开晨会。
源码科技更像一家正经公司了。
飞书工作台上每天早上十点半会自动弹出一个提醒,“你今天最重要的工作是什么?”,每周五下午还会提醒每个人写”卡点同步”的文档。会议室要在系统上预约,超时十五分钟没到就自动释放。考勤制度是弹性的,上午十点前到就行,下午几点离开公司也会记录,虽然数据暂时没有用来计算绩效,但沈丛云说“先都记着”。
这些都是沈丛云搭起来的。
韩路一在心里对规范化所带来的大公司病有一种难言的抗拒,但他到现在还没有想出什么更好的办法来取代这些规范,于是一条一条的慢慢推进。
走到自己办公室门口的时候,手机震了一下。
是赵文渊的飞书信息:“到了吗?有进度汇报。”
韩路一回了一句”在办公室”,推门进去把羽绒服挂在衣架上,打开百叶帘。窗外是黄浦江,连续几天阴天,今天难得出太阳,江面上有光。
两分钟后赵文渊敲门进来了。
他今天没穿西装,穿了一件皮夹克,看起来像个摩托车骑士,手里抱着笔记本电脑,腋下夹着一个本子。他现在的工位在十三楼,模型团队独占了半层,招了十几个人之后坐不下了,上个月刚扩的。
“关门吗?”赵文渊问。
韩路一点点头。
赵文渊用脚后跟把门带上,在沙发上坐下来,打开笔记本,转过屏幕让韩路一看。
屏幕上是一张曲线图。
横轴是训练轮次,纵轴是准确率。五个点标在曲线上,第五个点的数字是
84.7%。
“第五轮微调训练跑完了,”赵文渊说,“初次生成准确率八十四点七。”
韩路一看着这个数字。
乾元最新公布的基准是85%。
只差0.3个百分点。
“演示看看。”
赵文渊点开几个测试用例,几个使用不同编程语言在不同应用场景下进行的代码生成,生成完之后再放进BugKiller扫一遍,看错误率。韩路一同时打开视界看了看模型直接生成的代码。
生成质量确实上了一个台阶。
但赵文渊的表情不像是来报喜的。
他翻到下一页,是一张更详细的曲线。五轮训练的提升幅度标得很清楚:第一轮上次会议分享过了,76.8;第二轮到第三轮,提了5个点;第三轮到第四轮,2.8个点;第四轮到第五轮,0.1个点。
曲线在快速变平。
“84.7已经是后训练能做到的极限了,”赵文渊说,“再往上走,就不是加数据加显卡能解决的问题了。”
韩路一看着那条曲线。
他想起上次开会的时候,赵文渊在会议室投屏上放的同一条S形曲线。当时的状况,准确率还处在Scaling Law的前半段。
数据点在曲线的极速上升阶段。
现在数据点走到高原了,大力出奇迹,这招在这不再好使了。
“也就是说,”韩路一的手点在办公桌上,“我们用开源底座做微调这条路,走到头了。”
“不是走到头了,是走到平台了。”赵文渊纠正他,“就像减肥,平台期是可以突破的,但是你得换一种方式才能突破。”
“什么方式?”
赵文渊合上笔记本,从腋下抽出那个本子。韩路一瞄了一眼,牛皮纸封面,上面用黑笔密密麻麻写了一堆英文缩写和箭头,像上学时候的笔记本。
赵文渊翻到其中一页,把本子摊在茶几上。
“三条路。”
他指着第一行。
“第一条,继续走RLHF,强化学习加人类反馈。”
RLHF,Reinforcement Learning from Human Feedback,强化学习加人类反馈。简单说,就是让真实用户来当裁判,用户觉得生成得好,模型记住;用户觉得不行,模型改。久而久之,模型就能学会“用户认为好的内容”。
韩路一没说话,等他往下讲。
“思路很简单,开物上线这几个月,真实用户的操作数据我们全都留着。用户觉得生成得好的,点了采纳;觉得不行的,手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型,然后用强化学习让天工去拟合这个奖励函数。”
“有别于之前我们基于BugKiller数据的反馈训练,这种训练可以让模型更加理解用户输入所对应的意图,这是超越Bug修复的部分,更偏向于语义理解。”
“成本呢?”
“标注基础设施加上奖励模型训练和迭代,大概五百到一千万,时间三到六个月。上限嘛,”赵文渊想了想,“估计能再提三到五个点,到八十八左右。”
“这个提升不算大。”
“在这个阶段每一点提升都很艰难,而且这条路的核心优势不在上限。”赵文渊说,“开物的真实用户行为数据,是我们独有的资产。别人花钱也买不到。”
韩路一点了下头。
“第二条,”赵文渊翻到下一页,“MoE,混合专家模型。”
MoE,Mixture of Experts,混合专家模型。不是把一个模型训得什么都会,而是训一群各有专长的小模型,遇到问题再决定派谁上。像一家公司,与其要求每个员工全能,不如让专业的人做专业的事。
“这个主要是架构层面的改变。不改基座,不改训练方法,改调用方式、推理方式。把一个大模型拆成多个专精的子模型一个擅长Python、一个擅长前端、一个擅长数据库。推理时根据任务类型自动路由到最合适的专家,同算力下效果更好,应该也能提三到五个点。”赵文渊接着说。
“成本?”韩路一问道。
“一千到两千万,架构要重写,模型要重训,时间四到八个月。”赵文渊说,“技术上挑战不算太大,成本主要是要调的模型多。但是需要补人,我们现在的团队在MoE方面没有经验,至少要招两到三个做过类似架构的人。”
“最后说第三条。”赵文渊又翻了一页,语气中有点儿兴奋是他作为科学家的兴奋。
第一百一十八章 第三条路
虽然没有明说,但赵文渊兴奋的语气让韩路一听出来,第三条是他最想走的路。
“自训基座模型。”
“现在市面上的开源底座,不够用了?”
“别人开源的底座本身,从我们现在的角度来看,有很多的优化空间。如果我们从零开始训练一个代码专用大模型,架构可以针对代码生成做优化上下文窗口、依赖追踪、多文件理解,全部可以从底层设计。这种方式上限最高,完全自主可控,首轮正确率有可能能做到九十以上。”
“成本也很高,对吧。”韩路一说。
“三千万人民币起步。”赵文渊说,“而且是每一次。如果跑飞了参数配错、数据有问题、损失不收敛,那就得推倒重来,又是三千万。”
韩路一暗自为这个数字咋舌。
这就是那种,你心里早就知道它贵,真听到数字还是会感慨:真他妈的贵。
赵文渊看了他一眼,继续说:“这个方案预估时间六到十二个月,风险极高,但是如果成了”
他没把话说完。
不需要说完。如果成了,天工就不只是微调模型,源码在AI时代就有了核心竞争力,这是谁也拿不走的王牌。
自己的模型。
自己的底座。
自己的护城河。
这一刻,韩路一其实比谁都清楚,这就是他最想要的东西。
因为 AI这个行业,本质上是飞轮型竞争。
越早进场,越早积累数据,越早迭代模型,越早建立产品闭环,就越容易把后面的人甩开。
领先者不是领先一步。
而是一步之后,还能借这一小步,再滚出下一步、下下一步。
飞轮一旦转起来,后面的人想追,除非前面的人自己犯错。
韩路一看着窗外的江面,心里很清楚:
这条路,越早开始越好。
但是,自研模型是个无底洞,究竟能不能成,没人知道。
三条路,三个价格。
五百万、一千万、三千万。
最后一条路是三千万,每次。
韩路一沉默了一会儿。
赵文渊没催。
韩路一站起来走到窗边,太阳照在江面上,亮得有点晃眼。
他在想的不是技术,技术的部分赵文渊已经足够好了,即使他用视界辅助他自己自学的大模型知识,相比赵文渊的水平也高不出太多。赵文渊的研究水平是业内领先的,他信任视界在这方面的判断。
他想,现在的困境是钱。
A轮融了两个亿,但花钱的速度远超预期。团队扩张到五十人,薪资开支翻了快十倍,尤其是模型组,每个人都很贵;服务器成本每个月都在涨,开物的免费用户越多,推理成本就越高。和青岳云签了不限量的年框协议,但问题是云服务商的资源也不是无限的,尤其是GPU,用量上来了之后高峰时段会不够用,开物团队已经在做高峰时段分流到其他服务商的改进了。
而收入端,千帆白标接入开物API才刚刚起步,能提供一个很好的助力,加上开物用户暴涨,BugKiller的收入也在稳定增长,财务情况看起来还算健康,但这是从运营的角度上来说。
想训练自有模型,那是远远不够的。
源码科技在做应用这条路上已经走的很好了。转型做模型,是一个艰难的决定。
“这三条路,”韩路一转过身来,“你个人倾向哪条?”
“你问我个人?”赵文渊说,“当然是自主训练。”
他没有解释为什么,也不需要解释,这是作为研究者的追求。
“但我知道,”赵文渊接着说,“这不是技术问题。”
韩路一拿出手机,看了一下日程软件。
一会儿和陆明洲有个财务数据的对齐会,聊完之后,对财务状况会有更直观的了解。接下来怎么走,还是先看兜里有多少钱再说。