首富从AI浪潮开始第98节_都市

第一百一十七章平台期

　　十二月的海城已经开始冷了。

　　韩路一裹着羽绒服走进前滩中心的写字楼大堂，把工牌在闸机上刷了一下，“滴”的一声，闸门打开。

　　他走进电梯，十二楼的按钮已经亮了。

　　电梯里还有两个人，正在聊天，穿着跟他一样的工牌，但他不认识。

　　看到韩路一和张彪进来，两人停止交谈，其中一个看了他一眼，犹豫了一下，叫了声“韩总”，另一个也跟着打招呼：“韩总早啊”。

　　韩路一点了下头，打开视界看了看名字：”小牛，小杨，早啊。”

　　打完招呼，电梯里陷入了一阵尴尬的沉默，两人也不再聊天了。

　　韩路一确实不认识这两个人。公司已经招满了五十人，中间隔了一轮集中招聘，好几个新面孔他连名字都没对上号。飞书群里有每个员工的名字和头像，但他没来得及一个一个记下来。

　　十二楼到了，电梯门一开，走廊里已经有人了。

　　前台换了个人，上个月的实习生离职了，现在坐着一个娃娃脸的姑娘，见他来了站起来说“韩总早”。

　　茶水间排着三个人在等咖啡机，有人端着杯子在聊天。走廊尽头的大会议室拉着百叶帘，里面影影绰绰坐了一排人，不知道是哪个组在开晨会。

　　源码科技更像一家正经公司了。

　　飞书工作台上每天早上十点半会自动弹出一个提醒，“你今天最重要的工作是什么？”，每周五下午还会提醒每个人写”卡点同步”的文档。会议室要在系统上预约，超时十五分钟没到就自动释放。考勤制度是弹性的，上午十点前到就行，下午几点离开公司也会记录，虽然数据暂时没有用来计算绩效，但沈丛云说“先都记着”。

　　这些都是沈丛云搭起来的。

　　韩路一在心里对规范化所带来的大公司病有一种难言的抗拒，但他到现在还没有想出什么更好的办法来取代这些规范，于是一条一条的慢慢推进。

　　走到自己办公室门口的时候，手机震了一下。

　　是赵文渊的飞书信息：“到了吗？有进度汇报。”

　　韩路一回了一句”在办公室”，推门进去把羽绒服挂在衣架上，打开百叶帘。窗外是黄浦江，连续几天阴天，今天难得出太阳，江面上有光。

　　两分钟后赵文渊敲门进来了。

　　他今天没穿西装，穿了一件皮夹克，看起来像个摩托车骑士，手里抱着笔记本电脑，腋下夹着一个本子。他现在的工位在十三楼，模型团队独占了半层，招了十几个人之后坐不下了，上个月刚扩的。

　　“关门吗？”赵文渊问。

　　韩路一点点头。

　　赵文渊用脚后跟把门带上，在沙发上坐下来，打开笔记本，转过屏幕让韩路一看。

　　屏幕上是一张曲线图。

　　横轴是训练轮次，纵轴是准确率。五个点标在曲线上，第五个点的数字是

　　84.7%。

　　“第五轮微调训练跑完了，”赵文渊说，“初次生成准确率八十四点七。”

　　韩路一看着这个数字。

　　乾元最新公布的基准是85%。

　　只差0.3个百分点。

　　“演示看看。”

　　赵文渊点开几个测试用例，几个使用不同编程语言在不同应用场景下进行的代码生成，生成完之后再放进BugKiller扫一遍，看错误率。韩路一同时打开视界看了看模型直接生成的代码。

　　生成质量确实上了一个台阶。

　　但赵文渊的表情不像是来报喜的。

　　他翻到下一页，是一张更详细的曲线。五轮训练的提升幅度标得很清楚：第一轮上次会议分享过了，76.8；第二轮到第三轮，提了5个点；第三轮到第四轮，2.8个点；第四轮到第五轮，0.1个点。

　　曲线在快速变平。

　　“84.7已经是后训练能做到的极限了，”赵文渊说，“再往上走，就不是加数据加显卡能解决的问题了。”

　　韩路一看着那条曲线。

　　他想起上次开会的时候，赵文渊在会议室投屏上放的同一条S形曲线。当时的状况，准确率还处在Scaling Law的前半段。

　　数据点在曲线的极速上升阶段。

　　现在数据点走到高原了，大力出奇迹，这招在这不再好使了。

　　“也就是说，”韩路一的手点在办公桌上，“我们用开源底座做微调这条路，走到头了。”

　　“不是走到头了，是走到平台了。”赵文渊纠正他，“就像减肥，平台期是可以突破的，但是你得换一种方式才能突破。”

　　“什么方式？”

　　赵文渊合上笔记本，从腋下抽出那个本子。韩路一瞄了一眼，牛皮纸封面，上面用黑笔密密麻麻写了一堆英文缩写和箭头，像上学时候的笔记本。

　　赵文渊翻到其中一页，把本子摊在茶几上。

　　“三条路。”

　　他指着第一行。

　　“第一条，继续走RLHF，强化学习加人类反馈。”

　　RLHF，Reinforcement Learning from Human Feedback，强化学习加人类反馈。简单说，就是让真实用户来当裁判，用户觉得生成得好，模型记住；用户觉得不行，模型改。久而久之，模型就能学会“用户认为好的内容”。

　　韩路一没说话，等他往下讲。

　　“思路很简单，开物上线这几个月，真实用户的操作数据我们全都留着。用户觉得生成得好的，点了采纳；觉得不行的，手动改了或者重新生成。这些行为本身就是最好的反馈信号。用这些数据训一个奖励模型，然后用强化学习让天工去拟合这个奖励函数。”

　　“有别于之前我们基于BugKiller数据的反馈训练，这种训练可以让模型更加理解用户输入所对应的意图，这是超越Bug修复的部分，更偏向于语义理解。”

　　“成本呢？”

　　“标注基础设施加上奖励模型训练和迭代，大概五百到一千万，时间三到六个月。上限嘛，”赵文渊想了想，“估计能再提三到五个点，到八十八左右。”

　　“这个提升不算大。”

　　“在这个阶段每一点提升都很艰难，而且这条路的核心优势不在上限。”赵文渊说，“开物的真实用户行为数据，是我们独有的资产。别人花钱也买不到。”

　　韩路一点了下头。

　　“第二条，”赵文渊翻到下一页，“MoE，混合专家模型。”

　　MoE，Mixture of Experts，混合专家模型。不是把一个模型训得什么都会，而是训一群各有专长的小模型，遇到问题再决定派谁上。像一家公司，与其要求每个员工全能，不如让专业的人做专业的事。

　　“这个主要是架构层面的改变。不改基座，不改训练方法，改调用方式、推理方式。把一个大模型拆成多个专精的子模型一个擅长Python、一个擅长前端、一个擅长数据库。推理时根据任务类型自动路由到最合适的专家，同算力下效果更好，应该也能提三到五个点。”赵文渊接着说。

　　“成本？”韩路一问道。

　　“一千到两千万，架构要重写，模型要重训，时间四到八个月。”赵文渊说，“技术上挑战不算太大，成本主要是要调的模型多。但是需要补人，我们现在的团队在MoE方面没有经验，至少要招两到三个做过类似架构的人。”

　　“最后说第三条。”赵文渊又翻了一页，语气中有点儿兴奋是他作为科学家的兴奋。

第一百一十八章第三条路

　　虽然没有明说，但赵文渊兴奋的语气让韩路一听出来，第三条是他最想走的路。

　　“自训基座模型。”

　　“现在市面上的开源底座，不够用了？”

　　“别人开源的底座本身，从我们现在的角度来看，有很多的优化空间。如果我们从零开始训练一个代码专用大模型，架构可以针对代码生成做优化上下文窗口、依赖追踪、多文件理解，全部可以从底层设计。这种方式上限最高，完全自主可控，首轮正确率有可能能做到九十以上。”

　　“成本也很高，对吧。”韩路一说。

　　“三千万人民币起步。”赵文渊说，“而且是每一次。如果跑飞了参数配错、数据有问题、损失不收敛，那就得推倒重来，又是三千万。”

　　韩路一暗自为这个数字咋舌。

　　这就是那种，你心里早就知道它贵，真听到数字还是会感慨：真他妈的贵。

　　赵文渊看了他一眼，继续说：“这个方案预估时间六到十二个月，风险极高，但是如果成了”

　　他没把话说完。

　　不需要说完。如果成了，天工就不只是微调模型，源码在AI时代就有了核心竞争力，这是谁也拿不走的王牌。

　　自己的模型。

　　自己的底座。

　　自己的护城河。

　　这一刻，韩路一其实比谁都清楚，这就是他最想要的东西。

　　因为 AI这个行业，本质上是飞轮型竞争。

　　越早进场，越早积累数据，越早迭代模型，越早建立产品闭环，就越容易把后面的人甩开。

　　领先者不是领先一步。

　　而是一步之后，还能借这一小步，再滚出下一步、下下一步。

　　飞轮一旦转起来，后面的人想追，除非前面的人自己犯错。

　　韩路一看着窗外的江面，心里很清楚：

　　这条路，越早开始越好。

　　但是，自研模型是个无底洞，究竟能不能成，没人知道。

　　三条路，三个价格。

　　五百万、一千万、三千万。

　　最后一条路是三千万，每次。

　　韩路一沉默了一会儿。

　　赵文渊没催。

　　韩路一站起来走到窗边，太阳照在江面上，亮得有点晃眼。

　　他在想的不是技术，技术的部分赵文渊已经足够好了，即使他用视界辅助他自己自学的大模型知识，相比赵文渊的水平也高不出太多。赵文渊的研究水平是业内领先的，他信任视界在这方面的判断。

　　他想，现在的困境是钱。

　　A轮融了两个亿，但花钱的速度远超预期。团队扩张到五十人，薪资开支翻了快十倍，尤其是模型组，每个人都很贵；服务器成本每个月都在涨，开物的免费用户越多，推理成本就越高。和青岳云签了不限量的年框协议，但问题是云服务商的资源也不是无限的，尤其是GPU，用量上来了之后高峰时段会不够用，开物团队已经在做高峰时段分流到其他服务商的改进了。

　　而收入端，千帆白标接入开物API才刚刚起步，能提供一个很好的助力，加上开物用户暴涨，BugKiller的收入也在稳定增长，财务情况看起来还算健康，但这是从运营的角度上来说。

　　想训练自有模型，那是远远不够的。

　　源码科技在做应用这条路上已经走的很好了。转型做模型，是一个艰难的决定。

　　“这三条路，”韩路一转过身来，“你个人倾向哪条？”

　　“你问我个人？”赵文渊说，“当然是自主训练。”

　　他没有解释为什么，也不需要解释，这是作为研究者的追求。

　　“但我知道，”赵文渊接着说，“这不是技术问题。”

　　韩路一拿出手机，看了一下日程软件。

　　一会儿和陆明洲有个财务数据的对齐会，聊完之后，对财务状况会有更直观的了解。接下来怎么走，还是先看兜里有多少钱再说。

首富从AI浪潮开始 第98节

推荐阅读

首富从AI浪潮开始第98节