电梯门合上,周涵的笑容被挡在门里。
面对着紧闭的电梯门,韩路一脸上的笑意慢慢淡了下来。
顾司走到他旁边,看到他的脸色,问道:“怎么了?”
“没什么。”韩路一说,“有点儿累。”
顾司淡淡地说:“习惯就好了。”
韩路一闭上眼睛:“是啊,习惯就好了。”
这几天几次交锋下来,在周涵展现了她的热情与獠牙之后,韩路一看清楚了一件事。
像周涵这种人,既不是人们口中说的贵人,也不是简单意义上的坏人。
她可以笑着表示欣赏你,也会在谈判时毫不留情地试探你。
她帮你,不代表她是你的盟友。
她为难你,也不代表她是你的敌人。
她,他们,都只是政治动物。
这些人之间的利益关系错综复杂,还是多看多听,少说为妙。
韩路一轻轻的出了一口气。
周五晚上,韩路一坐在飞往虹桥的飞机上,在心里回顾了一下在京城这几天的收获。
他本来是带着破釜沉舟的心态来的,没想到不仅拿到了弘远的投资,估值比之前议定还高。
更重要的是,同时接触到了国网投资和战新基金这两条线。
韩路一想起那天在弘远,贺云深私底下跟他说过一句话:“资本只是入场券,资源才是硬通货。”
那时他的感受还不深刻,现在他懂了。
钱,贺云深给了。场景和电力,周涵给了。
以后战新基金那边如果也能谈下来,源智科技手里的牌,就不是一个创业公司该有的了。
有了这些资源,源智科技距离韩路一规划中的下一阶段拥有自己的数据中心,拥有独立自主的训练资源已经大大缩短了。
然而,即使有视界的帮忙,和那些老狐狸们勾心斗角,也让他深深地感到疲惫。
他甚至有点心生敬佩。
那些没有视界的人,每天生活在这样的漩涡里,还能保持清醒,还能往前走。多不容易。
旁边,顾司正在看手机。
机舱的光线很暗,她的侧脸被屏幕映出一点冷白色。
“回去有什么安排?”韩路一问。
顾司回头看了他一眼。
“韩总,为了你这次签约,我已经出差三天了,手头的案子堆成山,周末怕是要一直加班了。”
“是是。”韩路一笑着说,“辛苦顾大律师了。”
顾司把头转过去,不看他:“现在不是工作时间。”
韩路一听完一愣,随即反应过来。
不是工作时间,所以也别叫顾大律师。
他笑了笑,没有继续说话,而是闭上眼睛,开始期待起汤圆的训练进度来。
赵文渊回海城后,他还没有来得及仔细跟进过。
但他知道进度应该不错。
因为视界的经验值,已经从百分之十涨到了百分之十五。
这说明汤圆的训练正在给视界带来新的反馈。
也说明他的判断没有错。
大模型这条路,真的和视界存在某种深层关联。
韩路一靠在椅背上,心情放松了一点。
京城之旅结束了,终于要回海城了。
……
然而此时此刻,坐在办公室里的赵文渊,心情并不美丽。
不是因为汤圆的预训练。
恰恰相反,汤圆的预训练进展得很顺利。
业内关于预训练的策略已经很成熟了。赵文渊回海城之后,连续读了几篇论文,又用小数据集调整了一下具体的训练策略和参数,确认损失曲线没有明显问题之后,就正式在鼎盛的集群上全量开跑。
从那一刻开始,这件事就进入了真正的水磨功夫。一次训练开始,往往就是几十天不能停机。
成百上千张高算力显卡组成一个集群,海量数据被切分、打包、送入模型。
每一秒,都有无数矩阵计算在显卡之间传输。
每隔一段时间,还要对中间结果进行快照,防止因为偶发故障导致数据丢失。
快照不能太频繁,太频繁会拖慢训练效率。也不能间隔太长,间隔太长的话,一旦集群故障,前面几个小时甚至几天的训练都有可能白跑。
这里面涉及的资金需求、工程能力、集群调度、故障恢复,不是小公司能轻易负担的。
这也是为什么赵文渊一直说,大模型不是谁都玩得起。
没有足够的算力,连牌桌都上不了。
而没有足够强的工程团队,即使上了牌桌也没用,只会被自己的训练任务拖死。
像这次源智科技和鼎盛签了合作协议,赵文渊拿到的是一个特殊设置过的账号。
这个账号有鼎盛云内部权限,可以调用专门用于大模型训练的GPU集群。这种GPU集群在鼎盛云,乃至各家云服务提供商那里,根本就不是普通客户打开网页、充值余额就能买到的服务。
有钱你也买不到。
所以韩路一能拿到鼎盛的算力,的确是走了一条大大的捷径。
赵文渊承认这一点,但他也很不爽,因为他们还得防着鼎盛偷标注数据。
这一轮训练出来的汤圆,只能是“残血版”。
最核心、最值钱、最能体现源智科技优势的那部分数据,赵文渊根本不敢往鼎盛的集群里放。
就像一个特级厨师终于借到了顶级厨房,却只能把最精华的调料藏起来,用一半的配方做菜。
这怎么可能做出发光的料理呢?
不过,这些都不是赵文渊现在最烦的。
真正让他烦躁的,是韩路一从京城回来之前,给他下的新任务研究国产显卡的适配。
离开京城的时候,赵文渊兴奋的上了飞机。
甚至可以说是热血上头。
国产算力、自主可控、摆脱海外GPU生态,让大规模大模型训练和推理在国产显卡上成为可能。
这几个关键词一拎出来,就能让技术人心跳加速热血沸腾。
赵文渊甚至在飞机上就建了个文档,列了好几页的计划。
《汤圆模型国产算力适配路线图》
然后赵文渊一下飞机,连家都没回,直接拖着行李箱去了办公室。
他接了一杯咖啡放在桌上,打开电脑,挽起袖子,就准备扯断套在国产显卡上的生态枷锁。
结果,赵文渊一头撞在了墙上。
不,甚至不能说是一堵墙
那简直是一座山。
CUDA生态困境,这个当年在谷歌折磨他的噩梦,这次又以更可怕的姿态出现了。
在普通人眼里,显卡就是显卡,国外显卡能算,国产显卡也能算,无非就是性能高点或者低点。
但对做AI大模型的人来说,显卡可不是一块单独的硬件,它背后是一整套生态。
最底层是驱动,驱动之上是运行时,运行时之上是编程模型,编程模型之上是算子库、通信库、编译器、调试器、性能分析工具。
再往上,才是PyTorch、TensorFlow、JAX这些训练框架。
而大模型训练,又站在这些框架之上,调用各种高度优化过的算子和分布式训练能力。
英伟达的CUDA生态就像是一座已经修建了十几年的超级城市,水电消防医院等等基础设施都已经运转了好多年了。
而训练大模型就像在这个城市里举办一场大型的体育赛事。
数十万的游客涌进来,对整个城市的承载能力都是巨大的考验。但因为是超级城市,所以在精心调度之下,还能做的到。
而换成别的生态呢?你在大城市旁边的小镇,说我能不能也开个世界杯啊?
当然可以试试,但这不是叫两个足球队过来踢球那么简单,这个小镇从地下管网到商业生态都得重建一遍,等到它也成了超级城市了,就可以了。
更要命的是,全世界的人都已经习惯了这个老城市的规矩了。他们写代码的时候默认CUDA可以调用,默认用的是英伟达的显卡,论文上说的也都是在英伟达上才能跑通的用例。
不用英伟达?那你自己试试吧。
本来能跑的代码,把CUDA的依赖删掉,一下冒出一千个错误来,修完了第一个错误,又冒出一千个来。
模型能跑,不代表能跑的快;小模型能跑,不代表大模型能跑;单卡能跑,不代表多卡能跑;多卡能跑,不代表千卡集群能稳定训练几十天。
而大模型最可怕的地方就在这里,它不是“能跑”就算成功,它还必须稳定、必须高效、必须鲁棒。
必须能在极端昂贵的算力成本下,把每一张卡的利用率压到足够高。
否则你花同样的钱,别人训练一个月,你训练三个月。别人烧一千万,你烧三千万。
最后模型效果还不一定赶得上。
赵文渊潜心研究了两天,越研究,脸色越难看。最大的困难不是技术上完全不可行。恰恰相反,很多东西理论上都有办法做。
最大的问题是,工程量太大了。
这不是一个天才程序员闭关三个月就能解决的问题。
这是业内十多年、无数公司、无数开发者、无数论文、无数开源项目共同堆起来的生态。
这就像愚公移山,别说是赵文渊一个人,别说是源码科技模型组的这点人,就算韩路一给他几百人的开发团队,花个几年时间,可能也就能把最核心的部分做一个可用版本。
这现实吗?
不现实。
赵文渊狠狠的抓了抓头发,然后看着自己抓掉的头发,又心疼的摸了摸。
他打开微信,找到一个在谷歌工作时的华人同事。
那个同事当年给TPU做过适配工作。谷歌自研芯片加自研框架的路线,面临的是一样的困境,只是他们当年砸钱砸出来了。