首富从AI浪潮开始第161节_都市

　　电梯门合上，周涵的笑容被挡在门里。

　　面对着紧闭的电梯门，韩路一脸上的笑意慢慢淡了下来。

　　顾司走到他旁边，看到他的脸色，问道：“怎么了？”

　　“没什么。”韩路一说，“有点儿累。”

　　顾司淡淡地说：“习惯就好了。”

　　韩路一闭上眼睛：“是啊，习惯就好了。”

　　这几天几次交锋下来，在周涵展现了她的热情与獠牙之后，韩路一看清楚了一件事。

　　像周涵这种人，既不是人们口中说的贵人，也不是简单意义上的坏人。

　　她可以笑着表示欣赏你，也会在谈判时毫不留情地试探你。

　　她帮你，不代表她是你的盟友。

　　她为难你，也不代表她是你的敌人。

　　她，他们，都只是政治动物。

　　这些人之间的利益关系错综复杂，还是多看多听，少说为妙。

　　韩路一轻轻的出了一口气。

　　周五晚上，韩路一坐在飞往虹桥的飞机上，在心里回顾了一下在京城这几天的收获。

　　他本来是带着破釜沉舟的心态来的，没想到不仅拿到了弘远的投资，估值比之前议定还高。

　　更重要的是，同时接触到了国网投资和战新基金这两条线。

　　韩路一想起那天在弘远，贺云深私底下跟他说过一句话：“资本只是入场券，资源才是硬通货。”

　　那时他的感受还不深刻，现在他懂了。

　　钱，贺云深给了。场景和电力，周涵给了。

　　以后战新基金那边如果也能谈下来，源智科技手里的牌，就不是一个创业公司该有的了。

　　有了这些资源，源智科技距离韩路一规划中的下一阶段拥有自己的数据中心，拥有独立自主的训练资源已经大大缩短了。

　　然而，即使有视界的帮忙，和那些老狐狸们勾心斗角，也让他深深地感到疲惫。

　　他甚至有点心生敬佩。

　　那些没有视界的人，每天生活在这样的漩涡里，还能保持清醒，还能往前走。多不容易。

　　旁边，顾司正在看手机。

　　机舱的光线很暗，她的侧脸被屏幕映出一点冷白色。

　　“回去有什么安排？”韩路一问。

　　顾司回头看了他一眼。

　　“韩总，为了你这次签约，我已经出差三天了，手头的案子堆成山，周末怕是要一直加班了。”

　　“是是。”韩路一笑着说，“辛苦顾大律师了。”

　　顾司把头转过去，不看他：“现在不是工作时间。”

　　韩路一听完一愣，随即反应过来。

　　不是工作时间，所以也别叫顾大律师。

　　他笑了笑，没有继续说话，而是闭上眼睛，开始期待起汤圆的训练进度来。

　　赵文渊回海城后，他还没有来得及仔细跟进过。

　　但他知道进度应该不错。

　　因为视界的经验值，已经从百分之十涨到了百分之十五。

　　这说明汤圆的训练正在给视界带来新的反馈。

　　也说明他的判断没有错。

　　大模型这条路，真的和视界存在某种深层关联。

　　韩路一靠在椅背上，心情放松了一点。

　　京城之旅结束了，终于要回海城了。

　　……

　　然而此时此刻，坐在办公室里的赵文渊，心情并不美丽。

　　不是因为汤圆的预训练。

　　恰恰相反，汤圆的预训练进展得很顺利。

　　业内关于预训练的策略已经很成熟了。赵文渊回海城之后，连续读了几篇论文，又用小数据集调整了一下具体的训练策略和参数，确认损失曲线没有明显问题之后，就正式在鼎盛的集群上全量开跑。

　　从那一刻开始，这件事就进入了真正的水磨功夫。一次训练开始，往往就是几十天不能停机。

　　成百上千张高算力显卡组成一个集群，海量数据被切分、打包、送入模型。

　　每一秒，都有无数矩阵计算在显卡之间传输。

　　每隔一段时间，还要对中间结果进行快照，防止因为偶发故障导致数据丢失。

　　快照不能太频繁，太频繁会拖慢训练效率。也不能间隔太长，间隔太长的话，一旦集群故障，前面几个小时甚至几天的训练都有可能白跑。

　　这里面涉及的资金需求、工程能力、集群调度、故障恢复，不是小公司能轻易负担的。

　　这也是为什么赵文渊一直说，大模型不是谁都玩得起。

　　没有足够的算力，连牌桌都上不了。

　　而没有足够强的工程团队，即使上了牌桌也没用，只会被自己的训练任务拖死。

　　像这次源智科技和鼎盛签了合作协议，赵文渊拿到的是一个特殊设置过的账号。

　　这个账号有鼎盛云内部权限，可以调用专门用于大模型训练的GPU集群。这种GPU集群在鼎盛云，乃至各家云服务提供商那里，根本就不是普通客户打开网页、充值余额就能买到的服务。

　　有钱你也买不到。

　　所以韩路一能拿到鼎盛的算力，的确是走了一条大大的捷径。

　　赵文渊承认这一点，但他也很不爽，因为他们还得防着鼎盛偷标注数据。

　　这一轮训练出来的汤圆，只能是“残血版”。

　　最核心、最值钱、最能体现源智科技优势的那部分数据，赵文渊根本不敢往鼎盛的集群里放。

　　就像一个特级厨师终于借到了顶级厨房，却只能把最精华的调料藏起来，用一半的配方做菜。

　　这怎么可能做出发光的料理呢？

　　不过，这些都不是赵文渊现在最烦的。

　　真正让他烦躁的，是韩路一从京城回来之前，给他下的新任务研究国产显卡的适配。

　　离开京城的时候，赵文渊兴奋的上了飞机。

　　甚至可以说是热血上头。

　　国产算力、自主可控、摆脱海外GPU生态，让大规模大模型训练和推理在国产显卡上成为可能。

　　这几个关键词一拎出来，就能让技术人心跳加速热血沸腾。

　　赵文渊甚至在飞机上就建了个文档，列了好几页的计划。

　　《汤圆模型国产算力适配路线图》

　　然后赵文渊一下飞机，连家都没回，直接拖着行李箱去了办公室。

　　他接了一杯咖啡放在桌上，打开电脑，挽起袖子，就准备扯断套在国产显卡上的生态枷锁。

　　结果，赵文渊一头撞在了墙上。

　　不，甚至不能说是一堵墙

　　那简直是一座山。

　　CUDA生态困境，这个当年在谷歌折磨他的噩梦，这次又以更可怕的姿态出现了。

　　在普通人眼里，显卡就是显卡，国外显卡能算，国产显卡也能算，无非就是性能高点或者低点。

　　但对做AI大模型的人来说，显卡可不是一块单独的硬件，它背后是一整套生态。

　　最底层是驱动，驱动之上是运行时，运行时之上是编程模型，编程模型之上是算子库、通信库、编译器、调试器、性能分析工具。

　　再往上，才是PyTorch、TensorFlow、JAX这些训练框架。

　　而大模型训练，又站在这些框架之上，调用各种高度优化过的算子和分布式训练能力。

　　英伟达的CUDA生态就像是一座已经修建了十几年的超级城市，水电消防医院等等基础设施都已经运转了好多年了。

　　而训练大模型就像在这个城市里举办一场大型的体育赛事。

　　数十万的游客涌进来，对整个城市的承载能力都是巨大的考验。但因为是超级城市，所以在精心调度之下，还能做的到。

　　而换成别的生态呢？你在大城市旁边的小镇，说我能不能也开个世界杯啊？

　　当然可以试试，但这不是叫两个足球队过来踢球那么简单，这个小镇从地下管网到商业生态都得重建一遍，等到它也成了超级城市了，就可以了。

　　更要命的是，全世界的人都已经习惯了这个老城市的规矩了。他们写代码的时候默认CUDA可以调用，默认用的是英伟达的显卡，论文上说的也都是在英伟达上才能跑通的用例。

　　不用英伟达？那你自己试试吧。

　　本来能跑的代码，把CUDA的依赖删掉，一下冒出一千个错误来，修完了第一个错误，又冒出一千个来。

　　模型能跑，不代表能跑的快；小模型能跑，不代表大模型能跑；单卡能跑，不代表多卡能跑；多卡能跑，不代表千卡集群能稳定训练几十天。

　　而大模型最可怕的地方就在这里，它不是“能跑”就算成功，它还必须稳定、必须高效、必须鲁棒。

　　必须能在极端昂贵的算力成本下，把每一张卡的利用率压到足够高。

　　否则你花同样的钱，别人训练一个月，你训练三个月。别人烧一千万，你烧三千万。

　　最后模型效果还不一定赶得上。

　　赵文渊潜心研究了两天，越研究，脸色越难看。最大的困难不是技术上完全不可行。恰恰相反，很多东西理论上都有办法做。

　　最大的问题是，工程量太大了。

　　这不是一个天才程序员闭关三个月就能解决的问题。

　　这是业内十多年、无数公司、无数开发者、无数论文、无数开源项目共同堆起来的生态。

　　这就像愚公移山，别说是赵文渊一个人，别说是源码科技模型组的这点人，就算韩路一给他几百人的开发团队，花个几年时间，可能也就能把最核心的部分做一个可用版本。

　　这现实吗？

　　不现实。

　　赵文渊狠狠的抓了抓头发，然后看着自己抓掉的头发，又心疼的摸了摸。

　　他打开微信，找到一个在谷歌工作时的华人同事。

　　那个同事当年给TPU做过适配工作。谷歌自研芯片加自研框架的路线，面临的是一样的困境，只是他们当年砸钱砸出来了。

首富从AI浪潮开始 第161节

推荐阅读

首富从AI浪潮开始第161节