首富从AI浪潮开始 第161节

  电梯门合上,周涵的笑容被挡在门里。

  面对着紧闭的电梯门,韩路一脸上的笑意慢慢淡了下来。

  顾司走到他旁边,看到他的脸色,问道:“怎么了?”

  “没什么。”韩路一说,“有点儿累。”

  顾司淡淡地说:“习惯就好了。”

  韩路一闭上眼睛:“是啊,习惯就好了。”

  这几天几次交锋下来,在周涵展现了她的热情与獠牙之后,韩路一看清楚了一件事。

  像周涵这种人,既不是人们口中说的贵人,也不是简单意义上的坏人。

  她可以笑着表示欣赏你,也会在谈判时毫不留情地试探你。

  她帮你,不代表她是你的盟友。

  她为难你,也不代表她是你的敌人。

  她,他们,都只是政治动物。

  这些人之间的利益关系错综复杂,还是多看多听,少说为妙。

  韩路一轻轻的出了一口气。

  周五晚上,韩路一坐在飞往虹桥的飞机上,在心里回顾了一下在京城这几天的收获。

  他本来是带着破釜沉舟的心态来的,没想到不仅拿到了弘远的投资,估值比之前议定还高。

  更重要的是,同时接触到了国网投资和战新基金这两条线。

  韩路一想起那天在弘远,贺云深私底下跟他说过一句话:“资本只是入场券,资源才是硬通货。”

  那时他的感受还不深刻,现在他懂了。

  钱,贺云深给了。场景和电力,周涵给了。

  以后战新基金那边如果也能谈下来,源智科技手里的牌,就不是一个创业公司该有的了。

  有了这些资源,源智科技距离韩路一规划中的下一阶段拥有自己的数据中心,拥有独立自主的训练资源已经大大缩短了。

  然而,即使有视界的帮忙,和那些老狐狸们勾心斗角,也让他深深地感到疲惫。

  他甚至有点心生敬佩。

  那些没有视界的人,每天生活在这样的漩涡里,还能保持清醒,还能往前走。多不容易。

  旁边,顾司正在看手机。

  机舱的光线很暗,她的侧脸被屏幕映出一点冷白色。

  “回去有什么安排?”韩路一问。

  顾司回头看了他一眼。

  “韩总,为了你这次签约,我已经出差三天了,手头的案子堆成山,周末怕是要一直加班了。”

  “是是。”韩路一笑着说,“辛苦顾大律师了。”

  顾司把头转过去,不看他:“现在不是工作时间。”

  韩路一听完一愣,随即反应过来。

  不是工作时间,所以也别叫顾大律师。

  他笑了笑,没有继续说话,而是闭上眼睛,开始期待起汤圆的训练进度来。

  赵文渊回海城后,他还没有来得及仔细跟进过。

  但他知道进度应该不错。

  因为视界的经验值,已经从百分之十涨到了百分之十五。

  这说明汤圆的训练正在给视界带来新的反馈。

  也说明他的判断没有错。

  大模型这条路,真的和视界存在某种深层关联。

  韩路一靠在椅背上,心情放松了一点。

  京城之旅结束了,终于要回海城了。

  ……

  然而此时此刻,坐在办公室里的赵文渊,心情并不美丽。

  不是因为汤圆的预训练。

  恰恰相反,汤圆的预训练进展得很顺利。

  业内关于预训练的策略已经很成熟了。赵文渊回海城之后,连续读了几篇论文,又用小数据集调整了一下具体的训练策略和参数,确认损失曲线没有明显问题之后,就正式在鼎盛的集群上全量开跑。

  从那一刻开始,这件事就进入了真正的水磨功夫。一次训练开始,往往就是几十天不能停机。

  成百上千张高算力显卡组成一个集群,海量数据被切分、打包、送入模型。

  每一秒,都有无数矩阵计算在显卡之间传输。

  每隔一段时间,还要对中间结果进行快照,防止因为偶发故障导致数据丢失。

  快照不能太频繁,太频繁会拖慢训练效率。也不能间隔太长,间隔太长的话,一旦集群故障,前面几个小时甚至几天的训练都有可能白跑。

  这里面涉及的资金需求、工程能力、集群调度、故障恢复,不是小公司能轻易负担的。

  这也是为什么赵文渊一直说,大模型不是谁都玩得起。

  没有足够的算力,连牌桌都上不了。

  而没有足够强的工程团队,即使上了牌桌也没用,只会被自己的训练任务拖死。

  像这次源智科技和鼎盛签了合作协议,赵文渊拿到的是一个特殊设置过的账号。

  这个账号有鼎盛云内部权限,可以调用专门用于大模型训练的GPU集群。这种GPU集群在鼎盛云,乃至各家云服务提供商那里,根本就不是普通客户打开网页、充值余额就能买到的服务。

  有钱你也买不到。

  所以韩路一能拿到鼎盛的算力,的确是走了一条大大的捷径。

  赵文渊承认这一点,但他也很不爽,因为他们还得防着鼎盛偷标注数据。

  这一轮训练出来的汤圆,只能是“残血版”。

  最核心、最值钱、最能体现源智科技优势的那部分数据,赵文渊根本不敢往鼎盛的集群里放。

  就像一个特级厨师终于借到了顶级厨房,却只能把最精华的调料藏起来,用一半的配方做菜。

  这怎么可能做出发光的料理呢?

  不过,这些都不是赵文渊现在最烦的。

  真正让他烦躁的,是韩路一从京城回来之前,给他下的新任务研究国产显卡的适配。

  离开京城的时候,赵文渊兴奋的上了飞机。

  甚至可以说是热血上头。

  国产算力、自主可控、摆脱海外GPU生态,让大规模大模型训练和推理在国产显卡上成为可能。

  这几个关键词一拎出来,就能让技术人心跳加速热血沸腾。

  赵文渊甚至在飞机上就建了个文档,列了好几页的计划。

  《汤圆模型国产算力适配路线图》

  然后赵文渊一下飞机,连家都没回,直接拖着行李箱去了办公室。

  他接了一杯咖啡放在桌上,打开电脑,挽起袖子,就准备扯断套在国产显卡上的生态枷锁。

  结果,赵文渊一头撞在了墙上。

  不,甚至不能说是一堵墙

  那简直是一座山。

  CUDA生态困境,这个当年在谷歌折磨他的噩梦,这次又以更可怕的姿态出现了。

  在普通人眼里,显卡就是显卡,国外显卡能算,国产显卡也能算,无非就是性能高点或者低点。

  但对做AI大模型的人来说,显卡可不是一块单独的硬件,它背后是一整套生态。

  最底层是驱动,驱动之上是运行时,运行时之上是编程模型,编程模型之上是算子库、通信库、编译器、调试器、性能分析工具。

  再往上,才是PyTorch、TensorFlow、JAX这些训练框架。

  而大模型训练,又站在这些框架之上,调用各种高度优化过的算子和分布式训练能力。

  英伟达的CUDA生态就像是一座已经修建了十几年的超级城市,水电消防医院等等基础设施都已经运转了好多年了。

  而训练大模型就像在这个城市里举办一场大型的体育赛事。

  数十万的游客涌进来,对整个城市的承载能力都是巨大的考验。但因为是超级城市,所以在精心调度之下,还能做的到。

  而换成别的生态呢?你在大城市旁边的小镇,说我能不能也开个世界杯啊?

  当然可以试试,但这不是叫两个足球队过来踢球那么简单,这个小镇从地下管网到商业生态都得重建一遍,等到它也成了超级城市了,就可以了。

  更要命的是,全世界的人都已经习惯了这个老城市的规矩了。他们写代码的时候默认CUDA可以调用,默认用的是英伟达的显卡,论文上说的也都是在英伟达上才能跑通的用例。

  不用英伟达?那你自己试试吧。

  本来能跑的代码,把CUDA的依赖删掉,一下冒出一千个错误来,修完了第一个错误,又冒出一千个来。

  模型能跑,不代表能跑的快;小模型能跑,不代表大模型能跑;单卡能跑,不代表多卡能跑;多卡能跑,不代表千卡集群能稳定训练几十天。

  而大模型最可怕的地方就在这里,它不是“能跑”就算成功,它还必须稳定、必须高效、必须鲁棒。

  必须能在极端昂贵的算力成本下,把每一张卡的利用率压到足够高。

  否则你花同样的钱,别人训练一个月,你训练三个月。别人烧一千万,你烧三千万。

  最后模型效果还不一定赶得上。

  赵文渊潜心研究了两天,越研究,脸色越难看。最大的困难不是技术上完全不可行。恰恰相反,很多东西理论上都有办法做。

  最大的问题是,工程量太大了。

  这不是一个天才程序员闭关三个月就能解决的问题。

  这是业内十多年、无数公司、无数开发者、无数论文、无数开源项目共同堆起来的生态。

  这就像愚公移山,别说是赵文渊一个人,别说是源码科技模型组的这点人,就算韩路一给他几百人的开发团队,花个几年时间,可能也就能把最核心的部分做一个可用版本。

  这现实吗?

  不现实。

  赵文渊狠狠的抓了抓头发,然后看着自己抓掉的头发,又心疼的摸了摸。

  他打开微信,找到一个在谷歌工作时的华人同事。

  那个同事当年给TPU做过适配工作。谷歌自研芯片加自研框架的路线,面临的是一样的困境,只是他们当年砸钱砸出来了。

首节上一节161/248下一节尾节目录