“国产卡?训练?现在还有人幻想这个呢?”看到这条,江松然嘴角微微上扬。放在一个星期之前,他自己也是这个反应,但是他现在只觉得对方是井底之蛙。
“我有个师弟刚从新加坡回来,做调度了,要不要推给你?”
江松然知道自己在 AI Infra这个领域的地位,这样一条信息发出去,过来发简历的人不会少的。
最近几天得花时间好好挑挑了。
第一百九十九章 五百卡?起步
下午,韩路一终于见到了第一天入职的江松然。
两人在十三楼找了一个空会议室。
简单的客套了两句,江松然就忍不住问起了工作:“韩总,今天上午赵总带我看了一遍进度,说实话,我很震惊,比你在医院给我看的那些成果更惊人。”
韩路一知道江松然已经看过源智科技借助智能体能达到什么效率了。
这是在短时间之内追赶英伟达的 CUDA生态,把不可能变为可能的关键。
拿出几个算子的适配成果,很牛,但不能改变行业。
拿出一个能稳定快速完成算子适配的系统,那就不一样了。
江松然的眼界能看出来这意味着什么。
但是同时,韩路一也好奇江松然作为一个 AI Infra专家能给源智科技带来什么。大的方向上他已经想好了,要做到两点。
一是拥有自己的训练和推理栈数据跑在别人的云上,他不放心。
二则是使用国产化替代这是一件一举两得的事,首先英伟达的卡因为种种原因,他就根本买不到;其次他有能力也有动力率先完成算力的国产化替代,如果能做到,不仅自己的数据中心的问题解决了,也能打开更广阔的国内政企市场。
但是方向定好了,具体实施还需要实际在这个行业里做过的人才。
这也是为什么江松然对源智科技这么重要的原因。
江松然是行业大佬,技术深厚不假,但是他对源智科技最大的价值其实在于另外一点:江松然在之前的那家创业公司是做一号员工、高管的,他有过把数据中心从零到一搭建起来的经历,而且他的经验横跨软件和硬件。
这样的人才远比一个技术大牛更加稀缺。
可以说,他对源智的重要性远远高于他对鼎盛、昆仑的重要性。
那些大云服务供应商都已经有了丰富的数据中心管理经验,江松然去了那里,顶多是带来一些新的视角,在某些方面带来一些提升,但不能有什么本质上的突破。
但是江松然来到源智科技,直接把源智科技在硬件管理上的空白给填补上了。
所以韩路一才会这么慷慨,直接给了 2%的期权奖励。
这可是视哥认证的金色传说!
江松然可能赚了,但韩路一绝对不亏。
既然江松然提起了,韩路一就直接问道:“江博士,我们现在要做的是尽快拥有自己的推理栈和训练栈,我一期计划的是五百张卡,这个采购量在国产卡里不算大,哪家都拿的出来,但是具体从哪买,买来能做到什么程度,我还想听听你的意见。”
这个数字韩路一在医院的时候就已经和江松然透露过了,江松然也早就做好了准备他知道入职之后韩路一是一定会问的,他不打无准备之仗。
“韩总,我回去看过了,现在市面上最先进的国产卡能做到 400 TFLOPS,如果只是推理的话,五百张支撑十万日活绰绰有余。”江松然说,“基于标注数据的后训练,虽然勉强,但也能做。但是要做预训练,是远远不够的。”
TFLOPS(TeraFLOPS,Trillion Floating-point Operations Per Second)是衡量计算机算力的单位,中文是“每秒一万亿次浮点运算”。因为 GPU的强项就是进行浮点数学运算,如果把每个 GPU都比作一辆跑车的话,TFLOPS就是它仪表盘上的最高时速。
用 N卡体系来举例的话,游戏玩家的梦中情卡 RTX 5090在 AI实际用的精度下大概能做到 200 TFLOPS,而专业用于 AI训练的英伟达 B200型号显卡,能达到单卡 2250 TFLOPS的恐怖算力。
韩路一点了点头,这和他设想的没有出入。
“而且,韩总,我不知道咱们团队里有没有人有过显卡集群管理的实操经验。但是,非 CUDA生态显卡集群的管理难度和 CUDA生态是完全不一样的,五百张国产卡,全国能把训练栈跑通的不超过三家。”
说完,江松然露出略微骄傲的神色:“有我在,我有信心源智科技是其中一家。”
韩路一对此倒是不怀疑,毕竟他招江松然进来,就是要他干这个的。
他接着问道:“那从哪家采购最好,你有什么建议吗?”
江松然微微沉吟了一下,没有马上回答。
这个问题其实有点儿敏感。江松然当过管理者,当然知道对于任何一家公司来说,采购都是敏感话题,更何况 AI用显卡的单卡价格都在十万以上,五百张就是五千万的采购,金额可不小。
如果是为了安全,他最好是给出一家国产头部大厂的推荐,大厂内控严厉,给他回扣的风险小,韩路一也更不会怀疑他。
但是江松然在做过调查之后,确实发现了一个更好的选择,只是说出来未必对他本人是一件好事。
他没有犹豫太久,还是咬了咬牙,说出了更冒险的版本:“有一家,叫硅明半导体( Sili-Lumin),总部在鹏城,也是个创业公司,去年刚开始量产第一款产品,叫L100,算力 600 TFLOPS,片间互联带宽 600 GB/s,对标的是英伟达的 H100。硬件的料很足,而且还有一个对我们来说是优点的缺点他们的软件做的很差,完全没有训练的落地配套,买家全是在做推理。”
“所以硅明对咱们来说格外合适,五千多万的单子,对他们来说是救命稻草,而且他们的销路不好,有现货。”江松然把自己的思考都说了出来,“再加上他们的软件弱,硬件强,按硬件单价算性价比就特别高。而我们根本不用他们的配套软件,相当于采购的钱全花在硬件上了。”
这话说完,江松然也心里打鼓。
他明确表示了这是他提前调查过的厂家,韩路一会不会怀疑他吃了回扣?
他心里默默想了一句话:他以国士待我,我当以国士报之。
韩路一面上不动声色,只是眼睛发亮。
他没什么犹豫,直接说道:“江博士你费心了,确实很适合源智现在的需求。这样,你不方便出差,一会我让我的助理过来找你,你和他交代清楚,让他跑一趟鹏城。”
江松然心里松了一口气。
不让他经手他感到挺庆幸的,至少可以避嫌。
正事聊完,韩路一最后又说了一句:“你既然说有信心,我很期待咱们把自己的集群搭起来的那天。”
实际上江松然说的还保守了,他不只是有信心。这个事情他做过一遍了,再做一遍当然是十拿九稳。
实际上现在见识过了源智科技的技术潜力,他觉得不止是五百卡、千卡的集群,就算是万卡也不是不能尝试。
要知道,想把显卡集群做大,其中的技术难度是指数级上升的。
因为真正的挑战来源于在使用过程中,集群里的各个节点之间的通信。想要完成大模型的训练,就要让各个节点之间数据完全同步。假设只有十个人,想要让他们互相交流一个信息,不是什么太难的事情;可是如果扩大到一百个、一千个人,每个人都各自在做自己的事情,即使是简单的信息同步也很难做到。
而且万卡集群比起千卡集群,运算速度并不能提升十倍,受通信带宽的限制,能达到七八倍就不错了。
成本极高,收益不大,既然这样,那为什么还要做万卡集群呢?直接做很多个小集群不行吗?
那是因为万卡集群能做到千卡集群做不到的事情,就是训练超大模型。
基于现在的大模型理论,模型越大,参数越多,模型的能力就越强。可是想要把那么多信息训练到一个模型里,就需要能够同时容纳所有原始信息的内存,只有使用万卡这个规模的集群,才有可能训练出这样的超大模型来。
可以说万卡集群才是英伟达体系王冠上的明珠。
而现在,江松然已经有野心在源智科技用国产显卡挑战万卡集群了。
当然了,AI训练用显卡的成本,即使国产的成本低很多,单卡价格也在十万元人民币以上。要做万卡集群,单是显卡成本就要十亿。更别说这个级别的集群,配套的机房、电力、冷却、存储等等成本加起来是显卡本身的一倍左右,万卡集群的总投入要在二十亿以上。
但是这些事情江松然都不担心。那不是 CEO应该担心的问题吗?他相信到时候韩路一会解决的。
这些念头在江松然的脑子里转了一圈,什么都没说出口。
只是他那颗因为家中变故而变得沉寂的心,突然又火热起来了。
第二百章 这是政策性采购
两人结束了短暂的交谈,韩路一便准备接着去工作了。
他还有很多苦力活要做。
走出会议室的时候,韩路一又突然提了一句:“招人的事,你别有压力,不用消耗你的关系。”
韩路一这是真心实意的,现在 AI Infra正是热门的领域,能招到江松然一个人才他已经很满意了,他当然也知道源智科技现在不是什么知名大厂,担心江松然消耗自己的名声去招人,反而拖累了他。
江松然听到眨了眨眼,说:“我在几个群里说了一声,已经收了十几份简历了。”
实际上这是韩路一低估了江松然在行业里的号召力,也同样对现在的趋势判断不够准确。
随着这几年 AI底层公司的整合,越来越少的应用公司选择自己去建 AI Infra,而是直接去用几家大的云服务商提供的解决方案。毕竟对大部分应用公司来说,使用 AI的场景主要是接入大模型的 API。
而底层大模型这条路,入门门槛太高,有魄力往里投资的资本和创业者都不多。
结果就是,前两年 AI Infra爆火,有很多相关的人才转了进来,但是兜兜转转整合成了几家巨头,去处变得非常有限:要么去那几个云大厂,要么去头部的大模型公司。
但是这两种公司都有一个特点:不愿意投资国产算力替代这个方向。
所以有很多想在国产卡适配这个方面发展的人,都没有了去处,在行业里提出自己的想法,也会被人嘲笑不切实际。
而江松然的名字一出,就像是在这个赛道里扎下了一道定海神针,很多投简历的人根本不在乎江松然在哪家公司,就想到他的麾下把这个事往前推一推他们也知道短时间之内做出来不太可能,只是想出自己的一份力罢了。
所以很多人给江松然发简历都不是直接发一个简历过来就完了。
他们发来的信息里饱含着热情。
“老江,没想到你也来这个赛道了!这样我就不孤单了!”
“江神!你真的看好国产化吗?我们团队干了好久没什么进展,都快散了。”
“真是国产训练栈?是训练?不是推理?”
江松然看着这些信息的时候,不由得长叹了一口气,心里发出些感慨来:原来各行各业都不缺这样的“傻人”,不管别人怎么评价他们,他们都在自己认为正确的方向上默默坚持着。
而自己,几天之前还站在他们的对立面上。
韩路一听了江松然的回答,沉默了一下,说:“既然这样,你也不用花时间筛选了,都推给我就行,到时候咱们一起研究。”
江松然点点头,说:“好。”
他跟在韩路一身后,看着这个比自己年轻了十多岁的老板的背影,突然觉得自己有点儿过时了。
这些年轻人,可真厉害啊。
坐下没多久,张彪就来到江松然的工位上来找他。
抬头看见突然出现在眼前的这个一米八几、浑身肌肉的壮汉,江松然吓了一跳。张彪自我介绍之后他才知道,这竟然是韩路一的助理。
江松然和张彪交流了一下。
实际上采购当然不需要一定得飞去现场,了解情况一个电话就够了。
但是电话江松然已经打过了,这五百张显卡的采购不是小数目,张彪飞过去除了谈条款,还要负责验货、安排运输、协调机房那边的对接。
江松然不知道张彪是什么学历背景,担心张彪听不懂,还特意把需要注意的事项都告诉他,嘱咐他不懂就问。
没想到张彪对于数据中心这块还挺懂的,各种对接、运输的细节都了解,而且江松然没有在国内实操的经历,反而是张彪说的细节更对得上。
关于显卡这部分,张彪确实不懂,但他非常细心,江松然说的话他都拿本子记了下来。
等到江松然这边交代完了,张彪也并没有直接离开,而是拉着江松然,把自己记下来的东西用另一种说法跟江松然对了一遍,确保自己理解的是正确的意思。
江松然说完一堆技术要求,张彪低头翻了翻本子,把前面密密麻麻的记录重新画了三个圈,然后抬头复述道:“我到现场主要确认三件事:东西是不是真能跑、出了问题谁负责、坏了多久能换。”
他顿了顿,又补了一句:“如果对方说技术问题后面再沟通,我就让他们把能拍的现场、能给的测试报告、能写进合同的响应时间都先拿出来,不能只听口头保证。”
江松然愣了一下,说:“对。”
这个助理的实操经验很丰富。
说实话,这个表现倒是让江松然刮目相看了这种认真的态度,这种做事的方法,在江松然十几年的工作生涯里也不多见。
怪不得能当韩总的助理,江松然感慨了一句,这源智科技卧虎藏龙,自己可真没来错地方。
……
张彪飞鹏城的第二天,郑晓波的办公室里,林绍文拿着一份报告站在他面前。
“郑总,调查清楚了,江松然签的是源智科技,这周一已经入职了。”林绍文说。