然而还没等他做什么事,敌人却先投降了。不是因为敌人畏惧了正义,而是因为裴有谦在他自己的那套体系里,碰到了更大的强权。
韩路一一路走到一个过街天桥上,看着底下的车流,周围一个行人也没有。
从理性上说,他应该高兴,避免了一个不必要的麻烦;可他又不可避免地在心里审视自己,是不是成了一个食利者。
韩路一不是傻子,在饭桌上裴有谦已经表现得那么明显了,他害怕的是顾司,或者顾司认识的什么人。
这让韩路一的心情更微妙了。他本来以为顾司是和他一样的人,在被现实打击的同时,依然愿意用自己的方式继续努力的理想主义者。
但她和他的出发点并不一样。
想想顾司平时的样子,认识这么久了,韩路一从没意识到她有什么家世背景。她宁愿自己一个人靠几杯咖啡顶着熬夜,在办公室里忙到晕倒,也不愿意靠自己的家世过简单模式的人生。
就是这样的顾司,今天却破例了。
韩路一不是不知好歹的人。
他拿出手机来,点开顾司的聊天框,发了条微信过去。
“今天谢谢了。”
“【猫咪笑脸】”
看到顾司回复的表情包,韩路一觉得刚才压抑的心情消散了,他笑了笑,把手机收起来,往酒店走去。
明天还得干活呢。
……
从高铁站一出来,韩路一对张家口的第一印象就是,风大。
天空是澄澈的蓝色,有一点儿淡淡的云,在以可见的幅度被风带着跑。
张彪在站前广场等着,云垠数据中心安排了一个司机来接站,张彪一起过来的。
张彪和赵文渊昨晚就在机房,盯了一整夜。
张彪和韩路一快速地汇报了一下,物理上的组装都完成了,试部署也做完了,赵文渊昨晚就开始做压测,结果还没出来。
韩路一没追问,反正很快就要到现场了,到时候能看到一手信息。
从车站出来,车很快就拐上了高速,还要再开一个小时左右才能到云垠数据中心的所在地。
高速一路往北,车窗外的景色发生了变化。
山越来越低,地势越来越开阔,然后在韩路一意识到的时候,眼前的世界突然就展开了,像有人把地平线拉远了一圈,天空一下子变得很大,刚才能看见的零星的云也不见了,草原一望无际,蓝色的天和绿色的草原接在一起,像两个巨大的纯色色块。
韩路一看向窗外,只觉得心胸开阔,昨天碰见的那些蝇营狗苟的事情都抛之脑后了。
“我第一次来的时候,也很震撼。”张彪坐在韩路一旁边,看着窗外说道,“这海拔得比京城高出一千米。”
很快,前面出现了一个巨大的风机,有几十米高,甚至超过一般的高楼,通体是白色的,三片大叶子缓缓地转动着。
第一个风机之后,是一个又一个的风机,连成片的风机像一组巨大的图腾柱,和整个草原和天空的景色完美地融合在一起,仿佛它们是自然的造物,原本就属于这里。
韩路一被景色震撼过了之后,突然起了玩心,问副驾驶上的刘:“刘,看了这么壮观的景色,你就没什么想说的吗?”
“有的,韩总。”刘从后视镜看了韩路一一眼,回答道,“我想说”
“牛逼。”
看过风机之后,很快就到了数据中心扎堆的区域,这里不仅有云垠一家,一片一片的数据中心园区随机散布在草地上。
刘突然开口问道:“为什么数据中心都开在这?”
张彪在后排回答了他:“电便宜,气候冷,离京城近。”
显然张彪在张家口这半个多月没有白待,已经是半个本地通了。
他详细地解释道:“数据中心主要就吃两个资源,一个是电,一个是水。这里有最顶尖的风力发电资源,电费便宜,这就是一个大优势;数据中心要水,主要是为了冷却,坝上气候冷,冷却用的水就少,也是一个优势。”
最后一个就不用他解释了,刘自然明白。数据中心最终还是要给人用的,京城人口多,用户多,数据中心离得近,自然延迟就低。
一直默默开车的司机大哥突然说了一句:“风大,就是出门有点儿麻烦。”
一边聊着天,车一边驶进了云垠的园区。
下车后,张彪带着韩路一和刘去前台办了出入证。
前台一边给两人登记,一边看着张彪笑道:“彪哥,工作这么辛苦啊?”
张彪脸上也挂上了笑容:“你也辛苦。”
刘和张彪接触的不多,没什么感觉,韩路一倒是察觉出点儿不一样来。
等到几人到机房门口,赵文渊就坐在门口的桌子上,正对着笔记本电脑,手指在鼠标上点来点去,屏幕上的标签页也在切来切去。
才一天多没见,赵文渊的状态肉眼可见地差了,脸上的胡茬没刮,两眼挂着黑眼圈。
韩路一一看就知道一定有什么事情不顺利。
“文渊,怎么了?”
赵文渊这才刚注意到韩路一几个人过来了,站起来,语气苦涩地说:“韩总,压测不行,卡在瓶颈上了。”
第二百四十四章 他还没看过图吧?
汤圆模型在云垠的这批硅明生产的L100上已经远程试部署过了,算子适配都做完了,单卡和小集群都没什么问题。
韩路一和赵文渊这次过来,就是为了做最后一步的验收的,其中最关键的就是压力测试。
所谓压力测试,就是一下发送大量的请求,看看现在的架构能够提供最多多少人同时使用。
按照计划,在两周之内,御风的推理数据都要迁移上来。这个时间很紧张,所以中间一点儿差错都不能出。
御风现在注册用户是两百多万,日活二十万,单这个用量就快要把这五百张显卡的算力用满了。
幸好鼎盛那边送来的两千张卡快到位了,下一步的扩容有了方向。但是鼎盛的卡是另一家国产卡,算子和指令集与L100重合的不多,等于要用,在L100上做过的工作就得重做一遍。
这么一看,就体现了英伟达CUDA体系的价值。当生态已经建立起来的时候,迁移成本高的可怕。
韩路一没有慌张,出问题是正常的,有他在,都可以解决。
“现在的数据是多少?”
“现在的每秒请求数(QPS)在十六。”
韩路一挑了挑眉,来之前他们已经测算过了,要支持二十万的日活,每个用户每天都不止会发一条,多的可能几十条请求。
每秒请求数最少要在三十以上才行。
而现在的架构理论上能跑到五十,就算考虑到调度损耗、通信损耗、框架损耗这些,保守的看,也能到四十以上。
现在只有十六,只有最低标准的一半。
赵文渊一边说着,一边把电脑中的后台视图、监控曲线、输出日志都打开来在桌面上。
“江松然联系过了吗?”
“刚才发过信息,他还在看。”
江松然人还在海城,他入职的时候韩路一就保证过,绝不让他出差,所以虽然是这么大的事,韩路一也没带他过来。
“开个视频吧,一起看看,快一点儿。”韩路一说。
刘这边已经用手机拨通了视频。
画面里的江松然看起来也正在忙,头发很乱,背景是他的卧室。从早晨接到赵文渊的消息之后,他一直也没闲着。
“韩总,GPU利用率我们看过了,基本是满负荷了,问题不在这。”
看起来每张卡都在干活,但是产出却不快。
江松然和赵文渊又一起去查驱动日志。
从软件层面看,一切都很正常。
最后,赵文渊把模型配置都调出来,和江松然一起看。
配置没问题。
模型切分没问题。
并行策略没问题
其实就这么用肉眼看,能看出问题的概率更小。
可是有的时候生产事故就是这么难排查,就像在盲人摸象。
所有的工具,各种监控数据,打印日志,各种热力图、散点图,都是为了帮你把这个象摸的更清楚。
但是人类毕竟不是计算机,人类看不见计算机的思考过程,只能想象。
当所有的摸象手段都不起效的时候,直接把代码、配置文件拿出来,然后想象运行的结果,有的时候也能奏效。
甚至可能越是大神,越是奏效。毕竟天才不能用常理来衡量。
听说冯诺依曼当年极力反对使用高级编程语言(就是类似英语的编程语言)。他认为使用汇编就是和电脑交流最简单的方式了。甚至传说他能直接读懂只有0和1组成的代码。
其实江松然和赵文渊之前都已经把相关的内容排查过了,现在当着韩路一的面又做了一遍,并没有新的发现。
韩路一打开视界,目光锁定在电脑上,然后扫了一眼里面机房。
随着视界升级之后,韩路一不再被接收信息的带宽困扰,视界一开,就把周围的信息都收集完了。
然后他站起身,往旁边的准备区走过去,给自己穿进机房的装备。
这边江松然还在说他的推断:“单机没问题,小集群也没事,大集群的量上不去,肯定是在集群层面,而且是大集群有,小集群没有的东西。”
这边,赵文渊已经注意到韩路一的举动。
“韩总。”赵文渊站起身追过去。
韩路一已经穿戴完,他看了一眼赵文渊,说:“你也穿上,一起来看看。”
赵文渊赶紧穿上鞋套、防静电服和防静电手环,跟着韩路一进了机房。
刘和张彪在外面没进去。
机房里对静电防范要求极高,不允许带手机进去,而且即使带进去也基本用不了,因为机房本身防火防震的需求,再加上里面大量的金属机柜,天然就是一个法拉第笼,手机根本就用不了。
此时,在赵文渊的眼中,眼前就是一排排冰冷的金属机柜,每一个都长一个样。
但在韩路一的眼中,眼前的景象却完全不同。机柜和机柜之间的连接,数据流转,都以不同的颜色,像水流一样呈现在他的眼前。
GPU、服务器、交换机、光纤、端口、链路,所有这些东西都变成了一张复杂到超出人理解能力的、复杂的地图。
这张图即使拿到其他人眼前,他们也无法看懂。
太复杂了。
但是韩路一理解起来却全无障碍。
他几乎是一瞬间就定位了数据阻塞的来源。
有几组推理组之间的通信出了问题,节点和节点之间没有物理直连,却在逻辑上被分在了一起,数据从一个地方绕远路跑到另一个地方,再绕远路回来。
看似只是一个小小的点,但这种细微的差别在大模型推理的并行通信里,这一小点会被反复放大。
韩路一开口了:“不是模型的问题。”
赵文渊一愣,韩总,你已经解决了?这么快吗?