首富从AI浪潮开始第204节_都市

　　这个基座模型连个对话框也没有，但是在命令行里还是可以输入文字和输出文字的。

　　姜亦心想了想，输了一个问题：“「为之于未有，治之于未乱」是什么意思？”

　　很快，模型的回复显示了出来：“「合抱之木，生于毫末」是什么意思？「九层之台，起于累土」是什么意思？「千里之行，始于足下」是什么意思……”

　　姜亦心看得目瞪口呆。

　　赵文渊在旁边笑道：“怎么样？是不是和你熟悉的AI大模型不一样？”

　　确实不一样，姜亦心已经习惯了ChatGPT那种类型的AI，问一个问题，可以给出一长串回答。不过这个回答是不是对的，至少看起来很合理。有不少人都沉迷于和AI聊天，可是这个基座模型看起来好像只能接话，不能对话。

　　“实际上，这就是Transformer大模型最一开始的样子，一直到GPT-3时代人们都是这么调用模型的。”赵文渊说道，“你想要问一个问题，就得把它包装成一个特殊的格式，让模型去接你的话，根本不好用。”

　　“一直到InstructGPT横空出世，这一波AI的时代才真正到来，从实验室走到了大众。人们都说Transformer是划时代的发明，可我觉得，Instruct理论的提出，重要性不亚于Transformer。”

　　看到历史课上的差不多了，韩路一这才插话进来：“你说结果比预期好，到底有多好？”

　　赵文渊反倒不着急了，他对着韩路一缓缓的吐出了一个词：“SOTA。”

　　SOTA，state of the art。

　　意思是，当前最强水平。

　　韩路一自己就是个老装逼犯了，哪会不知道赵文渊现在在期待什么。

　　可惜，现场的两个人都不是会为他这一个词震惊的人。

　　他也不在意，接着问道：“具体的数据呢，拿出来看看。”

　　赵文渊看他这么平淡的反应，在心里默默的叹了一口气，乖乖的打开了一个文档。

　　各个测评集都和GPT-4不相上下，确实可以说是世界一线了，尤其突出的是在C-Eval（中文综合）和CMMLU（中文知识）两个测评集，GPT都在70%左右，汤圆base直接达到了80%以上。

　　考虑到这还只是依靠视界制定的数据清洗规则做出的基座模型，韩路一当牛做马标出来的十万条标注数据都还没用。

　　可以预计，汤圆完成训练之后的表现将会非常惊人。

　　韩路一想到这，直接和赵文渊说：“事不宜迟，现在就开始后训练吧。”

　　当初韩路一刚刚决定要自己做模型的时候，还是开物刚在国内市场做出点成绩，Nexus慕名找上门来寻求合作。韩路一当时判断自有模型将是不可替代的战略资源，没想到，短短的几个月之后，他的预言就成真了。

　　模型的训练和部署成了Kaiwu海外版和御风下一步能否顺利发展的关键。

　　如果不是韩路一当时果断选择去鼎盛那换算力，现在是无论如何也做不出来的。

　　即使如此，接下来也得每一步都顺利，才能可能在Nexus翻脸之前顺利完成迁移。

　　同时，鼎盛那边也在虎视眈眈，不得不防。

　　韩路一最后又嘱咐了一遍赵文渊：“在鼎盛的集群上训练，只上传之前定好的那85%。”

　　赵文渊郑重的点了点头：“我知道，剩下的15%才是我们之后致胜的关键。”

　　姜亦心最后问出了自己最关心的问题：“那后训练还要多久啊？”

　　赵文渊说：“最快两周，慢的话二十天。后训练我有经验，估算的差距不会太大。”

　　会开完赵文渊和姜亦心一起往外走。

　　突然，姜亦心放慢了脚步，等到赵文渊出去之后又折回来，问了韩路一一个问题：“韩总，刘秘书的工资是多少啊？这个能问吗？”

　　韩路一秒懂，微微一笑：“差不多是你的工资的八成吧，怎么，你也想要个秘书？”

　　姜亦心一听，脸就垮了下来：“这么贵啊，那还是算了吧。我自己安排的挺好。”

　　姜亦心开门出去，韩路一打开视界又看了她一眼。

　　【姜亦心】

　　【产品SS｜管理B｜协作A｜稳定S】

　　【特技：触类旁通】

　　【词条：好奇心｜产品直觉｜大局观】

　　关掉视界，韩路一默默的感慨了一句，成长的真快啊。

　　……

　　鼎盛大厦，二十三层，鼎盛云VP办公室。

　　张弛正在看刘勃发过来的进度报告，手机突然震动了起来。

　　他拿起手机一看，是刘亚光。

　　看到这个名字，张弛心中一跳。

　　刘亚光是运维平台的主管，张弛的心腹，现在正在盯着源智那边的训练数据。

　　刘亚光平时不常联系他，算算时间，差不多是韩路一的标注数据要开始上传了。

　　得手了？

　　张弛不知道，但他有预感，可能是的。

　　这样想着，张弛接起了电话。

　　“张总，那批数据到位了。”

　　果然。

　　微笑爬到了张弛的脸上。

　　他整个人的身体往后一倒，靠到老板椅的椅背上。

　　他等这批数据等了快两个月了，这是郑总现在最看重的东西，自然也就是他最看重的东西。

　　“什么量级？”

　　“一共八万多条，标注格式完整，质量很高，不像是外包出去做的，应该是他们内部自己标的。”

　　张弛心想，要是外包的数据，还用得着我费这个劲吗？

　　“张总，还是给模型组送过去？”

　　张弛正要答应，突然停住了。

　　他又想了一会，才开口道：“你先别动，别往模型组送，给我。”

　　刘亚光愣了一下：“给您？”

　　“对，别走网络，放在一个U盘里。”张弛的语气平静，没有解释的意思。

　　“好，我这就整理打包，一会儿给您送过去。”

　　“不用。”张弛顿了顿，语气放松了一些，“这段时间辛苦你了。我之前听你说孩子想去迪士尼？我这正好有朋友送的几张VIP票，一会儿让我秘书给你送过去，顺便把U盘取回来。“

　　电话那头沉默了一秒，然后刘亚光的声音变得有些低沉：“张总，您这让我您还记得这个啊……”

　　“你跟我这么多年了，说这些干什么。“张弛淡淡地说，“下周末好好带孩子去玩玩。”

　　挂断电话，张弛在椅子上坐了一会儿，然后拨出了一个电话。

　　“程总，我这边拿到东西了。”

　　“张总。”程远的声音从电话里传来，声音里有压不住的兴奋，“靠谱啊。”

第二百二十二章这个数据不太对

　　三天后。

　　鼎盛集团，大模型研究院，AI实验室。

　　刘大海已经在实验室待了二十几个小时了，熬了一个通宵，眼睛通红，里面布满了血丝。

　　他年纪不小了，这么熬夜已经有点儿吃不消了。

　　但是精神还是很亢奋。

　　刚和韩路一见完面那次，对方用7B小模型加上一万条的数据微调出来的那个叫“汤圆”的模型给了他很大的震撼。

　　后来他被叫到鼎盛CEO郑晓波的办公室里去问这个模型，他实话实说，一定是标注数据好。

　　郑晓波问他，如果能拿到同等质量的数据，他能做出什么成绩。

　　刘大海说，他能给天捅出个窟窿来。

　　那是夸张的说法。

　　但是没想到，这数据还真到他手里了，战投部的VP程远亲自拿U盘送过来的。

　　而且里面不是一万条，是八万条。

　　说是鼎盛和源智科技签了合作协议，对方共享过来的。

　　大概浏览了一下，刘大海就能确认，这就是把“汤圆”微调出来的数据。数据能标到这种程度，怪不得能把一个7B小模型微调得这么强。

　　见猎心喜，刘大海拉着组里的人就开了新一轮的后训练，直接上的顶格的计算资源。

　　一个轮次一个轮次的看结果，效果好的超乎想象。

　　一不小心就通了个宵。

　　很多人以为做大模型是个好职业，赚的钱多，大厂争抢，全社会瞩目。

　　可只有真干这一行的人才知道，这活儿一点也不好干。有很多时候，损失怎么降的，奖励模型怎么收敛，各项指标怎么平衡代码能力提升了，数学推理又掉了。

　　有些能有理论来解释，有些也找不到解释。

　　干这一行就像在一片漆黑的大海上开船。

　　你既看不到终点，也看不到四周，只知道自己在前进，可究竟在向着哪个方向前进？不知道。

　　也不知道你会先到陆地，还是先撞上冰山。

　　怪不得搞模型的人喜欢戏称自己是炼丹的，开炉之前，你也不知道能不能成。

　　太像了。

　　正是因为知道每让模型能力提升一点有多难，一下子拿到这么多高质量的标注数据，让模型能力提升这么多，才会让刘大海这么兴奋。

　　可是在最初的兴奋过去之后，他突然感觉出点儿不对来。

　　源智科技有这么高质量的标注，他们不用来训练自己的模型吗？就算是没有资源从头做起，拿市面上的开源基座模型去做微调，也能做出很惊人的成果吧。

　　怎么一点儿动静都没有呢？

　　有了这一点儿不对之后，刘大海又去仔细看了这些共享过来的标注数据。

　　更觉得不对了。

　　他一条一条的翻过去。

　　质量高吗？高。

　　逻辑链条严密吗？严密。

　　但是刘大海越看，眉头皱的越紧。

　　旁边一个组员路过，看到他的神情，忍不住问了一句：“刘博士，怎么了？我看着结果超出预期的好啊，您脸色怎么这么难看？”

　　其实这个组员自己也是个博士，能在大模型组里工作的，不是博士反而比较奇怪。

首富从AI浪潮开始 第204节

推荐阅读

首富从AI浪潮开始第204节