首富从AI浪潮开始 第204节

  这个基座模型连个对话框也没有,但是在命令行里还是可以输入文字和输出文字的。

  姜亦心想了想,输了一个问题:“「为之于未有,治之于未乱」是什么意思?”

  很快,模型的回复显示了出来:“「合抱之木,生于毫末」是什么意思?「九层之台,起于累土」是什么意思?「千里之行,始于足下」是什么意思……”

  姜亦心看得目瞪口呆。

  赵文渊在旁边笑道:“怎么样?是不是和你熟悉的AI大模型不一样?”

  确实不一样,姜亦心已经习惯了ChatGPT那种类型的AI,问一个问题,可以给出一长串回答。不过这个回答是不是对的,至少看起来很合理。有不少人都沉迷于和AI聊天,可是这个基座模型看起来好像只能接话,不能对话。

  “实际上,这就是Transformer大模型最一开始的样子,一直到GPT-3时代人们都是这么调用模型的。”赵文渊说道,“你想要问一个问题,就得把它包装成一个特殊的格式,让模型去接你的话,根本不好用。”

  “一直到InstructGPT横空出世,这一波AI的时代才真正到来,从实验室走到了大众。人们都说Transformer是划时代的发明,可我觉得,Instruct理论的提出,重要性不亚于Transformer。”

  看到历史课上的差不多了,韩路一这才插话进来:“你说结果比预期好,到底有多好?”

  赵文渊反倒不着急了,他对着韩路一缓缓的吐出了一个词:“SOTA。”

  SOTA,state of the art。

  意思是,当前最强水平。

  韩路一自己就是个老装逼犯了,哪会不知道赵文渊现在在期待什么。

  可惜,现场的两个人都不是会为他这一个词震惊的人。

  他也不在意,接着问道:“具体的数据呢,拿出来看看。”

  赵文渊看他这么平淡的反应,在心里默默的叹了一口气,乖乖的打开了一个文档。

  各个测评集都和GPT-4不相上下,确实可以说是世界一线了,尤其突出的是在C-Eval(中文综合)和CMMLU(中文知识)两个测评集,GPT都在70%左右,汤圆base直接达到了80%以上。

  考虑到这还只是依靠视界制定的数据清洗规则做出的基座模型,韩路一当牛做马标出来的十万条标注数据都还没用。

  可以预计,汤圆完成训练之后的表现将会非常惊人。

  韩路一想到这,直接和赵文渊说:“事不宜迟,现在就开始后训练吧。”

  当初韩路一刚刚决定要自己做模型的时候,还是开物刚在国内市场做出点成绩,Nexus慕名找上门来寻求合作。韩路一当时判断自有模型将是不可替代的战略资源,没想到,短短的几个月之后,他的预言就成真了。

  模型的训练和部署成了Kaiwu海外版和御风下一步能否顺利发展的关键。

  如果不是韩路一当时果断选择去鼎盛那换算力,现在是无论如何也做不出来的。

  即使如此,接下来也得每一步都顺利,才能可能在Nexus翻脸之前顺利完成迁移。

  同时,鼎盛那边也在虎视眈眈,不得不防。

  韩路一最后又嘱咐了一遍赵文渊:“在鼎盛的集群上训练,只上传之前定好的那85%。”

  赵文渊郑重的点了点头:“我知道,剩下的15%才是我们之后致胜的关键。”

  姜亦心最后问出了自己最关心的问题:“那后训练还要多久啊?”

  赵文渊说:“最快两周,慢的话二十天。后训练我有经验,估算的差距不会太大。”

  会开完赵文渊和姜亦心一起往外走。

  突然,姜亦心放慢了脚步,等到赵文渊出去之后又折回来,问了韩路一一个问题:“韩总,刘秘书的工资是多少啊?这个能问吗?”

  韩路一秒懂,微微一笑:“差不多是你的工资的八成吧,怎么,你也想要个秘书?”

  姜亦心一听,脸就垮了下来:“这么贵啊,那还是算了吧。我自己安排的挺好。”

  姜亦心开门出去,韩路一打开视界又看了她一眼。

  【姜亦心】

  【产品SS|管理B|协作A|稳定S】

  【特技:触类旁通】

  【词条:好奇心|产品直觉|大局观】

  关掉视界,韩路一默默的感慨了一句,成长的真快啊。

  ……

  鼎盛大厦,二十三层,鼎盛云VP办公室。

  张弛正在看刘勃发过来的进度报告,手机突然震动了起来。

  他拿起手机一看,是刘亚光。

  看到这个名字,张弛心中一跳。

  刘亚光是运维平台的主管,张弛的心腹,现在正在盯着源智那边的训练数据。

  刘亚光平时不常联系他,算算时间,差不多是韩路一的标注数据要开始上传了。

  得手了?

  张弛不知道,但他有预感,可能是的。

  这样想着,张弛接起了电话。

  “张总,那批数据到位了。”

  果然。

  微笑爬到了张弛的脸上。

  他整个人的身体往后一倒,靠到老板椅的椅背上。

  他等这批数据等了快两个月了,这是郑总现在最看重的东西,自然也就是他最看重的东西。

  “什么量级?”

  “一共八万多条,标注格式完整,质量很高,不像是外包出去做的,应该是他们内部自己标的。”

  张弛心想,要是外包的数据,还用得着我费这个劲吗?

  “张总,还是给模型组送过去?”

  张弛正要答应,突然停住了。

  他又想了一会,才开口道:“你先别动,别往模型组送,给我。”

  刘亚光愣了一下:“给您?”

  “对,别走网络,放在一个U盘里。”张弛的语气平静,没有解释的意思。

  “好,我这就整理打包,一会儿给您送过去。”

  “不用。”张弛顿了顿,语气放松了一些,“这段时间辛苦你了。我之前听你说孩子想去迪士尼?我这正好有朋友送的几张VIP票,一会儿让我秘书给你送过去,顺便把U盘取回来。“

  电话那头沉默了一秒,然后刘亚光的声音变得有些低沉:“张总,您这让我您还记得这个啊……”

  “你跟我这么多年了,说这些干什么。“张弛淡淡地说,“下周末好好带孩子去玩玩。”

  挂断电话,张弛在椅子上坐了一会儿,然后拨出了一个电话。

  “程总,我这边拿到东西了。”

  “张总。”程远的声音从电话里传来,声音里有压不住的兴奋,“靠谱啊。”

第二百二十二章 这个数据不太对

  三天后。

  鼎盛集团,大模型研究院,AI实验室。

  刘大海已经在实验室待了二十几个小时了,熬了一个通宵,眼睛通红,里面布满了血丝。

  他年纪不小了,这么熬夜已经有点儿吃不消了。

  但是精神还是很亢奋。

  刚和韩路一见完面那次,对方用7B小模型加上一万条的数据微调出来的那个叫“汤圆”的模型给了他很大的震撼。

  后来他被叫到鼎盛CEO郑晓波的办公室里去问这个模型,他实话实说,一定是标注数据好。

  郑晓波问他,如果能拿到同等质量的数据,他能做出什么成绩。

  刘大海说,他能给天捅出个窟窿来。

  那是夸张的说法。

  但是没想到,这数据还真到他手里了,战投部的VP程远亲自拿U盘送过来的。

  而且里面不是一万条,是八万条。

  说是鼎盛和源智科技签了合作协议,对方共享过来的。

  大概浏览了一下,刘大海就能确认,这就是把“汤圆”微调出来的数据。数据能标到这种程度,怪不得能把一个7B小模型微调得这么强。

  见猎心喜,刘大海拉着组里的人就开了新一轮的后训练,直接上的顶格的计算资源。

  一个轮次一个轮次的看结果,效果好的超乎想象。

  一不小心就通了个宵。

  很多人以为做大模型是个好职业,赚的钱多,大厂争抢,全社会瞩目。

  可只有真干这一行的人才知道,这活儿一点也不好干。有很多时候,损失怎么降的,奖励模型怎么收敛,各项指标怎么平衡代码能力提升了,数学推理又掉了。

  有些能有理论来解释,有些也找不到解释。

  干这一行就像在一片漆黑的大海上开船。

  你既看不到终点,也看不到四周,只知道自己在前进,可究竟在向着哪个方向前进?不知道。

  也不知道你会先到陆地,还是先撞上冰山。

  怪不得搞模型的人喜欢戏称自己是炼丹的,开炉之前,你也不知道能不能成。

  太像了。

  正是因为知道每让模型能力提升一点有多难,一下子拿到这么多高质量的标注数据,让模型能力提升这么多,才会让刘大海这么兴奋。

  可是在最初的兴奋过去之后,他突然感觉出点儿不对来。

  源智科技有这么高质量的标注,他们不用来训练自己的模型吗?就算是没有资源从头做起,拿市面上的开源基座模型去做微调,也能做出很惊人的成果吧。

  怎么一点儿动静都没有呢?

  有了这一点儿不对之后,刘大海又去仔细看了这些共享过来的标注数据。

  更觉得不对了。

  他一条一条的翻过去。

  质量高吗?高。

  逻辑链条严密吗?严密。

  但是刘大海越看,眉头皱的越紧。

  旁边一个组员路过,看到他的神情,忍不住问了一句:“刘博士,怎么了?我看着结果超出预期的好啊,您脸色怎么这么难看?”

  其实这个组员自己也是个博士,能在大模型组里工作的,不是博士反而比较奇怪。

首节上一节204/248下一节尾节目录