首富从AI浪潮开始 第121节

  上面是一份打开的文档

  《汤圆模型-意图理解:可能的技术路径分析》

  “这是我昨晚连夜写的。”刘大海说。

  技术人的邀功还是直白了点。

  他把屏幕对着郑晓波,往前推了推。

  “先说排除法,指定不是架构创新。”

  “意图理解这条赛道,OpenAI的GPT现在是公认的天花板,也就78分出头。他拿一个开源的7B架构,参数量只有人家的零头,跑出85.2。郑总,这么跟您说吧,这就好比一个我们那县城中学的一个差生,用别人的旧课本自学,高考分数比全省状元还高三十分。我拍胸脯地说,绝对不是架构创新,7B的架构就那么点东西,翻不出花来。”

  “现在大模型的竞争,已经过了参数军备竞赛的那个阶段了。几百亿参数、几千亿参数,架构上大家都整的差不多。Transformer还是那个Transformer,无非是层数搁(gě)那儿多一层少一层,注意力头多一个少一个。”

  刘大海一边说一边仔细观察郑晓波的表情。

  技术人给领导汇报,又怕说多了太多技术细节,领导听不懂。又怕说的太少太简略,领导觉得不满意。只能小心翼翼,随时调整。

  “我能想到唯一的解释,除非这个县城学生用的不是别人的旧课本,而是一份全世界别的学生都没有的,黄金复习资料。”

  郑晓波还是面无表情。

  这时程远插话了他没听懂,这没关系,但他主要是怕郑总也没听懂,这种问题不能让郑总来问。

  “刘博士,不好意思,你这个比喻指的是?”

  “是标注数据。”刘大海也意识到自己说上头了,赶紧扯回来,“郑总也大概了解,我就简单说一下。”

  他把电脑转过来,去网上搜了一个流程图,再转回去面向郑晓波。

  “咱们训练大模型主要分为几个阶段,先是预训练,就是堆语料,咱们恨不得把互联网上所有的东西都给它整进去。”

  “然后是监督微调,找一帮人给模型做示范,教它学明白啥是好赖话儿。”

  “再往后就是对齐,让模型学着按人的想法来排,回答得更像正常人说话。”

  刘大海指了指屏幕上的流程图。

  “第一步大家用的语料都差不多,互联网就那么多东西,你抓我也抓。真正拉开差距的是后面两步,谁的数据标注质量高,谁训出来的模型就强。”

  “所以我说,那个……对方效果能做的这么好,一定是有好的标注数据。”

  刘大海把韩路一的名字忘了,公司名字也忘了,只好中途改口。

  不行,一会回去得查查这个公司,那个技术负责人,看看他的论文。

  做出训练出这种水平的模型,不可能没有学术积累。

  听到这,一直沉默不语的郑晓波突然开了口:“Scale AI。”

第一百四十三章 把他的数据供应商,挖过来

  郑晓波这句话一出口,刘大海就知道自己不用再说了。

  郑晓波是真的懂。

  执掌鼎盛这样一个巨头,确实得有两把刷子,知识储备到了,至少沟通成本能低不少。

  而且AI赛道正在风口上,哪家大厂也不敢掉队,对行业的关注甚至不比领域内的投资人和从业者少。

  Scale AI,硅谷最炙手可热的独角兽之一,他们不做模型,不做产品,只专注做一件事数据标注,可以说是AI时代的卖铲人。

  就凭这一项业务,Scale AI的估值做到了几百亿美金。

  这是什么概念?小半个鼎盛了。

  于是刘大海在文档里连翻了几页,跳过了准备好的铺垫,直接翻到一张对比图。

  “2023年6月,微软研究院发了一篇论文,叫《Textbooks Are All You Need》(你只需要教科书),用精心筛选的教科书级别的数据训了一个十三亿参数的小模型,Phi-1,在代码生成任务上打赢了市面上那些参数量是它十倍、训练数据是它一百倍的大模型。”

  程远插了一句:“刘博士,这是什么概念?”

  “当时除了GPT没有一个模型跑得过它。”刘大海说,“只有十三亿的参数,8张A100训练了4天,就这么点成本。这篇论文证明了一件事,数据质量够高,小模型就能干翻大模型。”

  他转向郑晓波。

  “这和汤圆的情况完全吻合。7B,就是七十亿的参数,一万条训练数据,意图理解打赢了坤元。关键不是模型有多大,是数据质量得好。”

  最近几年,这几乎已经成为AI行业的共识了:谁的标注质量高,谁的模型就强。架构变化不大,算力的边际效益递减,但高质量的数据标注才还有很长的进步空间。

  问题是,所有人都知道数据标注重要,却没人知道数据标注得好到什么程度才足够。

  OpenAI、Anthropic、Meta,每年砸几十亿美金在数据标注上,模型的表现确实是一代比一代强,但进步也越来越慢,谁也不知道什么时候会撞墙,也没人知道极限在哪。

  不管资本炒的多么火热,这个行业的所有从业者,大家都在一望无际的大海上摸索前行。

  直到看到汤圆,刘大海确信自己看到了未来的信标。

  郑晓波没说话。

  刘大海的语速慢下来了,声音压低了半度。

  “从模型表现倒推,他们的标注精度恐怕是我从业这些年能想象到的最高水平。不是高一点,是高整整一个量级。”

  办公室又安静了。

  郑晓波的手指在扶手上轻轻敲了两下。

  “那他的数据,会是从哪来的?”

  这个问题一出来,刘大海和程远同时看向他。

  郑晓波的表情没有变化。

  刘大海先开口了:

  “郑总,我先给您算一笔账,搂一搂。现在行业里最顶级的标注服务,Scale AI的专家级标注,一条大概七八十美金。但那种精度和汤圆的数据比起来,肯定还差了一截。如果按汤圆这个精度去买,市场上根本没有这个服务,硬要估价的话,一条怎么也得一百美金往上。他们说的是不到一万条数据,就算一万条,光数据成本就是一百万美金。”

  “这种精度的标注不可能是一两个人手工做的。要么有专业的标注团队,要么有独家数据源,要么是和哪个大型研究机构合作。”

  郑晓波看向程远,下了命令:

  “让商务情报团队去查,源码科技的工商变更、公开的合作披露,看看他们最近半年有没有和标注公司或数据机构打过交道。再查查他们的招聘岗位,有没有招过标注相关的人。”

  程远点头,在文件夹内页空白处快速记了几笔。

  “找到他的数据供应商,”郑晓波说,“直接挖过来。”

  刘大海补了一句:“如果能找到标注规范文档,那比数据本身还值钱。有了规范至少知道方向在哪,咱们可以试试自己做。”

  郑晓波看了他一眼,微微点了点头。

  “第二件事,”他的视线回到程远身上,“算力合作可以先谈着。”

  程远抬头,好像自己没想通:“谈合作。”

  “但是有条件。合作框架里必须包含一条共享训练数据。”

  “如果韩路一不同意呢?”程远问。

  “先谈着,但别把姿态摆太高。”郑晓波的声音中气很足,“算力他能找别人要,这个数据我们暂时还找不到第二家。”

  “等找到他的供应商,就不用谈了。”

  程远露出恍然大悟的神色,赶紧把这句话也记下了。

  刘大海在旁边全程看着,觉得这俩人聊天跟演双簧似的。这拍马屁的功夫,比机器学习还难学哦。

  郑晓波把转椅一转,面向落地窗。

  黄浦江在下面拐了个弯,对岸的写字楼群在冬天的薄雾里若隐若现。

  他背对着两个人,说了最后一个问题。

  “大海,你跟我说句实话。”

  刘大海看着他的背影。

  “如果拿到他们的数据,坤元能提高多少?”

  刘大海没有立刻回答。

  他想了几秒钟。

  作为一个在机器学习行业泡了十几年的人,他太清楚85.2意味着什么。坤元的意图理解是78,已经是国内第一梯队。换句话说,从78到85,这七个点,鼎盛模型组两百多人干了半年也没摸到门。

  而那俩人,哦对,韩路一,用一万条数据就做到了。

  关键不是他的模型有多好,关键是那一万条数据有多好。

  他越想越是兴奋。

  “郑总,如果咱们能拿到他那种精度的标注数据,哪怕只给我五万条”

  他停了一下。

  “坤元能把这个行业的天花板,给捅个窟窿出来。到时候就是咱们鼎盛的模型在全球第一。”

  郑晓波转过身来,窗外灰白色的天光勾出他的轮廓,脸上带着淡淡的笑意。

  “那我就拭目以待了。”

  “程远,你去办吧。”郑晓波拿起桌上的矿泉水喝了一口,“算力合作的事,先别给韩路一回复,让他等两天。”

  程远愣了一下:“郑总,这是……”

  “记住,在谈判桌上,先开口的人,输。”

  ……

  与此同时,源码科技。

  韩路一坐在办公室,点开视界,花了二十分钟,又标了三百多条数据。

  看了看精力值,他打了一个哈欠。

  这时,韩路一的手机响了一下,他拿起来一看,是【404寝室】群的消息,有人@他。

  前段时间马小飞和张浩然看球在群里面刷屏,他设置了消息免打扰,有几天没看了。

  韩路一翻了一下聊天记录。

  【马小飞】:儿子们都干啥呢!咱多久没见了,出来聚聚不?

  【张浩然】:半死,微活。

  【张浩然】:还是你们媒体人有活力啊。

  【马小飞】:怎么了,铁饭碗还能把你给累着?

  【张浩然】:开玩笑呢,现在行里搞全员吸储,我这个季度的考核还没着落呢。

  【马小飞】:连你们技术岗都不放过?!

  【张浩然】:你来得正好,救救哥,你的人脉里有款爷吗?

  【马小飞】:手动帮你找款爷,@我的父亲韩路一

  【马小飞】:老韩你这是什么群昵称,占我便宜是吧?

  韩路一爬完了楼,一拍脑门。

首节上一节121/248下一节尾节目录