屏幕上是一个表格软件,四列。数据来源是开物后台导出的脱敏用户记录,前三列赵文渊一眼就认出来了:用户输入、AI生成结果、用户实际行为。这些字段开物的数据中台本身就在记录。
第四列是新加的。
列名:真实意图。
赵文渊的目光停在了第一行。
用户输入:帮我做一个客户管理系统。
AI生成结果:标准CRUD客户管理页面,列表、新增、编辑、删除,四个功能模块齐全。
用户实际行为:删掉了增删改功能,只保留备注字段。随后手动将备注栏扩展为一个带时间线的客户跟进记录页面,前后修改了三次,重新生成两次。
标准标注应该怎么写?赵文渊问自己。
“需求理解偏差,用户对生成结果不满意,部分采纳。”如果是他会这么写。
第四列写的是:用户是销售岗,公司已有CRM系统但备注栏过于简陋,她需要的不是一套客户管理系统,是一个补充现有CRM的客户跟进日志工具。
这么详细?赵文渊的手指在触控板上滑了一下,往下翻。
第二条。
用户输入:做一个排班表。
AI生成:标准排班日历,拖拽功能加班次模板。
用户实际行为:删掉整个排班UI,只保留数据导出功能,手动添加法定节假日高亮和加班时长自动累计,修改五次。
第四列:用户是HR,正在做年终结算。她要的不是排班工具,是加班费合规计算器,需要用实际出勤数据交叉法定假日定义来计算加班倍率。
赵文渊停了一下。
他重新看了看第三列,修改五次、删掉整个UI,这些是系统日志里白纸黑字记下来的行为数据。第四列的标注是在解释这些行为背后的“为什么”。
他随手又翻了几条。
一个用户输入“做一个会议纪要模板”,实际行为是把生成的模板删到只剩一个表格框架,然后手动加了“待办跟进人”和“下次检查日期”两个字段。第四列标注:用户不是要做会议纪要,是要做项目进度追踪看板,因为公司没有项目管理工具,她在用会议纪要当替代品。
赵文渊挑了这条做验证。用户删掉模板只留表格,行为数据对得上。手动加跟进人和检查日期,操作记录里有。标注的结论:用会议纪要替代项目管理工具。
他想了想,觉得说得通。甚至不只是说得通,如果真的是在做项目管理,那用户接下来的需求大概率是甘特图或者看板视图,而不是更好的会议纪要模板。
这个标注精度已经不是“标得准”了。
是标注者理解了用户的工作场景。
赵文渊抬起头看韩路一。
“这是深加工标注?”赵文渊问,“用来继续提升天工的?”
“不是用来做天工的,算是示例。”
赵文渊皱了下眉,不是做天工,那做什么?天工是代码专项模型,这些开物数据的标注跟天工很贴合啊
“如果用户行为的公开数据集也能有这个精度的标注呢?”韩路一说。
赵文渊直接摇头。
“不可能,你这个精度是因为有开物的行为闭环,用户怎么改的、重新生成了几次、最终保留了什么,这些全是客观信号。公开数据集没有这些,光靠人工标注就是在纯猜。”
韩路一没争辩。
他做不到,视界能做到。
他转了个方向:“做一个原型要多少数据?”
赵文渊愣了一下,反应过来韩路一在说的是什么,不是提升天工,是在开源的通用基座上跑意图理解方向的微调。
“通过微调,验证意图理解能力的变化?”赵文渊想了想,“五千到八千条这个质量的就够有很明显的提升了。”
顿了一下,他又补了一句:“但做出来也没意义,小模型微调的再好,拿去跟GPT-4一比,性能上不是一个量级。”
韩路一说:“我拿它去见投资人。”
赵文渊明白了。
原型不是产品,是Proof of Concept,证明可行性。到时候就这么说:你看我几千条数据在一个7B模型上就能做到这个效果,如果有了大算力和大数据呢?
“两到三周能给到吗?”赵文渊问。
“可以。”
赵文渊的目光又扫了一遍表格,两百八十七条,每条的标注质量都超过他见过的最顶级的标注团队的水准。
如果能用这种数据做训练……赵文渊自嘲的一笑,别痴心妄想了。
韩路一出差的时候一直在干标注?这看起来得有几十个小时的工作量。
赵文渊没问他怎么做到的,开物的行为数据闭环是最合理的解释,有用户操作日志在手,一个足够了解产品的人,再花足够的时间,确实可以做到高精度标注。
况且韩路一就是开物的设计者。
唯一的问题是这样拿到的数据太贵了,不划算。
这时,门被敲了两下。
苏念念推门进来,手里拎着一个便利店袋子。
“彪哥说你没吃午饭。”
她把袋子放在茶几上。一个三明治、一个饭团、一杯咖啡。
赵文渊肉眼可见地僵硬了。
他下意识看了韩路一一眼,嘴边的话咽回去了。他们正在聊的是新公司的核心数据策略,苏念念是源码的联合创始人,如果她不知道韩路一的计划
“念念知道。”韩路一拆三明治的手没停。
赵文渊:“……知道什么?”
韩路一看了他一眼,没拆穿他蹩脚的掩饰:“都知道。”
苏念念在旁边的椅子上坐下来,扫了一眼屏幕上的表格,没细看。
“聊到哪了?”
赵文渊这才松了口气。
“聊数据。”韩路一咬着三明治含糊地说,“做模型原型要高精度标注的八千条数据,两周之内搞定。”
赵文渊以为是数据两周之内搞定,韩路一说的是模型两周之内搞定。但没人意识到差别。
苏念念点了下头,没追问细节,换了话题。
“贺总那边怎么样?”
“没谈下来,他不看好。”
苏念念没意外的样子。
短暂的安静,赵文渊看看韩路一又看看苏念念,气氛有点沉。
融资没成这件事,放在任何一家创业公司都是坏消息中的坏消息,还没成立的公司?那就是毁灭性的打击了。
“我这有两千万。”苏念念说,“先借给你,不要股份。”
赵文渊愣住了。
韩路一嘴里的三明治也停了一拍。
“上次卖老股的钱,我一直没动。”苏念念语气平淡,听不出波动,“你要做新公司,最缺的是启动资金,这笔钱算我个人借给新公司的,我也不想要股份。”
韩路一看着她。
苏念念笑着说:“利息别给太低啊,我还指望这笔钱养老呢。”
赵文渊在一旁安静坐着,他不太了解苏念念和韩路一之间具体的合作细节,但两千万这个数字,大概是苏念念能拿出的全部身家了。
不要股份,就要个借条,公司做成了她赚几个点的利息,做不成……一家还没注册的公司能有什么资产拿来还债。
“别急,我也有点钱。”韩路一说,“况且,融资的事我有办法。”
“什么办法?”
韩路一没正面回答,他还没想好怎么说找鼎盛要算力这件事苏念念和赵文渊跟鼎盛打交道的经历都不算愉快。
苏念念看他不说,也没追问。
她了解韩路一的节奏,想好了会说,没说就是还在想。
“真到了需要的时候不会跟你客气。”韩路一说。
苏念念站起来。
“对了,Nexus那边约好了,和Ryan视频会议排在下周三,早晨八点,别迟到了。”
韩路一点头,这个会他必须参加,探探对方到底走到哪了。
“议程我发飞书给你了。”苏念念说完出了门。
赵文渊目送她出去,转过头。
“你和苏总……”
韩路一抬眼:“嗯?”
赵文渊没继续说。
韩路一解释了一句:“我们是老同学。”
赵文渊看了他一眼,没拆穿他蹩脚的掩饰。
韩路一继续吃三明治,吃完擦了手,把屏幕拉回表格页面。
质量足够,那还说啥?
视哥,靠你了。
第一百二十九章 鼎支付
“训练不用开物的数据。”韩路一说。
赵文渊放下手里的咖啡:“刚才那两百多条”
“专门给你看质量的,既然质量达标,就按这个标准来。”韩路一说,“既然我们要做的是通用对话模型,得让它理解各行各业的人在说什么。天工积累的这些代码相关的数据就不太用的上了,我们需要更多元的数据。”
“你以前在谷歌的时候有经验,他们是怎么做的?”韩路一问道。
赵文渊想了想:“大模型出来这几年,流程已经摸索的差不多了。大厂做对话模型,数据管线一般分三步:先是海量采集,爬虫加授权数据源,数据PB级起步,恨不得把整个互联网都存下来;然后清洗,去重、去噪,砍掉百分之八九十的垃圾;最后是标注,上千人的团队按标注规范一条一条标,光标注成本一年就能烧几千万。”
他看了韩路一一眼:“我们没那个资源,但做原型到也不需要那么大的量,开源语料库里有现成的公开数据集、社区问答、百科、论坛,采集和基础清洗别人已经做过一轮了,剩下的是精洗和标注。五千条高质量标注,就算找外包,也得十几万加两三周,但是质量”
赵文渊的话没说完,开源语料,找外包标注,和韩路一刚才给他看的标注质量比,那是一个地下一个天上。他技术再自信,也不敢说这种方法做出来的东西可以出去拉投资。
“我也是这个想法。你放心,数据交给我,保证都是刚才的那个质量。”韩路一保证道。
赵文渊狐疑的看了他一眼,你知道自己在说什么吗?
开物的数据能标是你有数据源,有用户场景,有深度理解开源语料有什么?
赵文渊尽量让自己的语气听起来没那么冒犯:“开源数据谁都能拿到,标注出来都大差不差,能有什么区别?”