首富从AI浪潮开始 第143节

  “跟他说爸爸等寒假再带他去,到时候人少。”

  挂了电话,他把手机放回兜里,揉了揉脸。

  也不知道到时候还有什么事,但是先这么说吧。

  渐渐的走廊里的传来的声音听不见了,张弛还在椅子上回想那天谈判的时候,韩路一坐在他对面,那副嚣张的嘴脸。

  说什么“我们没必要整个会议都围着这一条转”,还说什么“总不会刻意偷我的数据吧”。

  我就偷了,你有办法?

  把数据协议的条款看得这么重要,你是第一天用云平台吗?

  听说他以前也是在鼎盛工作过的工程师,怎么还这么天真呢?

  这次就让老前辈给你上一课:除了物理隔离之外,所有的数据保护都是不安全的。

  事实就是,这些数据他拿了,韩路一也发现不了;就算发现了,也抓不住他的把柄。

  ……

  赵文渊的公寓里,韩路一正像个好奇宝宝一样看来看去,张彪跟在他身后,既不说话。

  赵文渊自己租了一个大平层,大客厅之外,卧室就有两个,竟然还有一个房间专门当机房。

  推开门一阵冷气扑出来,单独装了空调常年开着,机柜立在墙边,正面一排指示灯密密麻麻地闪烁着,风扇嗡嗡地发出一些白噪音。机柜里面放着好几台服务器,中间用整齐的排线连接着,还有一个小的八张卡组成的GPU矩阵,铭牌上的型号闪着光,看得韩路一口水都要流下来了。

  张彪站在门口没敢进,他不懂这玩意儿,有种看科幻片的感觉。

  赵文渊带韩路一和张彪看完了房间,三人在客厅的沙发上坐下来。

  “文渊,你不是海城本地人吗?还自己出来住?”韩路一好奇地问道。

  “在国外自己住惯了,和爸妈住一起不太方便。”赵文渊回答道,然后转移了话题。

  “韩总,源码都放假了,怎么咱们源智还得加班啊?”赵文渊调侃了一句。

  是的,韩路一想着苏念念这几天确实太累了,就给她放了个假。

  后来又一想,苏念念不在,很多事情也决定不了,干脆给全公司都放了假。

  带薪假。

  从12月30号开始放假,一直到1月4号星期一再回来上班。

  三天的小长假直接成了五天的长假,还不用调休。

  消息发出去,当天晚上飞书群就炸锅了。

  “五天啊兄弟们,五天,不用调休的那种。”

  “建议韩总竞选海城最佳老板。”

  “刷到这条接突然放假的任性老板。”

  基本上每个员工都发了朋友圈。

  海城科技圈现在流行着一句话,叫“你看看人家源码科技”。

  那些大厂们且先不说,本来就盛行996文化,能歇满三天就已经烧高香了。

  另一边,海城这些创业公司的老板们对韩路一是怨声载道。

  你自己不想上班你就歇着,给员工们都放假是干什么?

  资本家里出了工贼了!

  资本家贼!

  到了第二天,甚至还有网络媒体报道了,对几个员工进行了采访。

  源码科技这个名字带着有了点名气,好多人都是第一次听说最近风头正盛的开物平台原来是这家公司的产品。

  赵文渊虽然一直没去办公室,在飞书群里也接到了消息。

  但是源智这边,大模型预训练的准备工作正如火如荼,一刻也闲不下来。

  赵文渊到没有心里委屈。

  早点把模型做出来也是他自己的愿望。他是自驱型的牛马。

  12月31日下午,韩路一说有重要的事要和赵文渊对齐一下策略。

  想着源智还没有办公场地,赵文渊就让韩路一直接来他家里了。

  “所以,有什么事急着当面说?等节后不行吗?”赵文渊问道。

  “确实比较急。”韩路一正色道,“原始数据清洗了小一半了,鼎盛那边的账号也开通了,等到节后就差不多要开跑了。”

  “在那之前”

  “我们得把防止他们偷我们数据的策略捋清楚。”

第一百六十四章 二零二七

  赵文渊闻言睁大了眼睛:“你是说,鼎盛会偷咱们的数据?”

  韩路一点了点头。

  赵文渊想了想,开口道:“以鼎盛的尿性,做出这种事情也不奇怪。那咱们怎么办?不和他们合作了?”

  “合作,但是既然知道他们会来偷,那就先制定好策略。给我张纸。”

  赵文渊去书房里找了纸和笔出来,递给韩路一。

  韩路一在纸上先画了一个大圆,在里面画了一个小圆。

  “最近的数据标注,包括我们第一次训练时的那些,我都统一给它们分成了两类:百分之八十五是必要但不具决定性的条件,剩下百分之十五是那些对模型的能力影响最大的。我们只把那些次重要的标注传给鼎盛,做第一次后训练,最重要的这些,留到最后一轮,在自己的机器上跑。”

  “毕竟,只有物理隔离,才是真的安全。”韩路一说道,“而且,我们也需要给他们看到一些「足够好」的数据,引诱他们来偷。”

  “钓鱼。”赵文渊秒懂。

  赵文渊看着这张图,提出了一个疑问:“等模型训练出来了,可以通过交叉对比检测哪些标注的影响更大;但是现在这个阶段,我们怎么区分呢?还是随便选百分之十五?”

  韩路一想了想说:“我有办法,反正比随便选的好。”

  赵文渊不再追问,点了点头:“这个办法好,反正等到大模型训练出来、发布出去,他们一定会来蒸馏的。蒸馏出来的模型也能复制百分之八十的能力了。你这个办法至少也能让他们降到百分之八十。”

  “嗯,但这不是重点。”韩路一说。“我不只是想防着他们来偷我们的数据。”

  “那还有什么?”赵文渊问道。

  韩路一没有回答这个问题,而是问赵文渊另一个问题:“前两天签的Term Sheet,你仔细看了吗?”

  赵文渊知道接下来的话题,应该跟这个签好的文件有关,他从手机里找出了副本。

  “你说的是哪个条款?”

  “就是关于数据保护的那条,股权条款的附加保护机制。”

  赵文渊翻过去看了看原文的条款:

  ---

  【股权条款-附加保护机制】

  若投资方及其关联方未能证明已对公司提供之数据尽合理保管义务,且发生超出本协议授权范围之使用、转移、备份、采样或衍生使用,视为触发本条款。

  一旦触发,公司有权:

  (一)无偿收回投资方已兑换之全部股份,回购对价为零;

  (二)本协议项下尚未消耗之算力额度自动终止,投资方不得就已投入之算力成本主张补偿;

  (三)保留向投资方及其关联方主张实际损失赔偿之权利。

  本条款不以投资方主观过错为构成要件。

  ---

  看完赵文渊抬头看向韩路一:“你早就预料到他们会偷了?”

  “这条可不是保护条款,这是扳机。”韩路一摇了摇头:“也不是只防着鼎盛一家,只要不是自己的机房,自己的机器,我谁都不信任。只是除了自保,我还有别的目的。”

  赵文渊说:“你希望他们来偷,咱们就可以行使这个附加保护机制,免费用他们的算力,还把股权给收回来了?”

  韩路一缓缓的点了点头。

  赵文渊沉吟道:“这个恐怕不好做到呀。”

  又想了一会儿,赵文渊开口道:“主要是不好举证,数据标注也没有追踪码,你说是他从你这偷的,他还说是他拾的呢,除非”

  “除非用水印。”韩路一说。

  “嗯,常规的水印就是特殊字符和统计学水印。”赵文渊说完,突然注意到张彪在旁边拿着笔记本正在记录他和韩路一的谈话。

  怎么,张彪对技术话题突然感兴趣了?

  赵文渊讲题的瘾一下就上来了这种好学的人才不能放过。

  于是他解释道:“数字水印就像是数字资产的追踪码,可以证明一些数字资产的归属。”

  “比如说不可见字符水印,就是在数据里面加入一些人看不见的字符,但是计算机可以读到。这样,如果有人偷走我们的数据,我们用计算机读出来,在特定的位置,含有那些特定的字符,就可以证明,这些数据就是从我们这儿偷走的。”

  赵文渊把刚才韩路一用过的那张纸拉过来,在上面画了个简单的示意图。

  “统计学水印要绕一些。比如说同一个意思有很多个词可以表达,我们提前在数据里把比例定死:'好看'和'漂亮'就按1:2出现。这种统计模式只要整个数据集都符合,那数据就是从我们这儿偷的。”

  “现在不是讲课的时候,回来你和彪哥专门聊。”韩路一说,“文渊,你说的这些加水印的方法都比较常规,破解方法也不是什么秘密,我猜鼎盛既然敢偷,应该会处理好这些。”

  “那怎么办?”

  “我倒是有个想法,逻辑水印。以前应该没人尝试过。”韩路一说道,“他们可以改词,洗数据,但是只要模型一开口,就是铁证。”

  “你是说……”赵文渊思考了一下,觉得自己摸着点头绪,“把标注所体现出的逻辑规则抽象出来,如果对方训练出来的模型,它的逻辑模式和我们的高度相似,就说明对方的标注和我们的标注高度相似。这就像是两个空间逻辑空间和语义空间建立了映射一样。”

  韩路一回头看到张彪又陷入了迷茫的神情,给他打了个比方:“这就好像我们有个菜谱,他们偷走之后把菜谱重抄了一遍,甚至里面的一些无关紧要的配料都换了,但是一吃,味道一模一样,我们还是知道他们是抄我们的。”

  张彪脸上露出了然的神色,把笔记记了下来。

  “可是。”赵文渊又想了一下,“你怎么知道他们不会把逻辑也换掉呢?”

  韩路一一笑:“我赌他们不会,他们既然来偷我们的数据,肯定是做的不如我们好。你要去抄学霸的答案,你敢改吗?”

  赵文渊皱了皱眉头:“我可没抄过答案啊。”

  韩路一一愣,连忙说:“我也没抄过。”

  张彪在旁边没说话,倒是也没人问他。

  “总之,这批标注数据我会分好类给你,里面的逻辑水印我来做”

  “等他们来。”

  正事说完了,韩路一从沙发上站了起来。

  “文渊,你这几天辛苦了,咱们接下来不工作了,一起出去吃个饭,算是源智科技成立以后的第一次聚餐,展望一下2027年。”韩路一提议道。

  听完韩路一的话,赵文渊脸上露出了尴尬的神色来:“韩总,不好意思,我今晚有约啦。”

  这次轮到韩路一睁大眼睛了:“啊?”

首节上一节143/248下一节尾节目录