闫俊杰把自己练成了算法

案例资讯
王智远
8小时前

老罗最新一期采访 MiniMax 闫俊杰的播客,四个小时,终于稀稀拉拉听完了。

听完后,也就没然后了;毕竟信息在脑中过去,犹如刮风一样丝滑,左耳朵进右耳朵出。所以,我又把播客下载下来,转换成文字,死磕了一遍。

这一遍,让我对闫俊杰的表达,有了新的认识。

如果说罗永浩代表古典互联网时代对“产品”和“情怀”的追求,那闫俊杰展示了一种全新的、甚至带着一点非人感的物种。

你看他温吞、佛系,甚至有点迟钝,但在这张毫无攻击性的外表下,藏着一套近乎冷酷的操作系统。

为什么我要下这个结论?复盘 MiniMax 的三年,我看到的第一个关键词,是「去魅」。

咱们平时看那些 AI 大佬,要么极客范儿十足,要么满嘴改变世界的精英,但在老罗的直播间里,闫俊杰太“素”了。

发际线有点高,人有点微胖,甚至在公司里,大家居然管他叫“中登”,意思就是“长相中等登样” 。你可能觉得这人挺逗、挺佛系;但细品他在访谈里说的一个细节,就大有不同了。

他说为了减肥,去打了司美格鲁肽。打完之后,食欲没了。他的原话是:感觉自己变成了圣人。

大家听了可能哈哈一笑,觉得是幽默。但在我眼里,这简直是一个狠人的隐喻,一个为了达成目标,可以随时修改自己身体参数的人。

这种对欲望的剥离,一旦用到公司管理上,就是一种极度可怕的理性。

你看他对危机的反应,完全不像个正常的碳基生物,当初硅谷银行倒闭,MiniMax 所有钱都在里面,眼看要发不出工资了;换一般创业者,这会儿估计早就崩溃了,或者至少得焦虑得睡不着觉吧?

闫俊杰没有。

他的回忆里,没有一丝惊慌失措,他说,这事儿既然发生了,那就别浪费时间去难受了,赶紧算算怎么活下来,怎么把损失降到最低 。

再看他对竞争对手的态度。

今年 DeepSeek 火成那样,把大家脸都打肿了;正常人心里多少得有点酸吧?有点“既生瑜何生亮”的不甘心吧?

他没有。他淡淡地来了句:我不嫉妒……我觉得是他们应得的。这哪像人在说话啊?这简直是一台服务器在输出计算结果,在他那套操作系统里,好像根本就没有情绪这个模块。

他在访谈里老说自己“认知不够”,还会自我 PUA。这话翻译成大白话是:我的模型没跑好,误差变大了。

误差变大了怎么办?哭有用吗?没用。你得赶紧找找是哪层参数设错了,把权重改过来,然后接着跑,这就是第一代 AI Native CEO 最吓人的地方。

他不跟你演什么热血沸腾的创业故事,把自己活成了一个没有感情的“算力节点”,输入信息,算出最优解,然后执行。

所以,我说,看着佛系,其实是“情绪参数归零”,这种人,才是最难被击败的。

既然有了这么一颗“莫得感情”的 CPU,那 1989 年出生的闫俊杰做出来的决定,自然就不可能按常理出牌。

常理是什么?迷信大牛,迷信硅谷光环,是我们要聚焦,但他这套系统启动后的第一步,竟然不同。

哪里不同呢?

先说人。回想一下 2021 年那会儿,AI 圈子都在抢什么人?各家公司都在抢大厂高管、海归的博士、抢自带光环的“明星科学家”,那可是“诸神之战”。

好像谁家没几个 Google、微软回来的大神,都不好意思跟投资人打招呼。

但 MiniMax 呢?简直是“草台班子”。闫俊杰找了一帮什么人?一帮年轻得不像话的生瓜蛋子。外界甚至吐槽,这团队配置也太素了,连个能镇住场子的海归大牛都找不到。

是请不起吗?肯定不是。

闫俊杰在访谈里说了一句比较扎心的话:我觉得之前的经历很多东西是没用的……甚至很多传统 AI 的经验是相悖的。

这就很有意思了。在咱们看来,经验是宝贵的财富;但在他的算法里,这叫过拟合 (Overfitting)。

你想啊,旧时代专家,脑子里装的都是上一代参数,他们太懂怎么调优一个小模型,太懂怎么做一个人脸识别了,但在 AGI 这个新物种面前,这些旧权重反而成了偏见,成了阻碍。

反倒年轻人,没经验,也没被污染,他们就像一张没被训练过的显卡,算力纯净,可塑性极强。

他还搞出了“实习生也有实习生”的操作。让 AI Agent(智能体)去给实习生打下手,干写代码、修 Bug 的脏活累活,这哪是招人,这分明在搭建一个人机混合的算力集群。

除了人,还有事儿。如果别的创业公司,投资人肯定会按着头让你“聚焦”,你一个小公司,资源有限,先把文本模型搞好行不行?

但闫俊杰偏不。

他一上来搞了个“全家桶”:语音、文本、视频,我全都要;在当时看来,这简直找死,不仅违反了商业教材里的定位理论,也违反了创业公司的资源约束。

那他为什么要这么干呢?因为他信物理学里的 Scaling Law(规模定律) 。

在他的算法里,Scaling Law 有个前提,你的输入数据必须是完备的;你想想,人类怎么感知世界的?不光靠读文字,更得靠听、靠看。

如果我们想要造出真正的 AGI(通用人工智能),却只给它喂文字,那就像想培养一个天才,却先把他的眼睛蒙上、耳朵堵上。这在物理上就不可能收敛到人类智能这个全局最优解。

既然终局一定是多模态融合,那为什么要为了短期的“容易”,去造一个“残疾”的模型呢?

所以,在访谈里,他特淡定地说,做语音、做视频当时看起来很蠢,甚至做了两年语言模型都没啥直接产出,但只要目标函数是对的,中间的亏,都为了收敛到全局最优解所付出的代价。

参数(人)找齐了,目标(多模态)也定好了,怎么让这几百号“生瓜蛋子”,像一颗大脑一样精密运转?

按照熟悉的互联网大厂逻辑,这时该上“管理手段”了,定 OKR、搞赛马机制、建中台、设层级,这也是很多大厂最引以为傲的“屠龙术”,但闫俊杰把这些通通扔进了垃圾桶。

他在访谈里有点凡尔赛地说:我们公司没有 OKR,也试过,发现根本行不通。

为什么行不通?

这要回到理工男的脑回路了。在他眼里,公司是一个巨大的、待优化的函数。传统OKR 是什么?我知道桥在河对面,咱们拆解一下怎么搭桥,那是确定性环境下的工程管理。

但在 AI 这个无人区,前面是一片迷雾,根本不知道桥在哪。这时定 OKR,就是瞎指挥。

那 MiniMax 靠什么管人?

靠算法,全公司最核心的会议,叫CD 会这个词儿听着挺玄乎,其实是数学术语 Coordinate Descent(坐标下降法)的缩写 。

啥意思呢?

在多维空间里,我们不知道最低点(最优解)在哪,但可以让每个人(每个坐标)轮流调整,每次调整都让整体的 Loss(误差) 往下降一点点。

智远认为,这是一套极度理性的“硅基管理哲学”。

第一,消灭了中间商。

传统公司里,产品经理是干啥的?写文档(PRD)、画原型、催开发;但在 MiniMax,这套流程太慢了。

闫俊杰要求,产品经理得自己能写代码,能做 Demo,因为在神经网络里,神经元之间是直接传递信号的,不需要一个翻译官在中间传话。

那些只懂“协调资源”的中间层,在这个系统里就是增加了延迟(Latency),必须被优化掉。

第二,残酷的“剪枝”。

这套系统听着很美好,运作起来很冷酷;我记得前段时间看一个报道说,MiniMax 高管流动性很大,甚至有早期合伙人被请走。

咱们看来,这叫内斗或者动荡,而闫俊杰的算法里,这叫剪枝(Pruning)。

如果一个参数(员工)的调整,始终不能让全局的 Loss 下降,甚至导致了模型发散(团队内耗),那么,不管他资历多老,在这个函数里,他就是无效变量,必须归零。

所以,你看 MiniMax 的组织,既没有大厂温情脉脉的家文化,也没有打鸡血的兄弟文化,它更像一个高压运转的计算集群。

每个人是一个变量,大家不看脸色,不看 PPT,只看一件事:每一次迭代,有没有让那个该死的 Loss 值往下降一点?

这就是 AI Native 公司的真面目:极致扁平,极致效率,以及,呃……极致的无情。

既然这套“硅基管理系统”这么厉害,是不是就无敌了?

并没有。

这台精密的机器在 2024 年上半年,也差点死机;那是 MiniMax 最纠结的一段时间;虽然Talkie在海外火了,但也让整个公司染上了一种互联网旧势力的病毒。

那就是,追求虚荣指标(Vanity Metrics),闫俊杰说,那时,投资人天天盯着问 DAU(日活),公司内部开始疯狂讨论投流、买量、留存。

这好比一个本来要练神功的武林高手,突然跑去练胸口碎大石了,因为来钱快,观众爱看,而且,这个时刻DeepSeek(深度求索) 横空出世了。

DeepSeek 干了什么?

没买量,没做复杂的App,靠一个强得离谱的模型,几天之内用户量炸裂,把所有还在卷投流的公司(包括 Kimi,也包括 MiniMax)脸都打肿了,这种行为,间歇性给MiniMax一个大嘴巴子。

他既没有像有的同行那样,在那儿愤愤不平地算 DeepSeek 到底亏了多少钱,也没有像有的巨头那样假装看不见继续硬推,而是,把大嘴巴子识别为了一个极为宝贵的误差信号。

那MiniMax干了什么事儿呢?

一,砍掉胸口碎大石的项目:为了堆产品功能、为了虚荣指标而分散算力的项目(比如那个类似“即梦”的视频产品),直接停掉。

二,修正权重:既然智能才是核心,那就把算力从运营那里抢回来,重新 All-in 到数学、编程这些最硬核的基础能力上。

三,认错迭代:在访谈里他坦然承认自己“认知不够”,这叫根据最新的误差值,更新了自己的参数。

很多人觉得 DeepSeek 是 MiniMax 的对手。但智远看来,DeepSeek 更像 MiniMax 这个神经网络的一次强效“梯度修正”。

如果没有被打脸,MiniMax还在互联网流量思维的局部最优解里打转。正是这种修正,证明了闫俊杰这套系统的“鲁棒性” (Robustness) 。

一个优秀的系统,当巨大的外部冲击到来时,它能接受对手的启发,瞬间完成自我纠错。

一颗莫得感情的 CPU(闫俊杰),带着一堆没被旧时代染过色的生瓜蛋子(年轻人),跑着一套只看结果、不讲面子的算法(CD会),最后,还得加上脸被打肿了、下一秒就能立马调头的狠劲儿(纠错机制)。

这确实是一个能够在这个乱世中活下来、甚至跑得很快的新物种。

但复盘最后,我不得不面对那个最扎心的问题,也是罗永浩在访谈里反复追问、甚至有点焦虑的问题:如果公司都变成了这样,那我们人类,比如:产品经理、中层管理者,在这个系统里还有位置吗?

闫俊杰回答很含蓄,他说边界会模糊,说大家都要懂技术。 但在我看来,这层窗户纸捅破了极其残酷:因为传统的中间层,注定消亡。

在罗永浩的古典认知里,产品经理是“我有想法,工程师来实现”的人,是负责“指挥”的;但在闫俊杰的算法里,这个协调者的角色权重,正在无限趋近于零。

为什么?

因为他要求产品经理得自己做 Demo,自己写代码;在 AI 赋能的组织里,“想法”到“实现”的路径被无限压缩了;以前需要一个部门、开五次会才能干完的事,现在一个超级个体+ AI就能干完。

所以,智远认为,未来公司组织,大概率会收敛成一种“哑铃型结构”:

一端是“架构师”,像闫俊杰这样,负责定义目标函数(Target Function),负责设计系统如何运转,负责在至暗时刻计算生路。

一端是“超级节点”:能够直接利用 AI 产出结果的个体,或者是能提供高质量数据(Data)的人,哪怕你是写小说的、画画的,只要你有原创性,你就是高权重的参数。

而夹在中间靠传递信息、协调资源、管理情绪为生的科层制管理者,将被系统无情地剪枝。

这听起来很悲观吗?

访谈最后,闫俊杰提到了特德·姜的小说《软件体的生命周期》;那是一个关于人类如何与数字生命共存、共同进化的故事,或许,这就是一场“物种进化”。

MiniMax 的三年,不仅是一家创业公司的突围史,更是一份未来组织的生存实验报告。

它告诉我们,在 AI 时代,想要不被组织系统优化掉,唯一的办法,成为那个定义算法的人,要么,让自己也进化成系统的一部分。

至于还抱着旧地图、沉溺于中间管理的人,抱歉,系统对齐的函数里,容不下噪音;罗永浩用生意思维,巧妙地把这套冷酷但有效的生存逻辑给“聊”了出来。

有意思。产品底层是模型,把模型做好,剩下的,都只是渠道。以上,仅代表智远个人看法。

参与讨论

回到顶部