
这周AI圈是真的热闹。
早上OpenAI扔出GPT-5.5,下午DeepSeek V4就上线了。前两天DeepMind还整了个视觉香蕉,Cai Haoyu(新米哈游创始人)发了篇数字人的论文。一周干了过去一个季度的活儿。
挑几个重点聊聊。
V4发布前我参与了内部测试,之前一直憋着不能说,现在 embargo 解除了。
先说参数。这次出了两个版本:V4-Pro 总参1.6T、激活49B;V4-Flash 是284B/13B。都在32T+ tokens上预训练,100万上下文直接标配,MIT协议开源。推理模式支持三种:非思考 / 高强度思考 / 最大强度思考。API价格方面,V4-Pro 输入$1.74/百万tokens,输出$3.48;V4-Flash 便宜一个数量级,只要$0.14/$0.28。
能力上,团队自己也承认大概在 Opus 4.6 这个档位,可能还略弱一点。不是绝对的第一梯队。
这跟上次R1打O3的情况一样——追上了,但没站到最前面。
那DeepSeek的厉害之处在哪?我一直觉得,这家公司不是靠模型碾压对手的公司,而是靠 Infra 带节奏的公司。Infra 永远跑在模型前面,不是跟着模型走。
这次V4放出来的 Infra,对所有做推理服务的公司来说简直是灾难。这个词我真没夸张。
原生 FP4 支持。V4 是个 FP8 + FP4 混合精度模型:MoE专家用FP4,其余用FP8。现在市面上大多数芯片和推理框架,要么不支持FP4,要么支持得很糟糕。
算子切得极其精细。跑V4推理的时候我发现,他们在算子层做了大量定制化优化,主流开源引擎基本达不到官方性能。要想追上它的性价比,得一行一行去啃底层编译器。
单卡跑不动。上一代好歹还能单机跑,这一代单卡直接躺平,集群也不例外。不跑官方栈,根本不可能达到那个价格。
这让我想起之前DeepSeek披露V3/R1时期545%的理论毛利率——意思是你严格按他们的架构跑,边际收益可以非常高;同时所有套壳推理服务都在亏钱。V4是这个故事的激进升级版。
一个小插曲:他们Infra负责人跟我们聊的时候非常认真地说:小心点,技术变化太快,上一代的某些架构可能只是过渡——下一代可能直接砍掉。如果你重仓Infra,下一代一出可能全打水漂。
这背后有个根本分歧。大多数模型公司先做模型,Infra往后放;DeepSeek把Infra放前面,用底层创新倒推模型的经济账。两条路都能活。但真想大规模服务C端,不把Infra想清楚,一定会翻车。DeepSeek自己第一次出圈的时候也翻过——网页挂了,API崩了。那还是在他家Infra已经相对扎实的情况下。
实际体验下来:
这可能是V4最值得关注的地方。100万token上下文,所有在线服务全部标配,不搞分段涨价。
100万token是什么概念?大约200万中文字——一部连载一两年的网文可以完整塞进去。
之前大家都想做,真正做到的要么单独定价,要么撑不了多久就撤了。Anthropic去年开了百万档,后来又缩回去,最近才重新放出来;OpenAI到现在都没正式开放百万级API。这不是能力问题——是Infra扛不住。
V4能把它做成标准还不加钱,是因为在注意力机制上动了大手术。引入了两种结构交替使用:CSA(压缩稀疏注意力)和HCA(重度压缩注意力)。CSA先在序列维度上把KV压缩4倍,再做稀疏注意力选最相关的token(V4-Pro取top-1024,V4-Flash取top-512),再配一个128 token的滑动窗口保留局部上下文。HCA压得更狠(128倍压缩比),但在压缩后的表示上做密集注意力,等于在一些层里留下一份低分辨率的"全局摘要"。这两种层在整个网络中交错排列:一部分做精确检索,一部分做模糊全局感知。上面再叠一层流形约束超连接(mHC)来稳定跨层信号传播。
官方给出的效率数据:100万上下文下,V4-Pro每个token的推理FLOPs只有V3.2的27%,KV Cache只要10%。能做到百万token标准不加价,就是靠这个。
Kimi是最早在23年推这个方向的:百万上下文能覆盖大部分场景。三年后,这终于成了基础设施层面的标配能力。
这次V4实现了对华为昇腾等国产芯片的Day-0深度适配。我觉得这才是真正有远见的做法。
一直依赖海外芯片做训练和推理,这不是技术问题,是风险问题。V4从Day-0就考虑国产芯片适配,这件事的意义比模型本身还大。
DeepMind这几天发布了一个叫视觉香蕉的东西。方法很简单:用Nano Banana Pro这个文生图模型,做一轮指令微调,然后让它去处理传统视觉任务——分割、深度估计、法向量估计。
结果直接追平甚至超越了Segment Anything、Depth Anything这些专用模型,而且还不损失图像生成能力。
这个挺有意思的。文生图模型本来就已经具备对图像的内在理解,只是之前没人知道怎么"查询"这种理解。现在图像理解和图像生成在同一个接口下统一了:所有任务都通过图生图来解决。
顺着这个思路想下去,生成模型天然会通向"世界模型"。2D、3D、视频、物理这些维度,可能最终都会折叠到一个模型里。
4月10号,Cai Haoyu(前米哈游创始人、《原神》背后的男人)通过新公司Anuttacon在arXiv发了篇论文。LPM 1.0是一个17亿参数的扩散Transformer,用来给视频角色做"表演生成"。
数字人这个话题已经被说烂了。但这篇论文定义了两个之前没人认真解决过的问题:持久身份一致性和倾听时的交互反应。
身份一致性不只是外观稳定。意思是这个角色在不同场景下的反应要符合同一个"人格"——你不应该突然觉得"这不是同一个人"。
之前的数字人都是输出导向的:让它说话、让它动,这些现在做得不错了。真正难的是倾听。你跟它说话的时候,它得给你面部反馈、微表情、呼吸节奏——让你感觉对面是个活人。现实生活中,你跟人说话的时候,对方不会面无表情地等你说完再回应;他们一直在给你反馈。这种反馈的量是巨大的,之前几乎没人做。
论文发了,但模型没开源。因为越逼真就越像真人,欺诈风险太大。我觉得这个决策是对的。
Anthropic过去几周被喷得很惨。4月23号的官方复盘指出了三个叠加问题:
这三个全是Infra层的问题。Infra对模型服务可用性的贡献占比,正在变得越来越大。
DeepSeek憋了很久没发新模型,中间代基本没什么水花。今天一放出来,直接占了几个热榜位置。
我觉得这是战略定力。他做了几件很有代表性的事:把百万上下文做成标准、推动FP4落地生产、做到Day-0国产芯片适配。每一个都是硬核Infra活儿。
也不得不承认,在现在的格局下独占鳌头很难。Kimi K2.6、GLM 5.1、MiniMax新模型——整个开源阵营的水位都在涨。不像V3/R1那会儿,能独霸开源高地。
今天早上有个朋友来找我。他公司想转型,想"买个AI产品"来推动团队变革。金融行业,人不多。
我原话跟他说:别急着谈转型。先让公司每个人成为编程Agents的重度用户,再谈组织变革。
然后我把我桌面投屏给他看,展示我每天怎么用Claude Code、屏幕上同时跑着多少个Agent线程。他看完第一反应是:马上就去订阅一个编程套餐。
这个反应是对的。这个时代最好的投资就是订阅一个编程套餐然后每天用。不是那种"用了几次ChatGPT"的用法,而是真的让Agent进入日常工作流。没有这个基础,组织层面的变革就是空中楼阁。
2026年注定会被记入史册。不是因为哪个单一模型,而是因为密度——一天之内可以出三个模型加一篇论文。如果你能在国内感受到这个节奏,说明你已经在场了。