这周的AI圈，有点意思

AI技术与应用 2026-05-01 20:34:41 47

这周AI圈是真的热闹。

早上OpenAI扔出GPT-5.5，下午DeepSeek V4就上线了。前两天DeepMind还整了个视觉香蕉，Cai Haoyu（新米哈游创始人）发了篇数字人的论文。一周干了过去一个季度的活儿。

挑几个重点聊聊。

DeepSeek V4

V4发布前我参与了内部测试，之前一直憋着不能说，现在 embargo 解除了。

先说参数。这次出了两个版本：V4-Pro 总参1.6T、激活49B；V4-Flash 是284B/13B。都在32T+ tokens上预训练，100万上下文直接标配，MIT协议开源。推理模式支持三种：非思考 / 高强度思考 / 最大强度思考。API价格方面，V4-Pro 输入$1.74/百万tokens，输出$3.48；V4-Flash 便宜一个数量级，只要$0.14/$0.28。

能力上，团队自己也承认大概在 Opus 4.6 这个档位，可能还略弱一点。不是绝对的第一梯队。

这跟上次R1打O3的情况一样——追上了，但没站到最前面。

那DeepSeek的厉害之处在哪？我一直觉得，这家公司不是靠模型碾压对手的公司，而是靠 Infra 带节奏的公司。Infra 永远跑在模型前面，不是跟着模型走。

这次V4放出来的 Infra，对所有做推理服务的公司来说简直是灾难。这个词我真没夸张。

原生 FP4 支持。V4 是个 FP8 + FP4 混合精度模型：MoE专家用FP4，其余用FP8。现在市面上大多数芯片和推理框架，要么不支持FP4，要么支持得很糟糕。

算子切得极其精细。跑V4推理的时候我发现，他们在算子层做了大量定制化优化，主流开源引擎基本达不到官方性能。要想追上它的性价比，得一行一行去啃底层编译器。

单卡跑不动。上一代好歹还能单机跑，这一代单卡直接躺平，集群也不例外。不跑官方栈，根本不可能达到那个价格。

这让我想起之前DeepSeek披露V3/R1时期545%的理论毛利率——意思是你严格按他们的架构跑，边际收益可以非常高；同时所有套壳推理服务都在亏钱。V4是这个故事的激进升级版。

一个小插曲：他们Infra负责人跟我们聊的时候非常认真地说：小心点，技术变化太快，上一代的某些架构可能只是过渡——下一代可能直接砍掉。如果你重仓Infra，下一代一出可能全打水漂。

这背后有个根本分歧。大多数模型公司先做模型，Infra往后放；DeepSeek把Infra放前面，用底层创新倒推模型的经济账。两条路都能活。但真想大规模服务C端，不把Infra想清楚，一定会翻车。DeepSeek自己第一次出圈的时候也翻过——网页挂了，API崩了。那还是在他家Infra已经相对扎实的情况下。

模型本身

实际体验下来：

中文能力依然是强项。写中文文章、做报告生成这类内容组织任务，值得一用。
工具调用体验不错，有那么点Claude的味道。
不是绝对的第一梯队。GPT-5.5、Opus 4.7这种还是追不上。
代码能力暂无规划。估计短期内也不会上。挺可惜的。

100万上下文直接标配

这可能是V4最值得关注的地方。100万token上下文，所有在线服务全部标配，不搞分段涨价。

100万token是什么概念？大约200万中文字——一部连载一两年的网文可以完整塞进去。

之前大家都想做，真正做到的要么单独定价，要么撑不了多久就撤了。Anthropic去年开了百万档，后来又缩回去，最近才重新放出来；OpenAI到现在都没正式开放百万级API。这不是能力问题——是Infra扛不住。

V4能把它做成标准还不加钱，是因为在注意力机制上动了大手术。引入了两种结构交替使用：CSA（压缩稀疏注意力）和HCA（重度压缩注意力）。CSA先在序列维度上把KV压缩4倍，再做稀疏注意力选最相关的token（V4-Pro取top-1024，V4-Flash取top-512），再配一个128 token的滑动窗口保留局部上下文。HCA压得更狠（128倍压缩比），但在压缩后的表示上做密集注意力，等于在一些层里留下一份低分辨率的"全局摘要"。这两种层在整个网络中交错排列：一部分做精确检索，一部分做模糊全局感知。上面再叠一层流形约束超连接（mHC）来稳定跨层信号传播。

官方给出的效率数据：100万上下文下，V4-Pro每个token的推理FLOPs只有V3.2的27%，KV Cache只要10%。能做到百万token标准不加价，就是靠这个。

Kimi是最早在23年推这个方向的：百万上下文能覆盖大部分场景。三年后，这终于成了基础设施层面的标配能力。

Day-0 国产芯片适配

这次V4实现了对华为昇腾等国产芯片的Day-0深度适配。我觉得这才是真正有远见的做法。

一直依赖海外芯片做训练和推理，这不是技术问题，是风险问题。V4从Day-0就考虑国产芯片适配，这件事的意义比模型本身还大。

这周其他发布

视觉香蕉：生成模型真的"看懂"图像了

DeepMind这几天发布了一个叫视觉香蕉的东西。方法很简单：用Nano Banana Pro这个文生图模型，做一轮指令微调，然后让它去处理传统视觉任务——分割、深度估计、法向量估计。

结果直接追平甚至超越了Segment Anything、Depth Anything这些专用模型，而且还不损失图像生成能力。

这个挺有意思的。文生图模型本来就已经具备对图像的内在理解，只是之前没人知道怎么"查询"这种理解。现在图像理解和图像生成在同一个接口下统一了：所有任务都通过图生图来解决。

顺着这个思路想下去，生成模型天然会通向"世界模型"。2D、3D、视频、物理这些维度，可能最终都会折叠到一个模型里。

Cai Haoyu的LPM 1.0：数字人终于会"听"了

4月10号，Cai Haoyu（前米哈游创始人、《原神》背后的男人）通过新公司Anuttacon在arXiv发了篇论文。LPM 1.0是一个17亿参数的扩散Transformer，用来给视频角色做"表演生成"。

数字人这个话题已经被说烂了。但这篇论文定义了两个之前没人认真解决过的问题：持久身份一致性和倾听时的交互反应。

身份一致性不只是外观稳定。意思是这个角色在不同场景下的反应要符合同一个"人格"——你不应该突然觉得"这不是同一个人"。

之前的数字人都是输出导向的：让它说话、让它动，这些现在做得不错了。真正难的是倾听。你跟它说话的时候，它得给你面部反馈、微表情、呼吸节奏——让你感觉对面是个活人。现实生活中，你跟人说话的时候，对方不会面无表情地等你说完再回应；他们一直在给你反馈。这种反馈的量是巨大的，之前几乎没人做。

论文发了，但模型没开源。因为越逼真就越像真人，欺诈风险太大。我觉得这个决策是对的。

Opus 4.7 翻车：一场Infra灾难

Anthropic过去几周被喷得很惨。4月23号的官方复盘指出了三个叠加问题：

3月4日，把默认推理强度从高降到中，想改善界面延迟，结果 Sonnet 4.6 和 Opus 4.6 的智能水平明显下降。
3月26日，上线了一个清理空闲会话思考的功能；结果有bug，每次都清空，导致模型变得健忘、重复。
4月16日，加了条系统提示词限制回复长度，导致 Opus 4.7 的代码质量下降了3%。

这三个全是Infra层的问题。Infra对模型服务可用性的贡献占比，正在变得越来越大。

没出最强模型，却霸占了热榜

DeepSeek憋了很久没发新模型，中间代基本没什么水花。今天一放出来，直接占了几个热榜位置。

我觉得这是战略定力。他做了几件很有代表性的事：把百万上下文做成标准、推动FP4落地生产、做到Day-0国产芯片适配。每一个都是硬核Infra活儿。

也不得不承认，在现在的格局下独占鳌头很难。Kimi K2.6、GLM 5.1、MiniMax新模型——整个开源阵营的水位都在涨。不像V3/R1那会儿，能独霸开源高地。

再说一遍那个结论

今天早上有个朋友来找我。他公司想转型，想"买个AI产品"来推动团队变革。金融行业，人不多。

我原话跟他说：别急着谈转型。先让公司每个人成为编程Agents的重度用户，再谈组织变革。

然后我把我桌面投屏给他看，展示我每天怎么用Claude Code、屏幕上同时跑着多少个Agent线程。他看完第一反应是：马上就去订阅一个编程套餐。

这个反应是对的。这个时代最好的投资就是订阅一个编程套餐然后每天用。不是那种"用了几次ChatGPT"的用法，而是真的让Agent进入日常工作流。没有这个基础，组织层面的变革就是空中楼阁。

2026年注定会被记入史册。不是因为哪个单一模型，而是因为密度——一天之内可以出三个模型加一篇论文。如果你能在国内感受到这个节奏，说明你已经在场了。