site logo

Marico's space

这周的AI圈,有点意思

AI技术与应用 2026-05-01 20:34:41 24

这周AI圈是真的热闹。

早上OpenAI扔出GPT-5.5,下午DeepSeek V4就上线了。前两天DeepMind还整了个视觉香蕉,Cai Haoyu(新米哈游创始人)发了篇数字人的论文。一周干了过去一个季度的活儿。

挑几个重点聊聊。

DeepSeek V4

V4发布前我参与了内部测试,之前一直憋着不能说,现在 embargo 解除了。

先说参数。这次出了两个版本:V4-Pro 总参1.6T、激活49B;V4-Flash 是284B/13B。都在32T+ tokens上预训练,100万上下文直接标配,MIT协议开源。推理模式支持三种:非思考 / 高强度思考 / 最大强度思考。API价格方面,V4-Pro 输入$1.74/百万tokens,输出$3.48;V4-Flash 便宜一个数量级,只要$0.14/$0.28。

能力上,团队自己也承认大概在 Opus 4.6 这个档位,可能还略弱一点。不是绝对的第一梯队。

这跟上次R1打O3的情况一样——追上了,但没站到最前面。

那DeepSeek的厉害之处在哪?我一直觉得,这家公司不是靠模型碾压对手的公司,而是靠 Infra 带节奏的公司。Infra 永远跑在模型前面,不是跟着模型走。

这次V4放出来的 Infra,对所有做推理服务的公司来说简直是灾难。这个词我真没夸张。

原生 FP4 支持。V4 是个 FP8 + FP4 混合精度模型:MoE专家用FP4,其余用FP8。现在市面上大多数芯片和推理框架,要么不支持FP4,要么支持得很糟糕。

算子切得极其精细。跑V4推理的时候我发现,他们在算子层做了大量定制化优化,主流开源引擎基本达不到官方性能。要想追上它的性价比,得一行一行去啃底层编译器。

单卡跑不动。上一代好歹还能单机跑,这一代单卡直接躺平,集群也不例外。不跑官方栈,根本不可能达到那个价格。

这让我想起之前DeepSeek披露V3/R1时期545%的理论毛利率——意思是你严格按他们的架构跑,边际收益可以非常高;同时所有套壳推理服务都在亏钱。V4是这个故事的激进升级版。

一个小插曲:他们Infra负责人跟我们聊的时候非常认真地说:小心点,技术变化太快,上一代的某些架构可能只是过渡——下一代可能直接砍掉。如果你重仓Infra,下一代一出可能全打水漂。

这背后有个根本分歧。大多数模型公司先做模型,Infra往后放;DeepSeek把Infra放前面,用底层创新倒推模型的经济账。两条路都能活。但真想大规模服务C端,不把Infra想清楚,一定会翻车。DeepSeek自己第一次出圈的时候也翻过——网页挂了,API崩了。那还是在他家Infra已经相对扎实的情况下。

模型本身

实际体验下来:

  • 中文能力依然是强项。写中文文章、做报告生成这类内容组织任务,值得一用。
  • 工具调用体验不错,有那么点Claude的味道。
  • 不是绝对的第一梯队。GPT-5.5、Opus 4.7这种还是追不上。
  • 代码能力暂无规划。估计短期内也不会上。挺可惜的。

100万上下文直接标配

这可能是V4最值得关注的地方。100万token上下文,所有在线服务全部标配,不搞分段涨价。

100万token是什么概念?大约200万中文字——一部连载一两年的网文可以完整塞进去。

之前大家都想做,真正做到的要么单独定价,要么撑不了多久就撤了。Anthropic去年开了百万档,后来又缩回去,最近才重新放出来;OpenAI到现在都没正式开放百万级API。这不是能力问题——是Infra扛不住。

V4能把它做成标准还不加钱,是因为在注意力机制上动了大手术。引入了两种结构交替使用:CSA(压缩稀疏注意力)HCA(重度压缩注意力)。CSA先在序列维度上把KV压缩4倍,再做稀疏注意力选最相关的token(V4-Pro取top-1024,V4-Flash取top-512),再配一个128 token的滑动窗口保留局部上下文。HCA压得更狠(128倍压缩比),但在压缩后的表示上做密集注意力,等于在一些层里留下一份低分辨率的"全局摘要"。这两种层在整个网络中交错排列:一部分做精确检索,一部分做模糊全局感知。上面再叠一层流形约束超连接(mHC)来稳定跨层信号传播。

官方给出的效率数据:100万上下文下,V4-Pro每个token的推理FLOPs只有V3.2的27%,KV Cache只要10%。能做到百万token标准不加价,就是靠这个。

Kimi是最早在23年推这个方向的:百万上下文能覆盖大部分场景。三年后,这终于成了基础设施层面的标配能力。

Day-0 国产芯片适配

这次V4实现了对华为昇腾等国产芯片的Day-0深度适配。我觉得这才是真正有远见的做法。

一直依赖海外芯片做训练和推理,这不是技术问题,是风险问题。V4从Day-0就考虑国产芯片适配,这件事的意义比模型本身还大。

这周其他发布

视觉香蕉:生成模型真的"看懂"图像了

DeepMind这几天发布了一个叫视觉香蕉的东西。方法很简单:用Nano Banana Pro这个文生图模型,做一轮指令微调,然后让它去处理传统视觉任务——分割、深度估计、法向量估计。

结果直接追平甚至超越了Segment Anything、Depth Anything这些专用模型,而且还不损失图像生成能力。

这个挺有意思的。文生图模型本来就已经具备对图像的内在理解,只是之前没人知道怎么"查询"这种理解。现在图像理解和图像生成在同一个接口下统一了:所有任务都通过图生图来解决。

顺着这个思路想下去,生成模型天然会通向"世界模型"。2D、3D、视频、物理这些维度,可能最终都会折叠到一个模型里。

Cai Haoyu的LPM 1.0:数字人终于会"听"了

4月10号,Cai Haoyu(前米哈游创始人、《原神》背后的男人)通过新公司Anuttacon在arXiv发了篇论文。LPM 1.0是一个17亿参数的扩散Transformer,用来给视频角色做"表演生成"。

数字人这个话题已经被说烂了。但这篇论文定义了两个之前没人认真解决过的问题:持久身份一致性倾听时的交互反应

身份一致性不只是外观稳定。意思是这个角色在不同场景下的反应要符合同一个"人格"——你不应该突然觉得"这不是同一个人"。

之前的数字人都是输出导向的:让它说话、让它动,这些现在做得不错了。真正难的是倾听。你跟它说话的时候,它得给你面部反馈、微表情、呼吸节奏——让你感觉对面是个活人。现实生活中,你跟人说话的时候,对方不会面无表情地等你说完再回应;他们一直在给你反馈。这种反馈的量是巨大的,之前几乎没人做。

论文发了,但模型没开源。因为越逼真就越像真人,欺诈风险太大。我觉得这个决策是对的。

Opus 4.7 翻车:一场Infra灾难

Anthropic过去几周被喷得很惨。4月23号的官方复盘指出了三个叠加问题:

  1. 3月4日,把默认推理强度从高降到中,想改善界面延迟,结果 Sonnet 4.6 和 Opus 4.6 的智能水平明显下降。
  2. 3月26日,上线了一个清理空闲会话思考的功能;结果有bug,每次都清空,导致模型变得健忘、重复。
  3. 4月16日,加了条系统提示词限制回复长度,导致 Opus 4.7 的代码质量下降了3%。

这三个全是Infra层的问题。Infra对模型服务可用性的贡献占比,正在变得越来越大。

没出最强模型,却霸占了热榜

DeepSeek憋了很久没发新模型,中间代基本没什么水花。今天一放出来,直接占了几个热榜位置。

我觉得这是战略定力。他做了几件很有代表性的事:把百万上下文做成标准、推动FP4落地生产、做到Day-0国产芯片适配。每一个都是硬核Infra活儿。

也不得不承认,在现在的格局下独占鳌头很难。Kimi K2.6、GLM 5.1、MiniMax新模型——整个开源阵营的水位都在涨。不像V3/R1那会儿,能独霸开源高地。

再说一遍那个结论

今天早上有个朋友来找我。他公司想转型,想"买个AI产品"来推动团队变革。金融行业,人不多。

我原话跟他说:别急着谈转型。先让公司每个人成为编程Agents的重度用户,再谈组织变革。

然后我把我桌面投屏给他看,展示我每天怎么用Claude Code、屏幕上同时跑着多少个Agent线程。他看完第一反应是:马上就去订阅一个编程套餐。

这个反应是对的。这个时代最好的投资就是订阅一个编程套餐然后每天用。不是那种"用了几次ChatGPT"的用法,而是真的让Agent进入日常工作流。没有这个基础,组织层面的变革就是空中楼阁。

2026年注定会被记入史册。不是因为哪个单一模型,而是因为密度——一天之内可以出三个模型加一篇论文。如果你能在国内感受到这个节奏,说明你已经在场了。