产品 · 2026-06-09

即将发布的deepseek v4.1遇上发布模型最频繁的一个月

Your Name · 18 min read

最近这一个月,可能是大模型这行有史以来最挤的。 Claude Opus 4.8 发完还不到一周,MiniMax M3 就在6月1号跟进了。小米 MiMo-V2.5-Pro 周 Token 调用量冲到全球第四。GPT-5.6 和 Gemini 3.5 Pro 大概率这个月内上架。智谱 GLM-5.1 高速版刚把推理速度拉到 400 tokens/s。字节豆包马上要开始收钱了。Kimi K3 也在路上。

DeepSeek V4.1 就卡在这个窗口里。

我不打算聊 V4.1 的技术参数。我想把它扔进6月这张牌桌,看看这局牌到底在往哪打。不是为了预测谁输谁赢,是想从这个乱局里摸出几条做产品的判断逻辑。

先看看牌桌上都坐着谁。

国际这边,三强之外多了点变数。

Anthropic 现在是跑得最快的那个。 Claude Opus 4.8 在5月28号发布,离4.7只隔了41天。 SWE-Bench Pro 干到 69.2%,比上一版涨了5个点,比 GPT-5.5 高出整整10个点。USAMO 数学竞赛级题目正确率 96.7%,比上一版涨了27个百分点。但我觉得最值得说的是它修了一个老毛病——以前写代码出了错会嘴硬,死活不承认,这次”虚假报告率”和”懒惰调查率”直接降到了 0%。同一天还公布了 Mythos 预览版,定位比 Opus 更高,外加 650 亿美元融资,估值逼近万亿美元。

Anthropic 已经不是单纯在做”最好的编程模型”了。它在试图定义一件事:AI 能不能独立干活,怎么才算靠谱。 Q1 营收 48 亿美元,Q2 预计冲到 109 亿,可能首次季度盈利。做产品的都知道,当一家公司开始定义”可靠性标准”而不是拼参数的时候,它已经从工具层跳到了平台层。

OpenAI 这边看起来有点被动。GPT-5.5 在 Terminal-Bench 和自主 Agent 任务上还是很强,但 Claude 4.8 在 SWE-Bench Pro——编程赛道最硬的指标——把它超了。GPT-5.6 被爆出6月要发,上下文拉到 150 万 token,据说性能提升 12-15%,Polymarket 上6月发布概率 68%。但 Sam Altman 自己都承认内部组织有问题,迭代节奏明显被 Anthropic 压了一头。我翻了翻 OpenAI 最近半年的发布节奏,感觉它从一个”定义潮流”的公司变成了一个”被迫回应”的公司,这个信号挺危险的。

Google 的牌最特别。Gemini 3.5 Flash 5月已经发了,一个”小弟”模型在编程和 Agent 基准上直接超了自家的 3.1 Pro。3.5 Pro 这个月就到,2M 上下文,价格大概只有 Claude 的七分之一。但 Google 真正的护城河根本不在模型本身——是 TPU 芯片、云计算、搜索、Workspace 全家桶,还有 Gemini App 刚超过 9 亿的月活,付费用户 3.5 亿。 我的判断是,它不需要做出”最惊艳”的模型,只要保持在前三,然后用基础设施和分发渠道慢慢吃市场就够了。这事让我想起微软当年靠 Windows+Office 捆绑打浏览器的套路——模型不是子弹,生态才是。

Meta 最有意思。Llama 4 开源翻车之后,扎克伯格砸了 140 亿美元重建团队,把 Scale AI 前 CEO 汪韬挖来带队。结果4月甩出来的不是 Llama 5,而是一个叫 Muse Spark 的闭源模型。一个靠开源起家的公司,突然把门关上了。 这事我越想越觉得讽刺——当年 Meta 打”开源对抗闭源垄断”的旗号赚足了开发者好感,现在轮到它自己下场做闭源了。开源社区现在是不是该反思一件事:大厂开源从来都是商业策略,不是信仰。

xAI 的 Grok 4.3 和 Grok Imagine Video 1.5 在视频生成上拿了 Arena 第一,1473 Elo,超了字节的 Seedance 2.0。但文本和编程跟第一梯队有明显差距。Grok 5 还在训练,Polymarket 上6月发布的概率只有 12%。xAI 的路径跟其他家都不一样——它赌的是马斯克生态(X平台+特斯拉+星链)的独家分发。如果赌对了,模型能力差一点也不是致命伤。

国内这边,一句话就能概括:没人再提”通用大模型”了。每个人都在自己的赛道上称王。

MiniMax M3 在6月1号发布,模型调用量直接冲进全球第三,SWE-Bench Pro 干到 59.0%,超了 GPT-5.5 的 58.6%。GPQA 钻石级科学推理 93.2%,全球前四,超了 Claude 4.7 和 4.8。最狠的是自研的稀疏注意力架构 MSA,把 100 万上下文下的单 token 计算量压到了上一代的二十分之一。而且计划开源。MiniMax 去年还是”那个做 Glow 和 Talkie 的公司”,今年已经能在编程能力上直接跟 OpenAI 和 Anthropic 对线了。这家公司的进化速度快得离谱,我专门去翻了他们过去两年的融资和团队变动,发现他们从应用层往模型层倒推的打法跟所有人反着来——别人是先做模型再找场景,他们是先有场景(Glow/Talkie 有用户和收入)再砸模型。这个路径国内只有字节跟他们像。

小米 MiMo-V2.5-Pro 在4月底发,309B MoE 架构,MIT 开源协议,SWE-Bench Pro 57.2%,跟 Claude Opus 4.6 的 57.3% 几乎一模一样。Artificial Analysis 全球开源模型综合智能榜并列第一。但 MiMo 真正吓人的不是基准分数——是 Token 效率。同样的任务,它消耗的 Token 比 Claude 和 GPT 少 40% 到 60%。长任务上极为能打:能 11.5 小时不间断工作、调用 1868 次工具、生成 8192 行代码。更夸张的是 6 月初宣布 API 永久降价最高 99%,API 调用价格直接跟 DeepSeek V4 Pro 持平,Token Plan 更是量大管饱,基础套餐每月就有 41 亿用量。 这是北京现金王发力了吗?

智谱 GLM-5.1 4月发布,SWE-Bench Pro 58.4%,超了 Claude Opus 4.6 和 GPT-5.4。5月出的高速版推理速度拉到 400 tokens/s,全球最快。而且是目前唯一一个能在 8 小时内持续执行 1200 步以上操作的模型——这个指标上,开源阵营没有对手。港股上市后市值一度突破 3200 亿港元。智谱的打法很有意思,它几乎不怎么参与网上的”跑分大战”,就闷头做两件事:私有化部署和安全合规。这恰恰是大企业采购最看重的两个点。做 toB 的产品经理应该懂我在说什么——跑分再高,甲方 CIO 一句”数据能不出内网吗”你就得老老实实回去做私有化方案。

Kimi K2.6 在4月20号发,万亿 MoE,32B 激活参数,独创的 Claw Groups 架构最多支持 300 个子 Agent 并行,最长 5 天自主执行。海外收入已经超过国内。估值 180 亿美元,下半年计划 IPO。K3 预计这个月或下个月就发。Kimi 的故事是”长上下文 Agent 操作系统”,这个定位在国内是独一份。但它的商业化路径让我有点困惑——海外收入超过国内,说明 C 端订阅在欧美跑通了,但 180 亿美元的估值靠 C 端订阅撑得住吗?我持保留态度。

阿里 Qwen 3.7 Max 在 5 月默默更新了,Qwen 3.5 397B 开源版用了 Apache 2.0 协议,100 万上下文,100+ 语言支持。阿里的打法怎么说呢——它不做最出圈的,但做企业市场最稳的。企业级大模型日均调用量占比 32.1%,比第二名翻了一倍。闷声发财型选手。Qwen 在企业市场的一个核心卖点特别朴素:出了问题能找到人。其他家要么是创业公司随时可能挂,要么是美国公司有时差和合规问题。阿里有 24 小时中文技术支持,对传统企业来说,这比模型能力重要得多。

字节 Doubao-Seed-2.0-lite 在5月初上线,国内第一个真正意义上的”原生全模态统一模型”——视频、音频、图像、文本在一个模型里统一理解,不是拼接的。还首次实现了 GUI Agent 端到端执行,能像真人一样操作界面。Seedance 2.0 视频生成和豆包产品端 19 亿次春晚互动,让字节在”让普通人用上 AI”这件事上的壁垒比任何一家都厚。

但真正值得关注的是这个——6月下旬,豆包要上线三档付费会员了:标准版 68 元/月、加强版 200 元/月、专业版 500 元/月,年费最高 5088 元。基础版承诺永久免费,但高算力场景——长文档解析、视频生成、PPT 生成、专业设计全得掏钱。 字节的解释:豆包日均 Token 调用量已经突破 120 万亿,是 2024 年 5 月上线时的 1000 倍,日算力成本数千万,年算力支出可能超 300 亿元。字节 2026 年 AI 基础设施预算 1600 到 2000 亿,再免费下去扛不住了。这个数字我看了都替他们肉疼。

字节这步棋,对国内 AI 应用层的影响会非常大。豆包从免费到付费,等于给所有做 AI 应用的公司亮了一个信号:烧钱换规模的时代要结束了。如果你现在的商业模式还建立在大模型永远便宜甚至免费的假设上,你最好重新算一遍账。

腾讯和百度就比较尴尬了。百度文心 5.0 参数最大、全模态、LMArena 国内登顶,但市场存在感持续走低。做产品的都懂,一个产品最怕的不是被骂,是没人讨论。腾讯混元在 OpenRouter 上周 Token 调用量冲到全球第二,2.94 万亿,仅次于 DeepSeek Flash,但押注”上下文学习标准”这个赛道太远期了,短期内看不到实际竞争力。腾讯的问题不是技术不行,是它的 AI 策略一直在摇摆——到底是服务自己生态内的产品(微信、游戏、企微),还是做一个独立的 AI 平台?方向不清晰,资源就聚不拢。


接下来说 DeepSeek。很多人对这家公司有一个根本性的误解。

DeepSeek 不是一家”大模型创业公司”。它是一家量化基金的技术中台,偶尔顺便开源几个模型。

梁文锋的主业是幻方量化,国内量化私募”四巨头”之一,管理规模超 700 亿元。2025 年收益率 56.6%,营收约 50 亿人民币。翻译成人话就是:DeepSeek 不需要靠 API 赚钱,幻方量化的交易利润足够养着它。

这才是 DeepSeek 能定出那种”自杀式价格”的真正原因。V4-Flash 输入 1 元/百万 token,V4-Pro 输入 3 元/百万 token——5月永久降价后,Pro 的输出价格只有 Claude Opus 4.8 的三十分之一。别的公司定这个价是在烧融资,DeepSeek 定这个价只是”不贴钱,不赚暴利”,梁文锋原话。

这个模式带来了两个结果。

一个是好的——中国开发者和用户拿到了全世界最便宜的顶级模型。 这也是为什么网友叫他”梁圣”和”赛博菩萨”。没有 DeepSeek 的开源和定价,国内大模型的使用成本会比现在高一个数量级。V4-Pro 在 SWE-Bench Verified 上拿了 80.6%,跟 Claude Opus 4.6 的 80.8% 就差 0.2 个点,LiveCodeBench 93.5 是所有模型里的最高分,Codeforces 3206 也是历史最高。在开源模型里,它确实是最便宜同时最强的那个。

另一个是引发争议的——网上有个段子传得很广:”散户在市场亏钱→量化靠算法赚走大钱→资金投入 AI 大模型→AI 再升级量化镰刀→继续收割市场”。 导致在2026 年 4 月出现了从”全民追捧”到”全网声讨”的舆论反转。

有人把梁文锋定义为顶级”套利者”:用 557 万美元训练出 V3(GPT-4 训练成本约 1 亿美元,效率差近 20 倍)是算力套利;用极低股权比例换百亿美元估值标签是期权套利;把模型深度适配华为昇腾国产芯片是主权套利。说白了他的打法就是:在价差最大的地方下注,用最低的成本拿最大的结果。

但不管你怎么评价这个模式,有一件事是公认的:没有 DeepSeek,今天全世界的大模型价格不会是现在这个样子。它逼着 OpenAI、Anthropic 降价,逼着整个行业重新想定价这件事。从产业角度看,DeepSeek 扮演的是”价格锚点”的角色——所有人都被迫以它为参照系来定价,不管愿不愿意。

DeepSeek 这次融了 500 亿,创始人个人出 200 亿占 40%,国家集成电路产业投资基金领投,腾讯跟投 60 亿占约 2%,估值超 515 亿美元。这是 DeepSeek 第一轮外部融资,梁文锋仍然是实际控制人。

很多人解读这是”商业化信号”,但我觉得真实原因:deepseek不差钱,也不需要融资。但是没有外部估值,员工手里的期权等于一张白条,兑现遥遥无期。DeepSeek 人才流失严重,挡不住大厂天价挖人,近一年来多位核心人物被字节、腾讯、小米等公司挖走。 所以梁文峰必须融资,拿到估值,给一个定心丸。

梁文锋原话是:”我们不是因为缺钱才融资,而是需要一个明确的估值锚点,来兑现员工的期权价值。过去三年,大家跟着我一起打拼,我不能让大家的努力白费。”


那 V4.1 到底在什么位置上?

V4.1 要补三样东西:多模态、MCP 协议、企业工具链。

问题是,这三样放到6月份来看,每一样都已经有不止一个对手先做到了。

多模态?MiniMax M3 原生多模态刚开源,字节 Seed-2.0-lite 的全模态统一比拼接式高一个档次,小米 MiMo 的 Video-MME 得分 87.7 接近 Gemini 3 Pro。Gemini 3.5 Pro 马上带着 2M 多模态上下文杀过来。V4.1 的多模态能做到什么水平,决定了它是”补课及格”还是”真做出了差异”。我个人对它的预期不高——多模态是系统工程问题,不是算法问题,DeepSeek 团队在系统工程上很强,但在多模态数据和训练经验上的积累肯定不如字节和 Google。

MCP?这本来就是 Anthropic 提出的标准。Claude 4.8 和 GLM-5.1 都已经深度适配了。V4.1 原生支持 MCP 不算创新,算”跟上”。但这恰恰是 DeepSeek 最擅长的——不是发明新标准,是把已有的标准做到最便宜、最好接入。对开发者来说,一个便宜且稳定支持 MCP 的模型,比一个贵但 MCP 更”深度”的模型实际价值更大。

企业工具链?阿里 Qwen 的企业市场份额已经是第二名的一倍。智谱 GLM-5.1 的私有化部署、安全审计、微调方案已经卖了一年。字节豆包马上要推付费订阅。V4.1 是在进入一个已经有人在深耕、而且开始收钱的市场。DeepSeek 做企业市场的最大问题是它从来没有建立起像样的 toB 团队。开源社区的自发采用不等于企业销售,这两件事的差距比大多数人想象的大得多。

所以 V4.1 真正的悬念不在它补了什么,而在两件事。

第一,编程和 Agent 能力到底提升了多少。 V4-Pro 的 SWE-Bench Verified 80.6% 很漂亮,但 SWE-Bench Pro 55.4% 跟 GLM-5.1 的 58.4% 和 MiMo 的 57.2% 比,没有明显优势。而且 Verified 和 Pro 之间差了 25 个点——这个落差太大了,被一些人质疑可能存在训练数据污染。我翻了一些技术社区的讨论,比较主流的猜测是 V4 的训练数据可能跟 Verified 的测试集有重叠,但 Pro 是更严格的新数据集,所以分数直接掉下来了。不管真相是什么,V4.1 能不能把 Pro 分数拉上去,是它能不能继续卡住”开源第一编程模型”位置的关键。

第二,价格还能不能这么低。 V4-Flash 输入 1 元/百万 token 已经是极致性价比了。但多模态推理的算力成本远高于纯文本,这里有个硬物理约束。涨价会丢掉成本屠夫的人设和”梁圣”的群众基础,不涨价多模态可能亏着卖。我猜 DeepSeek 的做法会是:纯文本继续维持低价,多模态单独定价,靠 V4.1 的多模态拉高整体 ARPU。但具体数字怎么定,直接决定了开发者社区的反应。

我的判断是,V4.1 是 DeepSeek 在补多模态这块拼图。V4 Pro 已经部署了华为昇腾芯片,摆脱了 CUDA,推理和训练成本进一步降低。那 V4.1 大概率是英伟达显卡训练、华为昇腾芯片推理——大语言模型由 V4 系列主导,多模态由 V4.1 主导,靠开源生态继续吃市场。本质上是把一个完整的产品矩阵,用开源的方式零成本铺出去。


最后聊聊格局在往哪走。我看到了两个趋势。

第一个,Meta 退出开源,把中国模型推到了”开源唯一的王”的位置上——但这不一定是好事。

Llama 4 翻车后,Meta 全面转向闭源。全球开源大模型前五全是中国模型:DeepSeek、Qwen、GLM-5.1、MiniMax M3、MiMo。OpenRouter 上中国模型占总调用量超过 60%,单周 Token 消耗量在 5 月底达到了 9.22 万亿,是美国的近两倍。最新一周,Top 10 模型里中国占 6 席,DeepSeek V4 Flash 以 3.69 万亿排第一。

但这里有件微妙的事。当开源生态变成”中国队内部联赛”,美国开发者会不会因为 CFIUS 审查、数据安全合规这些东西慢慢退出这个生态?不是模型能力的问题,是政治化风险。DeepSeek 已经因为芯片管制被上下盯着看了。开源越成功,监管压力越大。这件事对国内做 AI 出海的产品经理来说尤其值得关注——如果你的产品底层依赖的是中国开源模型,进入欧美市场时可能会面临额外的合规成本,不管这个模型本身多好用。

第二个趋势更直接:编程能力已经取代”聊天水平”,成了模型竞争的唯一硬通货。

SWE-Bench 就是大模型的编程高考。Claude 4.8 的 69.2%、M3 的 59.0%、GLM-5.1 的 58.4%、MiMo 的 57.2%、V4-Pro 的 55.4%——这几家在 Pro 榜上卷得最凶,不是巧合。Agent 干的事说到底就是”理解需求→拆解任务→调用工具→检查结果→修正”,跟编程一个套路。能写好代码的模型,做 Agent 大概率不差,反之亦然。

谁赢了编程能力,谁就赢了 Agent 时代的基础设施入场券。就这么简单。

作为一个做产品的人,我从这张牌桌上看出来的是:模型层的战争已经进入了一个新阶段。拼参数的时代过去了,拼的是三样东西——编程和 Agent 的硬实力、价格和成本的极致效率、以及生态和分发的厚度。 在这三样里,如果你一样都不占,不管你融了多少钱,牌桌上迟早没有你的位置。