Your Name — Personal Website

最近这一个月，可能是大模型这行有史以来最挤的。 Claude Opus 4.8 发完还不到一周，MiniMax M3 就在6月1号跟进了。小米 MiMo-V2.5-Pro 周 Token 调用量冲到全球第四。GPT-5.6 和 Gemini 3.5 Pro 大概率这个月内上架。智谱 GLM-5.1 高速版刚把推理速度拉到 400 tokens/s。字节豆包马上要开始收钱了。Kimi K3 也在路上。

DeepSeek V4.1 就卡在这个窗口里。

我不打算聊 V4.1 的技术参数。我想把它扔进6月这张牌桌，看看这局牌到底在往哪打。不是为了预测谁输谁赢，是想从这个乱局里摸出几条做产品的判断逻辑。

先看看牌桌上都坐着谁。

国际这边，三强之外多了点变数。

Anthropic 现在是跑得最快的那个。 Claude Opus 4.8 在5月28号发布，离4.7只隔了41天。 SWE-Bench Pro 干到 69.2%，比上一版涨了5个点，比 GPT-5.5 高出整整10个点。USAMO 数学竞赛级题目正确率 96.7%，比上一版涨了27个百分点。但我觉得最值得说的是它修了一个老毛病——以前写代码出了错会嘴硬，死活不承认，这次”虚假报告率”和”懒惰调查率”直接降到了 0%。同一天还公布了 Mythos 预览版，定位比 Opus 更高，外加 650 亿美元融资，估值逼近万亿美元。

Anthropic 已经不是单纯在做”最好的编程模型”了。它在试图定义一件事：AI 能不能独立干活，怎么才算靠谱。 Q1 营收 48 亿美元，Q2 预计冲到 109 亿，可能首次季度盈利。做产品的都知道，当一家公司开始定义”可靠性标准”而不是拼参数的时候，它已经从工具层跳到了平台层。

OpenAI 这边看起来有点被动。GPT-5.5 在 Terminal-Bench 和自主 Agent 任务上还是很强，但 Claude 4.8 在 SWE-Bench Pro——编程赛道最硬的指标——把它超了。GPT-5.6 被爆出6月要发，上下文拉到 150 万 token，据说性能提升 12-15%，Polymarket 上6月发布概率 68%。但 Sam Altman 自己都承认内部组织有问题，迭代节奏明显被 Anthropic 压了一头。我翻了翻 OpenAI 最近半年的发布节奏，感觉它从一个”定义潮流”的公司变成了一个”被迫回应”的公司，这个信号挺危险的。

Google 的牌最特别。Gemini 3.5 Flash 5月已经发了，一个”小弟”模型在编程和 Agent 基准上直接超了自家的 3.1 Pro。3.5 Pro 这个月就到，2M 上下文，价格大概只有 Claude 的七分之一。但 Google 真正的护城河根本不在模型本身——是 TPU 芯片、云计算、搜索、Workspace 全家桶，还有 Gemini App 刚超过 9 亿的月活，付费用户 3.5 亿。 我的判断是，它不需要做出”最惊艳”的模型，只要保持在前三，然后用基础设施和分发渠道慢慢吃市场就够了。这事让我想起微软当年靠 Windows+Office 捆绑打浏览器的套路——模型不是子弹，生态才是。

Meta 最有意思。Llama 4 开源翻车之后，扎克伯格砸了 140 亿美元重建团队，把 Scale AI 前 CEO 汪韬挖来带队。结果4月甩出来的不是 Llama 5，而是一个叫 Muse Spark 的闭源模型。一个靠开源起家的公司，突然把门关上了。 这事我越想越觉得讽刺——当年 Meta 打”开源对抗闭源垄断”的旗号赚足了开发者好感，现在轮到它自己下场做闭源了。开源社区现在是不是该反思一件事：大厂开源从来都是商业策略，不是信仰。

xAI 的 Grok 4.3 和 Grok Imagine Video 1.5 在视频生成上拿了 Arena 第一，1473 Elo，超了字节的 Seedance 2.0。但文本和编程跟第一梯队有明显差距。Grok 5 还在训练，Polymarket 上6月发布的概率只有 12%。xAI 的路径跟其他家都不一样——它赌的是马斯克生态（X平台+特斯拉+星链）的独家分发。如果赌对了，模型能力差一点也不是致命伤。

国内这边，一句话就能概括：没人再提”通用大模型”了。每个人都在自己的赛道上称王。

MiniMax M3 在6月1号发布，模型调用量直接冲进全球第三，SWE-Bench Pro 干到 59.0%，超了 GPT-5.5 的 58.6%。GPQA 钻石级科学推理 93.2%，全球前四，超了 Claude 4.7 和 4.8。最狠的是自研的稀疏注意力架构 MSA，把 100 万上下文下的单 token 计算量压到了上一代的二十分之一。而且计划开源。MiniMax 去年还是”那个做 Glow 和 Talkie 的公司”，今年已经能在编程能力上直接跟 OpenAI 和 Anthropic 对线了。这家公司的进化速度快得离谱，我专门去翻了他们过去两年的融资和团队变动，发现他们从应用层往模型层倒推的打法跟所有人反着来——别人是先做模型再找场景，他们是先有场景（Glow/Talkie 有用户和收入）再砸模型。这个路径国内只有字节跟他们像。

小米 MiMo-V2.5-Pro 在4月底发，309B MoE 架构，MIT 开源协议，SWE-Bench Pro 57.2%，跟 Claude Opus 4.6 的 57.3% 几乎一模一样。Artificial Analysis 全球开源模型综合智能榜并列第一。但 MiMo 真正吓人的不是基准分数——是 Token 效率。同样的任务，它消耗的 Token 比 Claude 和 GPT 少 40% 到 60%。长任务上极为能打：能 11.5 小时不间断工作、调用 1868 次工具、生成 8192 行代码。更夸张的是 6 月初宣布 API 永久降价最高 99%，API 调用价格直接跟 DeepSeek V4 Pro 持平，Token Plan 更是量大管饱，基础套餐每月就有 41 亿用量。 这是北京现金王发力了吗？

智谱 GLM-5.1 4月发布，SWE-Bench Pro 58.4%，超了 Claude Opus 4.6 和 GPT-5.4。5月出的高速版推理速度拉到 400 tokens/s，全球最快。而且是目前唯一一个能在 8 小时内持续执行 1200 步以上操作的模型——这个指标上，开源阵营没有对手。港股上市后市值一度突破 3200 亿港元。智谱的打法很有意思，它几乎不怎么参与网上的”跑分大战”，就闷头做两件事：私有化部署和安全合规。这恰恰是大企业采购最看重的两个点。做 toB 的产品经理应该懂我在说什么——跑分再高，甲方 CIO 一句”数据能不出内网吗”你就得老老实实回去做私有化方案。

Kimi K2.6 在4月20号发，万亿 MoE，32B 激活参数，独创的 Claw Groups 架构最多支持 300 个子 Agent 并行，最长 5 天自主执行。海外收入已经超过国内。估值 180 亿美元，下半年计划 IPO。K3 预计这个月或下个月就发。Kimi 的故事是”长上下文 Agent 操作系统”，这个定位在国内是独一份。但它的商业化路径让我有点困惑——海外收入超过国内，说明 C 端订阅在欧美跑通了，但 180 亿美元的估值靠 C 端订阅撑得住吗？我持保留态度。

阿里 Qwen 3.7 Max 在 5 月默默更新了，Qwen 3.5 397B 开源版用了 Apache 2.0 协议，100 万上下文，100+ 语言支持。阿里的打法怎么说呢——它不做最出圈的，但做企业市场最稳的。企业级大模型日均调用量占比 32.1%，比第二名翻了一倍。闷声发财型选手。Qwen 在企业市场的一个核心卖点特别朴素：出了问题能找到人。其他家要么是创业公司随时可能挂，要么是美国公司有时差和合规问题。阿里有 24 小时中文技术支持，对传统企业来说，这比模型能力重要得多。

字节 Doubao-Seed-2.0-lite 在5月初上线，国内第一个真正意义上的”原生全模态统一模型”——视频、音频、图像、文本在一个模型里统一理解，不是拼接的。还首次实现了 GUI Agent 端到端执行，能像真人一样操作界面。Seedance 2.0 视频生成和豆包产品端 19 亿次春晚互动，让字节在”让普通人用上 AI”这件事上的壁垒比任何一家都厚。

但真正值得关注的是这个——6月下旬，豆包要上线三档付费会员了：标准版 68 元/月、加强版 200 元/月、专业版 500 元/月，年费最高 5088 元。基础版承诺永久免费，但高算力场景——长文档解析、视频生成、PPT 生成、专业设计全得掏钱。 字节的解释：豆包日均 Token 调用量已经突破 120 万亿，是 2024 年 5 月上线时的 1000 倍，日算力成本数千万，年算力支出可能超 300 亿元。字节 2026 年 AI 基础设施预算 1600 到 2000 亿，再免费下去扛不住了。这个数字我看了都替他们肉疼。

字节这步棋，对国内 AI 应用层的影响会非常大。豆包从免费到付费，等于给所有做 AI 应用的公司亮了一个信号：烧钱换规模的时代要结束了。如果你现在的商业模式还建立在大模型永远便宜甚至免费的假设上，你最好重新算一遍账。

腾讯和百度就比较尴尬了。百度文心 5.0 参数最大、全模态、LMArena 国内登顶，但市场存在感持续走低。做产品的都懂，一个产品最怕的不是被骂，是没人讨论。腾讯混元在 OpenRouter 上周 Token 调用量冲到全球第二，2.94 万亿，仅次于 DeepSeek Flash，但押注”上下文学习标准”这个赛道太远期了，短期内看不到实际竞争力。腾讯的问题不是技术不行，是它的 AI 策略一直在摇摆——到底是服务自己生态内的产品（微信、游戏、企微），还是做一个独立的 AI 平台？方向不清晰，资源就聚不拢。

接下来说 DeepSeek。很多人对这家公司有一个根本性的误解。

DeepSeek 不是一家”大模型创业公司”。它是一家量化基金的技术中台，偶尔顺便开源几个模型。

梁文锋的主业是幻方量化，国内量化私募”四巨头”之一，管理规模超 700 亿元。2025 年收益率 56.6%，营收约 50 亿人民币。翻译成人话就是：DeepSeek 不需要靠 API 赚钱，幻方量化的交易利润足够养着它。

这才是 DeepSeek 能定出那种”自杀式价格”的真正原因。V4-Flash 输入 1 元/百万 token，V4-Pro 输入 3 元/百万 token——5月永久降价后，Pro 的输出价格只有 Claude Opus 4.8 的三十分之一。别的公司定这个价是在烧融资，DeepSeek 定这个价只是”不贴钱，不赚暴利”，梁文锋原话。

这个模式带来了两个结果。

一个是好的——中国开发者和用户拿到了全世界最便宜的顶级模型。 这也是为什么网友叫他”梁圣”和”赛博菩萨”。没有 DeepSeek 的开源和定价，国内大模型的使用成本会比现在高一个数量级。V4-Pro 在 SWE-Bench Verified 上拿了 80.6%，跟 Claude Opus 4.6 的 80.8% 就差 0.2 个点，LiveCodeBench 93.5 是所有模型里的最高分，Codeforces 3206 也是历史最高。在开源模型里，它确实是最便宜同时最强的那个。

另一个是引发争议的——网上有个段子传得很广：”散户在市场亏钱→量化靠算法赚走大钱→资金投入 AI 大模型→AI 再升级量化镰刀→继续收割市场”。导致在2026 年 4 月出现了从”全民追捧”到”全网声讨”的舆论反转。

有人把梁文锋定义为顶级”套利者”：用 557 万美元训练出 V3（GPT-4 训练成本约 1 亿美元，效率差近 20 倍）是算力套利；用极低股权比例换百亿美元估值标签是期权套利；把模型深度适配华为昇腾国产芯片是主权套利。说白了他的打法就是：在价差最大的地方下注，用最低的成本拿最大的结果。

但不管你怎么评价这个模式，有一件事是公认的：没有 DeepSeek，今天全世界的大模型价格不会是现在这个样子。它逼着 OpenAI、Anthropic 降价，逼着整个行业重新想定价这件事。从产业角度看，DeepSeek 扮演的是”价格锚点”的角色——所有人都被迫以它为参照系来定价，不管愿不愿意。

DeepSeek 这次融了 500 亿，创始人个人出 200 亿占 40%，国家集成电路产业投资基金领投，腾讯跟投 60 亿占约 2%，估值超 515 亿美元。这是 DeepSeek 第一轮外部融资，梁文锋仍然是实际控制人。

很多人解读这是”商业化信号”，但我觉得真实原因：deepseek不差钱，也不需要融资。但是没有外部估值，员工手里的期权等于一张白条，兑现遥遥无期。DeepSeek 人才流失严重，挡不住大厂天价挖人，近一年来多位核心人物被字节、腾讯、小米等公司挖走。所以梁文峰必须融资，拿到估值，给一个定心丸。

梁文锋原话是：”我们不是因为缺钱才融资，而是需要一个明确的估值锚点，来兑现员工的期权价值。过去三年，大家跟着我一起打拼，我不能让大家的努力白费。”

那 V4.1 到底在什么位置上？

V4.1 要补三样东西：多模态、MCP 协议、企业工具链。

问题是，这三样放到6月份来看，每一样都已经有不止一个对手先做到了。

多模态？MiniMax M3 原生多模态刚开源，字节 Seed-2.0-lite 的全模态统一比拼接式高一个档次，小米 MiMo 的 Video-MME 得分 87.7 接近 Gemini 3 Pro。Gemini 3.5 Pro 马上带着 2M 多模态上下文杀过来。V4.1 的多模态能做到什么水平，决定了它是”补课及格”还是”真做出了差异”。我个人对它的预期不高——多模态是系统工程问题，不是算法问题，DeepSeek 团队在系统工程上很强，但在多模态数据和训练经验上的积累肯定不如字节和 Google。

MCP？这本来就是 Anthropic 提出的标准。Claude 4.8 和 GLM-5.1 都已经深度适配了。V4.1 原生支持 MCP 不算创新，算”跟上”。但这恰恰是 DeepSeek 最擅长的——不是发明新标准，是把已有的标准做到最便宜、最好接入。对开发者来说，一个便宜且稳定支持 MCP 的模型，比一个贵但 MCP 更”深度”的模型实际价值更大。

企业工具链？阿里 Qwen 的企业市场份额已经是第二名的一倍。智谱 GLM-5.1 的私有化部署、安全审计、微调方案已经卖了一年。字节豆包马上要推付费订阅。V4.1 是在进入一个已经有人在深耕、而且开始收钱的市场。DeepSeek 做企业市场的最大问题是它从来没有建立起像样的 toB 团队。开源社区的自发采用不等于企业销售，这两件事的差距比大多数人想象的大得多。

所以 V4.1 真正的悬念不在它补了什么，而在两件事。

第一，编程和 Agent 能力到底提升了多少。 V4-Pro 的 SWE-Bench Verified 80.6% 很漂亮，但 SWE-Bench Pro 55.4% 跟 GLM-5.1 的 58.4% 和 MiMo 的 57.2% 比，没有明显优势。而且 Verified 和 Pro 之间差了 25 个点——这个落差太大了，被一些人质疑可能存在训练数据污染。我翻了一些技术社区的讨论，比较主流的猜测是 V4 的训练数据可能跟 Verified 的测试集有重叠，但 Pro 是更严格的新数据集，所以分数直接掉下来了。不管真相是什么，V4.1 能不能把 Pro 分数拉上去，是它能不能继续卡住”开源第一编程模型”位置的关键。

第二，价格还能不能这么低。 V4-Flash 输入 1 元/百万 token 已经是极致性价比了。但多模态推理的算力成本远高于纯文本，这里有个硬物理约束。涨价会丢掉成本屠夫的人设和”梁圣”的群众基础，不涨价多模态可能亏着卖。我猜 DeepSeek 的做法会是：纯文本继续维持低价，多模态单独定价，靠 V4.1 的多模态拉高整体 ARPU。但具体数字怎么定，直接决定了开发者社区的反应。

我的判断是，V4.1 是 DeepSeek 在补多模态这块拼图。V4 Pro 已经部署了华为昇腾芯片，摆脱了 CUDA，推理和训练成本进一步降低。那 V4.1 大概率是英伟达显卡训练、华为昇腾芯片推理——大语言模型由 V4 系列主导，多模态由 V4.1 主导，靠开源生态继续吃市场。本质上是把一个完整的产品矩阵，用开源的方式零成本铺出去。

最后聊聊格局在往哪走。我看到了两个趋势。

第一个，Meta 退出开源，把中国模型推到了”开源唯一的王”的位置上——但这不一定是好事。

Llama 4 翻车后，Meta 全面转向闭源。全球开源大模型前五全是中国模型：DeepSeek、Qwen、GLM-5.1、MiniMax M3、MiMo。OpenRouter 上中国模型占总调用量超过 60%，单周 Token 消耗量在 5 月底达到了 9.22 万亿，是美国的近两倍。最新一周，Top 10 模型里中国占 6 席，DeepSeek V4 Flash 以 3.69 万亿排第一。

但这里有件微妙的事。当开源生态变成”中国队内部联赛”，美国开发者会不会因为 CFIUS 审查、数据安全合规这些东西慢慢退出这个生态？不是模型能力的问题，是政治化风险。DeepSeek 已经因为芯片管制被上下盯着看了。开源越成功，监管压力越大。这件事对国内做 AI 出海的产品经理来说尤其值得关注——如果你的产品底层依赖的是中国开源模型，进入欧美市场时可能会面临额外的合规成本，不管这个模型本身多好用。

第二个趋势更直接：编程能力已经取代”聊天水平”，成了模型竞争的唯一硬通货。

SWE-Bench 就是大模型的编程高考。Claude 4.8 的 69.2%、M3 的 59.0%、GLM-5.1 的 58.4%、MiMo 的 57.2%、V4-Pro 的 55.4%——这几家在 Pro 榜上卷得最凶，不是巧合。Agent 干的事说到底就是”理解需求→拆解任务→调用工具→检查结果→修正”，跟编程一个套路。能写好代码的模型，做 Agent 大概率不差，反之亦然。

谁赢了编程能力，谁就赢了 Agent 时代的基础设施入场券。就这么简单。

作为一个做产品的人，我从这张牌桌上看出来的是：模型层的战争已经进入了一个新阶段。拼参数的时代过去了，拼的是三样东西——编程和 Agent 的硬实力、价格和成本的极致效率、以及生态和分发的厚度。 在这三样里，如果你一样都不占，不管你融了多少钱，牌桌上迟早没有你的位置。

即将发布的deepseek v4.1遇上发布模型最频繁的一个月