一个视频搞懂 DeepSeek V4！ — 林亦LYi | DeepSeek V4

中立

发布背景

DeepSeek V4 的发布经历了多次跳票，从2025年1月开始就不断有媒体爆料其即将发布。

博主提到路透社、金融时报等媒体每隔一阵子就会爆出V4将要发布的内幕消息，但每次都跳票。

中立

公司文化与团队态度

腾讯发布了名为《人民想念 DeepSeek》的文章，官方催更 DeepSeek V4。

博主引用腾讯文章作为外界对DeepSeek新模型高期待值的例证。

认同

公司历史

DeepSeek 曾一天干垮美国股市，让中国大模型被全世界看见。

博主回顾DeepSeek过往的辉煌成就，用以对比其长达一年的沉寂。

认同

综合能力定位

DeepSeek V4 Pro 在知识类海龟汤测试中全部答对，表现优于GPT-5.4。

博主通过海龟汤测试考察AI的知识调用和灵活运用能力，DeepSeek V4 Pro四道题全部拿下，而GPT-5.4只答对一道。

中立

推理与逻辑能力

在2018年刑侦科推理试卷测试中，除GPT-5.4和Claude Sonnet 4.6外，包括DeepSeek在内的其他模型全部答对。

博主用修改表述后的推理试卷测试AI的推理能力，DeepSeek V4 Pro答对了所有题目。

认同

综合能力定位

在百万字长上下文测试中，只有DeepSeek和Gemini成功答对关于小说《全职高手》中冷门武器重量的问题。

博主将约100万字的小说内容输入给AI，测试其长上下文检索能力，DeepSeek和Gemini是唯二成功的模型。

认同

综合能力定位

DeepSeek V4 Pro 的文学写作能力独一档，对意境的理解水平高于其他AI。

博主通过1965年中国发现AI大模型的短篇小说和武侠小说测试，发现DeepSeek能烘托氛围，且展现了惊人的长上下文注意力进行前后呼应。

认同

前端开发与设计审美

在AI世界时钟网页测试中，DeepSeek V4 Pro 生成的时钟时分秒走时准确且精致。

博主用相同提示词测试各模型生成时钟网页的能力，DeepSeek与Claude、Gemini、GPT等处于同一水平线。

认同

前端开发与设计审美

在3D汽车变速箱演示网站测试中，DeepSeek V4 Pro 相对完整地实现了变速箱结构，表现优于GPT-5.4和Claude。

博主认为该任务对当前AI模型超纲，但DeepSeek在相对完整实现结构的AI中表现不错。

不认同

多模型协作方法论

DeepSeek V4 Pro 在编程智能体框架Open Code中存在适配问题，会反复重启服务或卡住。

博主在多用户系统计算器项目测试中发现，DeepSeek在执行过程中遇到问题导致后续对话无法进行，需要手动提示，不如Claude省心。

中立

多模型协作方法论

DeepSeek V4 Pro 的工程架构设计水准比Claude Sonnet 4.6稍强，但弱于Claude Opus 4.7。

博主对比三个模型完成的计算器项目，指出Opus 4.7在自动化测试和并发安全性等工程架构方面设计更全面。

认同

推理与逻辑能力

在AI黑客大战测试中，DeepSeek拿下总分第三，漏洞修复能力第二。

博主将DeepSeek接入AI黑客大战项目进行测试，证明其在系统安全方面能与顶尖模型竞争。

认同

模型效率

DeepSeek V4 Pro 具有极高的token利用效率，完成同样项目消耗的token远少于Claude Sonnet 4.6和Opus 4.7。

博主提供数据：计算器项目DeepSeek花了6万多token，Sonnet花了7万多，Opus花了10万多。

中立

综合能力定位

DeepSeek V4 没有让AI能力产生质的飞跃，而是探索在有限成本下发挥AI最大智能潜力。

博主综合所有测试给出定位，认为DeepSeek V4的方向是成本与效率的平衡，而非能力革命。

中立

行业背景

智能体任务的平均token消耗量是普通对话的70到230倍。

博主引用追踪数据说明智能体烧token的程度，用以解释当前AI行业面临的价格困境。

中立

行业背景

如果让Open Cloud一刻不停地运转一天，可以烧掉5000美元。

博主以此极端例子说明使用顶级智能体的高昂成本。

中立

技术架构

DeepSeek V4 的模型参数规模达到1.6万亿，每次推理仅需激活490亿参数，不到总参数量的3%。

博主根据论文内容介绍V4的模型规模和MoE架构的效率。

认同

长文档处理能力

DeepSeek V4 的混合注意力机制使计算量只有上一代V3.2的27%。

博主介绍V4的CSA和HCA两种新阅读策略，大幅提升了长上下文的计算效率。

中立

地缘政治与芯片管制

美国从2022年10月起实施的三轮半导体出口管制，逐步禁止了A100、H100、H800、A800和H20等芯片对华出口。

博主梳理美国芯片禁令的时间线和影响，说明DeepSeek面临的算力困境。

中立

算力困境

英伟达因H20芯片需申请许可直接损失了55亿美元。

博主引用数据说明芯片禁令对英伟达的财务影响。

中立

国产芯片与算力生态

2025年初DeepSeek尝试用华为昇腾910C训练下一代推理模型R2，但失败了。

博主披露DeepSeek在国产芯片适配上的挫折，华为工程师团队协助排查也未能解决问题。

认同

国产芯片适配

DeepSeek V3.1发布时，官方微信公众号置顶留言暗示其针对下一代国产芯片设计。

博主以此作为DeepSeek一直未放弃适配国产芯片的证据。

认同

国产芯片与算力生态

DeepSeek花了2026年整个一季度与华为、寒武纪联合攻关，重写了V4模型底层部分模块，将华为芯片作为第一优先级设计。

博主引用The Information报道，说明DeepSeek为适配国产芯片投入的巨大工作量。

中立

国产芯片适配

仅在昇腾VLLM上适配V4的代码就有13万行之多。

博主用具体代码行数说明适配工作量之恐怖。

认同

国产芯片与算力生态

DeepSeek拒绝了给英伟达和AMD提前适配V4的机会，把早期访问权给了华为。

博主以此强调DeepSeek对国产芯片的优先支持。

中立

国产芯片与算力生态

阿里、字节、腾讯在V4发布前夕采购了数十万颗昇腾950 PR用于部署DeepSeek模型，导致芯片价格上涨20%。

博主引用采购数据，说明DeepSeek对国产算力供应链的带动作用。

认同

价格与成本

预计2026年下半年昇腾950超节点批量上市后，V4 Pro的价格会大幅下调。

博主引用DeepSeek V4价格表下的小字，认为如果实现，DeepSeek将成为性价比最高的顶级模型。

认同

公司文化与团队态度

DeepSeek是一家不打卡、不到200人、没有明确绩效考核deadline、多数员工六七点下班的公司。

博主描述DeepSeek反直觉的公司文化，认为这种松弛感与其承载的巨大期望形成对比。

认同

总体评价

DeepSeek V4 还只是半成品，已经凑齐了芯片和数据的飞轮，完全体可以走得更远。

博主对DeepSeek的未来持乐观态度，认为其已有强大基石，未来发展可期。