模型与成本策略：2 项共识、2 个争议、2 个独家观点

共识较强

Claude Opus系列模型在编程能力和Agent配合上的表现是目前最出色的。

GPT系列模型在编程上正在快速追赶，但仍存在速度慢或思维死板等不足。

视角多元

Anthropic的模型能力是否在持续进步

观点A：Anthropic模型自2024年底以来停滞甚至倒退，Claude 3.7相对3.5是倒退

以自己从Claude转用Codex的体验变化为据，认为Claude模型实质无进步，靠增加酷炫功能弥补。

观点B：Claude Opus 4.6是划时代的模型，第一次让人感觉Agent真正能干活的模型

Opus 4.6在思维灵活性、工具使用和反馈速度上有质的飞跃，是推荐Claude/Cursor的核心原因。

编辑分析：两个观点分别对应不同时间点（可能为不同模型版本），实际能力可能介于两者之间。建议关注最新的独立基准测试结果，而非仅凭博主单一体验判断。

Claude Code「烧token解决问题」的策略是优势还是陷阱

观点A：这是一种浪费且低效的策略，OpenAI用更少token就能获得更好的分数

引用Aider基准测试显示GPT-4o用一半token获得更好成绩，Claude Code乐于通过大量token去重写代码而非寻找根本解决方案。

观点B：用token换问题是可行的，如果没有解决问题就是token没烧够

博主评价Cursor（底层常使用Claude模型）时表示几乎没有解决不了的问题，如果有就是tokens没烧够，暗示对「烧token」策略的认可。

编辑分析：这本质上是「成本效率」与「最终效果」的权衡。如果你预算有限，OpenAI的高效路线会更适合；如果更看重一次性解决问题的能力，Claude的「烧token」策略可能更值得。

独家观察

Gemini Pro的多模态能力明显强于其他家，在做图后修改编辑时效果最好，但在编程Agent能力上未超越Claude Opus。

精准定位了Gemini在编程场景中的细分优势，避免了一概而论的模型比较。

Anthropic内部使用的Claude版本与外部不同，内部有更好的系统提示词和隐藏功能，外部用户体验被忽视。

揭示了AI公司内部与外部工具体验可能存在的透明度问题，对用户选择工具有警示意义。