共识较强
视角多元
Anthropic的模型能力是否在持续进步
观点A:Anthropic模型自2024年底以来停滞甚至倒退,Claude 3.7相对3.5是倒退
以自己从Claude转用Codex的体验变化为据,认为Claude模型实质无进步,靠增加酷炫功能弥补。
观点B:Claude Opus 4.6是划时代的模型,第一次让人感觉Agent真正能干活的模型
Opus 4.6在思维灵活性、工具使用和反馈速度上有质的飞跃,是推荐Claude/Cursor的核心原因。
编辑分析:两个观点分别对应不同时间点(可能为不同模型版本),实际能力可能介于两者之间。建议关注最新的独立基准测试结果,而非仅凭博主单一体验判断。
Claude Code「烧token解决问题」的策略是优势还是陷阱
观点A:这是一种浪费且低效的策略,OpenAI用更少token就能获得更好的分数
引用Aider基准测试显示GPT-4o用一半token获得更好成绩,Claude Code乐于通过大量token去重写代码而非寻找根本解决方案。
观点B:用token换问题是可行的,如果没有解决问题就是token没烧够
博主评价Cursor(底层常使用Claude模型)时表示几乎没有解决不了的问题,如果有就是tokens没烧够,暗示对「烧token」策略的认可。
编辑分析:这本质上是「成本效率」与「最终效果」的权衡。如果你预算有限,OpenAI的高效路线会更适合;如果更看重一次性解决问题的能力,Claude的「烧token」策略可能更值得。
独家观察
相关视频