AI 智能体评估
AI 编码智能体在 Nuxt 代码生成任务上的性能结果,衡量成功率和执行时间。
代理性能结果
| 模型 | 代理 | 评估总数 | 成功率 | |
|---|---|---|---|---|
Claude Opus 4.6 | Claude Code | 25 | 96% | |
Claude Sonnet 4.6 | Claude Code | 25 | 92% | |
Gemini 3.1 Pro Preview | Gemini CLI | 25 | 88% | |
GPT 5.3 Codex (xhigh) | Codex | 25 | 88% | |
Cursor Composer 1.5 | Cursor | 25 | 84% | |
Gemini 3 Pro Preview | Gemini CLI | 25 | 80% | |
Claude Sonnet 4.5 | Claude Code | 25 | 64% | |
Devstral 2 | OpenCode | 25 | 36% |