2024年我们用Copilot补全代码,2025年我们用Cursor生成函数,2026年我们让Agent独立完成Feature。从自动补全到全栈开发Agent,代码生成经历了三次范式跃迁,而我们正站在第三次的起点上。
进化路线:补全→生成→Agent
第一阶段(2021-2023):代码补全。GitHub Copilot开创了"写几个字母,Tab补全一行"的范式。本质是自动完成,开发者仍然主导每一行代码。
第二阶段(2023-2025):代码生成。Cursor、Copilot Chat让你用自然语言描述需求,AI生成整块代码。开发者从"写代码"变成"审代码",但仍然需要指定修改哪个文件、怎么改。
第三阶段(2025-现在):Coding Agent。给一个Issue描述,Agent自己读代码库、理解上下文、制定方案、写代码、跑测试、修Bug,最后提交PR。开发者从"审代码"变成"审PR"。
三种范式并存
IDE内置型:Cursor / GitHub Copilot
Cursor是目前IDE体验最好的方案。$16/月的Pro计划包含足够的请求量,核心优势在:
- Composer:多文件编辑能力,理解项目结构
- Parallel Agents:2026年新增,可以同时启动多个Agent处理不同任务
- 上下文感知:自动索引代码库,
@codebase一键搜索相关代码 - 即时预览:代码改动实时diff,接受/拒绝一键操作
局限性:强依赖IDE环境,适合交互式开发,不适合全自动化Pipeline。
终端CLI型:Claude Code / Cline
Claude Code是Anthropic官方的终端Agent,也是目前推理能力最强的Coding Agent。
亮点:
- SWE-bench Verified跑分80.8%,业界最高(截至2026Q1)
- 终端原生,不依赖任何IDE,SSH到服务器上也能用
- Agent Teams:多个Claude Code实例并行工作,由一个Orchestrator协调
- 深度理解代码上下文,擅长复杂重构和跨文件修改
- 支持MCP协议,可以接入任意外部工具
代价:按token计费,复杂任务一次可能花费$1-5。没有IDE的可视化支持,纯文本交互,需要一定的终端使用经验。
Cline:开源的VS Code扩展,支持多种模型后端。优势是免费且可自定义,社区活跃。但推理能力受限于底层模型,整体效果不如Claude Code。
全自主型:Devin
Devin定位是"AI软件工程师",$20/月加usage费用。它有自己的开发环境(浏览器、终端、编辑器),可以完全独立工作。
适合的场景:
- 重复性任务(批量迁移、格式转换)
- 简单的Bug修复和Feature开发
- 不需要深度代码理解的独立任务
不适合的场景:
- 架构级决策
- 需要产品直觉的功能设计
- 高度耦合的代码修改
Devin的哲学是完全异步——你把任务丢给它,去做别的事,回来看结果。这和Cursor/Claude Code的交互式风格截然不同。
SWE-bench跑分:参考但别迷信
SWE-bench Verified的排行榜:
- Claude Code: 80.8%
- Devin: ~30-40%
- 开源方案: 20-50%不等
但跑分和真实体验是两回事。SWE-bench测试的是"修复已知Bug"的能力,而实际开发中更多的是"理解模糊需求并实现"。Claude Code跑分高,确实反映了其推理能力的领先,但你实际体验中的满意度更取决于工作流的匹配度。
用Cursor的开发者可能觉得体验比Claude Code好——因为IDE的即时反馈、可视化diff、一键接受,这些交互层面的优势不体现在跑分里。
什么适合交给Agent,什么不适合
适合:
- 有清晰规范的功能实现(API endpoint、CRUD页面)
- 单元测试编写(给函数签名,生成测试用例)
- 代码迁移和重构(框架升级、API变更)
- 文档生成(README、API文档、注释)
- Bug修复(有明确的报错信息和复现步骤)
不适合:
- 架构设计(需要全局视野和经验判断)
- 性能优化(需要profiling数据和领域知识)
- 安全相关代码(加密、认证、权限——出错代价太高)
- 高度创新的功能(Agent擅长模仿已有模式,不擅长创造新范式)
一条简单判断标准:如果你能在15分钟内给一个中级工程师讲清楚需求,那这个任务就适合交给Coding Agent。
实战:通勤路上用手机写代码
这不是标题党——我真的在每天通勤的地铁上,用手机通过OpenClaw给Agent下达编码任务。
流程是这样的:
- 手机上打开飞书/Telegram,给Agent发一段需求描述
- Agent(Claude Code)在后台启动,读取代码库,开始工作
- 30分钟后到公司,打开电脑,Agent已经完成了初版代码并提交了PR
- 我Review PR,提修改意见,Agent继续迭代
这改变了我的开发习惯。以前通勤时间是"死时间",现在变成了需求输入时间。Agent成了一个异步的结对编程伙伴——你说需求,它写代码,你审代码,它改代码。
关键心得:给Agent写需求是一种技能。描述越精确、上下文越充分,产出质量越高。模糊的"做一个用户管理功能"远不如"参考/src/modules/order的模式,在/src/modules/user下实现用户CRUD,使用Prisma ORM,包含分页和模糊搜索"。