核心观点




不看好面向小白和 autopilot 的产品形式
- 目前Autopilot 技术难度过大,类比智驾直接研发 L4,
- 面向小白的产品类比让没有驾照的人去开车


对于自研编程模型持中性态度
- 初创公司的编程模型是有可能超越基础模型的
- 但基础模型迭代速度快,自研模型风险大

看好 Copilot 类产品,特别其中是 AI 驱动的 IDE 的形式
- 用户习惯是目前大家主要不用 cursor 和插件的原因
- AI 驱动的 IDE 的产品形式效率上限更高,可以逐渐过渡到 autopilot。
- 产品交互设计目前差距不明显,但会逐渐拉开差距,成为重要决定因素
- 目前模型生成的代码采用率不高,只有不到 40%。导致产品交互对效率影响不大。



目录

背景介绍

- AI coding 产品分类

- 小范围用户调研

- 目前代码采用率普遍偏低

观点解释

- 看好赋能类产品,不看好 devin 这种替代类和面向非专业人士的产品、自研模型类持中性态度

- 自研编程模型对于初创企业并非完全没有机会,但风险较大






AI coding 产品分类




软件开发大致分为六个阶段:需求分析、设计、编码、测试、部署和维护


基于软件的开发流程,市场上 AIcoding 初创企业主要分为三类:

1、赋能类——程针对特定工作流进行强化,即 Copilot,程序员和 AI 共同完成任务。

2、替代类——AI agent,AI 独立完成其中一个环节。

3、其他——自研代码基础模型类



概念辨析:端到端生成不一定是 agent

值得一提的是,虽然像 Claude 的 artifacts、跃问的创意版也是"端到端"生成,但很难被称之为 agent,因为他们只能完成特定类型的较简单任务,相当于提供了一个预览功能而已。

真正的 agent 还是像 devin 这种能够自动执行多
种类型操作的产品。但 devin 可以被称为端到端生成(虽然成功率不高)


1 赋能类 ——程针对特定工作流进行强化,即 Copilot。

这一类产品又可以从产品形式上分为插件类和独立 IDE 类

1.1 插件类

1.1.1 代码生成环节的代表:Github Copliot

代码生成是目前最主流的 AIcoding 的功能,Github copliot 是目前使用最多的 AI 插件

产品形式主要为 IDE 插件;也有网页版聊天机器人;由 Github 和 openai 合作开发(github 于 18 年被微软收购)

主要功能为代码生成、代码补全、代码解释



模型为调用通用模型


内也有不少对标产品:通义灵码/Marscode/文心快码等


1.1.2 代码测试、代码评审环节的代表:Qodo

核心功能:一键生成指定代码的单元测试代码,如果测试不通过也可以提出修改意见。也可以生成 code review。


1.2 AI 驱动的 IDE 类

1.2.1 代表产品:Cursor

功能和 Github copilot 类似,但支持了更多的便捷操作。
比如:

允许手动选择代码片段作为上下文(通过 @ 符号引用)

一键应用 AI 生成的代码

支持多位置同时补全和重构(如批量修改变量名),通过 ctrl+k 生成代码、ctrl+l 生成注释



调用模型,也有自己的小模型,网络评测说是自己的模型是免费的但效果不如主流模型。


1.3 其他:特定环节端到端类

1.3.1 Artifacts

产品形态:Claude 高级功能,在 Claude 上用语言直接生成 web 应用,会有一个专门窗口显示最终结果


1.3.2 V0. Dev

功能:

一句话、一张图就可以帮你生成各种前端页面或组件。


示例:"帮我生成一个飞机大战游戏";截图小红书,说将上图转化为前端页面代码(详见: https://mp.weixin.qq.com/s/B5kx3QdrvXq1E4mB20bXiw



2 替代类( Agent )

2.1 Devin

产品形式:AI 驱动的 IDE;独立完成软件开发的 Agent


3 自研代码模型类

3.1 Magic


产品形式:聊天机器人,针对代码的语言模型

https://www.youtube.com/watch?v=IZh0CF0kB1M




小范围用户调研




虽然市面上 AI 编程产品类型很多,但是并不是所有的方案用户都买账,一方面当然是推广需要时间,但从调研的结果来看,代码习惯是目前最大的因素


从目前用户的角度,主要是三种方案的竞争:

1、直接挂一个 AI 网页(现阶段主流)

2、安装 AI 插件(下一阶段、节省了切换网页,复制粘贴,可以光标之后按 tab 自动补全)

3、用 Cursor 这种 IDE(可能的未来)




总共调研了身边五个朋友:三个选择开网页问,两个使用 AI 插件


用户 1:计算机直博 ing

方案:开网页问

原因

“俩屏幕够方便了”

“上次用 cursor 好早了那个时候 ai 写的代码基本不能跑,网页端的 gpt 基本写的代码都是对的”

“下次有机会试试 ai 插件”,“之前没用过这么好的 ai”


用户 2: python 程序员,对接自动化的工具开发

方案:IDE 插件

原因

“因为他可以学习你的项目代码。网页的问 GPT 一般都是在独立项目需要前期准备和搭基础框架时会用到的”

“独立的 cursor 还没用过”


用户 3:计算机直博 ing

方案:IDE 插件

原因

“好用”,

“感觉目前用插件的人挺多的”,

“Cursor 还没用过,有机会试试看吧”


用户 4:计算机大四

方案:开网页问

原因:“没用过其他的”


用户 5:嵌入式软件开发,给车机写代码

方案:开网页问,同事用插件 github copilot

原因

“插件的对话窗口太小了”、“24 年插件是收费的,所以一直用网页,养成习惯了”

“除了工作用的 c,我还用脚本,比如 bash 和 python,还有一些语言的常识类的,比如 xx 的用法,感觉网页更方便一些”

“功能上,插件相对于网页优势还是很大的,目前插件是可以直接读取剪切板的代码,也就是鼠标选中,就可以开改了”

“但也是因为插件会自动去读剪切板的内容,所以有些公司处于代码保密的目的,不让用插件,没法控制 chatgpt 读了什么代码”

“对 AI 编程还是有很大需求的”,“比如我们,嵌入式开发的,但是偶尔要写点数据处理的工作,原来是招人弄 matlab,现在我们直接自己写了”


用户 6: 我自己,只会数据分析,软件开发一窍不通

方案:AI 驱动的 IDE

体验:虽然身边没有用户能给我 cursor 类的使用反馈,自己尝试了一下 trae 和 cursor,让他帮忙生成一个简单的时间管理软件,失败,而且让 AI 自己改也改不好,我也还不知道该怎么 debug。毕竟 AI 还是问题驱动的,作为小白我都不知道报错之后该怎么问问题。





目前代码采用率普遍偏低




当前模型的采纳率不高,只有不到 40%,国内大约在 25%,最好的模型大约在 35%(采纳率来源于 AIG 创始人采访)。


根据 Aider 的多语言基准测试 

https://blog.csdn.net/weixin_46074689/article/details/144948232

 的结果也表明在生成代码任务中(下图的 whole format)模型成功率不到 40%,在代码修改任务中(下图的 diff-like format)成功率会高一些。


(Aider 的多语言基准测试是为了更全面地评估 LLM 在代码编辑和多语言编程中的表现而设计的。与之前的单一 Python 基准测试相比,新测试涵盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种流行编程语言。)


在如此低的采纳率下,插件形式、copilot 和 autopilot 对效率影响区别不大,因为时间的大头还是在程序员验收修改上。


这也是为什么大部分程序员并没有很积极地去使用 cursor、devin、或者 AI 插件。


虽然短期之内,各 AI 编程产品因为模型能力的限制而对效率的影响差异不明显,但随着采用率低提高,产品交互设计的差异会逐渐放大。

总结



1、当前阶段大家主要还是倾向于用插件来兼顾已有的编程习惯,但对更好用的 AI 工具都是不排斥的。

2、同时当前工具转换成本大于 cursor 带来的效率提升。

3、目前的产品距离小白都能用还比较远。



基于上述背景,我主要有如下观点,分别是

1、关于产品形式:看好赋能类产品,不看好 devin 这种替代类、模型类持中性态度。

2、关于自研模型:初创公司并非完全没有机会,但由于基础模型迭代快,在模型上投入过多资源风险较大




看好赋能类产品,不看好 devin 这种替代类和面向非专业人士的产品、自研模型类持中性态度


不看好 devin 类产品

(之所以没说不看好端到端,是因为有的端到端只是一个环节的全自动化,个人认为这种还是算 copilot)


AI 编程非常类似于自动驾驶行业。Devin 相当于自动驾驶 L3,cursor 相当于辅助驾驶 L2。



首先,AI 编程肯定不是伪需求,在辅助驾驶刚出来的时候很多老司机也是觉得辅助驾驶还要我提心吊胆地盯着,还不如自己开,但是市场还是证明了它的价值。


其次,从智驾行业历史规律来看,渐进式路径比跨越式路径更容易获得商业成功。

Copilot 对应从 L 1 一步步迭代的技术方案,Autopilot 对应直接从 L 3 进行开发的技术方案。

智能驾驶已开始也是有两条技术路径:特斯拉代表的是渐进式路线,主张从 L 1、L 2、L 3 状态的“人机共驾”逐渐过渡到 L 4 的无人驾驶,而 Waymo 代表的跨越式路线,直接以 L 4 的无人驾驶为目标进行研发。如今 robotaxi 也好萝卜快跑也好,落地远慢于渐进式。


同理,我认为AI coding 也会遵从同样的发展规律。


替代类产品如 devin 也会面临巨大的风险,能不能真正的实现具有很大的不确定性,同时由于其设计理念,短期内可能远不如 copilot 好用。


而 copilot 类产品会首先在一些简单的环节和任务,比如测试、前端开发、代码评审等简单环节逐步实现完全的自动化。在复杂的任务上,比如代码重构、部署等任务上还是采用与人协助的方式。最后逐步地过渡到更自动的形式。


好比车企从高速 NOA 到城区 NOA 的竞争。简单路况比如高速高架,现在自动驾驶的接管率很低了,但复杂的城区路况接管率还是比较高。


基于同样的逻辑,也可以说明为什么我认为面向小白的产品不合理。


普通人需不需要编程不清楚,但直接做面向小白的产品类似于直接开发 L 4 自动驾驶,类似于让没有驾照的人直接上车。产品正确率和使用门槛均需达到非常优秀的水平才能让小白觉得好用。


以现阶段产品的目标客户只能是专业程序员


从产品商业逻辑上来说,从 Copilot 慢慢向更自动化的形式迭代是更合理的。autopilot 不是一个好的方向。


看好 cursor 类产品


cursor已经获得了可观的成绩。2024 年底统计,Cursor 付费用户 66 万。Cursor仅用了21个月就达到了1亿美金的年度经常性收入(ARR),成为收入增长最快的AI/SaaS产品。


Cursor 2024 年 8 月 22 日在其博客中公布,从 a16z(领投)、OpenAI 等机筹集 6000 万美元的 A 轮资金,已经拥有 40,000 家客户。4 个月后的 2025 年 1 月 16 日 Cursor 在其博客中公布,从Thrive Capital、a16z 等机构筹集 1.05 亿美元的 B 轮融资,Cursor 现在已被数百万程序员(millions of programmers)用作他们的首选编辑器,业务规模庞大且增长迅速,经常性收入已超过 1 亿美元(exceeded $100m in recurring revenue)。

Cursor 的收费标准为 20美金/月的 Pro、40 美金/用户/月的商业版,Cursor 付费用户规模:66 万。如果经常性收入刚好 1 亿,相当于单个用户的 ARPU 151 美金。


如果数百万是 200 万,那么 66/200= 33% 的付费率。


自研编程模型对于初创企业并非完全没有机会,但风险较大


1 但由于基础模型迭代速度快,自研模型对于初创企业风险比较大


现阶段基础模型迭代速度快,模型之间的转换成本又几乎为零,同时目前 AI 编程仍处于早期,产品形式、模型能力边界都还不明晰,即使是自研小模型成本对于初创公司也比较高昂,通过调用已有模型这种低成本方式验证市场产品需求,再决定是否加大投入模型研发或是更合理的策略。


2 初创企业自研编程模型是完全有可能比模型公司的好


原因一:大型模型使用成本高,即使是大公司也不得不采用小模型来兼顾成本。所以小公司不需要费巨量资源去训练大模型,只需要想办法提高小模型的表现即可。
同时大模型的训练成本会转嫁到使用费用上,如博主测试 Devin 调用 GPT 模型,完成一个较简单的任务,总共花费 15$。而大部分用户还是价格敏感型


如 Supermaven 的 CEO Jacob Jackson 表示:

“虽然像 GPT-4 这样的模型提供了无与伦比的建议质量,但无法在每次按键时运行(除非你向用户收取每月 1000 美元的费用)。今天,AI 编码工具的部署受到的限制,不仅在于运行工具的 GPU 成本,也在于开发工具本身的成本。这就是为什么 Copilot 努力通过限制他们提供建议的上下文来降低成本。服务代码补全工具的高成本使竞争更加公平:这意味着无论是一个小型初创公司还是微软,都必须使用小型模型以保持盈利。最优秀的产品是那些最有效地使用小型模型的产品。”


原因二:目前技术上有很多创新空间。1)初创公司可以凭借架构创新实现更好的效果,如从经典 Transformer 到 MOE 到 PLE(如 AIGcode)。2)在长上下文、低延时方面进行突破(如 Supermaven)。3)利用合成数据扩大数据训练集(如 Poolside)

原因三:市场具有大量定制化需求,希望对特定任务、特定领域进行优化。企业或拥有独特、高质量的数据可用于训练模型。


海外选择自研模型的 AI 初创企业(部分)有:

1、Magic,LTM-2-mini 模型,拥有超长上下文窗口:首个 1 亿上下文窗口的模型

2、Poolside,malibu 和 point 模型,访谈中表示用到了 MOE 和合成数据

3、Cursor,2024 年 11 月收购 Supermaven(自有生成式 AI 模型 Babble 具备极低的延迟性能,具有长上下文。),旨在推出新的 Tab AI 模型。现在已经有了两个自己的小模型 cursor-fast 和 cursor-small,虽然效果经测试不如 Claude,但是免费,所以还是有不少人用的。


综上,个人认为拥有强大技术能力和资金的初创团队可以选择自研,如果能大幅提高代码采用率或许能覆盖程序员的转换成本(概率较小),从而吸引大量用户在自己这里培养新的习惯。



抛砖引玉,欢迎讨论、批评、指点~

邮箱:954601208@qq.com