作者： admin

AI编程工具横评2026：Cursor 3、Trae、Claude Code深度对比测评，国产Trae突破千万用户 | AI工具导航

一、为什么AI编程工具值得关注？

1.1 从”辅助工具”到”协作伙伴”

两年前，AI在编程中的角色还停留在”代码补全”和”错误检查”。那时候的AI更像一个高级的拼写检查器——能帮你找茬，但没法帮你干活。

现在的AI编程工具已经完全不同了：

能理解整个代码库的结构和上下文
能根据需求生成完整的功能模块
能自动重构代码、优化性能
能帮你Debug、解释代码、甚至设计架构

从”辅助工具”到”协作伙伴”，这个转变只用了两年。

1.2 市场需求爆发

国内市场需求尤其旺盛。字节Trae上线不到一年，用户突破1000万，这个数字背后是庞大的开发者群体对效率提升的渴望。

一方面，互联网行业进入”降本增效”周期，开发者需要用更少的时间完成更多的工作；另一方面，AI技术的成熟度已经足以支撑”AI编程”这个场景的落地。

二、横评对象介绍

2.1 Cursor

Cursor是2023年崛起的新星，由前DeepMind员工创立。它将AI能力深度集成到VS Code中，支持对话式编程、智能补全、代码重构等功能。

最新版本Cursor 3推出了Composer模式，支持跨文件重构——你可以描述一个需要修改的功能，Cursor会自动分析相关文件，一次性完成修改。

2.2 Trae

Trae是字节跳动推出的AI编程助手，于2025年正式发布。最大的特点是对中文用户极度友好，界面和文档都是原生中文，提示词用中文描述效果更好。

Trae国内用户突破1000万，是国产AI编程工具的领军产品。它集成了豆包大模型，在中文代码理解和生成方面有独特优势。

2.3 Claude Code

Claude Code是Anthropic推出的命令行编程工具，基于Claude模型构建。最大的特点是Agent能力——你描述一个任务，Claude Code会自主规划步骤、调用工具、执行操作，直到任务完成。

最新更新增加了多文件编辑能力，进一步提升了处理复杂项目的能力。

2.4 GitHub Copilot

GitHub Copilot是微软和OpenAI合作的产物，集成在VS Code等主流IDE中，市场占有率最高。

作为这个领域的”老大哥”，Copilot的优势在于生态成熟、插件丰富。但最新一代AI编程工具在能力上已经开始超越它。

三、功能对比

3.1 核心功能对比表

功能	Cursor 3	Trae	Claude Code	GitHub Copilot
代码补全	✅	✅	✅	✅
对话式编程	✅	✅	✅	✅
跨文件重构	✅ Composer	✅	✅ 新增	❌
多文件编辑	✅	✅	✅	❌
Agent自主任务	⚠️ 有限	⚠️ 有限	✅ 强大	⚠️ 有限
代码调试	✅	✅	✅	❌
架构设计建议	✅	✅	✅	❌
中文支持	⚠️ 一般	✅ 优秀	⚠️ 一般	⚠️ 一般

3.2 重点功能深度解析

Cursor 3 Composer模式

Composer是Cursor 3的核心创新。它解决了一个长期痛点：当你需要修改一个涉及多个文件的复杂功能时，传统AI编程工具只能一个文件一个文件地改，容易出现上下文丢失、修改不一致的问题。

Composer模式允许你描述一个跨文件的修改需求，AI会自动：

分析哪些文件需要修改
规划修改的先后顺序
逐个文件执行修改
确保修改的一致性

实测效果不错。我用它重构了一个包含20多个文件的电商模块，AI自动识别了数据层、服务层、接口层，一次性完成了所有修改。

Claude Code Agent能力

Claude Code的Agent能力是三款工具中最强的。你可以用它来完成复杂的多步骤任务：

bash

# 描述任务
claude "帮我重构user模块，要求：
1. 把userService拆分成userAuth和userProfile两个服务
2. 更新所有调用userService的地方
3. 确保单元测试通过"

Claude Code会自主拆解任务、创建子任务、执行操作，每一步都会询问你是否确认，直到任务完成。

这个模式特别适合处理”大型技术债务清理”或者”系统架构升级”这类复杂任务。

Trae中文友好

Trae对中文用户最大的优势是原生中文支持。

界面、文档、错误提示都是中文。更重要的是，用中文描述需求时，Trae的理解准确率明显高于其他工具。

比如，你想让AI帮你写一个处理用户权限的函数，直接用中文说”写一个检查用户权限的函数，需要支持角色和权限两层判断”，Trae的理解比我用英文描述还准确。

四、性能对比

4.1 代码生成质量

我用三个维度评估代码生成质量：

准确性：生成的代码是否能正确运行
可读性：代码结构是否清晰、命名是否规范
完整性：是否考虑了边界情况和错误处理

工具	准确性	可读性	完整性
Cursor 3	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Trae	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Claude Code	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Copilot	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐

结论：Claude Code在代码质量上略胜一筹，尤其是对复杂业务逻辑的理解和处理。但差距不大，Trae和Cursor的生成质量已经足够日常使用。

4.2 响应速度

响应速度直接影响使用体验。我测试了在相同网络环境下，三个工具生成一段中等复杂度代码的时间：

工具	首次响应时间	完整生成时间
Cursor 3	~2秒	~8秒
Trae	~3秒	~10秒
Claude Code	~5秒	~15秒
Copilot	~1秒	~5秒

结论：GitHub Copilot最快，因为它主要做的是代码补全而非生成。但考虑到Claude Code生成的内容质量更高，这个速度差异是可以接受的。

4.3 上下文理解能力

上下文理解能力决定了AI能否真正”懂”你的代码库。

工具	上下文窗口	代码库理解	多文件关联
Cursor 3	100K	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Trae	128K	⭐⭐⭐⭐	⭐⭐⭐⭐
Claude Code	200K	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Copilot	50K	⭐⭐⭐	⭐⭐⭐

结论：Claude Code的200K上下文窗口让它能一次性处理更大的代码库，特别适合处理大型项目。Cursor 3的Composer模式在多文件关联上有独特优势。

五、价格对比

5.1 订阅方案对比

工具	免费版	Pro版	Team版
Cursor	✅ 有限	$20/月	$40/用户/月
Trae	✅ 完全免费	–	–
Claude Code	–	$20/月（含Pro订阅）	$25/用户/月
Copilot	✅ 有限	$10/月	$19/用户/月

5.2 性价比分析

Trae完全免费：这是最大的竞争优势。对于个人开发者和小型团队，Trae提供了足够强大的功能，而且完全免费。

Copilot最便宜：$10/月的Pro版适合个人开发者，但功能相对基础。

Cursor和Claude Code：价格相近，功能各有侧重。如果已经订阅了Claude Pro，Claude Code是顺理成章的选择；如果偏好VS Code生态，Cursor更合适。

六、使用场景推荐

6.1 个人开发者：推荐Trae

完全免费、中文友好、功能完整。对于个人开发者来说，Trae是性价比最高的选择。

6.2 团队协作：推荐Cursor 3或Claude Code

Cursor 3的Composer模式和Claude Code的Agent能力都适合处理复杂项目。团队可以根据现有技术栈选择：

已有VS Code习惯 → Cursor 3
已有Claude订阅 → Claude Code

6.3 大型企业：推荐Claude Code

Claude Code的Agent能力和200K上下文窗口特别适合处理大型技术债务和架构升级任务。

6.4 快速原型开发：推荐Cursor 3

Composer模式的跨文件重构能力在快速原型开发中非常有价值。

七、实测横评总结

7.1 核心结论

维度	推荐
最佳性价比	Trae（完全免费）
最佳代码质量	Claude Code
最佳跨文件能力	Cursor 3 Composer
最佳中文支持	Trae
最佳Agent能力	Claude Code
最快响应	GitHub Copilot

7.2 一句话总结

Trae：国产之光，免费+中文友好，普通开发者首选
Cursor 3：VS Code最佳搭档，Composer模式解决复杂重构痛点
Claude Code：Agent能力强，适合复杂项目和大型代码库
Copilot：老牌选手，生态成熟，适合已入坑的开发者

7.3 未来展望

AI编程工具的进化速度远超预期。按照目前的发展速度，预计2026年底，主流AI编程工具的SWE-bench准确率将突破70%，届时AI将能独立完成大部分日常开发任务。

对于开发者来说，现在最重要的是尽早上手这些工具。不是为了让AI取代自己，而是为了让自己站在AI的肩膀上，做更有价值的事情。

国产大模型价格战终结？从”自杀式降价”到”集体涨价”，这波操作你看懂了吗

一、一块钱能买多少Token？回顾价格战的前世今生

1.1 2024-2025：疯狂的”自杀式”降价

回看这波价格战，字节是那个”第一个开枪的人”。

2024年5月，豆包率先降价99.3%，阿里、百度、腾讯被迫跟进，行业陷入”亏本卖Token”的疯狂。

为什么字节敢打价格战？因为它有全行业最低的算力成本。

2023年字节提前囤积了大量英伟达GPU，当时被质疑”过度激进”。回头看，这是”老板看得远”的战略判断。2026年字节资本开支约1600亿元，其中AI芯片预算850亿元。日均Token调用量从2024年的千亿级飙升至2026年3月的120万亿——规模效应下，单位成本被摊到地板。

IDC报告显示，火山引擎已拿下中国大模型公有云市场49.2%的份额。字节一家，就拿走了半壁江山。

1.2 国产vs国际：十倍价差不是偶然

同期的国际市场上，OpenAI的GPT-6（预计2026年Q2发布）定价输入2.5美元/百万Token、输出12美元。换算成人民币，是国内价格的几十倍。

模型	输入价格	输出价格	备注
DeepSeek-V3.2	$0.28/M	$1.12/M	极致性价比
Qwen-Flash	$0.05-0.25/M	$0.40-2.00/M	阿里生态首选
智谱GLM-5.1	¥2/M → ¥3.66/M	–	涨价后仍为文心30%
Claude Sonnet 4.6	$3/M	$15/M	国际均衡旗舰
GPT-4.1	$2/M	$8/M	OpenAI性价比之选

国产模型的价格优势高达10-20倍，背后是西部绿电的能源底价、阶梯化的人力成本、国产硬件的替代红利，以及极致的推理优化。

二、涨价潮来了：2026年3-4月发生了什么？

2.1 腾讯打响了第一枪

2026年3月11日，腾讯云率先涨价。混元HY2.0输入价从0.0008元/千Tokens涨到0.0045元/千Tokens，涨幅463%。

注意这个数字：涨幅463%听起来很夸张，但实际价格仍然远低于国际模型。对于企业用户，优化算力使用效率比纠结单价更重要——通过缓存命中、提示词压缩、混合推理等手段，实际支出可以大幅降低。

2.2 阿里、百度跟进

3月18日，阿里云、百度智能云同步上调AI算力价格：

阿里云：AI算力涨5%-34%，CPFS文件存储涨30%
百度云：AI算力涨5%-30%，并行文件存储涨30%

5月9日，腾讯云将进行第二轮调价，AI算力、容器服务统一涨5%。

2.3 智谱的逆势操作

更值得关注的是智谱的操作。智谱宣布涨价83%后，调用量反而增长了400%。

这在传统经济学逻辑里是说不通的。但如果我们换个角度想：

淘汰薅羊毛用户：那些只追求最低价的用户会离开
留住价值用户：真正需要高质量服务的用户愿意付费
提升用户质量：付费用户更认真，反馈更有价值

一位企业用户告诉我：”我们之前用智谱做测试，现在正式产品也准备用。涨价后我们反而更放心了，说明他们能持续提供稳定服务。”

三、为什么价格战打不下去了？

3.1 算力供需逆转

这是最直接的原因。

全球大模型每周Token消耗量从2026年2月初的9.8T飙到3月初的14.8T，OpenClaw这类智能体让单次任务Token消耗暴增10到100倍。

与此同时，全球AI芯片供应链持续紧张。英伟达H20被禁售后，国产替代性能打七折、价格翻倍，华为昇腾产能排到2027年Q2。

供不应求，价格自然上涨。

3.2 成本倒逼

持续两年的亏本卖Token，对任何公司来说都不可持续。

腾讯集团副总裁李强明确表示：”无论国内还是全球，供应链和硬件成本均呈上升趋势，算力价格整体上行将成为趋势。”

字节高管的判断更直接：”未来18个月，只有控制算力供应链的玩家才能活到最后。”

3.3 竞争格局稳定

价格战打了两年，市场格局基本定型了。字节拿下公有云市场半壁江山，其他玩家各有各的地盘。继续打价格战边际效益递减，不如转向提升服务质量。

四、400%增长背后的逻辑

4.1 价格锚定效应

智谱涨价83%，但用户发现”还是很便宜”。

对比数据：

文心一言：¥12/1M tokens
智谱涨价后：¥3.66/1M tokens
价格比：智谱仅为文心一言的30.5%

用文心一言的高价做锚点，智谱的涨价显得”合理”。这是精心设计的价格策略，不是单纯的成本压力。

4.2 用户筛选机制

涨价是最好的用户筛选工具。

真正需要高质量服务的用户——他们看重的是稳定性、响应速度、服务质量——对价格反而没那么敏感。这部分用户愿意为更好的服务付费，也更能提供有价值的反馈。

4.3 价值认同

更耐人寻味的是用户心理。

社交媒体上有人说：”终于涨价了，说明产品有价值！”这种”涨价=有价值”的逻辑，某种程度上反映了市场对AI价值的重新认知。

过去两年，AI被当成”白菜价”的代名词。但当一家公司敢于涨价，说明它相信自己的产品值得被付费。

五、行业格局展望：谁在裸泳？

5.1 中美双轨并行

AI行业正在形成一种”中美双轨并行”的格局：

美国路线：依托基础算法创新和先发优势，坚守闭源精英路线，以高溢价模型主导高端价值市场，追求单次调用利润最大化。

中国路线：凭借全链条成本优势与极致的工程优化能力，构建开源普惠生态，通过低价快速占领市场规模，形成调用量的绝对优势。

一个鲜明的对比是：中国AI日均调用量已达140万亿Token，全球占比约36%，但全球营收占比却不足4%。

5.2 “只有控制算力的玩家能活到最后”

字节高管的判断很清醒。

算力有三个关键维度：

硬件储备：有没有足够的GPU/HPU
成本控制：能不能以更低成本获得算力
供应链安全：会不会被”卡脖子”

DeepSeek是另一个值得关注的变量。它的R1时代以586万美元成本做出对标GPT-4的性能，但到了V4，却花大力气做了一件”不赚钱”的事：万亿参数、百万上下文，首次全栈适配华为昇腾国产芯片。

一家技术理想主义公司为什么要做这种”脏活”？因为没有算力自主权，哪怕技术再领先，也可能被断供卡死在18个月倒计时结束之前。

5.3 价格战尽头是”值”

价格战是互联网的老剧本。外卖、打车都走过同样的路——烧钱抢市场，挤死对手，然后涨价收割用户。

大模型正在走同样的路，但有一个根本不同：算力成本不会因为规模扩大而无限摊薄。

摩尔定律放缓，芯片物理极限逼近。当GPT-6带着”主动对齐用户意图”的能力入场，如果体验差距太大，高端客户会怎么选？

六、普通人如何应对？

6.1 企业用户：优化使用效率

与其纠结单价，不如优化使用效率。

几个实用技巧：

缓存命中：对于重复性请求，利用缓存减少实际调用
提示词压缩：精简提示词，减少每次调用的Token消耗
混合推理：简单任务用小模型，复杂任务再调用大模型
批量处理：合并多个小请求为一个大批量请求

6.2 开发者：关注综合成本

选择模型时，不要只看API价格。实际成本 = API价格 × Token消耗 × 任务数量。

有时候贵一点的模型因为能力更强，反而需要更少的调用次数，综合成本反而更低。

6.3 个人用户：拥抱免费工具

对于个人用户，国产免费工具已经非常强大了。豆包、文心、通义千问的免费版本足够应对日常使用场景。

付费工具适合有高频调用需求的企业用户，或者对响应速度有要求的专业场景。

七、总结

7.1 核心结论

价格战正在终结：持续两年的”自杀式”降价已不可持续，2026年3-4月行业集体转向
涨价≠贵：即使涨价，国产模型价格仍仅为国际巨头的1/10到1/20，性价比优势持续
价值定价时代来临：行业从追求规模转向追求质量，用户筛选机制发挥作用
算力是关键：未来18个月，谁能控制算力供应链，谁就能活得更久

7.2 行业预测

短期（6个月）：价格小幅上涨，但国产模型仍具10倍以上价格优势
中期（1-2年）：行业分化加剧，有算力储备的厂商优势扩大
长期（3年+）：大模型能力趋同，差异化竞争转向服务质量和工作流整合

Claude Design深度评测：Anthropic推出AI视觉设计工具，设计师要被取代了吗？

一、Claude Design是什么？

1.1 产品定位

Claude Design是Anthropic推出的视觉创作工具，基于其最新旗舰模型Claude Opus 4.7构建。目前以”研究预览版”形式向Claude Pro、Max、Team及Enterprise订阅用户开放。

官方的定位说得很清楚：

“我们希望帮助设计师更快地迭代想法，同时让没有设计背景的人也能自信地表达视觉构想。”

换句话说，Claude Design不是来抢设计师饭碗的，而是来降低创意表达的门槛——让产品经理、创业者、运营人员都能高效产出专业级的视觉原型和演示文稿。

1.2 四个核心能力

对话式创作：你描述需求，AI生成初始版本，然后通过自然对话迭代优化——”按钮再大一点”、”配色更柔和些”、”这个模块往左边挪”。

多模态输入：不只是文字。你可以直接上传参考图片、Word文档、PPT文件，甚至直接抓取网页元素作为设计起点。

智能品牌系统：这是Claude Design的独门绝技。它能自动读取你的代码库（比如Figma设计文件、GitHub项目），学习你们公司的VI规范，然后在生成的所有设计中自动应用统一的配色、字体和组件。

设计到代码：生成的设计可以一键导出到Canva、PDF、PPTX，或者直接打包交给Claude Code，自动生成React/Vue等框架的前端代码。

二、实测：生成一个背单词App原型

2.1 创建项目的四种方式

进入Claude Design后（访问 claude.ai/design），新建项目时有四个选项：

原型（Prototype）：生成UI原型，有线框图和高保真两种风格可选
幻灯片（Slides）：生成PPT，支持导出PPTX
从模板生成：用你自己创建的模板，适合品牌一致性要求高的场景
其他：视频封面、Logo、一页式文档等

我选择用”原型”功能做了一个背单词App。

2.2 提示词技巧

在项目描述中，我输入的是：

设计一个背单词学英语的移动端App，要求包含启动页、登录页、首页、单词学习页、复习页、测试页、个人中心。风格简洁清新，主色调薄荷绿，辅助色米白。要求使用圆角卡片和柔和阴影，整体风格参考多邻国和Notion。

关键点有三个：

功能页面要列清楚：用户需要哪些页面，说清楚
颜色风格要明确：用具体颜色词描述，不要说”小清新”这种模糊词汇
给一个对标产品：AI能更好地理解你想要什么风格

2.3 生成效果

点击发送后，Claude会实时显示任务列表——创建图标、制作登录页、添加交互元素……整个过程大概两三分钟。

出来的效果让我有点惊讶：

六个核心页面全部生成，默认是画板模式（所有屏幕并排展示在无限画布上）。登录页带渐变效果，每一页的按钮颜色、圆角、字体风格完全统一。

最关键的是——所有页面都是可交互的。你可以点击标签栏、翻转单词卡片、切换到测试模式。

旁边的齿轮按钮可以切换模型。默认是Opus 4.7，你也可以上传参考图让它照着做。

三、三种迭代方式：Comment、Edit、Draw

生成完之后怎么改？Claude Design提供了三种迭代方式：

3.1 Comment（评论修改）

把鼠标悬停在任何一个组件上点一下，就能留一条评论。比如我说”把单词卡片的字体颜色改成绿色”，发送后30秒搞定。

这个功能最大的好处是——你不需要描述”哪一页哪一个组件”，直接点就行。

3.2 Edit（直接编辑）

点击Edit会在右侧弹出属性侧边栏。选中任何文字，可以直接改背景色、字体颜色、字号，所见即所得。

改错了怎么办？左下角有回退按钮，连续点几下可以回到任意历史版本。

3.3 Draw（手绘添加功能）

这个功能最让我意外。我用鼠标在画布空白处手绘了一个歪歪扭扭的图形，点发送后，Claude居然准确识别了这是”收藏”按钮的意思，自动加了一个珊瑚色的收藏按钮上去。

位置放得不对？再用Comment告诉它调整就行。

四、导出与Claude Code联动

做完之后右上角有三个按钮：Share、Export、Handoff。

4.1 五种导出格式

Export支持五种格式：

ZIP压缩包
PDF
PPTX（可以直接在PowerPoint里编辑）
Canva（一键同步到Canva继续编辑）
独立HTML文件

我测试了导出PPTX，打开后排版没崩，可以在PowerPoint里直接继续编辑。

4.2 Handoff to Claude Code

这是整套工具最值钱的部分。

点击Handoff会弹出一个命令，复制粘贴到Claude Code里，Claude Code会自动获取这个设计文件，直接帮你实现成可运行的代码。

从想法到原型到代码——Anthropic自己一家吃完了。

Brilliant团队分享的使用体验很有说服力：他们用其他AI工具需要20多次提示词才能完成的复杂页面，在Claude Design中仅需2次对话。而且从设计到代码的交接变得无缝衔接，”原型到生产环境的跨越从来没有这么顺畅过”。

五、订阅方案怎么选？

Claude Design必须付费订阅才能用。免费账号没有权限。

目前有四档：

Claude Pro：$20/月，个人轻度使用够用
Claude Max 5×：$100/月，Pro的5倍额度
Claude Max 20×：$200/月，Pro的20倍额度
Claude Team：$25/人/月，适合团队协作

需要提醒的是：Claude Design跑的是Opus 4.7，算力消耗远大于普通对话。

如果只是偶尔玩一下，Pro够用。但如果要频繁出活——每周生成几个原型、几套PPT——Pro的额度两三个小时就可能触发冷却，建议直接上Max 5×。

真正高频使用、或者要配合Claude Code当主力生产力工具的，Max 20×别省这个钱。

5.1 国内用户怎么订阅？

有两个硬门槛：海外信用卡和稳定的海外网络节点。两个缺一不可。

好消息是，国内WildAI等平台已经支持代充Claude，按月订阅，中途可以升降级，按自然月计费。

六、行业影响：设计工具的游戏规则被重写了吗？

6.1 短期影响：效率工具进化

从效率角度看，Claude Design确实让一些重复性设计工作变得自动化了。

产品经理可以在融资路演前快速生成专业级BP演示文稿，市场人员能即时制作活动海报——而无需等待设计资源排期。对于小团队来说，这确实是重大利好。

6.2 长期影响：创意vs执行

但我认为，”设计师被取代”这件事还早得很。

Claude Design能提升的是执行效率——把设计师从重复性工作中解放出来。但设计的核心价值——理解用户需求、定义问题、创造性思考——这些AI目前还做不到。

一个有意思的现象是：Canva这些年一直在降低设计门槛，但专业设计师的数量并没有减少。门槛降低带来的是更多人进入这个领域，而不是取代现有从业者。

6.3 真正的机会：AI原生设计

更值得关注的是”AI原生设计”这个方向。

Claude Design可以生成带有语音、视频、着色器、3D和内置AI功能的代码驱动型原型。这意味着未来的设计可能不再只是静态的视觉稿，而是可以交互、可以对话、可以动态生成的智能界面。

当设计本身变得”智能”，设计师的价值反而会更高——因为他们能定义AI应该如何响应、如何交互、如何呈现。

七、总结：Claude Design适合谁？

7.1 适合的场景

产品经理：快速生成原型，验证想法
创业者：没有设计资源，需要做融资PPT和演示
运营人员：制作营销素材、社交媒体图片
前端开发者：用Design生成代码，提升开发效率
小团队：没有专职设计师，需要自己做设计

7.2 不适合的场景

高复杂度UI设计：涉及大量自定义交互的设计，AI还做不好
品牌视觉系统设计：需要深度理解和创意洞察的工作
专业印刷品设计：对色彩精度有严格要求的设计

7.3 核心优势总结

维度	评分	说明
上手难度	⭐⭐	对话式交互，几乎没有学习成本
生成质量	⭐⭐⭐⭐	默认生成效果不错，迭代效率高
协作能力	⭐⭐⭐⭐	团队共享、品牌系统自动化
代码导出	⭐⭐⭐⭐⭐	一键移交Claude Code，业界领先
性价比	⭐⭐⭐	Pro额度消耗快，高频使用成本高

扩展阅读

2026年4月21日

Mano-P 1.0使用教程：开源端侧GUI-VLA智能体，让AI本地操控电脑数据零上云 | AI工具导航

一、什么是Mano-P 1.0？

Mano-P是明略科技（Mininglamp-AI）开源的GUI-VLA（Vision-Language-Action）端侧智能体模型。这个名字来自西班牙语”Mano”（手）和英文”Person/Party”的首字母，寓意是让AI真正长出”手”，能像人一样操控电脑。

它的核心能力可以用一句话概括：让AI像人一样”看屏幕、点鼠标、敲键盘”，完全自主操控电脑。

1.1 三个关键词理解Mano-P

纯视觉驱动：传统的电脑自动化工具（比如按键精灵、AutoHotkey）需要依赖软件的API接口或者DOM结构。一旦换了个软件、版本更新，甚至只是界面改了个按钮位置，整个自动化脚本就废了。

Mano-P不走这条路。它像人一样，只”看”屏幕上的像素——不管你用的是Photoshop、Excel、ERP系统，还是一个几十年前的老旧软件，只要人能认出来，AI就能认出来，就能操作。

端侧部署：所有推理都在你的Mac上完成。截图不出设备，任务描述不上传云端，完全离线也能跑。对于企业内网、财务系统、医疗记录这些敏感场景，这可能是目前唯一靠谱的AI自动化方案。

开源可商用：Apache 2.0协议，完整代码公开可审计，支持商业使用和二次开发。不像某些”开源”实际上是”限制开源”，Mano-P是真正可以拿去商用、改写、定制的产品级开源项目。

1.2 性能有多强？

说出来你可能不信——这个国产开源项目，在13项国际权威基准测试中拿下SOTA（State of the Art，最优结果）。

基准测试	成绩	排名
OSWorld专用模型	58.2%成功率	全球第一
ScreenSpot-V2	93.5%界面定位	SOTA
WebRetriever	超越Gemini 2.5 Pro、Claude 4.5	SOTA
MMBench	87.5%多模态理解	第一梯队

特别说一下OSWorld这个测试。它由CMU和港大联合发布，是业界认可度最高的GUI Agent评测基准之一。测试方式是让AI直接操控真实操作系统完成多步任务，由自动化脚本验证最终状态——没有模糊地带，能不能做到一测便知。

Mano-P 72B模型以58.2%的成功率在这个榜单的专用模型中拿下全球第一，领先第二名（OpenCUA-72B，45.0%）多达13.2个百分点。更夸张的是，它在所有模型（包含通用大模型）中也能排进前五。

二、核心技术原理：72B如何装进MacBook？

2.1 三阶段渐进训练

Mano-P的技术路线分为三步走：

第一步：SFT监督微调
在高保真模拟系统环境中，让模型学习基础的GUI操作逻辑——什么是按钮、什么是输入框、什么是菜单栏。相当于在”驾校”里学会最基本的操作。

第二步：离线强化学习
基于海量真实操作轨迹优化决策策略。模型看过足够多的”老司机”是怎么完成任务的，慢慢学会在不同场景下做最优选择。

第三步：在线强化学习
在真实环境中边做边学，通过实时交互反馈持续迭代。如果上一步操作错了，就从错误中学习，调整下一步策略。

这套”三阶段渐进训练”让Mano-P能够处理各种复杂场景下的长程任务。

2.2 “思考-行动-验证”闭环推理

Mano-P的每个操作都遵循一个闭环：

Think（思考）：分析当前屏幕状态，推理下一步应该做什么
Act（行动）：执行操作——点击、输入、滚动、拖拽
Verify（验证）：检查操作结果是否符合预期

如果验证失败，自动重试或调整策略。这意味着AI在执行长任务时不会”一条路走到黑”，而是会实时纠错、动态调整。

2.3 极限压缩：从72B到4B

72B参数的模型当然很强，但没法跑在你的MacBook上。明略科技用两项核心技术把它压缩了18倍：

GSPruning视觉Token剪枝：模型不需要看屏幕上的每一个像素，只需要看最重要的13%信息。通过剪枝技术，视觉Token压缩到原始数量的12.57%，但UI元素识别准确率几乎不受影响。

w4a16混合精度量化：权重用4-bit低精度存储，激活用16-bit高精度计算。这样既压缩了存储空间，又保证了推理精度。

压缩后的4B模型在M4 Pro上的实测数据：

预填充速度：476 tokens/s
解码速度：76 tokens/s
峰值内存：仅4.3GB

这意味着你可以在正常使用Mac的同时，让AI在后台帮你干活，完全不影响日常体验。

三、应用场景：谁在用Mano-P？

3.1 个人效率神器

对于普通用户，Mano-P可以帮你完成：

自动做Excel报表、整理文件夹、批量重命名
自动填写表单、发送邮件、生成周报
批量处理图片/视频
甚至打游戏的时候，帮你识别界面、给出操作建议

一个真实场景：你想把上个月的工作日志整理成一份报告。传统做法是手动打开每个文件、复制粘贴内容、格式排版。使用Mano-P，你只需要说”帮我整理上个月的工作日志”，它就会自动打开文件夹、阅读每个文档、提取关键信息、生成结构化报告。

3.2 企业级自动化

对于企业用户，Mano-P的价值在于跨系统数据整合。

传统的企业自动化需要对接各种API：ERP系统、财务软件、CRM、OA……每个系统都可能有自己的接口规范，数据格式也不统一，对接成本极高。

Mano-P不需要这些。所有的数据都在屏幕上，AI自己看、自己提取、自己整理。财务对账、客户信息录入、工单处理——这些需要跨多个系统操作的任务，现在可以”一键完成”。

更关键的是数据安全。金融、医疗、法律、政府——这些对数据隐私要求极高的行业，终于有了一个可以放心使用的AI自动化方案。所有操作在本地Mac mini上完成，数据不出设备，不需要上传到任何云端。

3.3 开发者工具链

对于开发者，Mano-P有三种接入方式：

mano-cua（命令行工具）：
适合在终端快速执行GUI自动化任务，支持脚本集成和批处理。

bash

# 安装mano-cua
brew install mano-cua

# 让AI帮你完成"打开Chrome，搜索xxx"
mano run "打开Chrome，搜索2026年AI最新动态"

mano-client（Python SDK）：
适合在Python项目中集成GUI自动化能力。

python

from mano_client import ManoClient

client = ManoClient()
task = "帮我填这份表格：姓名张三，年龄25，职位工程师"
result = client.execute(task)
print(result)

mano-skill（OpenClaw/Claude Code插件）：
让AI Agent直接调用GUI操作能力，适合复杂多步骤任务。

四、对比竞品：Mano-P的优势在哪里？

4.1 vs Claude Computer Use

Claude Computer Use是Anthropic在2025年底推出的明星产品，能够让Claude操控电脑。两者的核心区别：

对比维度	Mano-P	Claude Computer Use
OSWorld成绩	58.2%（专用模型第一）	通用模型第一
数据流向	完全本地，截图不出设备	需上传到云端API
离线运行	支持	不支持
开源协议	Apache 2.0	闭源
部署成本	免费，可本地运行	API调用费用

简单来说，Mano-P更适合对数据安全有硬性要求的场景——企业内网、高敏感数据、离线环境。如果你需要这些，Claude Computer Use的云端架构天然就不适合。

4.2 vs 传统RPA工具

RPA（机器人流程自动化）是企业自动化的传统方案，UiPath、Power Automate是代表产品。但RPA的局限在于：

需要针对每个软件定制流程，换个版本就要重新配置
无法处理非结构化数据
部署和维护成本高

Mano-P的纯视觉方案天然避免了这些问题。你不需要告诉AI”这个按钮在屏幕坐标(x,y)的位置”，只需要说”点击登录按钮”，AI自己看、自己判断、自己点击。

五、总结：为什么说Mano-P值得关注？

5.1 技术价值

Mano-P证明了”专用模型+端侧部署”这条路走得通。72B参数的旗舰模型在OSWorld拿下全球第一，蒸馏后的4B模型在Mac上流畅运行——这是端侧AI的重大突破。

5.2 生态价值

Apache 2.0开源协议+完整代码公开，意味着任何人都可以在Mano-P的基础上做二次开发。你可以用它构建自己的自动化工具、定制行业解决方案、甚至训练专属的端侧模型。

5.3 商业价值

对于企业用户，Mano-P提供了目前最完整的数据安全方案。所有推理在本地完成，不需要上传任何数据到云端。对于金融、医疗、政府这些”数据不能出门”的行业，这可能是目前唯一靠谱的AI自动化选择。

扩展阅读

想深入了解GUI-VLA智能体的工作原理？推荐阅读：

2026年4月21日

智元机器人万台量产背后：具身智能商业化元年真的来了
前言

4月17日，智元机器人在上海举办了一场挺大的发布会，宣布他们的机器人累计交付量突破1万台。这个数字意味着什么呢？

要知道，人形机器人这个领域，说了好多年”元年”，但真正能量产交付的没几家。之前波士顿动力的Atlas、特斯拉的Optimus、本田的ASIMO，要么是实验室产品，要么是概念展示，真正能走进工厂、走向商用的屈指可数。

智元这次万台交付的里程碑，可能真的意味着具身智能商业化的元年来了。

一、智元机器人是谁？

1.1 背景介绍

智元机器人（Agibot）成立于2022年，是一家专注于人形机器人研发的公司。创始人兼CTO是大家熟悉的”稚晖君”彭志辉，之前在华为做算法工程师，因为”B站手工耿”式的硬核科技视频走红全网。

公司成立后发展速度很快：
- 2023年8月：发布首款人形机器人”远征A1″
- 2024年：完成多轮融资，估值快速攀升
- 2025年：启动量产线建设
- 2026年4月：累计交付量突破1万台
这个发展速度在人形机器人领域可以说是相当惊人。

1.2 产品矩阵

目前智元的产品线包括：

远征系列：
- 远征A1：通用人形机器人，适用于工业场景
- 远征A2：升级版，针对复杂场景优化
灵犀系列：
- 灵犀G1：轻量化设计，适合服务场景
- 灵犀G2：主打性价比，降低使用门槛
智元酷拓：
- 四足机器人
- 2026年Q1已销售至”仓库无货”
- 2026年营收目标5亿元，2030年目标100亿元
1.3 技术实力

智元机器人的技术特点：

大模型加持：
- 搭载自研大模型，支持自然语言交互
- 具备任务理解和规划能力
- 可以学习新技能，适应新环境
硬件设计：
- 自研关节电机，峰值扭矩密度行业领先
- 轻量化机身设计，续航能力强
- 模块化设计，方便维护和升级
具身智能：
- 实现了”感知-决策-执行”的完整闭环
- 具备自主学习能力，能在实践中不断优化
- 支持远程操控和自主运行两种模式
二、万台交付意味着什么？

2.1 从0到1万的突破

人形机器人万台交付是什么概念？

做个对比：
- 特斯拉Optimus：目前还在内部测试阶段，没有公开量产计划
- 波士顿动力Atlas：主要面向科研市场，量产规模有限
- Figure AI：获得微软、OpenAI投资，但产品还在验证中
智元机器人是国内首家实现万台交付的人形机器人厂商，这个规模化能力本身就是壁垒。

2.2 应用场景验证

万台交付意味着这些机器人真的在干活了。根据智元公布的数据：

工业场景：
- 3C工厂8小时2283次任务，零失误
- 主要承担搬运、装配、检测等任务
- 7×24小时运转，不知疲倦
商业场景：
- 酒店、商场、银行等公共场所
- 提供导览、咨询、配送等服务
- 降低人工成本，提升服务体验
科研场景：
- 卖给高校和科研机构
- 用于具身智能研究
- 推动技术持续迭代
2.3 商业模式的验证

万台交付背后，是商业模式的初步验证：

硬件销售：
- 人形机器人单台售价根据配置从几十万到上百万不等
- 目前主要卖给企业客户
- 未来随着规模效应，价格有望下降
租赁服务：
- 提供机器人租赁服务
- 按月或按任务计费
- 降低客户使用门槛
增值服务：
- 软件订阅
- 定制开发
- 运维支持
三、具身智能的现状

3.1 全球发展格局

具身智能（Embodied AI）是AI领域的一个热门方向，指的是让AI拥有物理身体，能够在真实环境中感知、决策和行动。

国际玩家：
- 特斯拉：Optimus机器人，预计2026年开始量产
- Figure AI：与OpenAI合作，获得大量融资
- Boston Dynamics：Atlas机器人，技术领先但商业化慢
- 1X Technologies：挪威公司，获得OpenAI投资
国内玩家：
- 智元机器人：万台交付，领先明显
- 傅利叶智能：聚焦康复机器人
- 小米：CyberOne，人形机器人发布
- 宇树科技：四足机器人领先，布局人形
3.2 技术瓶颈

虽然发展很快，但具身智能还有很多技术瓶颈：

运动控制：
- 双足行走在复杂地形上还不够稳定
- 精细操作（如抓取易碎物品）成功率有限
- 能耗控制仍是挑战
感知理解：
- 复杂场景的语义理解还有差距
- 实时性和准确性难以兼顾
- 多模态融合需要提升
任务规划：
- 泛化能力有限，换个场景可能就不会了
- 长周期任务规划困难
- 人机协作的默契度不够
3.3 商业化挑战

成本问题：
- 人形机器人成本仍然较高
- 一次性投入大，投资回报周期长
- 很多场景用机械臂+移动平台的方案更划算
可靠性问题：
- 工业场景对可靠性要求极高
- 机器人出故障会影响生产
- 需要大量实际部署数据来优化
生态问题：
- 上下游配套还不完善
- 应用场景开发需要时间
- 人才培养跟不行业发展
四、2026年具身智能趋势

4.1 大模型赋能

大模型的突破给具身智能带来了新可能：

语言理解：
- 机器人能听懂自然语言指令
- 不需要复杂的编程或配置
- 人机交互门槛大幅降低
任务规划：
- 能理解复杂任务目标
- 自动拆解任务步骤
- 在执行中灵活调整
知识迁移：
- 学会一个技能后，能迁移到类似场景
- 不需要每个场景都重新训练
- 大幅降低部署成本
4.2 成本下降

随着技术成熟和规模效应，机器人成本在快速下降：

核心零部件：
- 电机、减速器、传感器等成本下降
- 国产化替代加速
- 供应链越来越完善
整机成本：
- 规模化生产降低单位成本
- 设计标准化减少定制费用
- 软件平台化降低开发成本
预测：
- 2026年：高端人形机器人100-200万/台
- 2028年：主流人形机器人30-50万/台
- 2030年：入门级人形机器人10-20万/台
4.3 应用场景扩展

工业领域：
- 从3C电子向汽车制造拓展
- 从简单任务向复杂装配延伸
- 人机协作模式成为主流
服务业：
- 酒店、餐饮、零售等场景落地
- 提供陪伴、护理等服务
- 成为家庭助手
特种作业：
- 电力巡检、危险环境作业
- 救援、勘探等场景
- 替代人类从事高危工作
五、普通人如何参与

5.1 从业机会

如果你想进入具身智能行业，现在是个好时机：

研发岗位：
- 机器人算法工程师
- 运动控制工程师
- 具身智能研究员
工程岗位：
- 机器人调试工程师
- 现场部署工程师
- 运维支持工程师
产品岗位：
- 产品经理
- 应用解决方案工程师
- 项目管理
5.2 学习资源

基础知识：
- 机器人学（机械、电路、控制）
- 计算机视觉
- 深度学习
进阶内容：
- 强化学习
- 模仿学习
- 多模态感知
实践项目：
- 参加机器人竞赛
- 复现开源项目
- 实习或参与企业项目
5.3 投资机会

具身智能相关的投资机会：

整机厂商：
- 智元机器人（未上市）
- 傅利叶智能（IPO中）
- 小米机器人业务
核心零部件：
- 关节电机厂商
- 减速器厂商
- 传感器厂商
软件服务：
- 具身智能算法公司
- 仿真平台
- 数据服务
六、冷思考

6.1 不要过于乐观

虽然智元万台交付是个好消息，但我们也要清醒地看到：

万台不等于普及：
- 主要还是B端客户
- C端家庭普及还很遥远
- 很多场景还在验证中
技术瓶颈仍在：
- 复杂任务处理能力有限
- 可靠性还需提升
- 成本还需继续下降
竞争加剧：
- 特斯拉等巨头虎视眈眈
- 技术路线存在不确定性
- 市场培育需要时间
6.2 理性看待

具身智能确实是一个有潜力的方向，但：
- 不是短期能爆发的行业
- 需要长期投入和积累
- 最终赢家是谁还不确定
对于普通人来说：
- 可以关注，但不要All in
- 选择行业要看长期
- 保持学习，跟上发展
结语

智元机器人万台交付的里程碑，确实让具身智能商业化的脚步声更近了。但这只是开始，真正的普及还需要时间。

不过，有一点是确定的：具身智能的时代已经到来。不管是工业生产、服务行业还是家庭生活，机器人会越来越多地出现在我们身边。

作为普通人，我们可以选择拥抱这个变化，学习相关知识，寻找属于自己的机会。毕竟，每一次技术革命，都会带来新的机遇。

下一个十年，让我们一起见证具身智能改变世界。

相关链接
2026年4月20日
谷歌Chrome AI模式深度解析：浏览器进入AI驱动时代，这波操作太秀了
前言

用了这么多年浏览器，你是不是也遇到过这种情况：

看到一个网页，想提取里面的关键信息，但懒得自己看；网页上有个功能不会用，又不好意思问同事；看一篇文章，想让它帮你总结要点……以前这些需求要么靠自己硬啃，要么把内容复制给ChatGPT处理，总归是不够顺畅。

Chrome这次推出的AI模式，可能是解决这个问题的一个方向。简单说，就是让浏览器原生内置AI能力，你浏览网页的时候，AI就在旁边等着帮你。不用复制粘贴，不用切换窗口，边看边问，边看边让AI帮你处理。

我用了一段时间，今天来聊聊实际体验。

一、Chrome AI模式是什么？

1.1 核心功能

Chrome AI模式是谷歌在4月16日发布的重要更新。它的核心功能是：
- 原生AI集成：浏览器内置Gemini大模型，不需要额外安装插件
- 分屏交互：点击链接时，自动打开分屏视图，左边是网页，右边是AI助手
- 实时辅助：浏览网页时，可以随时让AI帮你解读、总结、提取信息
这意味着Chrome不再只是一个”展示网页”的工具，而是变成了一个”AI辅助浏览”的平台。

1.2 技术原理

Chrome AI模式基于Gemini大模型，能够：
- 理解当前浏览的网页内容
- 回答关于网页内容的问题
- 提取关键信息并结构化
- 执行简单的网页操作
简单理解，就是给浏览器装了一个”永远在线的助手”，你看到什么它就知道什么，你问什么它就回答什么。

1.3 使用前提

需要注意的是：
- 目前还在分批推送，不是一上线所有用户都能用
- 需要登录Google账号
- 国内用户需要科学上网才能使用完整功能
二、核心功能详解

2.1 分屏浏览+AI辅助

这个是我最喜欢的功能。以前的模式是：
1. 打开网页
2. 有问题，复制内容
3. 切换到ChatGPT
4. 粘贴问题
5. 等待回答
6. 切换回网页
现在Chrome AI模式的流程是：
1. 打开网页
2. 直接问旁边的AI
3. 获得答案
4. 继续浏览
省去了复制粘贴和切换窗口的步骤，效率提升还是很明显的。

实测体验：
我打开一篇英文技术文章，让AI帮我翻译和解释几个专业术语。它不仅给出了翻译，还解释了这些术语在实际场景中的应用。这种”边看边问”的体验，确实比传统方式顺畅很多。

2.2 智能内容解读

Chrome AI模式不仅能回答问题，还能主动帮你解读网页内容。

适用场景：

长文章处理：
打开一篇万字长文，可以让AI帮你：
- 生成摘要，快速了解核心观点
- 提取关键数据和结论
- 列出文章结构和大纲
表格数据解读：
看到复杂的Excel表格或网页表格，可以让AI帮你：
- 解释表格的含义和逻辑
- 总结数据趋势和规律
- 回答关于数据的具体问题
代码页面处理：
浏览GitHub或者技术文档时，可以让AI帮你：
- 解释代码逻辑
- 分析潜在的bug
- 给出改进建议
2.3 搜索增强

Chrome AI模式还增强了搜索体验：
- 搜索结果解释：不只是展示链接，还能帮你理解搜索结果的内容
- 多结果对比：可以同时问几个网页内容的对比问题
- 智能追问：基于搜索结果，AI会推荐你可能想问的跟进问题
2.4 隐私与安全

说到浏览器内置AI，很多人会担心隐私问题。Chrome官方表示：
- AI处理主要在云端进行，不会存储你的浏览历史
- 可以手动关闭AI功能
- 敏感页面（如银行、邮箱）AI功能会自动禁用
- 不会用你的浏览数据训练模型
当然，隐私这种事见仁见智，大家可以根据自己的需求决定是否开启。

三、使用指南

3.1 如何开启
1. 更新Chrome到最新版本
2. 登录Google账号
3. 等待功能推送（部分地区可能需要等待）
4. 在设置中开启”AI模式”开关
如果没有收到推送，可以试试：
- 更新Chrome到最新版
- 切换到美区节点
- 等待几天，功能在逐步开放中
3.2 基础操作

唤起AI助手：
- 点击地址栏右侧的AI图标
- 或者使用快捷键（默认是Alt+Shift+A）
提问方式：
- 可以语音输入，也可以打字
- 支持多轮对话
- 可以上传图片让AI识别
关闭分屏：
- 拖动分割线到边缘
- 或者点击关闭按钮
3.3 高效使用技巧

技巧1：快捷指令
Chrome AI模式支持一些快捷指令，比如：
- “总结这个页面”
- “翻译成中文”
- “提取联系方式”
- “比较这几个选项”
技巧2：上下文理解
AI能记住你之前的提问，所以可以：
- 先问大方向，再追问细节
- 不需要每次都重复背景
- 可以让它帮你做多步骤的分析
技巧3：结合搜索
- 搜索时开启AI模式
- 让AI帮你筛选和对比搜索结果
- 比自己逐个点开看要高效
四、实际应用场景

4.1 办公场景

处理工作邮件：
打开邮件网页，让AI帮你：
- 总结邮件要点
- 识别需要回复的内容
- 生成回复草稿
阅读行业报告：
看到一份长报告，让AI帮你：
- 快速了解核心发现
- 提取关键数据和结论
- 列出行动建议
处理表格数据：
看到网页上的数据表格，让AI帮你：
- 分析数据趋势
- 对比不同选项
- 生成可视化建议
4.2 学习场景

阅读学术论文：
遇到专业术语多、逻辑复杂的论文，让AI帮你：
- 解释专业概念
- 梳理论文逻辑
- 总结研究方法
学习编程：
看技术文档或教程时，让AI帮你：
- 解释代码含义
- 回答疑惑
- 给出实践建议
学习外语：
浏览英文网站时，让AI帮你：
- 翻译和解释
- 讲解语法和用法
- 练习口语表达
4.3 购物场景

产品对比：
打开几个电商页面，让AI帮你：
- 对比产品参数
- 分析用户评价
- 推荐性价比最高的选择
查找优惠：
看到原价商品，让AI帮你：
- 搜索历史价格
- 预测价格走势
- 提醒最佳购买时机
4.4 日常信息获取

新闻解读：
看到一篇新闻，让AI帮你：
- 了解背景信息
- 分析事件影响
- 追踪后续发展
查找联系方式：
看到企业官网，让AI帮你：
- 提取电话号码、邮箱
- 识别正确的联系部门
- 生成联系模板
五、与竞品对比

5.1 Chrome vs Edge Copilot

微软Edge浏览器早就有了Copilot功能，但两者有一些区别：

功能 Chrome AI模式 Edge Copilot
分屏浏览支持不支持
Gemini集成原生依赖必应
功能深度专注浏览辅助覆盖面更广
国内可用性需科学上网需科学上网

简单说，Chrome AI模式更专注于”浏览辅助”这个垂直场景，而Edge Copilot覆盖面更广但深度不够。

5.2 Chrome AI模式的独特优势
1. 原生集成：不需要安装额外插件，系统资源占用更低
2. 分屏交互：边看边问的体验更流畅
3. Gemini加持：Google在AI领域的积累让功能更智能
4. 与Google生态打通：可以无缝使用Google的其他服务
5.3 局限性

当然也有一些局限：
- 需要科学上网：对国内用户不太友好
- 功能覆盖有限：目前只支持英文
- 隐私顾虑：部分用户可能不想让Google知道你看了什么
- 资源占用：长时间开启会消耗更多系统资源
六、浏览器AI的未来

6.1 从工具到平台

Chrome AI模式的发布，标志着浏览器正在从”展示工具”向”AI平台”转变。

以前浏览器只负责展示网页内容，处理信息的工作留给用户自己。现在浏览器内置了AI，可以帮你处理、分析、总结网页内容。用户的角色从”主动获取信息”变成了”让AI帮你处理信息”。

这个转变的意义是深远的。它意味着：
- 信息获取的门槛降低了
- 处理信息的效率提高了
- 人类可以专注于更高价值的思考工作
6.2 可能的演进方向

根据目前的技术发展趋势，浏览器AI未来可能的方向：

更主动的辅助：
- AI主动识别你的浏览意图
- 提前准备好可能需要的信息
- 预测你下一步想做什么
更深入的操作：
- 不只是理解网页内容
- 还能帮你执行网页操作
- 比如帮你填表、帮你下单、帮你发帖
更个性化的体验：
- 学习你的浏览习惯
- 提供个性化的AI建议
- 打造专属你的浏览体验
6.3 竞争格局

Chrome推出AI模式后，预计其他浏览器也会跟进：
- Edge已经有了Copilot，会继续强化
- Safari可能会在Apple Intelligence框架下增强
- 国产浏览器可能会接入国产AI模型
浏览器的AI化会成为一个趋势，关键是谁能做得更好、更符合用户需求。

七、我的使用感受

7.1 优点
- 分屏交互体验流畅，确实比切换窗口方便
- Gemini的理解能力不错，回答比较准确
- 原生集成，不需要额外安装
- 和Google生态打通，使用顺畅
7.2 缺点
- 需要科学上网，国内使用有门槛
- 目前只支持英文，中文内容支持有限
- 功能还在完善，有些场景不够好用
- 隐私问题需要自己权衡
7.3 适合人群

Chrome AI模式比较适合：
- 经常需要阅读英文资料的人
- 有科学上网条件的人
- 追求效率提升的办公人群
- 对AI辅助浏览有需求的人
结语

Chrome AI模式的推出，让我看到了浏览器进化的一个方向。它不再只是展示网页的工具，而是变成了一个AI辅助浏览的平台。虽然目前功能还在完善，但这个方向是对的。

对于国内用户来说，可能还需要等待一段时间才能用上。但如果你有条件，建议体验一下，这可能是未来浏览器的主流形态。

浏览器AI化的大幕才刚刚拉开，让我们拭目以待。

相关链接
2026年4月20日
阿里快乐生蚝世界模型实测：国产AI追平谷歌Genie3，实时导演+漫游太香了
前言

AI生成视频这事儿，估计大家都见怪不怪了。不就是输一句话，等个几十秒，拿一段视频嘛。但阿里4月中旬发布的”快乐生蚝”（HappyOyster）让我眼前一亮——它不只是一个生成视频的工具，而是能生成一个能走、能碰、能改的3D空间。

这什么意思？简单说，普通AI是”给你一段固定视频”，快乐生蚝是”给你一个活的3D世界”，你在里面怎么动、怎么改，画面实时跟着变。这体验就像从看照片升级到了玩游戏。

我第一时间申请了内测，体验了一周，今天来聊聊真实感受。不吹不黑，客观说说这玩意儿到底怎么样。

一、什么是世界模型？和文生视频有啥区别？

1.1 传统文生视频的局限

先说说我们熟悉的文生视频工具。不管是Sora、Runway还是国内的即梦、Vidu，它们的逻辑都是：你输入一段文字描述，AI生成一段视频，你只能看，不能改。

这个模式有什么问题？
- 被动接受：生成什么样就是什么样，想改只能重新生成
- 无法交互：不能走进去看，不能换个角度看
- 细节难控：人物动作、场景细节经常跑偏
1.2 世界模型的新范式

快乐生蚝代表的是”世界模型”这个新方向。核心特点是：
- 可交互：生成的不是一个视频，而是一个有物理规则的3D空间
- 可漫游：你可以在里面自由行走、转身、探索
- 可修改：生成过程中可以随时调整剧情、镜头、角色
这就好比：
- 传统文生视频 = 给你一张照片
- 世界模型 = 给你一个可以走进去的房间
虽然目前分辨率和流畅度还没法和专业渲染比，但这个方向的潜力是巨大的。

二、快乐生蚝的两大核心模式

2.1 漫游模式：像玩游戏一样逛AI世界

这是快乐生蚝的基础能力，对标的是谷歌Genie3。核心玩法是：
1. 输入一句话或一张图片
2. AI生成一个有物理规则的3D空间
3. 你用键盘、鼠标在里面自由探索
实测体验：

我输入了”夕阳下的海边小镇”，等了大概十几秒，生成完毕。进去之后发现：
- 场景确实是个海边小镇，有码头、有房屋、有沙滩
- 物理规则基本合理，影子方向一致，海水有波浪
- 可以用WASD移动，鼠标控制视角
- 支持1分钟连续漫游，分辨率480p
画面质量说实话比不上专业游戏，但作为AI生成的实时交互场景，已经相当震撼了。

2.2 导演模式：随时改剧情的实时大片

这是快乐生蚝比Genie3更实用的地方，也是我最喜欢的功能。

导演模式下，你可以：
- 中途打断：随时停止当前生成
- 实时调整：用文字、语音、图片发指令
- 控制一切：镜头、角色、场景、天气都能改
实测体验：

我试着生成一个”森林探险”的场景。生成过程中，我随口说”镜头拉近”、”让主角跑起来”、”天空换成下雨”、”加个山洞入口”——这些指令它都实时响应了。

虽然细节质量还有提升空间（比如雨天效果的真实性、角色跑动时的动作自然度），但”边生成、边调整、边出片”这个体验是真的爽。

这意味着：
- 不用等渲染完再返工
- 可以边想边改，快速迭代
- 创作门槛大幅降低
三、与谷歌Genie3正面PK

3.1 核心参数对比

指标快乐生蚝谷歌Genie3
漫游分辨率 480p 480p
导演分辨率最高720p 不支持导演模式
时长漫游1分钟/导演3分钟 1分钟
延迟 <200ms 约300ms
中文支持原生优化较弱

3.2 各有所长

Genie3的优势：
- 纯物理模拟、漫游探索能力更强
- 背靠谷歌，技术积累深厚
- 生态更完善，后续迭代快
快乐生蚝的优势：
- 导演模式，中途实时调整
- 原生音画同步，体验更流畅
- 二次创作开放，适合内容创作者
- 中文语境优化，国人上手更快
3.3 我的判断

如果你只是想探索AI生成的世界、体验实时漫游，Genie3是更好的选择。

但如果你是内容创作者，想用AI辅助创作短视频、游戏、虚拟场景，快乐生蚝的导演模式会更实用。它把”创作控制权”还给了用户，而不是让用户被动接受AI的生成结果。

四、普通人的上手指南

4.1 如何申请内测

快乐生蚝目前还在内测阶段，感兴趣的朋友可以按以下步骤申请：
1. 访问官网：happyoyster.cn
2. 点击”申请内测”，填写手机号和用途
3. 等待审核（一般1-3个工作日）
4. 审核通过后登录，开始体验
4.2 漫游模式入门

适合场景：
- 体验AI生成的世界，感受新技术
- 生成创意灵感，寻找创作素材
- 游戏关卡设计参考
操作步骤：
1. 选择漫游模式
2. 输入场景描述（越具体越好）
3. 等待生成
4. 用WASD移动，鼠标控制视角
5. 逛完可以保存或分享
小技巧：
- 场景描述越详细，生成效果越好
- 可以上传参考图片，AI会融合风格
- 不满意可以重新生成，或者换种描述方式
4.3 导演模式入门

适合场景：
- 短视频创作
- 游戏原型设计
- 虚拟场景搭建
操作步骤：
1. 选择导演模式
2. 输入初始剧情/场景
3. AI开始实时生成
4. 随时输入指令调整（文字/语音/图片）
5. 满意后导出视频或保存工程
小技巧：
- 先让AI生成基础场景，再逐步调整细节
- 指令要具体：”主角走向右边”比”动一下”效果更好
- 可以用参考图片控制角色外观和场景风格
- 导出后用专业软件做后期精修
五、实际应用场景

5.1 短视频创作

对于短视频博主来说，快乐生蚝可以帮你：
- 快速生成概念场景，验证创意
- 制作概念视频，吸引粉丝期待
- 降低特效成本，小团队也能做大场面
不过需要注意，目前的分辨率和真实度还达不到商用水准，更适合作为创作辅助工具。

5.2 游戏开发

独立游戏开发者可以用它来：
- 快速生成游戏原型
- 可视化关卡设计
- 寻找创作灵感
有个做独立游戏的朋友告诉我，他用快乐生蚝来生成游戏场景概念图，比自己画要快很多。当然，最终的游戏资产还是得用专业工具来做。

5.3 虚拟场景搭建

对于需要虚拟场景的从业者：
- 建筑可视化：快速生成建筑内外景
- 室内设计：预览装修效果
- 影视预演：提前看到场景效果
5.4 教育培训

教育场景也很有潜力：
- 历史场景还原：让学生”走进”历史
- 科学实验模拟：危险的实验可以虚拟进行
- 职业技能培训：模拟真实工作场景
六、局限性和改进空间

6.1 当前局限

说实话，快乐生蚝目前还有不少局限：

画面质量：
- 分辨率最高720p，和专业渲染比差距明显
- 细节不够精细，偶尔会出现纹理错误
- 光影效果有时不自然
物理规则：
- 复杂物理交互偶尔穿模
- 液体、织物等软体模拟较弱
- 多角色互动时容易出问题
内容控制：
- 特定要求难以精确控制
- 生成结果有随机性，不一定每次都满意
- 长序列生成稳定性下降
6.2 改进方向

根据阿里ATH团队透露的信息，后续优化方向包括：
- 提升分辨率和细节质量
- 优化物理模拟的真实性
- 增加更多可控参数
- 支持更长的生成序列
- 开放更多API接口
七、国产AI的新里程碑

7.1 从跟跑到并跑

阿里这次48小时连发两款AI，快乐生蚝直接对标Genie3，说明国产AI在前沿世界模型这个赛道上，已经有了和国际巨头正面竞争的实力。

以前这种”实时可交互世界模拟”的技术，基本是谷歌一家独大，国内要么做文生视频、要么做大语言模型，很少碰这个方向。现在阿里做出了自己的世界模型，不再是跟跑，而是开始并跑。

7.2 对普通人的意义

对于咱们普通人来说，这意味着：
- 以后做短视频、做虚拟场景、做小游戏，不用再等国外工具
- 国内产品对中文语境优化更好，上手更快
- 竞争加剧会让产品价格下降，服务质量提升
7.3 展望未来

世界模型这个方向，潜力是巨大的。虽然现在还不够成熟，但技术发展速度很快。

想象一下：
- 以后你想拍个电影，可能只需要描述想法，AI帮你生成完整场景
- 游戏开发者可以用AI实时生成无限世界
- 教育可以让学生”走进”任何场景学习
快乐生蚝是这个未来的第一步。

结语

体验了一周快乐生蚝，我的感受是：这是一款有诚意的产品。虽然画面质量和Genie3比还有差距，但导演模式确实解决了创作者的痛点——把控制权还给用户。

对于想尝鲜世界模型的朋友，值得申请内测试试。对于内容创作者，这个工具可以作为创作辅助，值得关注后续发展。

国产AI这次走得很快，咱们拭目以待。

相关链接
2026年4月20日

功能	Chrome AI模式	Edge Copilot
分屏浏览	支持	不支持
Gemini集成	原生	依赖必应
功能深度	专注浏览辅助	覆盖面更广
国内可用性	需科学上网	需科学上网

指标	快乐生蚝	谷歌Genie3
漫游分辨率	480p	480p
导演分辨率	最高720p	不支持导演模式
时长	漫游1分钟/导演3分钟	1分钟
延迟	<200ms	约300ms
中文支持	原生优化	较弱

Claude Opus 4.7深度评测：编程能力暴涨11%，这代Claude到底强在哪

前言

用AI写代码这件事，我折腾了快三年。从最初的Copilot到后来的GPT-4，再到各种国产编程助手，几乎主流产品都用了个遍。上个月Claude Opus 4.7发布的时候，看到”编程能力暴涨11%”这个数据，说实话我是不太信的——这些年见过太多”吊打”、”超越”的说法了。

但用了一周之后，我承认这次确实有点东西。不是那种PPT上的纸面数据，是实打实能感受到的提升。特别是那个”敢于说No”的能力，用起来特别舒服。今天就把这几天的真实体验分享出来，不吹不黑，给想上车或者还在观望的朋友一个参考。

Claude Opus 4.7配图 - Claude Opus 4.7深度评测：编程能力暴涨11%

一、编程能力：从”能用”到”专业级”的跨越

1.1 数据背后的真实含义

先说硬指标。Claude Opus 4.7在SWE-bench Pro测试中得分64.3%，比GPT-5.4的57.7%高出近7个百分点，比Gemini 3.1 Pro的54.2%更是拉开了10%的差距。这个测试是什么概念呢？它考察的是AI处理真实代码库的能力，不是那种割裂的算法题，而是让你去理解一个有几万行代码的项目，然后修复bug或者添加功能。

之前用GPT-4写代码，遇到复杂项目经常需要反复沟通、改来改去，有时候AI自己都不知道自己在干什么。用Claude Opus 4.7这几天，明显感觉它对项目结构的理解更准确了。有次我扔给它一个半成品的后端项目，让它帮我加个缓存模块，它不仅写出了代码，还主动指出了原项目里几处潜在的性能问题。

1.2 企业场景下的表现

光看基准测试不够，咱说说实际落地的情况。根据官方披露的数据：

Cursor内部测试：代码完成率从58%提升到70%，提升了21%
Notion报告代理：任务成功率提升14%，工具错误率降到前代的三分之一
日本乐天：生产级任务解决数量是Opus 4.6的3倍

这几个数字里我比较关注Cursor的提升。之前用Cursor写代码，虽然有代码补全，但遇到稍微复杂点的逻辑，还是得自己来。现在代码完成率70%，意味着大部分常见场景确实可以交给AI处理了。

有个做独立开发的朋友告诉我，他用Claude Opus 4.7加Cursor，半天时间就把一个数据可视化组件库从Vue2迁移到了Vue3。他负责review，AI负责写，效率比以前高了三四倍。这不是个例，我周围好几个开发者朋友都有类似的感受。

1.3 编程能力的边界

当然也得说清楚，Claude Opus 4.7不是万能的。遇到特别复杂的系统设计，或者需要深入理解业务逻辑的场景，AI还是经常卡壳。但对于日常开发中那些重复性的CRUD、接口对接、数据处理这类活儿，它确实能帮你省不少时间。

我个人的判断是：现在的Claude Opus 4.7已经能较好地承担”高级工程师的实习生”这个角色。能干活，但需要你把关；能提建议，但最终拍板还得是人。

二、视觉能力3倍提升：看见更精细的世界

2.1 技术参数解析

Claude Opus 4.7的视觉能力提升确实猛。官方说支持长边最高2576像素的图像处理，约375万像素，是前代产品的3倍以上。落实到实际场景里，意味着它可以更好地处理：

密集型截图：以前处理一张密密麻麻的数据截图，AI经常漏掉信息，现在好多了
复杂图表：流程图、架构图、UML图这些，它能准确理解各元素之间的关系
工程图纸：简单看下CAD图纸、电路图什么的，问题不大
手写笔记：歪歪扭扭的手写字，识别准确率也比之前高了

2.2 实测视觉能力

我专门测试了一下它的视觉能力。扔给它一张产品原型图，让它帮我生成对应的React组件代码。之前用GPT-4的时候，生成的代码经常漏掉一些细节，按钮位置也对不上。这次Claude Opus 4.7的表现明显好很多，基本还原了原型图的整体布局，细节虽然有点偏差，但稍作调整就能用。

后来我又测试了看财报图表。它能准确识别出图表类型、数据趋势、关键数据点，比我之前用的那些只会”描述图片内容”的模型强多了。

2.3 视觉能力的应用场景

视觉能力的提升让Claude Opus 4.7有了更多用武之地：

UI开发：看设计稿直接出代码，减少设计和前端的沟通成本
数据处理：自动识别截图、PDF中的表格数据，转成结构化信息
文档分析：扫一眼架构图就能理解系统设计，代码审查效率翻倍
教育培训：看学生的作业截图给反馈，省去来回上传下载的麻烦

这些场景以前也有，但用起来总觉得差点意思。现在Claude Opus 4.7的视觉能力确实到了一个可用的临界点。

三、”靠谱”特质：敢于说No的AI

3.1 为什么”靠谱”很重要

我觉得这是Claude Opus 4.7最被低估的升级。很多人在选AI工具的时候，关注的是”它能做什么”，很少有人关心”它敢不敢说不”。

但用过的人都知道，一个唯命是从的AI有时候比没有AI更坑。它不管你说的是不是离谱，都会点头称是，然后按照你的错误思路一通操作，最后给你一堆看起来像那么回事但完全跑不通的代码。这种AI用久了，不仅不能提高效率，反而会把你带进沟里。

Claude Opus 4.7这次在”靠谱”这个特质上下了功夫，用官方的话说就是”敢于质疑、敢于反驳”。

3.2 实际体验

我举个例子。有次我让它帮我写一个数据处理的脚本，提了个需求：读取CSV文件，按某列分组后输出结果。我自己的思路是用Python的pandas库，结果它看完需求之后说：

“你这个需求用awk可能更高效，一行命令就能搞定，而且内存占用更小。pandas虽然能实现，但对于这种简单任务有点杀鸡用牛刀了。”

然后它给出了两种方案，让我选。这感觉就像有个真正的同事在跟你讨论问题，而不是在讨好你。

还有一次，我让它帮我review一段代码。它直接指出我的代码有几处潜在风险，需要加异常处理。按照以前的经验，AI一般会说”写得不错”，然后加一堆锦上添花的建议。但Claude Opus 4.7这次直接戳中了要害。

3.3 靠谱的具体表现

总结一下Claude Opus 4.7″靠谱”特质的具体表现：

场景	之前的行为	Claude Opus 4.7的行为
用户方案有明显漏洞	默默实现，附带一堆bug	直接指出问题，建议改进方案
遇到缺失信息	编造一个可能的答案	直接报错，提示缺少什么
汇报结果前	直接输出	自行验证，确保准确再输出

这种”说No”的能力听起来很简单，但真正做到并不容易。它需要模型既要有足够的能力判断对错，又要有足够的”胆子”指出来。Claude Opus 4.7在这两者之间找到了一个比较好的平衡点。

四、新功能一览：更精细的控制

4.1 xhigh推理等级

Claude Opus 4.7新增了xhigh推理等级，介于high和max之间，提供更细粒度的推理深度与响应速度权衡。官方说Claude Code已经默认调至xhigh。

我理解这就像是给你提供了更多档位的方向盘。之前只有”慢但准”和”快但糙”两个选项，现在多了个”适中”的选择。对于日常任务，选xhigh能省不少时间；对于复杂的推理任务，还是得上max。

4.2 /ultrareview命令

这个功能挺有意思的。用法很简单，在对话里输入/ultrareview，它会开启专门会话进行代码审查，通读你提供的代码变更，然后标记bug和设计问题。

Pro和Max用户可以免费试用3次。我试用了一下，审查质量确实不错，比自己review要细致。但3次用完之后就得付费了，对于有大量代码审查需求的人来说，这个功能可能值回票价。

4.3 Auto Mode扩展

Auto Mode之前只有特定用户能用，现在扩展到了Max用户。这个模式下，Claude可以在授权范围内自主决策，减少长任务运行中断。

对于那种需要跑几十分钟甚至更长时间的任务，这个功能很实用。不用一直盯着，遇到问题AI自己判断，权限内的自己处理，超出权限的才来问你。

4.4 Task Budgets

这是面向开发者的API公测功能，帮助规划长任务的Token支出。对于需要控制成本的项目来说，这个功能很有价值。

五、与其他模型的横向对比

5.1 Claude Opus 4.7 vs GPT-5.4

指标	Claude Opus 4.7	GPT-5.4
编程能力(SWE-bench)	64.3%	57.7%
视觉理解	3倍提升	基准水平
“靠谱”特质	强，敢于说No	较弱，倾向顺从
上下文窗口	200K	400K
定价(输入)	$5/百万token	约$7/百万token

简单来说，如果你更看重编程能力和可靠性，选Claude Opus 4.7；如果你需要更大的上下文窗口，可能GPT-5.4更合适。

5.2 Claude Opus 4.7 vs Gemini 3.1 Pro

Gemini 3.1 Pro在多模态和实时理解方面有优势，但编程能力确实不如Claude Opus 4.7。如果你做数据分析、科学计算这类任务，Gemini可能更好；如果是写代码、debug这些场景，Claude Opus 4.7是更好的选择。

5.3 怎么选

给个简单的选择建议：

日常编程、代码review、bug修复：选Claude Opus 4.7
需要处理超长上下文：选GPT-5.4
科学计算、数据分析：选Gemini 3.1 Pro
需要AI帮你把关、少走弯路：选Claude Opus 4.7

六、使用建议和注意事项

6.1 适合人群

Claude Opus 4.7比较适合：

专业开发者：需要高质量代码生成和review
技术团队：需要靠谱的AI来把关代码质量
独立开发者：想提高效率，让AI承担更多基础工作
学习者：需要AI帮你指出代码问题，陪你一起进步

6.2 使用技巧

充分利用”靠谱”特质：不要只让它写代码，多问它”这个方案有什么问题”
善用视觉能力：把设计稿、截图直接扔给它，让它帮你理解或转换
注意token消耗：新分词器导致相同内容token消耗增加1.0-1.35倍，长对话要注意成本
配合Claude Code使用：桌面端体验最好，支持Auto Mode自动执行

6.3 迁移注意事项

如果你之前用的是Claude Opus 4.6或更早版本，升级到4.7需要注意几点：

指令遵循更严格了，原来跑得通的提示词可能需要调整
token消耗会增加，如果之前跑的是长对话，可能需要精简
遇到缺失信息它会直接报错，而不是编造答案

6.4 局限性

Claude Opus 4.7也不是完美的：

超长上下文还是不如GPT-5.4（200K vs 400K）
在国内使用需要科学上网，对部分用户不友好
编程能力强，但其他方面（创意写作等）提升有限

结语

用了一周Claude Opus 4.7，我的感受是：这次的升级是实打实的，不是那种PPT上的数字游戏。编程能力确实强了，视觉能力确实好用了，那个”靠谱”的特质更是解决了长久以来的痛点。

对于程序员来说，Claude Opus 4.7确实是一个值得考虑的选择。它不是来取代你的，而是来帮你提效的。用得好，能让你从繁琐的重复劳动中解放出来，把更多精力放在真正需要人类智慧的地方。

当然，工具终究是工具，用得好不好还得看用它的人。希望这篇文章能帮你做出判断。

Chrome浏览器内置Gemini技能库：一键固化的AI能力，让浏览器成为效率神器

一、技能库是什么？

1.1 功能定义

Chrome的Gemini技能库（Gemini Skills）本质上是一个”AI任务模板库”。你可以把复杂的AI操作保存为可复用的技能，下次遇到类似场景，直接调用就能执行。

打个比方，这就像Word里的”宏”——你录制了一系列操作，之后一键就能自动执行完全相同的流程。技能库就是把Word的宏概念搬到了AI交互场景。

1.2 解决的问题

Gemini本身已经很强大了，可以回答问题、处理文本、分析数据。但每次使用都要重新输入指令，有时候复杂的任务还需要多次对话才能完成。

技能库解决的就是这个痛点：把重复的工作自动化。

比如你经常需要：

在商品页面提取关键参数做成对比表格
把长文章压缩成摘要要点
分析代码的性能瓶颈
从合同里提取关键条款

这些任务，每次都要重新组织语言、设置格式，非常繁琐。现在，你可以把它们固化成技能，一键调用。

1.3 与传统AI助手的区别

维度	传统AI助手	Chrome技能库
任务复用	每次重新输入	一键调用已有技能
上下文理解	仅限当前对话	可跨标签页使用
执行方式	单次交互	可组合多步骤流程
自动化程度	纯问答	半自动化执行

二、如何使用技能库？

2.1 入口位置

在桌面版Chrome中，打开Gemini侧边栏（点击右上角Gemini图标或输入Alt+Shift+M），你会看到界面右侧新增了一个”技能”标签页，这就是技能库的入口。

第一次使用时，界面是空的，会提示你从模板库中选择，或者自己创建技能。

2.2 使用现成模板

官方提供了一批预置模板，覆盖常见场景：

健康管理类

食谱营养分析：输入”/蛋白质”直接计算食物蛋白质含量
卡路里估算：根据食材和做法估算热量
饮食建议：基于食物偏好生成每日饮食计划

购物比价类

参数对比：自动提取商品参数做成对比表格
性价比分析：综合评分给出购买建议
优惠券查找：搜索当前商品的可用优惠

办公效率类

文档摘要：从长文章中提取关键信息
邮件生成：基于上下文撰写回复
会议纪要：提取要点生成结构化纪要

开发相关类

代码解释：解析代码逻辑和实现原理
Bug分析：根据错误信息分析可能原因
性能建议：分析代码提出优化方案

使用模板很简单：在任意网页上，打开Gemini侧边栏，输入”/技能名”即可。

2.3 创建自定义技能

对于模板没有覆盖的场景，你可以自己创建技能：

第一步：明确任务目标

想清楚你要固化的任务是什么。比如：”在任意电商页面，提取商品名称、价格、规格参数，生成一个JSON格式的结构化数据。”

第二步：编写技能指令

用自然语言描述这个技能的执行逻辑。Gemini会根据你的描述生成技能定义。

plaintext

技能名称：电商信息提取
触发词：/提取商品
执行逻辑：
1. 读取当前页面的商品标题
2. 提取价格信息（原价和促销价）
3. 读取规格参数表格
4. 生成JSON格式输出

第三步：测试和调整

创建技能后，用几个不同的商品页面测试效果。根据实际表现调整指令，直到满意为止。

2.4 技能的跨标签页使用

技能库的一个强大功能是跨标签页批量执行。

你可以选中多个标签页，然后调用技能。比如你打开了5个竞品页面，调用”参数对比”技能，Gemini会逐一访问每个页面，提取信息，最后生成一个完整的对比表格。

这个功能对于做市场调研、产品分析的用户来说，简直是神器。

三、实用场景详解

3.1 场景一：购物决策辅助

痛点

每次网购都要在多个平台之间对比，复制粘贴、手动整理，效率很低。

技能库解决方案

创建”商品比价”技能：

plaintext

触发词：/比价
执行：提取当前页面的商品名称、价格、关键参数，
      然后对比已打开标签页中的其他商品，
      生成对比表格和综合评分。

使用效果

打开几个心仪商品的页面，输入”/比价”，3秒钟生成一个清晰的对比表格，包含价格对比、参数差异、性价比评分。购物决策时间从半小时缩短到3分钟。

3.2 场景二：内容创作辅助

痛点

写文章需要搜集大量参考资料，散落在各个网页，整理起来很费时间。

技能库解决方案

创建”资料整理”技能：

plaintext

触发词：/整理资料
执行：读取当前页面和已打开标签页的主要内容，
      提取关键论点、数据、引用，
      生成结构化的资料大纲。

使用效果

搜集了10篇相关资料，输入”/整理资料”，Gemini自动分析每篇的核心观点，剔除重复内容，生成一份有逻辑框架的资料整理文档。

3.3 场景三：合同审查

痛点

审合同需要仔细阅读几十页条款，找出关键风险点，人工审查费时且容易遗漏。

技能库解决方案

创建”合同风险分析”技能：

plaintext

触发词：/审合同
执行：识别合同类型，提取甲方乙方、标的金额、
      关键期限、违约条款、解除条件等关键信息，
      标注潜在风险点，给出修改建议。

使用效果

上传合同PDF（或在网页版合同平台打开），输入”/审合同”，Gemini给出关键条款清单、风险点标注、建议修改的条款。原本需要2小时的人工审查，现在30分钟完成初步筛查。

3.4 场景四：代码调试

痛点

遇到Bug要在多个技术文档、论坛之间跳转搜索，找解决方案费时费力。

技能库解决方案

创建”Bug分析”技能：

plaintext

触发词：/分析bug
执行：读取错误信息，分析可能的错误原因，
      结合已打开标签页中的代码文档，
      给出解决方案和修复步骤。

使用效果

同时打开错误日志和相关技术文档，输入”/分析bug”，Gemini综合分析上下文，给出针对性的解决方案，比单独搜索要精准很多。

四、进阶使用技巧

4.1 技能的组合使用

你可以把多个技能组合成一个工作流。比如：

打开商品页面 → “/提取商品” → “/比价” → “/生成购物建议”

这一套流程下来，Gemini会自动串联执行，你只需要确认最后的输出。

4.2 技能的动态参数

高级用户可以为技能设置动态参数。比如”文章摘要”技能，你可以指定摘要长度（简短/详细）、输出格式（要点/段落）、重点关注角度等。

4.3 与其他Gemini功能的联动

技能库不是孤立的，它可以调用Gemini的其他能力：

调用深度研究：技能执行时自动触发深度搜索
调用代码执行：直接在技能中使用Python/JavaScript
调用文件处理：技能可以读取和处理本地文件

4.4 团队共享

企业版Chrome支持技能共享。你可以把自己创建的技能导出分享给同事，同事导入后可以直接使用。团队可以建立共享技能库，统一工作流程。

五、隐私与安全

5.1 数据处理

技能库涉及网页内容的读取和AI处理，用户关心隐私是合理的。几个关键点：

本地处理优先

技能的执行主要在本地完成，网页内容不会永久存储在云端。

可手动控制

你可以在设置中选择哪些场景允许技能访问网页内容，哪些不允许。

清晰的权限提示

每次技能调用时，如果涉及敏感内容，Gemini会弹出确认框，不会自动执行。

5.2 使用建议

不建议在包含高度敏感信息（银行账户、密码等）的页面使用技能
企业用户建议在管理员指导下配置使用策略
定期检查技能库的权限设置，确保符合你的隐私偏好

六、常见问题

6.1 哪些Chrome版本支持技能库？

桌面版Chrome最新版本已支持，iOS和Android版本正在陆续推送中。预计4月底前全量覆盖。

6.2 Gemini需要登录Google账号吗？

是的，技能库需要登录Google账号才能使用。未登录状态下可以使用基础对话功能，但无法保存和调用技能。

6.3 技能库有使用限制吗？

和普通Gemini使用共享配额。免费用户有一定次数限制，付费的Gemini Advanced用户配额更充足。

6.4 技能可以导出和备份吗？

支持导出为JSON文件，方便备份或在多设备间同步。

6.5 技能执行失败怎么办？

检查几个可能原因：

当前页面是否在技能支持的范围（如某些特殊网页可能无法解析）
配额是否用完
网络连接是否正常

如果是技能本身设计问题，可以在反馈中提交改进建议。

七、与其他产品的对比

7.1 vs 传统浏览器插件

维度	传统插件	Chrome技能库
灵活性	功能固定	可自定义
智能程度	规则驱动	AI驱动
跨网站能力	弱	强
维护成本	高（需更新）	低（AI自适应）

7.2 vs 其他AI助手

相比独立的AI助手应用，Chrome技能库的优势在于与浏览器的深度集成。它能直接读取页面内容，不需要你复制粘贴；能在多个标签页之间协作；能跨网站执行复杂任务。

当然，如果你不常用浏览器，或者任务不涉及网页处理，独立AI助手可能更合适。两个工具可以配合使用，不冲突。

八、总结

Chrome的Gemini技能库是一个被低估的功能升级。它把AI能力从”被动问答”提升到”主动执行”，从”单次交互”延伸到”批量处理”。

对于需要频繁处理网页内容的用户——产品经理做竞品分析、市场人员搜集资料、开发者调试代码、编辑整理选题——这个功能能显著提升工作效率。

建议感兴趣的朋友可以先从官方模板开始体验，感受一下”一键执行复杂任务”的便利。等熟悉了基本用法，再根据自己的需求创建自定义技能。

Chrome这次更新，让浏览器不再只是”上网工具”，而是变成了真正的”AI工作台”。

MaxHermes体验报告：会自我进化的AI助手来了，MiniMax这次走了一步狠棋

一、MaxHermes是什么？

1.1 产品定位

MaxHermes是一款基于Hermes Agent框架的AI智能体产品。Hermes是全球热门的开源智能体项目，以”自我进化”能力著称。MiniMax与Hermes团队深度合作，把这个开源框架做成了普通用户能直接使用的产品。

简单理解，MaxHermes就是一个”越用越懂你”的AI助手。它不只是被动回答问题，而是会主动学习你的工作方式和偏好，自动把学到的经验固化成可复用的”技能”。

1.2 核心技术

MaxHermes的技术底座是MiniMax M2.7大模型。这是国产旗舰级大模型，在工具调用准确率（超92%）、响应速度（200ms以内）、上下文支持（32k）等关键指标上，都达到了全球第一梯队的水平。

配合Hermes的自进化机制，MaxHermes实现了几个关键能力：

技能自动提炼

每完成一个任务，MaxHermes会自动分析：用了什么方法？有哪些步骤可以标准化？下次遇到类似任务如何更快完成？这些分析结果会被保存为可复用的”技能”。

跨任务迁移

学会了一个领域的技能后，这些技能可以迁移到相关领域。比如你让它学会了”整理销售数据”，它可能在处理财务数据时也能借鉴其中的方法论。

持续优化

每次使用后，MaxHermes会根据反馈调整自己的策略。如果你告诉它”这个格式不对”，它会记住，下次类似任务会直接用你喜欢的格式。

1.3 定价策略

MaxHermes采用分层订阅模式：

版本	月费	核心能力	适合人群
基础版	39元/月	基础智能体能力、100次/天任务调用	个人用户尝鲜
专业版	119元/月	无限制任务调用、优先算力、高级技能库	专业用户、中小企业
企业版	定制	私有化部署、API接入、专属支持	大型企业

这个定价相比海外同类产品（通常在20-50美元/月）有明显优势，对国内用户友好很多。

二、实测体验： MaxHermes到底能做什么？

2.1 第一印象

登录界面很简洁，没有过多的引导和弹窗。界面上有一个对话框，和普通ChatBot看起来差不多。但当你开始使用时，区别就显现出来了——右侧有一个”技能库”面板，会随着使用逐渐丰富。

我的第一个测试任务是让它帮我整理一份竞品分析报告。我把原始数据（几个竞品的公开信息）扔给它，让它生成结构化的分析文档。

结果出乎意料：它不仅整理了信息，还主动识别了各竞品的差异化定位，甚至提出了一些我没想过的分析维度。整个过程大概花了3分钟，比我自己整理快多了。

2.2 技能学习能力测试

为了验证”自我进化”能力，我做了个实验：

Day 1：让MaxHermes帮我回复一封英文商务邮件。我给了它邮件背景信息和回复要点。

Day 2：让它写另一封类似场景的邮件。这次我没有重复说明背景，它居然主动调用了昨天的经验——语气、格式、甚至一些常用的商务表达都延续了。

Day 3：再发一个类似任务。MaxHermes直接问：”是否沿用之前商务邮件的风格？”它不仅记住了，还主动确认。

这种体验确实有点”智能体”的感觉了，不像普通AI每次都是独立的对话。

2.3 复杂任务处理

我又测试了一个更复杂的场景：让它帮我规划一个产品上线方案。我给了它产品基本信息、目标用户、可用资源等背景材料。

MaxHermes的处理过程很有意思：它先输出了一个”执行计划”征求我的意见，然后根据反馈逐步展开。我可以中途调整方向，它会立即适应。

最终输出的方案包含：市场定位、推广策略、时间节点、资源分配、风险预案等模块，质量比我预期的要好。

2.4 多代理协同

MaxHermes还支持多代理协同能力。开启这个模式后，它可以同时调用多个子代理并行处理任务。比如让它做一份全面的市场调研，它可以同时打开搜索、数据分析、内容生成三个子代理，效率提升明显。

这个功能对专业用户很有吸引力，对普通用户来说可能有点”杀鸡用牛刀”。

三、MaxHermes vs 其他产品

3.1 对比普通AI助手

维度	普通AI助手	MaxHermes
记忆能力	仅限当前会话	跨会话持续学习
任务闭环	仅回答问题	主动规划+执行+复盘
技能积累	无	自动提炼可复用技能
定制化	通用能力	可深度定制工作流

简单说，普通AI是”你说什么它做什么”，MaxHermes是”你教它怎么做，它学会后自己做”。

3.2 对比同类智能体产品

海外的同类产品（如基于LangChain的智能体平台）往往有更高的可定制性，但使用门槛也更高——需要配置API、处理各种技术问题。MaxHermes的优势在于开箱即用，普通用户也能轻松上手。

和国内的Coze、扣子等平台相比，MaxHermes的差异化在于”自进化”能力。Coze等平台更像是一个智能体搭建工具，你需要自己设计工作流；MaxHermes则是直接给了一个会自己学习的智能体。

3.3 各自适合的场景

MaxHermes适合的场景：

需要AI持续学习你工作习惯的重复性任务
复杂多步骤任务需要AI主动规划
希望AI越用越懂你的长期项目
不想折腾技术只想直接用的用户

其他产品更适合的场景：

需要高度定制的工作流
有技术团队可以深度集成
对成本极度敏感的场景

四、使用技巧与最佳实践

4.1 新手入门建议

如果你刚接触MaxHermes，建议从简单任务开始：

第一步：从重复性任务入手

比如每周都要写的周报、经常要做的数据整理。选择一个你最头疼的重复任务，让MaxHermes帮你做。

第二步：观察技能积累

注意右侧”技能库”的变化。每次任务完成后，看看MaxHermes提炼了什么技能。这能帮你理解它的学习逻辑。

第三步：主动优化

不要被动接受输出。如果结果不够好，主动告诉它哪里不对，它的调整往往比预期更精准。

4.2 提升效果的关键

提供足够的背景信息

MaxHermes越了解你的场景，输出质量越高。第一次使用时，建议详细说明任务背景、你的偏好、期望的输出格式等。

保持反馈一致

如果你用惯了某种表达风格，就一直用同一个风格反馈给它。MaxHermes能从一致反馈中更快学习。

善用迭代

不要期待第一次就完美。分多次迭代，每次聚焦一个优化点，积累下来效果会越来越好。

4.3 避免的坑

不要期望过高

MaxHermes是”自我进化”的，但这个进化是渐进式的，不是突变。不要期待它一夜之间变成完美助手。

重要任务要核对

作为AI产品，MaxHermes难免会犯错。对于重要任务，一定要核对输出结果，特别是涉及数据、日期、专有名词等关键信息。

不要什么都让它学

技能库会随着使用越来越丰富，但积累太多反而会降低调用效率。定期清理不需要的技能，保持技能库的精简。

五、隐私与安全

5.1 数据处理

使用云端AI产品，隐私是必须考虑的问题。MaxHermes在这方面有几项措施：

数据隔离

用户数据在处理过程中相互隔离，不会被其他用户或任务访问。

可选的敏感信息过滤

对于包含敏感信息的任务，可以开启过滤模式，MaxHermes会自动识别并脱敏处理。

清晰的权限控制

你可以随时查看、导出、删除MaxHermes学习到的技能，确保对自己数据有完全控制权。

5.2 企业使用建议

对于企业用户，建议：

确认是否符合公司数据合规要求
敏感业务场景考虑企业版私有化部署
建立内部使用规范，明确哪些场景适合用、哪些场景不适合

六、值不值得用？

6.1 适合人群

推荐使用：

需要处理大量重复性文档工作的职场人
中小企业希望快速提升效率的团队
对AI感兴趣想体验”自我进化”能力的爱好者
需要AI辅助但不想折腾技术的普通用户

不太适合：

对成本极度敏感的用户（有更便宜的替代品）
需要深度定制技术方案的企业（有技术团队可以自己搭）
对数据隐私有极端要求的场景（即使有保护措施也不想用云端产品）

6.2 性价比评估

39元/月的基础版，对于能显著提升工作效率的用户来说，成本其实很低。假设每天帮你节省30分钟，一周就是2.5小时，一个月就是10小时。按普通工资算，这10小时的价值远超39元。

但如果你只是偶尔用用，或者普通AI助手已经能满足需求，那就不必额外花这笔钱了。

七、未来展望

7.1 产品路线图

根据官方透露的信息，MaxHermes的后续发展重点包括：

更丰富的技能生态

计划上线技能市场，用户可以分享和获取其他人提炼的技能，形成社区化的技能生态。

更强的多模态能力

未来版本会加强图像、视频、音频的处理能力，让智能体不只能处理文字。

更深的企业集成

与企业微信、钉钉、飞书等国内主流办公平台的深度集成已经在规划中。

7.2 行业影响

MaxHermes的发布，标志着国产AI智能体进入”实用化”阶段。之前大家讨论的”自我进化AI”更多是概念层面的，现在有了实际产品，证明这条路确实走得通。

这对整个行业是个好消息——有了成功的先例，会有更多资源投入这个方向，推动技术快速迭代。

八、总结

经过几天的体验，MaxHermes给我留下了几个深刻印象：

它真的在学习：不是营销概念，是能实际感受到的能力提升。每次使用都能感觉到它更懂我的需求。

门槛足够低：不需要技术背景，打开就能用，这点对普通用户很友好。

定价有诚意：39元/月起的定价，在国内市场很有竞争力。

但不是万能的：它适合某些场景，对另一些场景可能还不如普通AI顺手。选择工具要看场景，不是追新。

如果你对”自我进化的AI助手”感兴趣，MaxHermes值得一试。基础版39元/月，试错成本不高，说不定它就是你一直在找的那个效率工具。

作者： admin

AI编程工具横评2026：Cursor 3、Trae、Claude Code深度对比测评，国产Trae突破千万用户 | AI工具导航

一、为什么AI编程工具值得关注？

1.1 从”辅助工具”到”协作伙伴”

1.2 市场需求爆发

二、横评对象介绍

2.1 Cursor

2.2 Trae

2.3 Claude Code

2.4 GitHub Copilot

三、功能对比

3.1 核心功能对比表

3.2 重点功能深度解析

四、性能对比

4.1 代码生成质量

4.2 响应速度

4.3 上下文理解能力

五、价格对比

5.1 订阅方案对比

5.2 性价比分析

六、使用场景推荐

6.1 个人开发者：推荐Trae

6.2 团队协作：推荐Cursor 3或Claude Code

6.3 大型企业：推荐Claude Code

6.4 快速原型开发：推荐Cursor 3

七、实测横评总结

7.1 核心结论

7.2 一句话总结

7.3 未来展望

相关阅读

国产大模型价格战终结？从”自杀式降价”到”集体涨价”，这波操作你看懂了吗

一、一块钱能买多少Token？回顾价格战的前世今生

1.1 2024-2025：疯狂的”自杀式”降价

1.2 国产vs国际：十倍价差不是偶然

二、涨价潮来了：2026年3-4月发生了什么？

2.1 腾讯打响了第一枪

2.2 阿里、百度跟进

2.3 智谱的逆势操作

三、为什么价格战打不下去了？

3.1 算力供需逆转

3.2 成本倒逼

3.3 竞争格局稳定

四、400%增长背后的逻辑

4.1 价格锚定效应

4.2 用户筛选机制

4.3 价值认同

五、行业格局展望：谁在裸泳？

5.1 中美双轨并行

5.2 “只有控制算力的玩家能活到最后”

5.3 价格战尽头是”值”

六、普通人如何应对？

6.1 企业用户：优化使用效率

6.2 开发者：关注综合成本

6.3 个人用户：拥抱免费工具

七、总结

7.1 核心结论

7.2 行业预测

相关阅读

Claude Design深度评测：Anthropic推出AI视觉设计工具，设计师要被取代了吗？

一、Claude Design是什么？

1.1 产品定位

1.2 四个核心能力

二、实测：生成一个背单词App原型

2.1 创建项目的四种方式

2.2 提示词技巧

2.3 生成效果

三、三种迭代方式：Comment、Edit、Draw

3.1 Comment（评论修改）

3.2 Edit（直接编辑）

3.3 Draw（手绘添加功能）

四、导出与Claude Code联动

4.1 五种导出格式

4.2 Handoff to Claude Code

五、订阅方案怎么选？

5.1 国内用户怎么订阅？

六、行业影响：设计工具的游戏规则被重写了吗？

6.1 短期影响：效率工具进化

6.2 长期影响：创意vs执行

6.3 真正的机会：AI原生设计

七、总结：Claude Design适合谁？