作者: admin

  • AI编程工具横评2026:Cursor 3、Trae、Claude Code深度对比测评,国产Trae突破千万用户 | AI工具导航

    AI编程工具横评2026:Cursor 3、Trae、Claude Code深度对比测评,国产Trae突破千万用户 | AI工具导航

    一、为什么AI编程工具值得关注?

    1.1 从”辅助工具”到”协作伙伴”

    两年前,AI在编程中的角色还停留在”代码补全”和”错误检查”。那时候的AI更像一个高级的拼写检查器——能帮你找茬,但没法帮你干活。

    现在的AI编程工具已经完全不同了:

    • 能理解整个代码库的结构和上下文
    • 能根据需求生成完整的功能模块
    • 能自动重构代码、优化性能
    • 能帮你Debug、解释代码、甚至设计架构

    从”辅助工具”到”协作伙伴”,这个转变只用了两年。

    1.2 市场需求爆发

    国内市场需求尤其旺盛。字节Trae上线不到一年,用户突破1000万,这个数字背后是庞大的开发者群体对效率提升的渴望。

    一方面,互联网行业进入”降本增效”周期,开发者需要用更少的时间完成更多的工作;另一方面,AI技术的成熟度已经足以支撑”AI编程”这个场景的落地。

    四维度评测对比,代码质量响应速度价格中文支持

    二、横评对象介绍

    2.1 Cursor

    Cursor是2023年崛起的新星,由前DeepMind员工创立。它将AI能力深度集成到VS Code中,支持对话式编程、智能补全、代码重构等功能。

    最新版本Cursor 3推出了Composer模式,支持跨文件重构——你可以描述一个需要修改的功能,Cursor会自动分析相关文件,一次性完成修改。

    2.2 Trae

    Trae是字节跳动推出的AI编程助手,于2025年正式发布。最大的特点是对中文用户极度友好,界面和文档都是原生中文,提示词用中文描述效果更好。

    Trae国内用户突破1000万,是国产AI编程工具的领军产品。它集成了豆包大模型,在中文代码理解和生成方面有独特优势。

    2.3 Claude Code

    Claude Code是Anthropic推出的命令行编程工具,基于Claude模型构建。最大的特点是Agent能力——你描述一个任务,Claude Code会自主规划步骤、调用工具、执行操作,直到任务完成。

    最新更新增加了多文件编辑能力,进一步提升了处理复杂项目的能力。

    2.4 GitHub Copilot

    GitHub Copilot是微软和OpenAI合作的产物,集成在VS Code等主流IDE中,市场占有率最高。

    作为这个领域的”老大哥”,Copilot的优势在于生态成熟、插件丰富。但最新一代AI编程工具在能力上已经开始超越它。

    三、功能对比

    3.1 核心功能对比表

    功能Cursor 3TraeClaude CodeGitHub Copilot
    代码补全
    对话式编程
    跨文件重构✅ Composer✅ 新增
    多文件编辑
    Agent自主任务⚠️ 有限⚠️ 有限✅ 强大⚠️ 有限
    代码调试
    架构设计建议
    中文支持⚠️ 一般✅ 优秀⚠️ 一般⚠️ 一般

    3.2 重点功能深度解析

    Cursor 3 Composer模式

    Composer是Cursor 3的核心创新。它解决了一个长期痛点:当你需要修改一个涉及多个文件的复杂功能时,传统AI编程工具只能一个文件一个文件地改,容易出现上下文丢失、修改不一致的问题。

    Composer模式允许你描述一个跨文件的修改需求,AI会自动:

    1. 分析哪些文件需要修改
    2. 规划修改的先后顺序
    3. 逐个文件执行修改
    4. 确保修改的一致性

    实测效果不错。我用它重构了一个包含20多个文件的电商模块,AI自动识别了数据层、服务层、接口层,一次性完成了所有修改。

    Claude Code Agent能力

    Claude Code的Agent能力是三款工具中最强的。你可以用它来完成复杂的多步骤任务:

    bash

    # 描述任务
    claude "帮我重构user模块,要求:
    1. 把userService拆分成userAuth和userProfile两个服务
    2. 更新所有调用userService的地方
    3. 确保单元测试通过"
    

    Claude Code会自主拆解任务、创建子任务、执行操作,每一步都会询问你是否确认,直到任务完成。

    这个模式特别适合处理”大型技术债务清理”或者”系统架构升级”这类复杂任务。

    Trae中文友好

    Trae对中文用户最大的优势是原生中文支持

    界面、文档、错误提示都是中文。更重要的是,用中文描述需求时,Trae的理解准确率明显高于其他工具。

    比如,你想让AI帮你写一个处理用户权限的函数,直接用中文说”写一个检查用户权限的函数,需要支持角色和权限两层判断”,Trae的理解比我用英文描述还准确。

    四、性能对比

    4.1 代码生成质量

    我用三个维度评估代码生成质量:

    准确性:生成的代码是否能正确运行
    可读性:代码结构是否清晰、命名是否规范
    完整性:是否考虑了边界情况和错误处理

    工具准确性可读性完整性
    Cursor 3⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
    Trae⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
    Claude Code⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
    Copilot⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

    结论:Claude Code在代码质量上略胜一筹,尤其是对复杂业务逻辑的理解和处理。但差距不大,Trae和Cursor的生成质量已经足够日常使用。

    4.2 响应速度

    响应速度直接影响使用体验。我测试了在相同网络环境下,三个工具生成一段中等复杂度代码的时间:

    工具首次响应时间完整生成时间
    Cursor 3~2秒~8秒
    Trae~3秒~10秒
    Claude Code~5秒~15秒
    Copilot~1秒~5秒

    结论:GitHub Copilot最快,因为它主要做的是代码补全而非生成。但考虑到Claude Code生成的内容质量更高,这个速度差异是可以接受的。

    4.3 上下文理解能力

    上下文理解能力决定了AI能否真正”懂”你的代码库。

    工具上下文窗口代码库理解多文件关联
    Cursor 3100K⭐⭐⭐⭐⭐⭐⭐⭐⭐
    Trae128K⭐⭐⭐⭐⭐⭐⭐⭐
    Claude Code200K⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
    Copilot50K⭐⭐⭐⭐⭐⭐

    结论:Claude Code的200K上下文窗口让它能一次性处理更大的代码库,特别适合处理大型项目。Cursor 3的Composer模式在多文件关联上有独特优势。

    五、价格对比

    5.1 订阅方案对比

    工具免费版Pro版Team版
    Cursor✅ 有限$20/月$40/用户/月
    Trae✅ 完全免费
    Claude Code$20/月(含Pro订阅)$25/用户/月
    Copilot✅ 有限$10/月$19/用户/月

    5.2 性价比分析

    Trae完全免费:这是最大的竞争优势。对于个人开发者和小型团队,Trae提供了足够强大的功能,而且完全免费。

    Copilot最便宜:$10/月的Pro版适合个人开发者,但功能相对基础。

    Cursor和Claude Code:价格相近,功能各有侧重。如果已经订阅了Claude Pro,Claude Code是顺理成章的选择;如果偏好VS Code生态,Cursor更合适。

    六、使用场景推荐

    6.1 个人开发者:推荐Trae

    完全免费、中文友好、功能完整。对于个人开发者来说,Trae是性价比最高的选择。

    6.2 团队协作:推荐Cursor 3或Claude Code

    Cursor 3的Composer模式和Claude Code的Agent能力都适合处理复杂项目。团队可以根据现有技术栈选择:

    • 已有VS Code习惯 → Cursor 3
    • 已有Claude订阅 → Claude Code

    6.3 大型企业:推荐Claude Code

    Claude Code的Agent能力和200K上下文窗口特别适合处理大型技术债务和架构升级任务。

    6.4 快速原型开发:推荐Cursor 3

    Composer模式的跨文件重构能力在快速原型开发中非常有价值。

    七、实测横评总结

    7.1 核心结论

    维度推荐
    最佳性价比Trae(完全免费)
    最佳代码质量Claude Code
    最佳跨文件能力Cursor 3 Composer
    最佳中文支持Trae
    最佳Agent能力Claude Code
    最快响应GitHub Copilot

    7.2 一句话总结

    • Trae:国产之光,免费+中文友好,普通开发者首选
    • Cursor 3:VS Code最佳搭档,Composer模式解决复杂重构痛点
    • Claude Code:Agent能力强,适合复杂项目和大型代码库
    • Copilot:老牌选手,生态成熟,适合已入坑的开发者

    7.3 未来展望

    AI编程工具的进化速度远超预期。按照目前的发展速度,预计2026年底,主流AI编程工具的SWE-bench准确率将突破70%,届时AI将能独立完成大部分日常开发任务。

    对于开发者来说,现在最重要的是尽早上手这些工具。不是为了让AI取代自己,而是为了让自己站在AI的肩膀上,做更有价值的事情。

    相关阅读

  • 国产大模型价格战终结?从”自杀式降价”到”集体涨价”,这波操作你看懂了吗

    国产大模型价格战终结?从”自杀式降价”到”集体涨价”,这波操作你看懂了吗

    一、一块钱能买多少Token?回顾价格战的前世今生

    1.1 2024-2025:疯狂的”自杀式”降价

    回看这波价格战,字节是那个”第一个开枪的人”。

    2024年5月,豆包率先降价99.3%,阿里、百度、腾讯被迫跟进,行业陷入”亏本卖Token”的疯狂。

    为什么字节敢打价格战?因为它有全行业最低的算力成本。

    2023年字节提前囤积了大量英伟达GPU,当时被质疑”过度激进”。回头看,这是”老板看得远”的战略判断。2026年字节资本开支约1600亿元,其中AI芯片预算850亿元。日均Token调用量从2024年的千亿级飙升至2026年3月的120万亿——规模效应下,单位成本被摊到地板。

    IDC报告显示,火山引擎已拿下中国大模型公有云市场49.2%的份额。字节一家,就拿走了半壁江山。

    国产与国际大模型价格对比,10-20倍价差优势

    1.2 国产vs国际:十倍价差不是偶然

    同期的国际市场上,OpenAI的GPT-6(预计2026年Q2发布)定价输入2.5美元/百万Token、输出12美元。换算成人民币,是国内价格的几十倍。

    模型输入价格输出价格备注
    DeepSeek-V3.2$0.28/M$1.12/M极致性价比
    Qwen-Flash$0.05-0.25/M$0.40-2.00/M阿里生态首选
    智谱GLM-5.1¥2/M → ¥3.66/M涨价后仍为文心30%
    Claude Sonnet 4.6$3/M$15/M国际均衡旗舰
    GPT-4.1$2/M$8/MOpenAI性价比之选

    国产模型的价格优势高达10-20倍,背后是西部绿电的能源底价、阶梯化的人力成本、国产硬件的替代红利,以及极致的推理优化。

    二、涨价潮来了:2026年3-4月发生了什么?

    2.1 腾讯打响了第一枪

    2026年3月11日,腾讯云率先涨价。混元HY2.0输入价从0.0008元/千Tokens涨到0.0045元/千Tokens,涨幅463%

    注意这个数字:涨幅463%听起来很夸张,但实际价格仍然远低于国际模型。对于企业用户,优化算力使用效率比纠结单价更重要——通过缓存命中、提示词压缩、混合推理等手段,实际支出可以大幅降低。

    2.2 阿里、百度跟进

    3月18日,阿里云、百度智能云同步上调AI算力价格:

    • 阿里云:AI算力涨5%-34%,CPFS文件存储涨30%
    • 百度云:AI算力涨5%-30%,并行文件存储涨30%

    5月9日,腾讯云将进行第二轮调价,AI算力、容器服务统一涨5%。

    2.3 智谱的逆势操作

    更值得关注的是智谱的操作。智谱宣布涨价83%后,调用量反而增长了400%。

    这在传统经济学逻辑里是说不通的。但如果我们换个角度想:

    • 淘汰薅羊毛用户:那些只追求最低价的用户会离开
    • 留住价值用户:真正需要高质量服务的用户愿意付费
    • 提升用户质量:付费用户更认真,反馈更有价值

    一位企业用户告诉我:”我们之前用智谱做测试,现在正式产品也准备用。涨价后我们反而更放心了,说明他们能持续提供稳定服务。”

    三、为什么价格战打不下去了?

    3.1 算力供需逆转

    这是最直接的原因。

    全球大模型每周Token消耗量从2026年2月初的9.8T飙到3月初的14.8T,OpenClaw这类智能体让单次任务Token消耗暴增10到100倍。

    与此同时,全球AI芯片供应链持续紧张。英伟达H20被禁售后,国产替代性能打七折、价格翻倍,华为昇腾产能排到2027年Q2。

    供不应求,价格自然上涨。

    3.2 成本倒逼

    持续两年的亏本卖Token,对任何公司来说都不可持续。

    腾讯集团副总裁李强明确表示:”无论国内还是全球,供应链和硬件成本均呈上升趋势,算力价格整体上行将成为趋势。”

    字节高管的判断更直接:”未来18个月,只有控制算力供应链的玩家才能活到最后。”

    3.3 竞争格局稳定

    价格战打了两年,市场格局基本定型了。字节拿下公有云市场半壁江山,其他玩家各有各的地盘。继续打价格战边际效益递减,不如转向提升服务质量。

    四、400%增长背后的逻辑

    4.1 价格锚定效应

    智谱涨价83%,但用户发现”还是很便宜”。

    对比数据:

    • 文心一言:¥12/1M tokens
    • 智谱涨价后:¥3.66/1M tokens
    • 价格比:智谱仅为文心一言的30.5%

    用文心一言的高价做锚点,智谱的涨价显得”合理”。这是精心设计的价格策略,不是单纯的成本压力。

    4.2 用户筛选机制

    涨价是最好的用户筛选工具。

    真正需要高质量服务的用户——他们看重的是稳定性、响应速度、服务质量——对价格反而没那么敏感。这部分用户愿意为更好的服务付费,也更能提供有价值的反馈。

    4.3 价值认同

    更耐人寻味的是用户心理。

    社交媒体上有人说:”终于涨价了,说明产品有价值!”这种”涨价=有价值”的逻辑,某种程度上反映了市场对AI价值的重新认知。

    过去两年,AI被当成”白菜价”的代名词。但当一家公司敢于涨价,说明它相信自己的产品值得被付费。

    五、行业格局展望:谁在裸泳?

    5.1 中美双轨并行

    AI行业正在形成一种”中美双轨并行”的格局:

    美国路线:依托基础算法创新和先发优势,坚守闭源精英路线,以高溢价模型主导高端价值市场,追求单次调用利润最大化。

    中国路线:凭借全链条成本优势与极致的工程优化能力,构建开源普惠生态,通过低价快速占领市场规模,形成调用量的绝对优势。

    一个鲜明的对比是:中国AI日均调用量已达140万亿Token,全球占比约36%,但全球营收占比却不足4%。

    5.2 “只有控制算力的玩家能活到最后”

    字节高管的判断很清醒。

    算力有三个关键维度:

    1. 硬件储备:有没有足够的GPU/HPU
    2. 成本控制:能不能以更低成本获得算力
    3. 供应链安全:会不会被”卡脖子”

    DeepSeek是另一个值得关注的变量。它的R1时代以586万美元成本做出对标GPT-4的性能,但到了V4,却花大力气做了一件”不赚钱”的事:万亿参数、百万上下文,首次全栈适配华为昇腾国产芯片。

    一家技术理想主义公司为什么要做这种”脏活”?因为没有算力自主权,哪怕技术再领先,也可能被断供卡死在18个月倒计时结束之前。

    5.3 价格战尽头是”值”

    价格战是互联网的老剧本。外卖、打车都走过同样的路——烧钱抢市场,挤死对手,然后涨价收割用户。

    大模型正在走同样的路,但有一个根本不同:算力成本不会因为规模扩大而无限摊薄。

    摩尔定律放缓,芯片物理极限逼近。当GPT-6带着”主动对齐用户意图”的能力入场,如果体验差距太大,高端客户会怎么选?

    六、普通人如何应对?

    6.1 企业用户:优化使用效率

    与其纠结单价,不如优化使用效率。

    几个实用技巧:

    • 缓存命中:对于重复性请求,利用缓存减少实际调用
    • 提示词压缩:精简提示词,减少每次调用的Token消耗
    • 混合推理:简单任务用小模型,复杂任务再调用大模型
    • 批量处理:合并多个小请求为一个大批量请求

    6.2 开发者:关注综合成本

    选择模型时,不要只看API价格。实际成本 = API价格 × Token消耗 × 任务数量。

    有时候贵一点的模型因为能力更强,反而需要更少的调用次数,综合成本反而更低。

    6.3 个人用户:拥抱免费工具

    对于个人用户,国产免费工具已经非常强大了。豆包、文心、通义千问的免费版本足够应对日常使用场景。

    付费工具适合有高频调用需求的企业用户,或者对响应速度有要求的专业场景。

    七、总结

    7.1 核心结论

    1. 价格战正在终结:持续两年的”自杀式”降价已不可持续,2026年3-4月行业集体转向
    2. 涨价≠贵:即使涨价,国产模型价格仍仅为国际巨头的1/10到1/20,性价比优势持续
    3. 价值定价时代来临:行业从追求规模转向追求质量,用户筛选机制发挥作用
    4. 算力是关键:未来18个月,谁能控制算力供应链,谁就能活得更久

    7.2 行业预测

    • 短期(6个月):价格小幅上涨,但国产模型仍具10倍以上价格优势
    • 中期(1-2年):行业分化加剧,有算力储备的厂商优势扩大
    • 长期(3年+):大模型能力趋同,差异化竞争转向服务质量和工作流整合

    相关阅读

  • Claude Design深度评测:Anthropic推出AI视觉设计工具,设计师要被取代了吗?

    Claude Design深度评测:Anthropic推出AI视觉设计工具,设计师要被取代了吗?

    一、Claude Design是什么?

    1.1 产品定位

    Claude Design是Anthropic推出的视觉创作工具,基于其最新旗舰模型Claude Opus 4.7构建。目前以”研究预览版”形式向Claude Pro、Max、Team及Enterprise订阅用户开放。

    官方的定位说得很清楚:

    “我们希望帮助设计师更快地迭代想法,同时让没有设计背景的人也能自信地表达视觉构想。”

    换句话说,Claude Design不是来抢设计师饭碗的,而是来降低创意表达的门槛——让产品经理、创业者、运营人员都能高效产出专业级的视觉原型和演示文稿。

    1.2 四个核心能力

    对话式创作:你描述需求,AI生成初始版本,然后通过自然对话迭代优化——”按钮再大一点”、”配色更柔和些”、”这个模块往左边挪”。

    多模态输入:不只是文字。你可以直接上传参考图片、Word文档、PPT文件,甚至直接抓取网页元素作为设计起点。

    智能品牌系统:这是Claude Design的独门绝技。它能自动读取你的代码库(比如Figma设计文件、GitHub项目),学习你们公司的VI规范,然后在生成的所有设计中自动应用统一的配色、字体和组件。

    设计到代码:生成的设计可以一键导出到Canva、PDF、PPTX,或者直接打包交给Claude Code,自动生成React/Vue等框架的前端代码。

    从需求输入到代码导出的完整工作流程

    二、实测:生成一个背单词App原型

    2.1 创建项目的四种方式

    进入Claude Design后(访问 claude.ai/design),新建项目时有四个选项:

    • 原型(Prototype):生成UI原型,有线框图和高保真两种风格可选
    • 幻灯片(Slides):生成PPT,支持导出PPTX
    • 从模板生成:用你自己创建的模板,适合品牌一致性要求高的场景
    • 其他:视频封面、Logo、一页式文档等

    我选择用”原型”功能做了一个背单词App。

    2.2 提示词技巧

    在项目描述中,我输入的是:

    设计一个背单词学英语的移动端App,要求包含启动页、登录页、首页、单词学习页、复习页、测试页、个人中心。风格简洁清新,主色调薄荷绿,辅助色米白。要求使用圆角卡片和柔和阴影,整体风格参考多邻国和Notion。

    关键点有三个:

    1. 功能页面要列清楚:用户需要哪些页面,说清楚
    2. 颜色风格要明确:用具体颜色词描述,不要说”小清新”这种模糊词汇
    3. 给一个对标产品:AI能更好地理解你想要什么风格

    2.3 生成效果

    点击发送后,Claude会实时显示任务列表——创建图标、制作登录页、添加交互元素……整个过程大概两三分钟。

    出来的效果让我有点惊讶:

    六个核心页面全部生成,默认是画板模式(所有屏幕并排展示在无限画布上)。登录页带渐变效果,每一页的按钮颜色、圆角、字体风格完全统一。

    最关键的是——所有页面都是可交互的。你可以点击标签栏、翻转单词卡片、切换到测试模式。

    旁边的齿轮按钮可以切换模型。默认是Opus 4.7,你也可以上传参考图让它照着做。

    三、三种迭代方式:Comment、Edit、Draw

    生成完之后怎么改?Claude Design提供了三种迭代方式:

    3.1 Comment(评论修改)

    把鼠标悬停在任何一个组件上点一下,就能留一条评论。比如我说”把单词卡片的字体颜色改成绿色”,发送后30秒搞定。

    这个功能最大的好处是——你不需要描述”哪一页哪一个组件”,直接点就行。

    3.2 Edit(直接编辑)

    点击Edit会在右侧弹出属性侧边栏。选中任何文字,可以直接改背景色、字体颜色、字号,所见即所得。

    改错了怎么办?左下角有回退按钮,连续点几下可以回到任意历史版本。

    3.3 Draw(手绘添加功能)

    这个功能最让我意外。我用鼠标在画布空白处手绘了一个歪歪扭扭的图形,点发送后,Claude居然准确识别了这是”收藏”按钮的意思,自动加了一个珊瑚色的收藏按钮上去。

    位置放得不对?再用Comment告诉它调整就行。

    四、导出与Claude Code联动

    做完之后右上角有三个按钮:Share、Export、Handoff。

    4.1 五种导出格式

    Export支持五种格式:

    • ZIP压缩包
    • PDF
    • PPTX(可以直接在PowerPoint里编辑)
    • Canva(一键同步到Canva继续编辑)
    • 独立HTML文件

    我测试了导出PPTX,打开后排版没崩,可以在PowerPoint里直接继续编辑。

    4.2 Handoff to Claude Code

    这是整套工具最值钱的部分。

    点击Handoff会弹出一个命令,复制粘贴到Claude Code里,Claude Code会自动获取这个设计文件,直接帮你实现成可运行的代码。

    从想法到原型到代码——Anthropic自己一家吃完了。

    Brilliant团队分享的使用体验很有说服力:他们用其他AI工具需要20多次提示词才能完成的复杂页面,在Claude Design中仅需2次对话。而且从设计到代码的交接变得无缝衔接,”原型到生产环境的跨越从来没有这么顺畅过”。

    五、订阅方案怎么选?

    Claude Design必须付费订阅才能用。免费账号没有权限。

    目前有四档:

    • Claude Pro:$20/月,个人轻度使用够用
    • Claude Max 5×:$100/月,Pro的5倍额度
    • Claude Max 20×:$200/月,Pro的20倍额度
    • Claude Team:$25/人/月,适合团队协作

    需要提醒的是:Claude Design跑的是Opus 4.7,算力消耗远大于普通对话。

    如果只是偶尔玩一下,Pro够用。但如果要频繁出活——每周生成几个原型、几套PPT——Pro的额度两三个小时就可能触发冷却,建议直接上Max 5×。

    真正高频使用、或者要配合Claude Code当主力生产力工具的,Max 20×别省这个钱。

    5.1 国内用户怎么订阅?

    有两个硬门槛:海外信用卡和稳定的海外网络节点。两个缺一不可。

    好消息是,国内WildAI等平台已经支持代充Claude,按月订阅,中途可以升降级,按自然月计费。

    六、行业影响:设计工具的游戏规则被重写了吗?

    6.1 短期影响:效率工具进化

    从效率角度看,Claude Design确实让一些重复性设计工作变得自动化了。

    产品经理可以在融资路演前快速生成专业级BP演示文稿,市场人员能即时制作活动海报——而无需等待设计资源排期。对于小团队来说,这确实是重大利好。

    6.2 长期影响:创意vs执行

    但我认为,”设计师被取代”这件事还早得很。

    Claude Design能提升的是执行效率——把设计师从重复性工作中解放出来。但设计的核心价值——理解用户需求、定义问题、创造性思考——这些AI目前还做不到。

    一个有意思的现象是:Canva这些年一直在降低设计门槛,但专业设计师的数量并没有减少。门槛降低带来的是更多人进入这个领域,而不是取代现有从业者。

    6.3 真正的机会:AI原生设计

    更值得关注的是”AI原生设计”这个方向。

    Claude Design可以生成带有语音、视频、着色器、3D和内置AI功能的代码驱动型原型。这意味着未来的设计可能不再只是静态的视觉稿,而是可以交互、可以对话、可以动态生成的智能界面。

    当设计本身变得”智能”,设计师的价值反而会更高——因为他们能定义AI应该如何响应、如何交互、如何呈现。

    七、总结:Claude Design适合谁?

    7.1 适合的场景

    • 产品经理:快速生成原型,验证想法
    • 创业者:没有设计资源,需要做融资PPT和演示
    • 运营人员:制作营销素材、社交媒体图片
    • 前端开发者:用Design生成代码,提升开发效率
    • 小团队:没有专职设计师,需要自己做设计

    7.2 不适合的场景

    • 高复杂度UI设计:涉及大量自定义交互的设计,AI还做不好
    • 品牌视觉系统设计:需要深度理解和创意洞察的工作
    • 专业印刷品设计:对色彩精度有严格要求的设计

    7.3 核心优势总结

    维度评分说明
    上手难度⭐⭐对话式交互,几乎没有学习成本
    生成质量⭐⭐⭐⭐默认生成效果不错,迭代效率高
    协作能力⭐⭐⭐⭐团队共享、品牌系统自动化
    代码导出⭐⭐⭐⭐⭐一键移交Claude Code,业界领先
    性价比⭐⭐⭐Pro额度消耗快,高频使用成本高

    相关工具推荐

    扩展阅读

  • Mano-P 1.0使用教程:开源端侧GUI-VLA智能体,让AI本地操控电脑数据零上云 | AI工具导航

    Mano-P 1.0使用教程:开源端侧GUI-VLA智能体,让AI本地操控电脑数据零上云 | AI工具导航

    一、什么是Mano-P 1.0?

    Mano-P是明略科技(Mininglamp-AI)开源的GUI-VLA(Vision-Language-Action)端侧智能体模型。这个名字来自西班牙语”Mano”(手)和英文”Person/Party”的首字母,寓意是让AI真正长出”手”,能像人一样操控电脑。

    它的核心能力可以用一句话概括:让AI像人一样”看屏幕、点鼠标、敲键盘”,完全自主操控电脑。

    1.1 三个关键词理解Mano-P

    纯视觉驱动:传统的电脑自动化工具(比如按键精灵、AutoHotkey)需要依赖软件的API接口或者DOM结构。一旦换了个软件、版本更新,甚至只是界面改了个按钮位置,整个自动化脚本就废了。

    云端AI与端侧AI对比,展示本地部署优势

    Mano-P不走这条路。它像人一样,只”看”屏幕上的像素——不管你用的是Photoshop、Excel、ERP系统,还是一个几十年前的老旧软件,只要人能认出来,AI就能认出来,就能操作。

    端侧部署:所有推理都在你的Mac上完成。截图不出设备,任务描述不上传云端,完全离线也能跑。对于企业内网、财务系统、医疗记录这些敏感场景,这可能是目前唯一靠谱的AI自动化方案。

    开源可商用:Apache 2.0协议,完整代码公开可审计,支持商业使用和二次开发。不像某些”开源”实际上是”限制开源”,Mano-P是真正可以拿去商用、改写、定制的产品级开源项目。

    1.2 性能有多强?

    说出来你可能不信——这个国产开源项目,在13项国际权威基准测试中拿下SOTA(State of the Art,最优结果)。

    基准测试成绩排名
    OSWorld专用模型58.2%成功率全球第一
    ScreenSpot-V293.5%界面定位SOTA
    WebRetriever超越Gemini 2.5 Pro、Claude 4.5SOTA
    MMBench87.5%多模态理解第一梯队

    特别说一下OSWorld这个测试。它由CMU和港大联合发布,是业界认可度最高的GUI Agent评测基准之一。测试方式是让AI直接操控真实操作系统完成多步任务,由自动化脚本验证最终状态——没有模糊地带,能不能做到一测便知。

    Mano-P 72B模型以58.2%的成功率在这个榜单的专用模型中拿下全球第一,领先第二名(OpenCUA-72B,45.0%)多达13.2个百分点。更夸张的是,它在所有模型(包含通用大模型)中也能排进前五。

    二、核心技术原理:72B如何装进MacBook?

    2.1 三阶段渐进训练

    Mano-P的技术路线分为三步走:

    第一步:SFT监督微调
    在高保真模拟系统环境中,让模型学习基础的GUI操作逻辑——什么是按钮、什么是输入框、什么是菜单栏。相当于在”驾校”里学会最基本的操作。

    第二步:离线强化学习
    基于海量真实操作轨迹优化决策策略。模型看过足够多的”老司机”是怎么完成任务的,慢慢学会在不同场景下做最优选择。

    第三步:在线强化学习
    在真实环境中边做边学,通过实时交互反馈持续迭代。如果上一步操作错了,就从错误中学习,调整下一步策略。

    这套”三阶段渐进训练”让Mano-P能够处理各种复杂场景下的长程任务。

    2.2 “思考-行动-验证”闭环推理

    Mano-P的每个操作都遵循一个闭环:

    1. Think(思考):分析当前屏幕状态,推理下一步应该做什么
    2. Act(行动):执行操作——点击、输入、滚动、拖拽
    3. Verify(验证):检查操作结果是否符合预期

    如果验证失败,自动重试或调整策略。这意味着AI在执行长任务时不会”一条路走到黑”,而是会实时纠错、动态调整。

    2.3 极限压缩:从72B到4B

    72B参数的模型当然很强,但没法跑在你的MacBook上。明略科技用两项核心技术把它压缩了18倍:

    GSPruning视觉Token剪枝:模型不需要看屏幕上的每一个像素,只需要看最重要的13%信息。通过剪枝技术,视觉Token压缩到原始数量的12.57%,但UI元素识别准确率几乎不受影响。

    w4a16混合精度量化:权重用4-bit低精度存储,激活用16-bit高精度计算。这样既压缩了存储空间,又保证了推理精度。

    压缩后的4B模型在M4 Pro上的实测数据:

    • 预填充速度:476 tokens/s
    • 解码速度:76 tokens/s
    • 峰值内存:仅4.3GB

    这意味着你可以在正常使用Mac的同时,让AI在后台帮你干活,完全不影响日常体验。

    三、应用场景:谁在用Mano-P?

    3.1 个人效率神器

    对于普通用户,Mano-P可以帮你完成:

    • 自动做Excel报表、整理文件夹、批量重命名
    • 自动填写表单、发送邮件、生成周报
    • 批量处理图片/视频
    • 甚至打游戏的时候,帮你识别界面、给出操作建议

    一个真实场景:你想把上个月的工作日志整理成一份报告。传统做法是手动打开每个文件、复制粘贴内容、格式排版。使用Mano-P,你只需要说”帮我整理上个月的工作日志”,它就会自动打开文件夹、阅读每个文档、提取关键信息、生成结构化报告。

    3.2 企业级自动化

    对于企业用户,Mano-P的价值在于跨系统数据整合

    传统的企业自动化需要对接各种API:ERP系统、财务软件、CRM、OA……每个系统都可能有自己的接口规范,数据格式也不统一,对接成本极高。

    Mano-P不需要这些。所有的数据都在屏幕上,AI自己看、自己提取、自己整理。财务对账、客户信息录入、工单处理——这些需要跨多个系统操作的任务,现在可以”一键完成”。

    更关键的是数据安全。金融、医疗、法律、政府——这些对数据隐私要求极高的行业,终于有了一个可以放心使用的AI自动化方案。所有操作在本地Mac mini上完成,数据不出设备,不需要上传到任何云端。

    3.3 开发者工具链

    对于开发者,Mano-P有三种接入方式:

    mano-cua(命令行工具)
    适合在终端快速执行GUI自动化任务,支持脚本集成和批处理。

    bash

    # 安装mano-cua
    brew install mano-cua
    
    # 让AI帮你完成"打开Chrome,搜索xxx"
    mano run "打开Chrome,搜索2026年AI最新动态"
    

    mano-client(Python SDK)
    适合在Python项目中集成GUI自动化能力。

    python

    from mano_client import ManoClient
    
    client = ManoClient()
    task = "帮我填这份表格:姓名张三,年龄25,职位工程师"
    result = client.execute(task)
    print(result)
    

    mano-skill(OpenClaw/Claude Code插件)
    让AI Agent直接调用GUI操作能力,适合复杂多步骤任务。

    四、对比竞品:Mano-P的优势在哪里?

    4.1 vs Claude Computer Use

    Claude Computer Use是Anthropic在2025年底推出的明星产品,能够让Claude操控电脑。两者的核心区别:

    对比维度Mano-PClaude Computer Use
    OSWorld成绩58.2%(专用模型第一)通用模型第一
    数据流向完全本地,截图不出设备需上传到云端API
    离线运行支持不支持
    开源协议Apache 2.0闭源
    部署成本免费,可本地运行API调用费用

    简单来说,Mano-P更适合对数据安全有硬性要求的场景——企业内网、高敏感数据、离线环境。如果你需要这些,Claude Computer Use的云端架构天然就不适合。

    4.2 vs 传统RPA工具

    RPA(机器人流程自动化)是企业自动化的传统方案,UiPath、Power Automate是代表产品。但RPA的局限在于:

    • 需要针对每个软件定制流程,换个版本就要重新配置
    • 无法处理非结构化数据
    • 部署和维护成本高

    Mano-P的纯视觉方案天然避免了这些问题。你不需要告诉AI”这个按钮在屏幕坐标(x,y)的位置”,只需要说”点击登录按钮”,AI自己看、自己判断、自己点击。

    五、总结:为什么说Mano-P值得关注?

    5.1 技术价值

    Mano-P证明了”专用模型+端侧部署”这条路走得通。72B参数的旗舰模型在OSWorld拿下全球第一,蒸馏后的4B模型在Mac上流畅运行——这是端侧AI的重大突破。

    5.2 生态价值

    Apache 2.0开源协议+完整代码公开,意味着任何人都可以在Mano-P的基础上做二次开发。你可以用它构建自己的自动化工具、定制行业解决方案、甚至训练专属的端侧模型。

    5.3 商业价值

    对于企业用户,Mano-P提供了目前最完整的数据安全方案。所有推理在本地完成,不需要上传任何数据到云端。对于金融、医疗、政府这些”数据不能出门”的行业,这可能是目前唯一靠谱的AI自动化选择。

    相关工具教程推荐

    扩展阅读

    想深入了解GUI-VLA智能体的工作原理?推荐阅读:

  • 智元机器人万台量产背后:具身智能商业化元年真的来了

    智元机器人万台量产背后:具身智能商业化元年真的来了

    前言

    4月17日,智元机器人在上海举办了一场挺大的发布会,宣布他们的机器人累计交付量突破1万台。这个数字意味着什么呢?

    要知道,人形机器人这个领域,说了好多年”元年”,但真正能量产交付的没几家。之前波士顿动力的Atlas、特斯拉的Optimus、本田的ASIMO,要么是实验室产品,要么是概念展示,真正能走进工厂、走向商用的屈指可数。

    智元这次万台交付的里程碑,可能真的意味着具身智能商业化的元年来了。

    智元机器人配图 - 智元机器人万台量产背后:具身智能商业化元年真的来了

    一、智元机器人是谁?

    1.1 背景介绍

    智元机器人(Agibot)成立于2022年,是一家专注于人形机器人研发的公司。创始人兼CTO是大家熟悉的”稚晖君”彭志辉,之前在华为做算法工程师,因为”B站手工耿”式的硬核科技视频走红全网。

    公司成立后发展速度很快:

    • 2023年8月:发布首款人形机器人”远征A1″
    • 2024年:完成多轮融资,估值快速攀升
    • 2025年:启动量产线建设
    • 2026年4月:累计交付量突破1万台

    这个发展速度在人形机器人领域可以说是相当惊人。

    1.2 产品矩阵

    目前智元的产品线包括:

    远征系列

    • 远征A1:通用人形机器人,适用于工业场景
    • 远征A2:升级版,针对复杂场景优化

    灵犀系列

    • 灵犀G1:轻量化设计,适合服务场景
    • 灵犀G2:主打性价比,降低使用门槛

    智元酷拓

    • 四足机器人
    • 2026年Q1已销售至”仓库无货”
    • 2026年营收目标5亿元,2030年目标100亿元

    1.3 技术实力

    智元机器人的技术特点:

    大模型加持

    • 搭载自研大模型,支持自然语言交互
    • 具备任务理解和规划能力
    • 可以学习新技能,适应新环境

    硬件设计

    • 自研关节电机,峰值扭矩密度行业领先
    • 轻量化机身设计,续航能力强
    • 模块化设计,方便维护和升级

    具身智能

    • 实现了”感知-决策-执行”的完整闭环
    • 具备自主学习能力,能在实践中不断优化
    • 支持远程操控和自主运行两种模式

    二、万台交付意味着什么?

    2.1 从0到1万的突破

    人形机器人万台交付是什么概念?

    做个对比:

    • 特斯拉Optimus:目前还在内部测试阶段,没有公开量产计划
    • 波士顿动力Atlas:主要面向科研市场,量产规模有限
    • Figure AI:获得微软、OpenAI投资,但产品还在验证中

    智元机器人是国内首家实现万台交付的人形机器人厂商,这个规模化能力本身就是壁垒。

    2.2 应用场景验证

    万台交付意味着这些机器人真的在干活了。根据智元公布的数据:

    工业场景

    • 3C工厂8小时2283次任务,零失误
    • 主要承担搬运、装配、检测等任务
    • 7×24小时运转,不知疲倦

    商业场景

    • 酒店、商场、银行等公共场所
    • 提供导览、咨询、配送等服务
    • 降低人工成本,提升服务体验

    科研场景

    • 卖给高校和科研机构
    • 用于具身智能研究
    • 推动技术持续迭代

    2.3 商业模式的验证

    万台交付背后,是商业模式的初步验证:

    硬件销售

    • 人形机器人单台售价根据配置从几十万到上百万不等
    • 目前主要卖给企业客户
    • 未来随着规模效应,价格有望下降

    租赁服务

    • 提供机器人租赁服务
    • 按月或按任务计费
    • 降低客户使用门槛

    增值服务

    • 软件订阅
    • 定制开发
    • 运维支持

    三、具身智能的现状

    3.1 全球发展格局

    具身智能(Embodied AI)是AI领域的一个热门方向,指的是让AI拥有物理身体,能够在真实环境中感知、决策和行动。

    国际玩家

    • 特斯拉:Optimus机器人,预计2026年开始量产
    • Figure AI:与OpenAI合作,获得大量融资
    • Boston Dynamics:Atlas机器人,技术领先但商业化慢
    • 1X Technologies:挪威公司,获得OpenAI投资

    国内玩家

    • 智元机器人:万台交付,领先明显
    • 傅利叶智能:聚焦康复机器人
    • 小米:CyberOne,人形机器人发布
    • 宇树科技:四足机器人领先,布局人形

    3.2 技术瓶颈

    虽然发展很快,但具身智能还有很多技术瓶颈:

    运动控制

    • 双足行走在复杂地形上还不够稳定
    • 精细操作(如抓取易碎物品)成功率有限
    • 能耗控制仍是挑战

    感知理解

    • 复杂场景的语义理解还有差距
    • 实时性和准确性难以兼顾
    • 多模态融合需要提升

    任务规划

    • 泛化能力有限,换个场景可能就不会了
    • 长周期任务规划困难
    • 人机协作的默契度不够

    3.3 商业化挑战

    成本问题

    • 人形机器人成本仍然较高
    • 一次性投入大,投资回报周期长
    • 很多场景用机械臂+移动平台的方案更划算

    可靠性问题

    • 工业场景对可靠性要求极高
    • 机器人出故障会影响生产
    • 需要大量实际部署数据来优化

    生态问题

    • 上下游配套还不完善
    • 应用场景开发需要时间
    • 人才培养跟不行业发展

    四、2026年具身智能趋势

    4.1 大模型赋能

    大模型的突破给具身智能带来了新可能:

    语言理解

    • 机器人能听懂自然语言指令
    • 不需要复杂的编程或配置
    • 人机交互门槛大幅降低

    任务规划

    • 能理解复杂任务目标
    • 自动拆解任务步骤
    • 在执行中灵活调整

    知识迁移

    • 学会一个技能后,能迁移到类似场景
    • 不需要每个场景都重新训练
    • 大幅降低部署成本

    4.2 成本下降

    随着技术成熟和规模效应,机器人成本在快速下降:

    核心零部件

    • 电机、减速器、传感器等成本下降
    • 国产化替代加速
    • 供应链越来越完善

    整机成本

    • 规模化生产降低单位成本
    • 设计标准化减少定制费用
    • 软件平台化降低开发成本

    预测

    • 2026年:高端人形机器人100-200万/台
    • 2028年:主流人形机器人30-50万/台
    • 2030年:入门级人形机器人10-20万/台

    4.3 应用场景扩展

    工业领域

    • 从3C电子向汽车制造拓展
    • 从简单任务向复杂装配延伸
    • 人机协作模式成为主流

    服务业

    • 酒店、餐饮、零售等场景落地
    • 提供陪伴、护理等服务
    • 成为家庭助手

    特种作业

    • 电力巡检、危险环境作业
    • 救援、勘探等场景
    • 替代人类从事高危工作

    五、普通人如何参与

    5.1 从业机会

    如果你想进入具身智能行业,现在是个好时机:

    研发岗位

    • 机器人算法工程师
    • 运动控制工程师
    • 具身智能研究员

    工程岗位

    • 机器人调试工程师
    • 现场部署工程师
    • 运维支持工程师

    产品岗位

    • 产品经理
    • 应用解决方案工程师
    • 项目管理

    5.2 学习资源

    基础知识

    • 机器人学(机械、电路、控制)
    • 计算机视觉
    • 深度学习

    进阶内容

    • 强化学习
    • 模仿学习
    • 多模态感知

    实践项目

    • 参加机器人竞赛
    • 复现开源项目
    • 实习或参与企业项目

    5.3 投资机会

    具身智能相关的投资机会:

    整机厂商

    • 智元机器人(未上市)
    • 傅利叶智能(IPO中)
    • 小米机器人业务

    核心零部件

    • 关节电机厂商
    • 减速器厂商
    • 传感器厂商

    软件服务

    • 具身智能算法公司
    • 仿真平台
    • 数据服务

    六、冷思考

    6.1 不要过于乐观

    虽然智元万台交付是个好消息,但我们也要清醒地看到:

    万台不等于普及

    • 主要还是B端客户
    • C端家庭普及还很遥远
    • 很多场景还在验证中

    技术瓶颈仍在

    • 复杂任务处理能力有限
    • 可靠性还需提升
    • 成本还需继续下降

    竞争加剧

    • 特斯拉等巨头虎视眈眈
    • 技术路线存在不确定性
    • 市场培育需要时间

    6.2 理性看待

    具身智能确实是一个有潜力的方向,但:

    • 不是短期能爆发的行业
    • 需要长期投入和积累
    • 最终赢家是谁还不确定

    对于普通人来说:

    • 可以关注,但不要All in
    • 选择行业要看长期
    • 保持学习,跟上发展

    结语

    智元机器人万台交付的里程碑,确实让具身智能商业化的脚步声更近了。但这只是开始,真正的普及还需要时间。

    不过,有一点是确定的:具身智能的时代已经到来。不管是工业生产、服务行业还是家庭生活,机器人会越来越多地出现在我们身边。

    作为普通人,我们可以选择拥抱这个变化,学习相关知识,寻找属于自己的机会。毕竟,每一次技术革命,都会带来新的机遇。

    下一个十年,让我们一起见证具身智能改变世界。

    相关链接

  • 谷歌Chrome AI模式深度解析:浏览器进入AI驱动时代,这波操作太秀了

    谷歌Chrome AI模式深度解析:浏览器进入AI驱动时代,这波操作太秀了

    前言

    用了这么多年浏览器,你是不是也遇到过这种情况:

    看到一个网页,想提取里面的关键信息,但懒得自己看;网页上有个功能不会用,又不好意思问同事;看一篇文章,想让它帮你总结要点……以前这些需求要么靠自己硬啃,要么把内容复制给ChatGPT处理,总归是不够顺畅。

    Chrome这次推出的AI模式,可能是解决这个问题的一个方向。简单说,就是让浏览器原生内置AI能力,你浏览网页的时候,AI就在旁边等着帮你。不用复制粘贴,不用切换窗口,边看边问,边看边让AI帮你处理。

    我用了一段时间,今天来聊聊实际体验。

    谷歌Chrome AI模式深度解析:浏览器进入AI驱动时代

    一、Chrome AI模式是什么?

    1.1 核心功能

    Chrome AI模式是谷歌在4月16日发布的重要更新。它的核心功能是:

    • 原生AI集成:浏览器内置Gemini大模型,不需要额外安装插件
    • 分屏交互:点击链接时,自动打开分屏视图,左边是网页,右边是AI助手
    • 实时辅助:浏览网页时,可以随时让AI帮你解读、总结、提取信息

    这意味着Chrome不再只是一个”展示网页”的工具,而是变成了一个”AI辅助浏览”的平台。

    1.2 技术原理

    Chrome AI模式基于Gemini大模型,能够:

    • 理解当前浏览的网页内容
    • 回答关于网页内容的问题
    • 提取关键信息并结构化
    • 执行简单的网页操作

    简单理解,就是给浏览器装了一个”永远在线的助手”,你看到什么它就知道什么,你问什么它就回答什么。

    1.3 使用前提

    需要注意的是:

    • 目前还在分批推送,不是一上线所有用户都能用
    • 需要登录Google账号
    • 国内用户需要科学上网才能使用完整功能

    二、核心功能详解

    2.1 分屏浏览+AI辅助

    这个是我最喜欢的功能。以前的模式是:

    1. 打开网页
    2. 有问题,复制内容
    3. 切换到ChatGPT
    4. 粘贴问题
    5. 等待回答
    6. 切换回网页

    现在Chrome AI模式的流程是:

    1. 打开网页
    2. 直接问旁边的AI
    3. 获得答案
    4. 继续浏览

    省去了复制粘贴和切换窗口的步骤,效率提升还是很明显的。

    实测体验
    我打开一篇英文技术文章,让AI帮我翻译和解释几个专业术语。它不仅给出了翻译,还解释了这些术语在实际场景中的应用。这种”边看边问”的体验,确实比传统方式顺畅很多。

    2.2 智能内容解读

    Chrome AI模式不仅能回答问题,还能主动帮你解读网页内容。

    适用场景

    长文章处理
    打开一篇万字长文,可以让AI帮你:

    • 生成摘要,快速了解核心观点
    • 提取关键数据和结论
    • 列出文章结构和大纲

    表格数据解读
    看到复杂的Excel表格或网页表格,可以让AI帮你:

    • 解释表格的含义和逻辑
    • 总结数据趋势和规律
    • 回答关于数据的具体问题

    代码页面处理
    浏览GitHub或者技术文档时,可以让AI帮你:

    • 解释代码逻辑
    • 分析潜在的bug
    • 给出改进建议

    2.3 搜索增强

    Chrome AI模式还增强了搜索体验:

    • 搜索结果解释:不只是展示链接,还能帮你理解搜索结果的内容
    • 多结果对比:可以同时问几个网页内容的对比问题
    • 智能追问:基于搜索结果,AI会推荐你可能想问的跟进问题

    2.4 隐私与安全

    说到浏览器内置AI,很多人会担心隐私问题。Chrome官方表示:

    • AI处理主要在云端进行,不会存储你的浏览历史
    • 可以手动关闭AI功能
    • 敏感页面(如银行、邮箱)AI功能会自动禁用
    • 不会用你的浏览数据训练模型

    当然,隐私这种事见仁见智,大家可以根据自己的需求决定是否开启。

    三、使用指南

    3.1 如何开启

    1. 更新Chrome到最新版本
    2. 登录Google账号
    3. 等待功能推送(部分地区可能需要等待)
    4. 在设置中开启”AI模式”开关

    如果没有收到推送,可以试试:

    • 更新Chrome到最新版
    • 切换到美区节点
    • 等待几天,功能在逐步开放中

    3.2 基础操作

    唤起AI助手

    • 点击地址栏右侧的AI图标
    • 或者使用快捷键(默认是Alt+Shift+A)

    提问方式

    • 可以语音输入,也可以打字
    • 支持多轮对话
    • 可以上传图片让AI识别

    关闭分屏

    • 拖动分割线到边缘
    • 或者点击关闭按钮

    3.3 高效使用技巧

    技巧1:快捷指令
    Chrome AI模式支持一些快捷指令,比如:

    • “总结这个页面”
    • “翻译成中文”
    • “提取联系方式”
    • “比较这几个选项”

    技巧2:上下文理解
    AI能记住你之前的提问,所以可以:

    • 先问大方向,再追问细节
    • 不需要每次都重复背景
    • 可以让它帮你做多步骤的分析

    技巧3:结合搜索

    • 搜索时开启AI模式
    • 让AI帮你筛选和对比搜索结果
    • 比自己逐个点开看要高效

    四、实际应用场景

    4.1 办公场景

    处理工作邮件
    打开邮件网页,让AI帮你:

    • 总结邮件要点
    • 识别需要回复的内容
    • 生成回复草稿

    阅读行业报告
    看到一份长报告,让AI帮你:

    • 快速了解核心发现
    • 提取关键数据和结论
    • 列出行动建议

    处理表格数据
    看到网页上的数据表格,让AI帮你:

    • 分析数据趋势
    • 对比不同选项
    • 生成可视化建议

    4.2 学习场景

    阅读学术论文
    遇到专业术语多、逻辑复杂的论文,让AI帮你:

    • 解释专业概念
    • 梳理论文逻辑
    • 总结研究方法

    学习编程
    看技术文档或教程时,让AI帮你:

    • 解释代码含义
    • 回答疑惑
    • 给出实践建议

    学习外语
    浏览英文网站时,让AI帮你:

    • 翻译和解释
    • 讲解语法和用法
    • 练习口语表达

    4.3 购物场景

    产品对比
    打开几个电商页面,让AI帮你:

    • 对比产品参数
    • 分析用户评价
    • 推荐性价比最高的选择

    查找优惠
    看到原价商品,让AI帮你:

    • 搜索历史价格
    • 预测价格走势
    • 提醒最佳购买时机

    4.4 日常信息获取

    新闻解读
    看到一篇新闻,让AI帮你:

    • 了解背景信息
    • 分析事件影响
    • 追踪后续发展

    查找联系方式
    看到企业官网,让AI帮你:

    • 提取电话号码、邮箱
    • 识别正确的联系部门
    • 生成联系模板

    五、与竞品对比

    5.1 Chrome vs Edge Copilot

    微软Edge浏览器早就有了Copilot功能,但两者有一些区别:

    功能Chrome AI模式Edge Copilot
    分屏浏览支持不支持
    Gemini集成原生依赖必应
    功能深度专注浏览辅助覆盖面更广
    国内可用性需科学上网需科学上网

    简单说,Chrome AI模式更专注于”浏览辅助”这个垂直场景,而Edge Copilot覆盖面更广但深度不够。

    5.2 Chrome AI模式的独特优势

    1. 原生集成:不需要安装额外插件,系统资源占用更低
    2. 分屏交互:边看边问的体验更流畅
    3. Gemini加持:Google在AI领域的积累让功能更智能
    4. 与Google生态打通:可以无缝使用Google的其他服务

    5.3 局限性

    当然也有一些局限:

    • 需要科学上网:对国内用户不太友好
    • 功能覆盖有限:目前只支持英文
    • 隐私顾虑:部分用户可能不想让Google知道你看了什么
    • 资源占用:长时间开启会消耗更多系统资源

    六、浏览器AI的未来

    6.1 从工具到平台

    Chrome AI模式的发布,标志着浏览器正在从”展示工具”向”AI平台”转变。

    以前浏览器只负责展示网页内容,处理信息的工作留给用户自己。现在浏览器内置了AI,可以帮你处理、分析、总结网页内容。用户的角色从”主动获取信息”变成了”让AI帮你处理信息”。

    这个转变的意义是深远的。它意味着:

    • 信息获取的门槛降低了
    • 处理信息的效率提高了
    • 人类可以专注于更高价值的思考工作

    6.2 可能的演进方向

    根据目前的技术发展趋势,浏览器AI未来可能的方向:

    更主动的辅助

    • AI主动识别你的浏览意图
    • 提前准备好可能需要的信息
    • 预测你下一步想做什么

    更深入的操作

    • 不只是理解网页内容
    • 还能帮你执行网页操作
    • 比如帮你填表、帮你下单、帮你发帖

    更个性化的体验

    • 学习你的浏览习惯
    • 提供个性化的AI建议
    • 打造专属你的浏览体验

    6.3 竞争格局

    Chrome推出AI模式后,预计其他浏览器也会跟进:

    • Edge已经有了Copilot,会继续强化
    • Safari可能会在Apple Intelligence框架下增强
    • 国产浏览器可能会接入国产AI模型

    浏览器的AI化会成为一个趋势,关键是谁能做得更好、更符合用户需求。

    七、我的使用感受

    7.1 优点

    • 分屏交互体验流畅,确实比切换窗口方便
    • Gemini的理解能力不错,回答比较准确
    • 原生集成,不需要额外安装
    • 和Google生态打通,使用顺畅

    7.2 缺点

    • 需要科学上网,国内使用有门槛
    • 目前只支持英文,中文内容支持有限
    • 功能还在完善,有些场景不够好用
    • 隐私问题需要自己权衡

    7.3 适合人群

    Chrome AI模式比较适合:

    • 经常需要阅读英文资料的人
    • 有科学上网条件的人
    • 追求效率提升的办公人群
    • 对AI辅助浏览有需求的人

    结语

    Chrome AI模式的推出,让我看到了浏览器进化的一个方向。它不再只是展示网页的工具,而是变成了一个AI辅助浏览的平台。虽然目前功能还在完善,但这个方向是对的。

    对于国内用户来说,可能还需要等待一段时间才能用上。但如果你有条件,建议体验一下,这可能是未来浏览器的主流形态。

    浏览器AI化的大幕才刚刚拉开,让我们拭目以待。

    相关链接

  • 阿里快乐生蚝世界模型实测:国产AI追平谷歌Genie3,实时导演+漫游太香了

    阿里快乐生蚝世界模型实测:国产AI追平谷歌Genie3,实时导演+漫游太香了

    前言

    AI生成视频这事儿,估计大家都见怪不怪了。不就是输一句话,等个几十秒,拿一段视频嘛。但阿里4月中旬发布的”快乐生蚝”(HappyOyster)让我眼前一亮——它不只是一个生成视频的工具,而是能生成一个能走、能碰、能改的3D空间

    这什么意思?简单说,普通AI是”给你一段固定视频”,快乐生蚝是”给你一个活的3D世界”,你在里面怎么动、怎么改,画面实时跟着变。这体验就像从看照片升级到了玩游戏。

    我第一时间申请了内测,体验了一周,今天来聊聊真实感受。不吹不黑,客观说说这玩意儿到底怎么样。

    阿里快乐生蚝配图 - 阿里快乐生蚝世界模型实测:国产AI追平谷歌Genie3

    一、什么是世界模型?和文生视频有啥区别?

    1.1 传统文生视频的局限

    先说说我们熟悉的文生视频工具。不管是Sora、Runway还是国内的即梦、Vidu,它们的逻辑都是:你输入一段文字描述,AI生成一段视频,你只能看,不能改。

    这个模式有什么问题?

    • 被动接受:生成什么样就是什么样,想改只能重新生成
    • 无法交互:不能走进去看,不能换个角度看
    • 细节难控:人物动作、场景细节经常跑偏

    1.2 世界模型的新范式

    快乐生蚝代表的是”世界模型”这个新方向。核心特点是:

    • 可交互:生成的不是一个视频,而是一个有物理规则的3D空间
    • 可漫游:你可以在里面自由行走、转身、探索
    • 可修改:生成过程中可以随时调整剧情、镜头、角色

    这就好比:

    • 传统文生视频 = 给你一张照片
    • 世界模型 = 给你一个可以走进去的房间

    虽然目前分辨率和流畅度还没法和专业渲染比,但这个方向的潜力是巨大的。

    二、快乐生蚝的两大核心模式

    2.1 漫游模式:像玩游戏一样逛AI世界

    这是快乐生蚝的基础能力,对标的是谷歌Genie3。核心玩法是:

    1. 输入一句话或一张图片
    2. AI生成一个有物理规则的3D空间
    3. 你用键盘、鼠标在里面自由探索

    实测体验

    我输入了”夕阳下的海边小镇”,等了大概十几秒,生成完毕。进去之后发现:

    • 场景确实是个海边小镇,有码头、有房屋、有沙滩
    • 物理规则基本合理,影子方向一致,海水有波浪
    • 可以用WASD移动,鼠标控制视角
    • 支持1分钟连续漫游,分辨率480p

    画面质量说实话比不上专业游戏,但作为AI生成的实时交互场景,已经相当震撼了。

    2.2 导演模式:随时改剧情的实时大片

    这是快乐生蚝比Genie3更实用的地方,也是我最喜欢的功能。

    导演模式下,你可以:

    • 中途打断:随时停止当前生成
    • 实时调整:用文字、语音、图片发指令
    • 控制一切:镜头、角色、场景、天气都能改

    实测体验

    我试着生成一个”森林探险”的场景。生成过程中,我随口说”镜头拉近”、”让主角跑起来”、”天空换成下雨”、”加个山洞入口”——这些指令它都实时响应了。

    虽然细节质量还有提升空间(比如雨天效果的真实性、角色跑动时的动作自然度),但”边生成、边调整、边出片”这个体验是真的爽。

    这意味着:

    • 不用等渲染完再返工
    • 可以边想边改,快速迭代
    • 创作门槛大幅降低

    三、与谷歌Genie3正面PK

    3.1 核心参数对比

    指标快乐生蚝谷歌Genie3
    漫游分辨率480p480p
    导演分辨率最高720p不支持导演模式
    时长漫游1分钟/导演3分钟1分钟
    延迟<200ms约300ms
    中文支持原生优化较弱

    3.2 各有所长

    Genie3的优势

    • 纯物理模拟、漫游探索能力更强
    • 背靠谷歌,技术积累深厚
    • 生态更完善,后续迭代快

    快乐生蚝的优势

    • 导演模式,中途实时调整
    • 原生音画同步,体验更流畅
    • 二次创作开放,适合内容创作者
    • 中文语境优化,国人上手更快

    3.3 我的判断

    如果你只是想探索AI生成的世界、体验实时漫游,Genie3是更好的选择。

    但如果你是内容创作者,想用AI辅助创作短视频、游戏、虚拟场景,快乐生蚝的导演模式会更实用。它把”创作控制权”还给了用户,而不是让用户被动接受AI的生成结果。

    四、普通人的上手指南

    4.1 如何申请内测

    快乐生蚝目前还在内测阶段,感兴趣的朋友可以按以下步骤申请:

    1. 访问官网:happyoyster.cn
    2. 点击”申请内测”,填写手机号和用途
    3. 等待审核(一般1-3个工作日)
    4. 审核通过后登录,开始体验

    4.2 漫游模式入门

    适合场景

    • 体验AI生成的世界,感受新技术
    • 生成创意灵感,寻找创作素材
    • 游戏关卡设计参考

    操作步骤

    1. 选择漫游模式
    2. 输入场景描述(越具体越好)
    3. 等待生成
    4. 用WASD移动,鼠标控制视角
    5. 逛完可以保存或分享

    小技巧

    • 场景描述越详细,生成效果越好
    • 可以上传参考图片,AI会融合风格
    • 不满意可以重新生成,或者换种描述方式

    4.3 导演模式入门

    适合场景

    • 短视频创作
    • 游戏原型设计
    • 虚拟场景搭建

    操作步骤

    1. 选择导演模式
    2. 输入初始剧情/场景
    3. AI开始实时生成
    4. 随时输入指令调整(文字/语音/图片)
    5. 满意后导出视频或保存工程

    小技巧

    • 先让AI生成基础场景,再逐步调整细节
    • 指令要具体:”主角走向右边”比”动一下”效果更好
    • 可以用参考图片控制角色外观和场景风格
    • 导出后用专业软件做后期精修

    五、实际应用场景

    5.1 短视频创作

    对于短视频博主来说,快乐生蚝可以帮你:

    • 快速生成概念场景,验证创意
    • 制作概念视频,吸引粉丝期待
    • 降低特效成本,小团队也能做大场面

    不过需要注意,目前的分辨率和真实度还达不到商用水准,更适合作为创作辅助工具。

    5.2 游戏开发

    独立游戏开发者可以用它来:

    • 快速生成游戏原型
    • 可视化关卡设计
    • 寻找创作灵感

    有个做独立游戏的朋友告诉我,他用快乐生蚝来生成游戏场景概念图,比自己画要快很多。当然,最终的游戏资产还是得用专业工具来做。

    5.3 虚拟场景搭建

    对于需要虚拟场景的从业者:

    • 建筑可视化:快速生成建筑内外景
    • 室内设计:预览装修效果
    • 影视预演:提前看到场景效果

    5.4 教育培训

    教育场景也很有潜力:

    • 历史场景还原:让学生”走进”历史
    • 科学实验模拟:危险的实验可以虚拟进行
    • 职业技能培训:模拟真实工作场景

    六、局限性和改进空间

    6.1 当前局限

    说实话,快乐生蚝目前还有不少局限:

    画面质量

    • 分辨率最高720p,和专业渲染比差距明显
    • 细节不够精细,偶尔会出现纹理错误
    • 光影效果有时不自然

    物理规则

    • 复杂物理交互偶尔穿模
    • 液体、织物等软体模拟较弱
    • 多角色互动时容易出问题

    内容控制

    • 特定要求难以精确控制
    • 生成结果有随机性,不一定每次都满意
    • 长序列生成稳定性下降

    6.2 改进方向

    根据阿里ATH团队透露的信息,后续优化方向包括:

    • 提升分辨率和细节质量
    • 优化物理模拟的真实性
    • 增加更多可控参数
    • 支持更长的生成序列
    • 开放更多API接口

    七、国产AI的新里程碑

    7.1 从跟跑到并跑

    阿里这次48小时连发两款AI,快乐生蚝直接对标Genie3,说明国产AI在前沿世界模型这个赛道上,已经有了和国际巨头正面竞争的实力。

    以前这种”实时可交互世界模拟”的技术,基本是谷歌一家独大,国内要么做文生视频、要么做大语言模型,很少碰这个方向。现在阿里做出了自己的世界模型,不再是跟跑,而是开始并跑。

    7.2 对普通人的意义

    对于咱们普通人来说,这意味着:

    • 以后做短视频、做虚拟场景、做小游戏,不用再等国外工具
    • 国内产品对中文语境优化更好,上手更快
    • 竞争加剧会让产品价格下降,服务质量提升

    7.3 展望未来

    世界模型这个方向,潜力是巨大的。虽然现在还不够成熟,但技术发展速度很快。

    想象一下:

    • 以后你想拍个电影,可能只需要描述想法,AI帮你生成完整场景
    • 游戏开发者可以用AI实时生成无限世界
    • 教育可以让学生”走进”任何场景学习

    快乐生蚝是这个未来的第一步。

    结语

    体验了一周快乐生蚝,我的感受是:这是一款有诚意的产品。虽然画面质量和Genie3比还有差距,但导演模式确实解决了创作者的痛点——把控制权还给用户。

    对于想尝鲜世界模型的朋友,值得申请内测试试。对于内容创作者,这个工具可以作为创作辅助,值得关注后续发展。

    国产AI这次走得很快,咱们拭目以待。

    相关链接

  • Claude Opus 4.7深度评测:编程能力暴涨11%,这代Claude到底强在哪

    Claude Opus 4.7深度评测:编程能力暴涨11%,这代Claude到底强在哪

    前言

    用AI写代码这件事,我折腾了快三年。从最初的Copilot到后来的GPT-4,再到各种国产编程助手,几乎主流产品都用了个遍。上个月Claude Opus 4.7发布的时候,看到”编程能力暴涨11%”这个数据,说实话我是不太信的——这些年见过太多”吊打”、”超越”的说法了。

    但用了一周之后,我承认这次确实有点东西。不是那种PPT上的纸面数据,是实打实能感受到的提升。特别是那个”敢于说No”的能力,用起来特别舒服。今天就把这几天的真实体验分享出来,不吹不黑,给想上车或者还在观望的朋友一个参考。

    Claude Opus 4.7配图 - Claude Opus 4.7深度评测:编程能力暴涨11%

    一、编程能力:从”能用”到”专业级”的跨越

    1.1 数据背后的真实含义

    先说硬指标。Claude Opus 4.7在SWE-bench Pro测试中得分64.3%,比GPT-5.4的57.7%高出近7个百分点,比Gemini 3.1 Pro的54.2%更是拉开了10%的差距。这个测试是什么概念呢?它考察的是AI处理真实代码库的能力,不是那种割裂的算法题,而是让你去理解一个有几万行代码的项目,然后修复bug或者添加功能。

    之前用GPT-4写代码,遇到复杂项目经常需要反复沟通、改来改去,有时候AI自己都不知道自己在干什么。用Claude Opus 4.7这几天,明显感觉它对项目结构的理解更准确了。有次我扔给它一个半成品的后端项目,让它帮我加个缓存模块,它不仅写出了代码,还主动指出了原项目里几处潜在的性能问题。

    1.2 企业场景下的表现

    光看基准测试不够,咱说说实际落地的情况。根据官方披露的数据:

    • Cursor内部测试:代码完成率从58%提升到70%,提升了21%
    • Notion报告代理:任务成功率提升14%,工具错误率降到前代的三分之一
    • 日本乐天:生产级任务解决数量是Opus 4.6的3倍

    这几个数字里我比较关注Cursor的提升。之前用Cursor写代码,虽然有代码补全,但遇到稍微复杂点的逻辑,还是得自己来。现在代码完成率70%,意味着大部分常见场景确实可以交给AI处理了。

    有个做独立开发的朋友告诉我,他用Claude Opus 4.7加Cursor,半天时间就把一个数据可视化组件库从Vue2迁移到了Vue3。他负责review,AI负责写,效率比以前高了三四倍。这不是个例,我周围好几个开发者朋友都有类似的感受。

    1.3 编程能力的边界

    当然也得说清楚,Claude Opus 4.7不是万能的。遇到特别复杂的系统设计,或者需要深入理解业务逻辑的场景,AI还是经常卡壳。但对于日常开发中那些重复性的CRUD、接口对接、数据处理这类活儿,它确实能帮你省不少时间。

    我个人的判断是:现在的Claude Opus 4.7已经能较好地承担”高级工程师的实习生”这个角色。能干活,但需要你把关;能提建议,但最终拍板还得是人。

    二、视觉能力3倍提升:看见更精细的世界

    2.1 技术参数解析

    Claude Opus 4.7的视觉能力提升确实猛。官方说支持长边最高2576像素的图像处理,约375万像素,是前代产品的3倍以上。落实到实际场景里,意味着它可以更好地处理:

    • 密集型截图:以前处理一张密密麻麻的数据截图,AI经常漏掉信息,现在好多了
    • 复杂图表:流程图、架构图、UML图这些,它能准确理解各元素之间的关系
    • 工程图纸:简单看下CAD图纸、电路图什么的,问题不大
    • 手写笔记:歪歪扭扭的手写字,识别准确率也比之前高了

    2.2 实测视觉能力

    我专门测试了一下它的视觉能力。扔给它一张产品原型图,让它帮我生成对应的React组件代码。之前用GPT-4的时候,生成的代码经常漏掉一些细节,按钮位置也对不上。这次Claude Opus 4.7的表现明显好很多,基本还原了原型图的整体布局,细节虽然有点偏差,但稍作调整就能用。

    后来我又测试了看财报图表。它能准确识别出图表类型、数据趋势、关键数据点,比我之前用的那些只会”描述图片内容”的模型强多了。

    2.3 视觉能力的应用场景

    视觉能力的提升让Claude Opus 4.7有了更多用武之地:

    UI开发:看设计稿直接出代码,减少设计和前端的沟通成本
    数据处理:自动识别截图、PDF中的表格数据,转成结构化信息
    文档分析:扫一眼架构图就能理解系统设计,代码审查效率翻倍
    教育培训:看学生的作业截图给反馈,省去来回上传下载的麻烦

    这些场景以前也有,但用起来总觉得差点意思。现在Claude Opus 4.7的视觉能力确实到了一个可用的临界点。

    三、”靠谱”特质:敢于说No的AI

    3.1 为什么”靠谱”很重要

    我觉得这是Claude Opus 4.7最被低估的升级。很多人在选AI工具的时候,关注的是”它能做什么”,很少有人关心”它敢不敢说不”。

    但用过的人都知道,一个唯命是从的AI有时候比没有AI更坑。它不管你说的是不是离谱,都会点头称是,然后按照你的错误思路一通操作,最后给你一堆看起来像那么回事但完全跑不通的代码。这种AI用久了,不仅不能提高效率,反而会把你带进沟里。

    Claude Opus 4.7这次在”靠谱”这个特质上下了功夫,用官方的话说就是”敢于质疑、敢于反驳”。

    3.2 实际体验

    我举个例子。有次我让它帮我写一个数据处理的脚本,提了个需求:读取CSV文件,按某列分组后输出结果。我自己的思路是用Python的pandas库,结果它看完需求之后说:

    “你这个需求用awk可能更高效,一行命令就能搞定,而且内存占用更小。pandas虽然能实现,但对于这种简单任务有点杀鸡用牛刀了。”

    然后它给出了两种方案,让我选。这感觉就像有个真正的同事在跟你讨论问题,而不是在讨好你。

    还有一次,我让它帮我review一段代码。它直接指出我的代码有几处潜在风险,需要加异常处理。按照以前的经验,AI一般会说”写得不错”,然后加一堆锦上添花的建议。但Claude Opus 4.7这次直接戳中了要害。

    3.3 靠谱的具体表现

    总结一下Claude Opus 4.7″靠谱”特质的具体表现:

    场景之前的行为Claude Opus 4.7的行为
    用户方案有明显漏洞默默实现,附带一堆bug直接指出问题,建议改进方案
    遇到缺失信息编造一个可能的答案直接报错,提示缺少什么
    汇报结果前直接输出自行验证,确保准确再输出

    这种”说No”的能力听起来很简单,但真正做到并不容易。它需要模型既要有足够的能力判断对错,又要有足够的”胆子”指出来。Claude Opus 4.7在这两者之间找到了一个比较好的平衡点。

    四、新功能一览:更精细的控制

    4.1 xhigh推理等级

    Claude Opus 4.7新增了xhigh推理等级,介于high和max之间,提供更细粒度的推理深度与响应速度权衡。官方说Claude Code已经默认调至xhigh。

    我理解这就像是给你提供了更多档位的方向盘。之前只有”慢但准”和”快但糙”两个选项,现在多了个”适中”的选择。对于日常任务,选xhigh能省不少时间;对于复杂的推理任务,还是得上max。

    4.2 /ultrareview命令

    这个功能挺有意思的。用法很简单,在对话里输入/ultrareview,它会开启专门会话进行代码审查,通读你提供的代码变更,然后标记bug和设计问题。

    Pro和Max用户可以免费试用3次。我试用了一下,审查质量确实不错,比自己review要细致。但3次用完之后就得付费了,对于有大量代码审查需求的人来说,这个功能可能值回票价。

    4.3 Auto Mode扩展

    Auto Mode之前只有特定用户能用,现在扩展到了Max用户。这个模式下,Claude可以在授权范围内自主决策,减少长任务运行中断。

    对于那种需要跑几十分钟甚至更长时间的任务,这个功能很实用。不用一直盯着,遇到问题AI自己判断,权限内的自己处理,超出权限的才来问你。

    4.4 Task Budgets

    这是面向开发者的API公测功能,帮助规划长任务的Token支出。对于需要控制成本的项目来说,这个功能很有价值。

    五、与其他模型的横向对比

    5.1 Claude Opus 4.7 vs GPT-5.4

    指标Claude Opus 4.7GPT-5.4
    编程能力(SWE-bench)64.3%57.7%
    视觉理解3倍提升基准水平
    “靠谱”特质强,敢于说No较弱,倾向顺从
    上下文窗口200K400K
    定价(输入)$5/百万token约$7/百万token

    简单来说,如果你更看重编程能力和可靠性,选Claude Opus 4.7;如果你需要更大的上下文窗口,可能GPT-5.4更合适。

    5.2 Claude Opus 4.7 vs Gemini 3.1 Pro

    Gemini 3.1 Pro在多模态和实时理解方面有优势,但编程能力确实不如Claude Opus 4.7。如果你做数据分析、科学计算这类任务,Gemini可能更好;如果是写代码、debug这些场景,Claude Opus 4.7是更好的选择。

    5.3 怎么选

    给个简单的选择建议:

    • 日常编程、代码review、bug修复:选Claude Opus 4.7
    • 需要处理超长上下文:选GPT-5.4
    • 科学计算、数据分析:选Gemini 3.1 Pro
    • 需要AI帮你把关、少走弯路:选Claude Opus 4.7

    六、使用建议和注意事项

    6.1 适合人群

    Claude Opus 4.7比较适合:

    • 专业开发者:需要高质量代码生成和review
    • 技术团队:需要靠谱的AI来把关代码质量
    • 独立开发者:想提高效率,让AI承担更多基础工作
    • 学习者:需要AI帮你指出代码问题,陪你一起进步

    6.2 使用技巧

    1. 充分利用”靠谱”特质:不要只让它写代码,多问它”这个方案有什么问题”
    2. 善用视觉能力:把设计稿、截图直接扔给它,让它帮你理解或转换
    3. 注意token消耗:新分词器导致相同内容token消耗增加1.0-1.35倍,长对话要注意成本
    4. 配合Claude Code使用:桌面端体验最好,支持Auto Mode自动执行

    6.3 迁移注意事项

    如果你之前用的是Claude Opus 4.6或更早版本,升级到4.7需要注意几点:

    1. 指令遵循更严格了,原来跑得通的提示词可能需要调整
    2. token消耗会增加,如果之前跑的是长对话,可能需要精简
    3. 遇到缺失信息它会直接报错,而不是编造答案

    6.4 局限性

    Claude Opus 4.7也不是完美的:

    • 超长上下文还是不如GPT-5.4(200K vs 400K)
    • 在国内使用需要科学上网,对部分用户不友好
    • 编程能力强,但其他方面(创意写作等)提升有限

    结语

    用了一周Claude Opus 4.7,我的感受是:这次的升级是实打实的,不是那种PPT上的数字游戏。编程能力确实强了,视觉能力确实好用了,那个”靠谱”的特质更是解决了长久以来的痛点。

    对于程序员来说,Claude Opus 4.7确实是一个值得考虑的选择。它不是来取代你的,而是来帮你提效的。用得好,能让你从繁琐的重复劳动中解放出来,把更多精力放在真正需要人类智慧的地方。

    当然,工具终究是工具,用得好不好还得看用它的人。希望这篇文章能帮你做出判断。

    相关链接

  • Chrome浏览器内置Gemini技能库:一键固化的AI能力,让浏览器成为效率神器

    Chrome浏览器内置Gemini技能库:一键固化的AI能力,让浏览器成为效率神器

    一、技能库是什么?

    1.1 功能定义

    Chrome的Gemini技能库(Gemini Skills)本质上是一个”AI任务模板库”。你可以把复杂的AI操作保存为可复用的技能,下次遇到类似场景,直接调用就能执行。

    打个比方,这就像Word里的”宏”——你录制了一系列操作,之后一键就能自动执行完全相同的流程。技能库就是把Word的宏概念搬到了AI交互场景。

    1.2 解决的问题

    Gemini本身已经很强大了,可以回答问题、处理文本、分析数据。但每次使用都要重新输入指令,有时候复杂的任务还需要多次对话才能完成。

    技能库解决的就是这个痛点:把重复的工作自动化

    比如你经常需要:

    • 在商品页面提取关键参数做成对比表格
    • 把长文章压缩成摘要要点
    • 分析代码的性能瓶颈
    • 从合同里提取关键条款

    这些任务,每次都要重新组织语言、设置格式,非常繁琐。现在,你可以把它们固化成技能,一键调用。

    四大应用场景:购物比价、内容整理、合同审查、代码调试

    1.3 与传统AI助手的区别

    维度传统AI助手Chrome技能库
    任务复用每次重新输入一键调用已有技能
    上下文理解仅限当前对话可跨标签页使用
    执行方式单次交互可组合多步骤流程
    自动化程度纯问答半自动化执行

    二、如何使用技能库?

    2.1 入口位置

    在桌面版Chrome中,打开Gemini侧边栏(点击右上角Gemini图标或输入Alt+Shift+M),你会看到界面右侧新增了一个”技能”标签页,这就是技能库的入口。

    第一次使用时,界面是空的,会提示你从模板库中选择,或者自己创建技能。

    2.2 使用现成模板

    官方提供了一批预置模板,覆盖常见场景:

    健康管理类

    • 食谱营养分析:输入”/蛋白质”直接计算食物蛋白质含量
    • 卡路里估算:根据食材和做法估算热量
    • 饮食建议:基于食物偏好生成每日饮食计划

    购物比价类

    • 参数对比:自动提取商品参数做成对比表格
    • 性价比分析:综合评分给出购买建议
    • 优惠券查找:搜索当前商品的可用优惠

    办公效率类

    • 文档摘要:从长文章中提取关键信息
    • 邮件生成:基于上下文撰写回复
    • 会议纪要:提取要点生成结构化纪要

    开发相关类

    • 代码解释:解析代码逻辑和实现原理
    • Bug分析:根据错误信息分析可能原因
    • 性能建议:分析代码提出优化方案

    使用模板很简单:在任意网页上,打开Gemini侧边栏,输入”/技能名”即可。

    2.3 创建自定义技能

    对于模板没有覆盖的场景,你可以自己创建技能:

    第一步:明确任务目标

    想清楚你要固化的任务是什么。比如:”在任意电商页面,提取商品名称、价格、规格参数,生成一个JSON格式的结构化数据。”

    第二步:编写技能指令

    用自然语言描述这个技能的执行逻辑。Gemini会根据你的描述生成技能定义。

    plaintext

    技能名称:电商信息提取
    触发词:/提取商品
    执行逻辑:
    1. 读取当前页面的商品标题
    2. 提取价格信息(原价和促销价)
    3. 读取规格参数表格
    4. 生成JSON格式输出
    

    第三步:测试和调整

    创建技能后,用几个不同的商品页面测试效果。根据实际表现调整指令,直到满意为止。

    2.4 技能的跨标签页使用

    技能库的一个强大功能是跨标签页批量执行

    你可以选中多个标签页,然后调用技能。比如你打开了5个竞品页面,调用”参数对比”技能,Gemini会逐一访问每个页面,提取信息,最后生成一个完整的对比表格。

    这个功能对于做市场调研、产品分析的用户来说,简直是神器。

    三、实用场景详解

    3.1 场景一:购物决策辅助

    痛点

    每次网购都要在多个平台之间对比,复制粘贴、手动整理,效率很低。

    技能库解决方案

    创建”商品比价”技能:

    plaintext

    触发词:/比价
    执行:提取当前页面的商品名称、价格、关键参数,
          然后对比已打开标签页中的其他商品,
          生成对比表格和综合评分。
    

    使用效果

    打开几个心仪商品的页面,输入”/比价”,3秒钟生成一个清晰的对比表格,包含价格对比、参数差异、性价比评分。购物决策时间从半小时缩短到3分钟。

    3.2 场景二:内容创作辅助

    痛点

    写文章需要搜集大量参考资料,散落在各个网页,整理起来很费时间。

    技能库解决方案

    创建”资料整理”技能:

    plaintext

    触发词:/整理资料
    执行:读取当前页面和已打开标签页的主要内容,
          提取关键论点、数据、引用,
          生成结构化的资料大纲。
    

    使用效果

    搜集了10篇相关资料,输入”/整理资料”,Gemini自动分析每篇的核心观点,剔除重复内容,生成一份有逻辑框架的资料整理文档。

    3.3 场景三:合同审查

    痛点

    审合同需要仔细阅读几十页条款,找出关键风险点,人工审查费时且容易遗漏。

    技能库解决方案

    创建”合同风险分析”技能:

    plaintext

    触发词:/审合同
    执行:识别合同类型,提取甲方乙方、标的金额、
          关键期限、违约条款、解除条件等关键信息,
          标注潜在风险点,给出修改建议。
    

    使用效果

    上传合同PDF(或在网页版合同平台打开),输入”/审合同”,Gemini给出关键条款清单、风险点标注、建议修改的条款。原本需要2小时的人工审查,现在30分钟完成初步筛查。

    3.4 场景四:代码调试

    痛点

    遇到Bug要在多个技术文档、论坛之间跳转搜索,找解决方案费时费力。

    技能库解决方案

    创建”Bug分析”技能:

    plaintext

    触发词:/分析bug
    执行:读取错误信息,分析可能的错误原因,
          结合已打开标签页中的代码文档,
          给出解决方案和修复步骤。
    

    使用效果

    同时打开错误日志和相关技术文档,输入”/分析bug”,Gemini综合分析上下文,给出针对性的解决方案,比单独搜索要精准很多。

    四、进阶使用技巧

    4.1 技能的组合使用

    你可以把多个技能组合成一个工作流。比如:

    • 打开商品页面 → “/提取商品” → “/比价” → “/生成购物建议”

    这一套流程下来,Gemini会自动串联执行,你只需要确认最后的输出。

    4.2 技能的动态参数

    高级用户可以为技能设置动态参数。比如”文章摘要”技能,你可以指定摘要长度(简短/详细)、输出格式(要点/段落)、重点关注角度等。

    4.3 与其他Gemini功能的联动

    技能库不是孤立的,它可以调用Gemini的其他能力:

    • 调用深度研究:技能执行时自动触发深度搜索
    • 调用代码执行:直接在技能中使用Python/JavaScript
    • 调用文件处理:技能可以读取和处理本地文件

    4.4 团队共享

    企业版Chrome支持技能共享。你可以把自己创建的技能导出分享给同事,同事导入后可以直接使用。团队可以建立共享技能库,统一工作流程。

    五、隐私与安全

    5.1 数据处理

    技能库涉及网页内容的读取和AI处理,用户关心隐私是合理的。几个关键点:

    本地处理优先

    技能的执行主要在本地完成,网页内容不会永久存储在云端。

    可手动控制

    你可以在设置中选择哪些场景允许技能访问网页内容,哪些不允许。

    清晰的权限提示

    每次技能调用时,如果涉及敏感内容,Gemini会弹出确认框,不会自动执行。

    5.2 使用建议

    • 不建议在包含高度敏感信息(银行账户、密码等)的页面使用技能
    • 企业用户建议在管理员指导下配置使用策略
    • 定期检查技能库的权限设置,确保符合你的隐私偏好

    六、常见问题

    6.1 哪些Chrome版本支持技能库?

    桌面版Chrome最新版本已支持,iOS和Android版本正在陆续推送中。预计4月底前全量覆盖。

    6.2 Gemini需要登录Google账号吗?

    是的,技能库需要登录Google账号才能使用。未登录状态下可以使用基础对话功能,但无法保存和调用技能。

    6.3 技能库有使用限制吗?

    和普通Gemini使用共享配额。免费用户有一定次数限制,付费的Gemini Advanced用户配额更充足。

    6.4 技能可以导出和备份吗?

    支持导出为JSON文件,方便备份或在多设备间同步。

    6.5 技能执行失败怎么办?

    检查几个可能原因:

    • 当前页面是否在技能支持的范围(如某些特殊网页可能无法解析)
    • 配额是否用完
    • 网络连接是否正常

    如果是技能本身设计问题,可以在反馈中提交改进建议。

    七、与其他产品的对比

    7.1 vs 传统浏览器插件

    维度传统插件Chrome技能库
    灵活性功能固定可自定义
    智能程度规则驱动AI驱动
    跨网站能力
    维护成本高(需更新)低(AI自适应)

    7.2 vs 其他AI助手

    相比独立的AI助手应用,Chrome技能库的优势在于与浏览器的深度集成。它能直接读取页面内容,不需要你复制粘贴;能在多个标签页之间协作;能跨网站执行复杂任务。

    当然,如果你不常用浏览器,或者任务不涉及网页处理,独立AI助手可能更合适。两个工具可以配合使用,不冲突。

    八、总结

    Chrome的Gemini技能库是一个被低估的功能升级。它把AI能力从”被动问答”提升到”主动执行”,从”单次交互”延伸到”批量处理”。

    对于需要频繁处理网页内容的用户——产品经理做竞品分析、市场人员搜集资料、开发者调试代码、编辑整理选题——这个功能能显著提升工作效率。

    建议感兴趣的朋友可以先从官方模板开始体验,感受一下”一键执行复杂任务”的便利。等熟悉了基本用法,再根据自己的需求创建自定义技能。

    Chrome这次更新,让浏览器不再只是”上网工具”,而是变成了真正的”AI工作台”。

    相关AI工具教程

  • MaxHermes体验报告:会自我进化的AI助手来了,MiniMax这次走了一步狠棋

    MaxHermes体验报告:会自我进化的AI助手来了,MiniMax这次走了一步狠棋

    一、MaxHermes是什么?

    1.1 产品定位

    MaxHermes是一款基于Hermes Agent框架的AI智能体产品。Hermes是全球热门的开源智能体项目,以”自我进化”能力著称。MiniMax与Hermes团队深度合作,把这个开源框架做成了普通用户能直接使用的产品。

    简单理解,MaxHermes就是一个”越用越懂你”的AI助手。它不只是被动回答问题,而是会主动学习你的工作方式和偏好,自动把学到的经验固化成可复用的”技能”。

    1.2 核心技术

    MaxHermes的技术底座是MiniMax M2.7大模型。这是国产旗舰级大模型,在工具调用准确率(超92%)、响应速度(200ms以内)、上下文支持(32k)等关键指标上,都达到了全球第一梯队的水平。

    配合Hermes的自进化机制,MaxHermes实现了几个关键能力:

    技能自动提炼

    每完成一个任务,MaxHermes会自动分析:用了什么方法?有哪些步骤可以标准化?下次遇到类似任务如何更快完成?这些分析结果会被保存为可复用的”技能”。

    跨任务迁移

    学会了一个领域的技能后,这些技能可以迁移到相关领域。比如你让它学会了”整理销售数据”,它可能在处理财务数据时也能借鉴其中的方法论。

    持续优化

    每次使用后,MaxHermes会根据反馈调整自己的策略。如果你告诉它”这个格式不对”,它会记住,下次类似任务会直接用你喜欢的格式。

    MaxHermes技能库界面示意,展示技能积累与学习反馈

    1.3 定价策略

    MaxHermes采用分层订阅模式:

    版本月费核心能力适合人群
    基础版39元/月基础智能体能力、100次/天任务调用个人用户尝鲜
    专业版119元/月无限制任务调用、优先算力、高级技能库专业用户、中小企业
    企业版定制私有化部署、API接入、专属支持大型企业

    这个定价相比海外同类产品(通常在20-50美元/月)有明显优势,对国内用户友好很多。

    二、实测体验: MaxHermes到底能做什么?

    2.1 第一印象

    登录界面很简洁,没有过多的引导和弹窗。界面上有一个对话框,和普通ChatBot看起来差不多。但当你开始使用时,区别就显现出来了——右侧有一个”技能库”面板,会随着使用逐渐丰富。

    我的第一个测试任务是让它帮我整理一份竞品分析报告。我把原始数据(几个竞品的公开信息)扔给它,让它生成结构化的分析文档。

    结果出乎意料:它不仅整理了信息,还主动识别了各竞品的差异化定位,甚至提出了一些我没想过的分析维度。整个过程大概花了3分钟,比我自己整理快多了。

    2.2 技能学习能力测试

    为了验证”自我进化”能力,我做了个实验:

    Day 1:让MaxHermes帮我回复一封英文商务邮件。我给了它邮件背景信息和回复要点。

    Day 2:让它写另一封类似场景的邮件。这次我没有重复说明背景,它居然主动调用了昨天的经验——语气、格式、甚至一些常用的商务表达都延续了。

    Day 3:再发一个类似任务。MaxHermes直接问:”是否沿用之前商务邮件的风格?”它不仅记住了,还主动确认。

    这种体验确实有点”智能体”的感觉了,不像普通AI每次都是独立的对话。

    2.3 复杂任务处理

    我又测试了一个更复杂的场景:让它帮我规划一个产品上线方案。我给了它产品基本信息、目标用户、可用资源等背景材料。

    MaxHermes的处理过程很有意思:它先输出了一个”执行计划”征求我的意见,然后根据反馈逐步展开。我可以中途调整方向,它会立即适应。

    最终输出的方案包含:市场定位、推广策略、时间节点、资源分配、风险预案等模块,质量比我预期的要好。

    2.4 多代理协同

    MaxHermes还支持多代理协同能力。开启这个模式后,它可以同时调用多个子代理并行处理任务。比如让它做一份全面的市场调研,它可以同时打开搜索、数据分析、内容生成三个子代理,效率提升明显。

    这个功能对专业用户很有吸引力,对普通用户来说可能有点”杀鸡用牛刀”。

    三、MaxHermes vs 其他产品

    3.1 对比普通AI助手

    维度普通AI助手MaxHermes
    记忆能力仅限当前会话跨会话持续学习
    任务闭环仅回答问题主动规划+执行+复盘
    技能积累自动提炼可复用技能
    定制化通用能力可深度定制工作流

    简单说,普通AI是”你说什么它做什么”,MaxHermes是”你教它怎么做,它学会后自己做”。

    3.2 对比同类智能体产品

    海外的同类产品(如基于LangChain的智能体平台)往往有更高的可定制性,但使用门槛也更高——需要配置API、处理各种技术问题。MaxHermes的优势在于开箱即用,普通用户也能轻松上手。

    和国内的Coze、扣子等平台相比,MaxHermes的差异化在于”自进化”能力。Coze等平台更像是一个智能体搭建工具,你需要自己设计工作流;MaxHermes则是直接给了一个会自己学习的智能体。

    3.3 各自适合的场景

    MaxHermes适合的场景

    • 需要AI持续学习你工作习惯的重复性任务
    • 复杂多步骤任务需要AI主动规划
    • 希望AI越用越懂你的长期项目
    • 不想折腾技术只想直接用的用户

    其他产品更适合的场景

    • 需要高度定制的工作流
    • 有技术团队可以深度集成
    • 对成本极度敏感的场景

    四、使用技巧与最佳实践

    4.1 新手入门建议

    如果你刚接触MaxHermes,建议从简单任务开始:

    第一步:从重复性任务入手

    比如每周都要写的周报、经常要做的数据整理。选择一个你最头疼的重复任务,让MaxHermes帮你做。

    第二步:观察技能积累

    注意右侧”技能库”的变化。每次任务完成后,看看MaxHermes提炼了什么技能。这能帮你理解它的学习逻辑。

    第三步:主动优化

    不要被动接受输出。如果结果不够好,主动告诉它哪里不对,它的调整往往比预期更精准。

    4.2 提升效果的关键

    提供足够的背景信息

    MaxHermes越了解你的场景,输出质量越高。第一次使用时,建议详细说明任务背景、你的偏好、期望的输出格式等。

    保持反馈一致

    如果你用惯了某种表达风格,就一直用同一个风格反馈给它。MaxHermes能从一致反馈中更快学习。

    善用迭代

    不要期待第一次就完美。分多次迭代,每次聚焦一个优化点,积累下来效果会越来越好。

    4.3 避免的坑

    不要期望过高

    MaxHermes是”自我进化”的,但这个进化是渐进式的,不是突变。不要期待它一夜之间变成完美助手。

    重要任务要核对

    作为AI产品,MaxHermes难免会犯错。对于重要任务,一定要核对输出结果,特别是涉及数据、日期、专有名词等关键信息。

    不要什么都让它学

    技能库会随着使用越来越丰富,但积累太多反而会降低调用效率。定期清理不需要的技能,保持技能库的精简。

    五、隐私与安全

    5.1 数据处理

    使用云端AI产品,隐私是必须考虑的问题。MaxHermes在这方面有几项措施:

    数据隔离

    用户数据在处理过程中相互隔离,不会被其他用户或任务访问。

    可选的敏感信息过滤

    对于包含敏感信息的任务,可以开启过滤模式,MaxHermes会自动识别并脱敏处理。

    清晰的权限控制

    你可以随时查看、导出、删除MaxHermes学习到的技能,确保对自己数据有完全控制权。

    5.2 企业使用建议

    对于企业用户,建议:

    • 确认是否符合公司数据合规要求
    • 敏感业务场景考虑企业版私有化部署
    • 建立内部使用规范,明确哪些场景适合用、哪些场景不适合

    六、值不值得用?

    6.1 适合人群

    推荐使用

    • 需要处理大量重复性文档工作的职场人
    • 中小企业希望快速提升效率的团队
    • 对AI感兴趣想体验”自我进化”能力的爱好者
    • 需要AI辅助但不想折腾技术的普通用户

    不太适合

    • 对成本极度敏感的用户(有更便宜的替代品)
    • 需要深度定制技术方案的企业(有技术团队可以自己搭)
    • 对数据隐私有极端要求的场景(即使有保护措施也不想用云端产品)

    6.2 性价比评估

    39元/月的基础版,对于能显著提升工作效率的用户来说,成本其实很低。假设每天帮你节省30分钟,一周就是2.5小时,一个月就是10小时。按普通工资算,这10小时的价值远超39元。

    但如果你只是偶尔用用,或者普通AI助手已经能满足需求,那就不必额外花这笔钱了。

    七、未来展望

    7.1 产品路线图

    根据官方透露的信息,MaxHermes的后续发展重点包括:

    更丰富的技能生态

    计划上线技能市场,用户可以分享和获取其他人提炼的技能,形成社区化的技能生态。

    更强的多模态能力

    未来版本会加强图像、视频、音频的处理能力,让智能体不只能处理文字。

    更深的企业集成

    与企业微信、钉钉、飞书等国内主流办公平台的深度集成已经在规划中。

    7.2 行业影响

    MaxHermes的发布,标志着国产AI智能体进入”实用化”阶段。之前大家讨论的”自我进化AI”更多是概念层面的,现在有了实际产品,证明这条路确实走得通。

    这对整个行业是个好消息——有了成功的先例,会有更多资源投入这个方向,推动技术快速迭代。

    八、总结

    经过几天的体验,MaxHermes给我留下了几个深刻印象:

    它真的在学习:不是营销概念,是能实际感受到的能力提升。每次使用都能感觉到它更懂我的需求。

    门槛足够低:不需要技术背景,打开就能用,这点对普通用户很友好。

    定价有诚意:39元/月起的定价,在国内市场很有竞争力。

    但不是万能的:它适合某些场景,对另一些场景可能还不如普通AI顺手。选择工具要看场景,不是追新。

    如果你对”自我进化的AI助手”感兴趣,MaxHermes值得一试。基础版39元/月,试错成本不高,说不定它就是你一直在找的那个效率工具。

    相关AI工具教程