一、什么是Mano-P 1.0?
Mano-P是明略科技(Mininglamp-AI)开源的GUI-VLA(Vision-Language-Action)端侧智能体模型。这个名字来自西班牙语”Mano”(手)和英文”Person/Party”的首字母,寓意是让AI真正长出”手”,能像人一样操控电脑。
它的核心能力可以用一句话概括:让AI像人一样”看屏幕、点鼠标、敲键盘”,完全自主操控电脑。
1.1 三个关键词理解Mano-P
纯视觉驱动:传统的电脑自动化工具(比如按键精灵、AutoHotkey)需要依赖软件的API接口或者DOM结构。一旦换了个软件、版本更新,甚至只是界面改了个按钮位置,整个自动化脚本就废了。

Mano-P不走这条路。它像人一样,只”看”屏幕上的像素——不管你用的是Photoshop、Excel、ERP系统,还是一个几十年前的老旧软件,只要人能认出来,AI就能认出来,就能操作。
端侧部署:所有推理都在你的Mac上完成。截图不出设备,任务描述不上传云端,完全离线也能跑。对于企业内网、财务系统、医疗记录这些敏感场景,这可能是目前唯一靠谱的AI自动化方案。
开源可商用:Apache 2.0协议,完整代码公开可审计,支持商业使用和二次开发。不像某些”开源”实际上是”限制开源”,Mano-P是真正可以拿去商用、改写、定制的产品级开源项目。
1.2 性能有多强?
说出来你可能不信——这个国产开源项目,在13项国际权威基准测试中拿下SOTA(State of the Art,最优结果)。
| 基准测试 | 成绩 | 排名 |
|---|---|---|
| OSWorld专用模型 | 58.2%成功率 | 全球第一 |
| ScreenSpot-V2 | 93.5%界面定位 | SOTA |
| WebRetriever | 超越Gemini 2.5 Pro、Claude 4.5 | SOTA |
| MMBench | 87.5%多模态理解 | 第一梯队 |
特别说一下OSWorld这个测试。它由CMU和港大联合发布,是业界认可度最高的GUI Agent评测基准之一。测试方式是让AI直接操控真实操作系统完成多步任务,由自动化脚本验证最终状态——没有模糊地带,能不能做到一测便知。
Mano-P 72B模型以58.2%的成功率在这个榜单的专用模型中拿下全球第一,领先第二名(OpenCUA-72B,45.0%)多达13.2个百分点。更夸张的是,它在所有模型(包含通用大模型)中也能排进前五。
二、核心技术原理:72B如何装进MacBook?
2.1 三阶段渐进训练
Mano-P的技术路线分为三步走:
第一步:SFT监督微调
在高保真模拟系统环境中,让模型学习基础的GUI操作逻辑——什么是按钮、什么是输入框、什么是菜单栏。相当于在”驾校”里学会最基本的操作。
第二步:离线强化学习
基于海量真实操作轨迹优化决策策略。模型看过足够多的”老司机”是怎么完成任务的,慢慢学会在不同场景下做最优选择。
第三步:在线强化学习
在真实环境中边做边学,通过实时交互反馈持续迭代。如果上一步操作错了,就从错误中学习,调整下一步策略。
这套”三阶段渐进训练”让Mano-P能够处理各种复杂场景下的长程任务。
2.2 “思考-行动-验证”闭环推理
Mano-P的每个操作都遵循一个闭环:
- Think(思考):分析当前屏幕状态,推理下一步应该做什么
- Act(行动):执行操作——点击、输入、滚动、拖拽
- Verify(验证):检查操作结果是否符合预期
如果验证失败,自动重试或调整策略。这意味着AI在执行长任务时不会”一条路走到黑”,而是会实时纠错、动态调整。
2.3 极限压缩:从72B到4B
72B参数的模型当然很强,但没法跑在你的MacBook上。明略科技用两项核心技术把它压缩了18倍:
GSPruning视觉Token剪枝:模型不需要看屏幕上的每一个像素,只需要看最重要的13%信息。通过剪枝技术,视觉Token压缩到原始数量的12.57%,但UI元素识别准确率几乎不受影响。
w4a16混合精度量化:权重用4-bit低精度存储,激活用16-bit高精度计算。这样既压缩了存储空间,又保证了推理精度。
压缩后的4B模型在M4 Pro上的实测数据:
- 预填充速度:476 tokens/s
- 解码速度:76 tokens/s
- 峰值内存:仅4.3GB
这意味着你可以在正常使用Mac的同时,让AI在后台帮你干活,完全不影响日常体验。
三、应用场景:谁在用Mano-P?
3.1 个人效率神器
对于普通用户,Mano-P可以帮你完成:
- 自动做Excel报表、整理文件夹、批量重命名
- 自动填写表单、发送邮件、生成周报
- 批量处理图片/视频
- 甚至打游戏的时候,帮你识别界面、给出操作建议
一个真实场景:你想把上个月的工作日志整理成一份报告。传统做法是手动打开每个文件、复制粘贴内容、格式排版。使用Mano-P,你只需要说”帮我整理上个月的工作日志”,它就会自动打开文件夹、阅读每个文档、提取关键信息、生成结构化报告。
3.2 企业级自动化
对于企业用户,Mano-P的价值在于跨系统数据整合。
传统的企业自动化需要对接各种API:ERP系统、财务软件、CRM、OA……每个系统都可能有自己的接口规范,数据格式也不统一,对接成本极高。
Mano-P不需要这些。所有的数据都在屏幕上,AI自己看、自己提取、自己整理。财务对账、客户信息录入、工单处理——这些需要跨多个系统操作的任务,现在可以”一键完成”。
更关键的是数据安全。金融、医疗、法律、政府——这些对数据隐私要求极高的行业,终于有了一个可以放心使用的AI自动化方案。所有操作在本地Mac mini上完成,数据不出设备,不需要上传到任何云端。
3.3 开发者工具链
对于开发者,Mano-P有三种接入方式:
mano-cua(命令行工具):
适合在终端快速执行GUI自动化任务,支持脚本集成和批处理。
bash
# 安装mano-cua
brew install mano-cua
# 让AI帮你完成"打开Chrome,搜索xxx"
mano run "打开Chrome,搜索2026年AI最新动态"
mano-client(Python SDK):
适合在Python项目中集成GUI自动化能力。
python
from mano_client import ManoClient
client = ManoClient()
task = "帮我填这份表格:姓名张三,年龄25,职位工程师"
result = client.execute(task)
print(result)
mano-skill(OpenClaw/Claude Code插件):
让AI Agent直接调用GUI操作能力,适合复杂多步骤任务。
四、对比竞品:Mano-P的优势在哪里?
4.1 vs Claude Computer Use
Claude Computer Use是Anthropic在2025年底推出的明星产品,能够让Claude操控电脑。两者的核心区别:
| 对比维度 | Mano-P | Claude Computer Use |
|---|---|---|
| OSWorld成绩 | 58.2%(专用模型第一) | 通用模型第一 |
| 数据流向 | 完全本地,截图不出设备 | 需上传到云端API |
| 离线运行 | 支持 | 不支持 |
| 开源协议 | Apache 2.0 | 闭源 |
| 部署成本 | 免费,可本地运行 | API调用费用 |
简单来说,Mano-P更适合对数据安全有硬性要求的场景——企业内网、高敏感数据、离线环境。如果你需要这些,Claude Computer Use的云端架构天然就不适合。
4.2 vs 传统RPA工具
RPA(机器人流程自动化)是企业自动化的传统方案,UiPath、Power Automate是代表产品。但RPA的局限在于:
- 需要针对每个软件定制流程,换个版本就要重新配置
- 无法处理非结构化数据
- 部署和维护成本高
Mano-P的纯视觉方案天然避免了这些问题。你不需要告诉AI”这个按钮在屏幕坐标(x,y)的位置”,只需要说”点击登录按钮”,AI自己看、自己判断、自己点击。
五、总结:为什么说Mano-P值得关注?
5.1 技术价值
Mano-P证明了”专用模型+端侧部署”这条路走得通。72B参数的旗舰模型在OSWorld拿下全球第一,蒸馏后的4B模型在Mac上流畅运行——这是端侧AI的重大突破。
5.2 生态价值
Apache 2.0开源协议+完整代码公开,意味着任何人都可以在Mano-P的基础上做二次开发。你可以用它构建自己的自动化工具、定制行业解决方案、甚至训练专属的端侧模型。
5.3 商业价值
对于企业用户,Mano-P提供了目前最完整的数据安全方案。所有推理在本地完成,不需要上传任何数据到云端。对于金融、医疗、政府这些”数据不能出门”的行业,这可能是目前唯一靠谱的AI自动化选择。
相关工具教程推荐
扩展阅读
想深入了解GUI-VLA智能体的工作原理?推荐阅读:

发表回复