Mano-P 1.0使用教程：开源端侧GUI-VLA智能体，让AI本地操控电脑数据零上云 | AI工具导航 - AI指南

一、什么是Mano-P 1.0？

Mano-P是明略科技（Mininglamp-AI）开源的GUI-VLA（Vision-Language-Action）端侧智能体模型。这个名字来自西班牙语”Mano”（手）和英文”Person/Party”的首字母，寓意是让AI真正长出”手”，能像人一样操控电脑。

它的核心能力可以用一句话概括：让AI像人一样”看屏幕、点鼠标、敲键盘”，完全自主操控电脑。

1.1 三个关键词理解Mano-P

纯视觉驱动：传统的电脑自动化工具（比如按键精灵、AutoHotkey）需要依赖软件的API接口或者DOM结构。一旦换了个软件、版本更新，甚至只是界面改了个按钮位置，整个自动化脚本就废了。

Mano-P不走这条路。它像人一样，只”看”屏幕上的像素——不管你用的是Photoshop、Excel、ERP系统，还是一个几十年前的老旧软件，只要人能认出来，AI就能认出来，就能操作。

端侧部署：所有推理都在你的Mac上完成。截图不出设备，任务描述不上传云端，完全离线也能跑。对于企业内网、财务系统、医疗记录这些敏感场景，这可能是目前唯一靠谱的AI自动化方案。

开源可商用：Apache 2.0协议，完整代码公开可审计，支持商业使用和二次开发。不像某些”开源”实际上是”限制开源”，Mano-P是真正可以拿去商用、改写、定制的产品级开源项目。

1.2 性能有多强？

说出来你可能不信——这个国产开源项目，在13项国际权威基准测试中拿下SOTA（State of the Art，最优结果）。

基准测试	成绩	排名
OSWorld专用模型	58.2%成功率	全球第一
ScreenSpot-V2	93.5%界面定位	SOTA
WebRetriever	超越Gemini 2.5 Pro、Claude 4.5	SOTA
MMBench	87.5%多模态理解	第一梯队

特别说一下OSWorld这个测试。它由CMU和港大联合发布，是业界认可度最高的GUI Agent评测基准之一。测试方式是让AI直接操控真实操作系统完成多步任务，由自动化脚本验证最终状态——没有模糊地带，能不能做到一测便知。

Mano-P 72B模型以58.2%的成功率在这个榜单的专用模型中拿下全球第一，领先第二名（OpenCUA-72B，45.0%）多达13.2个百分点。更夸张的是，它在所有模型（包含通用大模型）中也能排进前五。

二、核心技术原理：72B如何装进MacBook？

2.1 三阶段渐进训练

Mano-P的技术路线分为三步走：

第一步：SFT监督微调
在高保真模拟系统环境中，让模型学习基础的GUI操作逻辑——什么是按钮、什么是输入框、什么是菜单栏。相当于在”驾校”里学会最基本的操作。

第二步：离线强化学习
基于海量真实操作轨迹优化决策策略。模型看过足够多的”老司机”是怎么完成任务的，慢慢学会在不同场景下做最优选择。

第三步：在线强化学习
在真实环境中边做边学，通过实时交互反馈持续迭代。如果上一步操作错了，就从错误中学习，调整下一步策略。

这套”三阶段渐进训练”让Mano-P能够处理各种复杂场景下的长程任务。

2.2 “思考-行动-验证”闭环推理

Mano-P的每个操作都遵循一个闭环：

Think（思考）：分析当前屏幕状态，推理下一步应该做什么
Act（行动）：执行操作——点击、输入、滚动、拖拽
Verify（验证）：检查操作结果是否符合预期

如果验证失败，自动重试或调整策略。这意味着AI在执行长任务时不会”一条路走到黑”，而是会实时纠错、动态调整。

2.3 极限压缩：从72B到4B

72B参数的模型当然很强，但没法跑在你的MacBook上。明略科技用两项核心技术把它压缩了18倍：

GSPruning视觉Token剪枝：模型不需要看屏幕上的每一个像素，只需要看最重要的13%信息。通过剪枝技术，视觉Token压缩到原始数量的12.57%，但UI元素识别准确率几乎不受影响。

w4a16混合精度量化：权重用4-bit低精度存储，激活用16-bit高精度计算。这样既压缩了存储空间，又保证了推理精度。

压缩后的4B模型在M4 Pro上的实测数据：

预填充速度：476 tokens/s
解码速度：76 tokens/s
峰值内存：仅4.3GB

这意味着你可以在正常使用Mac的同时，让AI在后台帮你干活，完全不影响日常体验。

三、应用场景：谁在用Mano-P？

3.1 个人效率神器

对于普通用户，Mano-P可以帮你完成：

自动做Excel报表、整理文件夹、批量重命名
自动填写表单、发送邮件、生成周报
批量处理图片/视频
甚至打游戏的时候，帮你识别界面、给出操作建议

一个真实场景：你想把上个月的工作日志整理成一份报告。传统做法是手动打开每个文件、复制粘贴内容、格式排版。使用Mano-P，你只需要说”帮我整理上个月的工作日志”，它就会自动打开文件夹、阅读每个文档、提取关键信息、生成结构化报告。

3.2 企业级自动化

对于企业用户，Mano-P的价值在于跨系统数据整合。

传统的企业自动化需要对接各种API：ERP系统、财务软件、CRM、OA……每个系统都可能有自己的接口规范，数据格式也不统一，对接成本极高。

Mano-P不需要这些。所有的数据都在屏幕上，AI自己看、自己提取、自己整理。财务对账、客户信息录入、工单处理——这些需要跨多个系统操作的任务，现在可以”一键完成”。

更关键的是数据安全。金融、医疗、法律、政府——这些对数据隐私要求极高的行业，终于有了一个可以放心使用的AI自动化方案。所有操作在本地Mac mini上完成，数据不出设备，不需要上传到任何云端。

3.3 开发者工具链

对于开发者，Mano-P有三种接入方式：

mano-cua（命令行工具）：
适合在终端快速执行GUI自动化任务，支持脚本集成和批处理。

bash

# 安装mano-cua
brew install mano-cua

# 让AI帮你完成"打开Chrome，搜索xxx"
mano run "打开Chrome，搜索2026年AI最新动态"

mano-client（Python SDK）：
适合在Python项目中集成GUI自动化能力。

python

from mano_client import ManoClient

client = ManoClient()
task = "帮我填这份表格：姓名张三，年龄25，职位工程师"
result = client.execute(task)
print(result)

mano-skill（OpenClaw/Claude Code插件）：
让AI Agent直接调用GUI操作能力，适合复杂多步骤任务。

四、对比竞品：Mano-P的优势在哪里？

4.1 vs Claude Computer Use

Claude Computer Use是Anthropic在2025年底推出的明星产品，能够让Claude操控电脑。两者的核心区别：

对比维度	Mano-P	Claude Computer Use
OSWorld成绩	58.2%（专用模型第一）	通用模型第一
数据流向	完全本地，截图不出设备	需上传到云端API
离线运行	支持	不支持
开源协议	Apache 2.0	闭源
部署成本	免费，可本地运行	API调用费用

简单来说，Mano-P更适合对数据安全有硬性要求的场景——企业内网、高敏感数据、离线环境。如果你需要这些，Claude Computer Use的云端架构天然就不适合。

4.2 vs 传统RPA工具

RPA（机器人流程自动化）是企业自动化的传统方案，UiPath、Power Automate是代表产品。但RPA的局限在于：

需要针对每个软件定制流程，换个版本就要重新配置
无法处理非结构化数据
部署和维护成本高

Mano-P的纯视觉方案天然避免了这些问题。你不需要告诉AI”这个按钮在屏幕坐标(x,y)的位置”，只需要说”点击登录按钮”，AI自己看、自己判断、自己点击。

五、总结：为什么说Mano-P值得关注？

5.1 技术价值

Mano-P证明了”专用模型+端侧部署”这条路走得通。72B参数的旗舰模型在OSWorld拿下全球第一，蒸馏后的4B模型在Mac上流畅运行——这是端侧AI的重大突破。

5.2 生态价值

Apache 2.0开源协议+完整代码公开，意味着任何人都可以在Mano-P的基础上做二次开发。你可以用它构建自己的自动化工具、定制行业解决方案、甚至训练专属的端侧模型。

5.3 商业价值

对于企业用户，Mano-P提供了目前最完整的数据安全方案。所有推理在本地完成，不需要上传任何数据到云端。对于金融、医疗、政府这些”数据不能出门”的行业，这可能是目前唯一靠谱的AI自动化选择。

扩展阅读

想深入了解GUI-VLA智能体的工作原理？推荐阅读：

Mano-P 1.0使用教程：开源端侧GUI-VLA智能体，让AI本地操控电脑数据零上云 | AI工具导航

一、什么是Mano-P 1.0？

1.1 三个关键词理解Mano-P

1.2 性能有多强？

二、核心技术原理：72B如何装进MacBook？

2.1 三阶段渐进训练

2.2 “思考-行动-验证”闭环推理

2.3 极限压缩：从72B到4B

三、应用场景：谁在用Mano-P？

3.1 个人效率神器

3.2 企业级自动化

3.3 开发者工具链

四、对比竞品：Mano-P的优势在哪里？

4.1 vs Claude Computer Use

4.2 vs 传统RPA工具

五、总结：为什么说Mano-P值得关注？

5.1 技术价值

5.2 生态价值

5.3 商业价值

相关工具教程推荐

扩展阅读

评论

发表回复取消回复

更多文章

AI长文本处理技巧实战教程：从论文到合同，让AI帮你读完所有文档

AI音乐生成工具精选推荐：这些工具让音乐创作零门槛

Google Gemini 3.0深度解读：多模态能力再次进化，谷歌这次下了狠功夫

Manus AI深度解读：首个通用AI智能体来了，这次真的不一样了

Mano-P 1.0使用教程：开源端侧GUI-VLA智能体，让AI本地操控电脑数据零上云 | AI工具导航

一、什么是Mano-P 1.0？

1.1 三个关键词理解Mano-P

1.2 性能有多强？

二、核心技术原理：72B如何装进MacBook？

2.1 三阶段渐进训练

2.2 “思考-行动-验证”闭环推理

2.3 极限压缩：从72B到4B

三、应用场景：谁在用Mano-P？

3.1 个人效率神器

3.2 企业级自动化

3.3 开发者工具链

四、对比竞品：Mano-P的优势在哪里？

4.1 vs Claude Computer Use

4.2 vs 传统RPA工具

五、总结：为什么说Mano-P值得关注？

5.1 技术价值

5.2 生态价值

5.3 商业价值

相关工具教程推荐

扩展阅读

评论

发表回复 取消回复

更多文章

AI长文本处理技巧实战教程：从论文到合同，让AI帮你读完所有文档

AI音乐生成工具精选推荐：这些工具让音乐创作零门槛

Google Gemini 3.0深度解读：多模态能力再次进化，谷歌这次下了狠功夫

Manus AI深度解读：首个通用AI智能体来了，这次真的不一样了

发表回复取消回复