演示视频:

快速上手

首先先到 Releases · fsquirt/XiaoYu-Windows-Agent · GitHub 下载.msi安装包并验证MD5 SHA1 SHA256，然后运行安装包选择安装位置，下一步下一步，然后就会在桌面和开始菜单内看到快捷方式

安装界面

配置API，当前只支持OpenAI协议，请使用具有图片理解能力的LLM

(其实用纯文本的也不是不能跑，因为运行时会把控件文字信息和绘制方框的截图一起传过去，但是LLM的雷霆操作会让人脑溢血)。

选择OpenAI协议，然后点击验证确认当前API相关配置是否可用。

Windows AI API将在后续进行适配。当前还不可用。
配置API

打开设置页面，按照喜好自行设置要不要启用深度思考和在聊天窗口中隐藏UIA引擎输出或者删除历史图片让LLM专注当下。

你可以在选项->思考深度里设置思考深入程度，推荐使用低

然后就可以通过文件->启动聊天，开始给LLM派活干了

chat

计划任务

晓予创建的计划任务均在\XiaoYu_Agent目录下，你可以通过计算机管理或者主界面的“计划任务”选项卡进行删除

task

你可以直接通过自然语言要求创建计划任务，当前只支持一次性的，在X小时X分钟后执行。或者每天X小时X分钟的时候执行

创建计划任务

计划任务创建后，无需让晓予常驻后台，到指定时间Windows会自动启动晓予并执行对应任务。如果有一个晓予正在运行，程序会通过IPC管道来让正在运行的晓予开始执行任务。

在每次关闭聊天窗口后，晓予会自动开始尝试总结经验以减少下次试错

memory

但是有可能会总结出一句屁话，你可以手动在“记忆”选项卡中删掉那些屁话

晓予兼容符合通用标准的Skills

你可以在”设置”选项卡启用Skills功能，并设置Skills文件夹。

注意，当前并不支持脚本型Skills。 详细内容请参考Agent Skills | Microsoft Learn

你可以在设置页面按照你自己的喜好来编辑系统提示词

系统提示词

系统提示词的Markdown文件在安装目录的\MarkDown\SystemPrompt.md

这东西有啥用？

就我实际用下来，我自己是感觉用处不大的。因为走一步就要截一张图，然后思考下一步。这样非常费token，人来完成效率不知道比AI来完成快了多少倍。

而且，复杂的任务也没办法让它来完成，大量的工具调用会让AI提前莫名结束任务。

而且部分软件如微信/企业微信，完全删除了UIA树，完全无法进行操作。又或者远程桌面，安卓模拟器，这种就更无法操作了。

这个项目只是给一个让AI来直接操作Windows的一个方案，让AI对电脑的操作不再仅限于在终端中执行指令，或者依赖软件厂商的MCP服务，或者是Skills。毕竟，要是每个软件都要skills，那skills根本写不完。

AI有视觉理解能力，却无法抬起手精准点击。前段时间火的autoglm是通过增强了模型的坐标识别能力，才能让模型根据截图才操作手机。但是同样的那套代码，要是换个模型，那它就根本猜不准要点的地方坐标是多少。

其实我把这东西写完才发现微软已经有类似的仓库了

怪事这个咋不火呢，害得我又造了一遍轮子