菜鸟游戏网 - 游戏让生活变快乐! 全站导航 全站导航
AI工具安装教程 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

您的位置 : 资讯 > 其他资讯 > 控制软件和硬件的技能system-controller

控制软件和硬件的技能system-controller

来源:菜鸟下载 | 更新时间:2026-04-27

System Controller 技能全面介绍 一句话定位:这是一个能让你用自然语言,统一控制Windows桌面

System Controller 技能全面介绍

一句话定位:这是一个能让你用自然语言,统一控制Windows桌面软件、系统硬件、串口设备和智能家居的“中枢神经”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈


架构总览

它的工作流非常清晰:用户说出指令 → AI理解意图 → 选择对应模块和动作 → 执行背后的Python脚本 → 系统完成操作

整个系统由6个独立的模块构成,每个模块对应一个脚本。模块之间零依赖,设计上高度解耦,这意味着任何一个模块都可以单独拿出来运行,非常灵活。


六大模块一览

#模块脚本职责
1Window Managerwindow_manager.py桌面窗口控制
2Process Managerprocess_manager.py系统进程管理
3Hardware Controllerhardware_controller.py系统硬件设置
4Serial Communicationserial_comm.pyArduino / 串口通信
5IoT Controlleriot_controller.py智能家居 / HTTP API
6GUI Controller ????gui_controller.py鼠标键盘自动化、截图、OCR、视觉识别

模块 1:Window Manager — 窗口管理

能做什么:列出所有窗口、激活(切换到前台)、关闭、最小化、最大化、调整窗口大小、向指定窗口发送按键指令。

技术路线:核心是借助PowerShell内嵌C#代码来调用Win32 API,主要用到user32.dll里的SetForegroundWindowShowWindowSetWindowPos等函数,实现对窗口的底层控制。

典型场景

  • 说“关闭Chrome”,它会先列出所有窗口找到Chrome,然后执行关闭。
  • 说“把微信调到前台”,对应activate动作。
  • 说“全屏当前窗口”,就是maximize

模块 2:Process Manager — 进程管理

能做什么:列出系统进程、结束指定进程、启动新程序、查看进程的详细信息、以及查看系统整体状态(CPU、内存、磁盘使用率)。

技术路线:主要依靠PowerShell原生的Get-ProcessGet-CimInstance命令,获取和管理进程及系统信息。

典型场景

  • “关掉所有记事本” → 执行kill --name notepad
  • “启动VS Code” → 执行start “code”
  • “系统资源使用情况” → 调用system命令。

模块 3:Hardware Controller — 硬件控制

能做什么:覆盖5大类共13种硬件操作,相当全面:

类别操作
???? 音量获取、设置、静音
???? 屏幕获取亮度、设置亮度、获取显示器信息
⚡ 电源锁屏、睡眠、休眠、关机、重启、取消关机/重启
???? 网络列出网卡、启用/禁用网卡、扫描WiFi、获取网络信息
???? USB列出已连接的USB设备

技术路线:组合拳。基础功能用PowerShell和WMI/CIM接口,对于需要精确控制的音量调节,则引入了轻量级工具nircmd作为补充。

安全规则:涉及电源的操作(如关机、重启、睡眠)必须经过用户二次确认,防止误触。


模块 4:Serial Communication — 串口通信

能做什么:列出可用串口、自动检测设备波特率、发送数据、接收数据、进行双向对话、持续监听串口数据流。

技术路线:基于成熟的pyserial库进行开发。首次使用时,如果检测到环境缺失,会自动安装这个库。

典型场景

  • “有哪些串口” → 执行list命令。
  • “给Arduino发开灯指令” → 执行send --port COM3 --data “LED_ON”
  • “读取温度传感器” → 执行chat --port COM3 --data “GET_TEMP”进行交互。

模块 5:IoT Controller — 智能家居控制

能做什么

  • Home Assistant:列出实体、获取实体状态、开关设备、切换状态、调用平台内的任意服务。
  • 通用HTTP:对任意RESTful API端点执行GET、POST、PUT请求。
  • 米家:提供设备发现的指导方法。

技术路线:核心是requests库(同样支持自动安装),通过标准的REST API调用来与各类物联网平台或设备交互。

典型场景

  • “打开客厅灯” → 执行homeassistant on --entity-id light.living_room
  • “关掉卧室空调” → 执行homeassistant off --entity-id climate.bedroom
  • “调用这个API” → 执行http get/post等命令。

模块 6:GUI Controller ???? — GUI 自动化

能做什么:这是本次升级的核心,提供了5大类共24种界面级操作:

类别操作
????️ 鼠标获取位置、移动、左键点击、右键点击、双击、拖拽、滚动
⌨️ 键盘输入文字、按快捷键、按下/释放(实现长按)
???? 截图截取全屏、活动窗口、指定区域、获取屏幕分辨率、列出已保存截图
???? OCR识别屏幕上的文字(优先使用pytesseract,Windows OCR作为备用方案)
????️ 视觉模板匹配找图、找到图片并点击、按颜色查找、获取指定像素颜色

技术路线:基于pyautoguipillow库构建。这两个库会被自动安装到一个独立的虚拟环境(venv)中,避免污染主环境。所有截图默认保存在screenshots/目录下。

安全机制

  • Failsafe:这是pyautogui的内置安全特性,当鼠标被快速移动到屏幕的任意一个角落时,所有自动化操作会立即中止。
  • 先截图后操作:在不确定界面状态时,建议先截图确认,再进行点击等操作,更稳妥。

总计能力

全部模块加起来,共提供了66种具体操作。经验表明,这已经能够覆盖大约70-80%的日常Windows桌面控制需求。

未覆盖的 20-30%

当然,没有工具是万能的。以下是目前难以覆盖或无法覆盖的场景及原因:

场景原因替代方案
浏览器内部DOM操作需要操控网页内部元素,超出了系统级范畴。使用内置的Browser Automation技能或Playwright等浏览器自动化插件。
游戏操控多数游戏有反作弊机制,且涉及DirectX等图形接口拦截。无法直接覆盖。
需要人机验证的操作出于安全限制,无法自动化绕过验证码等。无法覆盖。
复杂3D软件(如Blender, Maya)其图形引擎和自定义界面阻挡了部分自动化。部分基础操作(如窗口切换)可用,结合截图和OCR可能覆盖更多。

执行模型

所有脚本都通过统一的execute_command函数调用,模式固定为:

{python路径} {脚本路径} {动作} {参数}

这里有两个Python环境路径:

  • 常规模块:使用C:\Users\wa ve\.workbuddy\binaries\python\versions\3.13.12\python.exe
  • GUI Controller模块:使用独立的虚拟环境C:\Users\wa ve\.workbuddy\binaries\python\envs\default\Scripts\python.exe,其中已安装好pyautogui和pillow。

依赖关系

依赖结构清晰,维护方便:

common.py ← 所有模块依赖(封装了PowerShell执行、编码处理等通用功能)
window_manager.py — 零外部Python库依赖
process_manager.py — 零外部Python库依赖
hardware_controller.py — 零外部Python库依赖(nircmd为可选外部工具)
serial_comm.py — 依赖pyserial(自动安装)
iot_controller.py — 依赖requests(自动安装)
gui_controller.py — 依赖pyautogui + pillow(自动安装到独立venv)

面对未知设备的处理流程

当遇到一个全新的、不知道如何控制的设备或软件时,可以遵循以下排查思路:

  1. 能启动吗? → 先用process_manager start尝试启动。
  2. 有窗口吗? → 用window_manager list看看有没有对应窗口。
  3. 先截图看看 → 用gui_controller screenshot截取界面。
  4. OCR读文字 → 用gui_controller visual ocr识别界面上的文字信息。
  5. 找图点击 → 用gui_controller visual click-image尝试点击已知的按钮图片。
  6. 鼠标键盘直接操作 → 用gui_controller mouse/keyboard模拟手动操作。
  7. 有API吗? → 尝试用iot_controller http调用可能存在的网络接口。
  8. 是USB设备吗? → 用hardware_controller usb list查看,再尝试serial_comm串口通信。
  9. 都不行 → 建议为其安装专用的MCP Server或编写自定义脚本进行集成。

至此,新版System Controller的完整面貌就清晰了。可以说,核心升级点就在于新增的GUI Controller模块。它补齐了视觉识别和鼠标键盘模拟这一层能力,让整个技能从原先的“系统级控制”,真正扩展到了“界面级操作”,实用性得到了质的飞跃。

菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。

展开
地下城炼金术士PC
地下城炼金术士PC
类型:策略战棋 运营状态:公测 语言:简体中文
前往下载

相关文章

更多>>

热门游戏

更多>>