其他资讯 AI语音

OpenAI语音黑客松四强榜单：断指外科医生与AI家教

2026-06-02

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

OpenAI 近日公布了其语音黑客松的四个入围项目，当前正处于公开投票环节。四个入选项目

OpenAI 近日公布了其语音黑客松的四个入围项目，当前正处于公开投票环节。

四个入选项目

这场黑客松由 OpenAI 联合 Cerebral Valley 在旧金山主办。5 月 27 日，参与者携带自研语音 Agent 原型在 OpenAI 总部现场演示。OpenAI 产品和工程团队全程提供技术支持，唯一硬性要求：必须调用 Realtime Voice API。

与上月 Claude 黑客松持续一周的赛程不同，本次活动采用 demo showcase 形式，参与者现场打磨并展示已有原型。

四个项目分别来自截然不同的领域，最终入围。

核心共性：开发即用户，痛点即产品。

一位手外科医生，每台手术被转诊电话打断三到四次，用 AI 替他接听；
一位开发者，立志解决 1984 年便已被揭示的教学困局；
三人团队搭建虚拟会议室，让 DevOps 与 CFO 在内部“对质”；
最后一位，试图让手机上的所有 App 彻底消失。

以下逐一拆解，或许能触发新的思路。

手术室来电拦截

Surgical Triage 的构建者 Brian Pridgen，是旧金山 The Buncke Clinic 的手外科与显微外科医生，专攻断指再植（光听就疼……）。预警：下文包含断指图片，请做好心理准备。

他自称“非技术背景”。

Surgical Triage 空白仪表盘界面

他在演示视频中还原了日常困境：

“我正给患者接回拇指时，手机响了。200 英里外的急诊医生打来，又一名患者刚断指，需立即评估。我只好暂停手术，消毒出来接电话，连珠炮般问 20 个问题：受伤机制、既往病史、用药情况、断指保存方式。一半情况下急诊那边信息不齐，我还得等他们查完再回拨。”

这种电话每天三到四通。每次离开手术台，当前患者就得多承受一段麻醉时间。

Surgical Triage 的核心方案：AI 代接转诊电话。

系统利用 OpenAI Realtime Voice API 与急诊医生进行自然语言对话，逐项收集受伤细节、病史和用药信息。但它远不止提问——还能分析影像。

急诊团队上传的照片和 X 光片，AI 实时解读。若影像不清晰或角度欠缺，会当场要求补充拍摄视图。

Surgical Triage 正在审阅影像

一个关键细节：AI 会对照外科医生预设的个人临床标准（存储在名为“skill files”的知识库中）。例如，断指必须用生理盐水浸湿的纱布包裹，密封后放入冰袋，绝不能直接贴冰，否则造成冻伤。当 AI 发现急诊团队操作不当，会实时纠正。

通话结束时，系统自动生成一份完整的转诊文件包：伤情摘要、影像分析、临床标准核查清单。外科医生待有空时审阅即可，无需电话一响便中断手术。

Surgical Triage 转诊通过界面

一旦接受转诊，Agent 还能自动联系手术室前台排期。

“这一方案的目标是保护正在进行的操作，同时确保下一位患者从第一通电话起就获得正确处置。从电话响起到手术排定，整个过程无人需要离开手术台。”

技术层面，Surgical Triage 使用了 OpenAI 5 月 8 日发布的 GPT-Realtime-2 模型，是四个项目中唯一融合多模态能力的：语音对话 + 医学影像分析。全流程可拆解为：语音问诊 → 影像上传与实时分析 → 基于 skill files 的临床标准核查 → 转诊文件包生成 → 手术室调度。各步骤在对话进行中同步推进。

Surgical Triage 工作流程图

有趣的是，Brian 在 2023 年就试图构建类似系统，当时用 Whisper 做语音识别、Twilio 搭 IVR，东拼西凑。他回忆：“2023 年春天我试过 vibe coding，Whisper、手写 IVR、Twilio……现在，它直接就能跑了。”

从三年前的半成品到今天 6 小时跑通全流程，这正是语音与 AI 过去三年进步的最直接写照。

Brian 也坦诚指出了演示的不足：系统未能在对话中途捕捉患者姓名的切换，也未发现 X 光片与口头描述之间一处手指位置的不匹配。他自己的手术直觉会卡住这些漏洞，但 AI 目前还做不到。

这是四个项目中最让人感慨“怎么到现在才出现”的一个：一位自称“非技术人员”的外科医生，凭借 Codex 写出了一个能替他接电话的 AI。

Bloom 遗留的难题

Curo 是 Ansh Chopra 打造的 AI 物理教师，专注少儿教育。

Curo 欢迎页面

Ansh 此前做过交互式语音教育产品，用户超 100 万。他也参与过开源 AI 可穿戴设备 Omi（GitHub 12,000+ 星），目前常驻旧金山 South Park Commons。

他在视频开头引用了教育学的经典发现。1984 年，教育心理学家 Benjamin Bloom 的研究表明：接受一对一辅导的学生，成绩比传统课堂学生高出两个标准差。这意味着什么？一个普通学生，经一对一辅导后，成绩可跃升至班级前 2%。

Bloom 本人也指出了这个悖论：我们明知一对一辅导效果惊人，却无法为每个孩子配备一位家教。这一发现后来被称为“Bloom 的 2-sigma 问题”。40 年过去，问题仍未解决。

Bloom 2-sigma 问题图示

Curo 的使命正是：为每个孩子提供一个耐心、永不疲倦的 AI 家教。

Ansh 在视频中这样定义 Curo 的定位：像皮克斯动画般的学习体验。与市面上多数 AI 教育产品不同，Curo 采用语音交互。它的虚拟形象是一只蓝绿色小熊，亲切无害。它不会直接递送答案，而是效仿苏格拉底式提问，引导孩子自行推导。

例如这段对话：

“Curo，能教我重力吗？”
“当然。先从简单的开始：如果我同时扔下一颗球和一片羽毛，哪个先落地？”
“球吧。”
“没错，但为什么？想想看，球和地面之间有什么东西可能让它减速？”
“嗯……空气？”
“对了！空气阻力。”

接着 Curo 用 GPT-image-2 实时生成简笔画，展示空气阻力如何影响球和羽毛的下落轨迹。这幅图会出现在共享白板上。

Curo 实时对话界面

孩子可以在白板上写下自己的答案，Curo 能看到并回应。这一点至关重要。大多数 AI 教育产品是单向的：AI 讲，学生听。Curo 加入白板后，对话变成真正的双向互动。孩子写什么，AI 都能识别，能针对写的内容做出引导——就像真实的一对一辅导：老师提问、学生回答、老师看透思路后再推进，而非 AI 念一段课本、学生点“下一步”。

技术栈方面，Curo 同时使用了四样东西：OpenAI Realtime Voice API 进行语音对话，GPT-image-2 实时生成概念图，KaTeX 渲染数学公式，整个项目借助 Codex（OpenAI 的编程 Agent）从头搭建。Ansh 写道：“我小时候没有过一对一辅导的条件。所以我希望为接下来的 10 亿个孩子解决这个问题。”

DevOps 硬怼 CFO

Wagner 由三人团队打造：Yeferson Pena、Jhon Enciso 和 Steve Suarez。

Wagner 多 Agent 会议室

Wagner 本身是一家创业公司，官网定位是：“第一个 AI DevOps 队友”。他们已经推出能自动生成架构图、用自然语言查询基础设施的 DevOps 产品，支持 AWS、GCP、Terraform、Kubernetes 等 20 余种工具集成。GitHub 上的 WagnerAgent 组织下，awesome-mcp-servers-devops 仓库已获 95 颗星。

本次黑客松，他们将已有 DevOps 能力延伸至语音场景，做了一个更具想象力的尝试。

设想这样一个场景：公司计划大规模基础设施迁移，你想把 DevOps 负责人和 CFO 关在同一间会议室，让他们吵清楚方案再决定是否拨款。Wagner 就是这间会议室——只不过 DevOps 和 CFO 都是 AI。

演示中，用户提问：“我在考虑将单体应用迁移到 Kubernetes，你们怎么看？”

DevOps Agent 先开口：“从技术角度看，这是正确的方向。Kubernetes 提供水平扩展、自动回滚和更好的资源利用率。但需要提醒一点：迁移大约需要 3 到 4 个月的工程时间。”

紧接着 CFO Agent 插话：“等等，我们先看数字。”屏幕实时弹出一张预算可视化图表。“目前基础设施每月支出约 15,000 美元。Kubernetes 长期可节省 40%，但迁移本身需要约 18 万美元的工程工时。”

Wagner 预算明细界面

用户继续追问：“那……Serverless 呢？”两个 Agent 再次交锋。DevOps 说：Serverless 对部分服务可用，但主应用有长时间运行进程，会触及超时限制，冷启动也会影响用户体验。CFO 反击：但 Serverless 能将前期迁移成本砍掉 60%。

两个 Agent，各有专业知识和利益立场，实时辩论，帮你压力测试每个决策。

技术上，Wagner 使用 OpenAI Realtime API 实现多 Agent 语音交互。两个 Agent 拥有独立的角色设定和领域上下文，通过 tool calling 动态生成可视化内容：DevOps 拉出架构图，CFO 渲染预算分解表。

Wagner 的产品思路在于：传统 AI 助手是一个角色回答你的问题，但现实中的决策往往需要多视角碰撞。Wagner 做的事就是——把“一个全知全能的 AI”拆成“两个各有偏见的 AI”，让它们在用户面前争论。就像真实会议室一样，最佳决策往往来自不同立场的人把问题吵明白，而非某一个人拍板。

无 App 的手机

接下来的项目叫 Agentic OS for a Phone。作者 Isa Usmanov，慕尼黑工业大学出身的连续创业者。他之前做过 AI 邮箱和日历助手 Liam，已有真实用户。

Agentic OS 日历界面

这是四个项目中唯一一个在黑客松当天现场从零开始做的。他将其称为“The Next Phone”，核心思想是：你不应该去找 App，App 应该来找你。

你对手机说“看看日程”，日历界面凭空出现；说“我要订去纽约的机票”，航班选项直接弹出，通过语音即可下单；说“收件箱有什么”，邮件列表应声而出，直接语音回复。没有主屏幕，没有 App 抽屉，也没有滑来滑去找图标的手动操作。每个界面都是实时生成，为当前需求量身定制。

这一概念，Rabbit R1、Humane AI Pin 都曾尝试过，想做“AI 优先的设备”。不同的是，这些项目选择做新硬件，结果都不太顺利。Isa 的思路不同：不做新硬件，而是在现有手机上叠加一层新软件。

架构方面，手机本地运行一个轻量模型，负责将语音意图转化为 UI；云端 GPT Realtime 模型负责对话理解和推理。本地生成界面，云端负责思考，双方协同。

Agentic OS 架构图

他在演示中说道：“UI 就是系统本身。这部手机除了这个系统之外，没有任何其他操作系统。”从零搭建到这种完成度，确实出色——日历、航班、邮件、天气、提醒几个场景均能跑通。

Agentic OS 航班搜索界面

当然，从 demo 到产品仍有不短距离。有评论提到：“语音演示在 6 小时内总是惊艳。真正的考验是第 600 轮对话，延迟升高，Agent 忘了你两轮前说过的话。把这个做好了才算真产品。”话虽如此，这个方向值得继续深耕。

暂未开源

与上月 Anthropic 的 Claude 黑客松形成对比：Claude 黑客松六个获奖项目大部分已在 GitHub 开源，而本次 OpenAI 语音黑客松的四个项目，目前均未公开源代码。

在 Cerebral Valley 的展示页面中找不到相关 GitHub 链接，搜索也未见对应仓库。可能原因：本次是 demo showcase 形式，参与者带着原型现场打磨，代码尚未达到公开发布状态。Surgical Triage 涉及医疗临床流程，开源需额外合规考量。活动刚结束几天，后续或有变化。

你也可以做

不过，开源与否或许并非关键，思路才是核心。四个项目的共同基础是 OpenAI Realtime Voice API，然后各自向不同方向延伸。Surgical Triage 加上视觉能力（分析 X 光与照片），Curo 加上 GPT-image-2（实时概念图），Wagner 加上多 Agent 协调和 tool calling（动态图表），Agentic OS 加上动态 UI 生成。核心都是语音，区别在于语音之后连接了什么。

四个项目技术栈对比

若你想自己动手构建一个语音 Agent，入门门槛已极低。Realtime Voice API 已向开发者开放，支持低延迟双向语音对话、function calling 和中断恢复。四个 demo 视频均可在 YouTube 找到，从中可参考具体实现思路。

另外，本次黑客松仍在投票阶段。OpenAI 表示将在周一公布获胜者。四个项目的展示页面在 Cerebral Valley 网站上，每个项目都可投票。

两场黑客松放在一起看——一场来自 Anthropic，一场来自 OpenAI——趋势清晰：最好的 AI 工具，往往来自最了解痛点的人。一位手外科医生做出了最佳手术转诊系统，因为他每天都被电话打断。一位关注 Bloom 2-sigma 问题的人做出了最佳 AI 家教，因为他深知一对一辅导的意义。模型就在那里，API 也在那里，你也一样可以。

关键问题在于：谁最清楚该拿它做什么。

启示则是：若你不知道做什么，就多深入一线，感受现场，投入生活。多思考观察，倾听他人反馈，体悟他人的喜怒哀乐，自然就知道要做什么。然后大胆尝试，尤其是那些你从前不敢想的想法，交给 AI 去实现。

来源：互联网

上一篇 苹果照片备份推荐：3种靠谱方法实测对比 下一篇 iPad更新后数据丢失？4种实用恢复方法推荐

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。