OpenAI语音黑客松四强榜单:断指外科医生与AI家教
摘要
OpenAI 近日公布了其语音黑客松的四个入围项目,当前正处于公开投票环节。 四个入选项目
OpenAI 近日公布了其语音黑客松的四个入围项目,当前正处于公开投票环节。

四个入选项目
这场黑客松由 OpenAI 联合 Cerebral Valley 在旧金山主办。5 月 27 日,参与者携带自研语音 Agent 原型在 OpenAI 总部现场演示。OpenAI 产品和工程团队全程提供技术支持,唯一硬性要求:必须调用 Realtime Voice API。
与上月 Claude 黑客松持续一周的赛程不同,本次活动采用 demo showcase 形式,参与者现场打磨并展示已有原型。
四个项目分别来自截然不同的领域,最终入围。
核心共性:开发即用户,痛点即产品。
- 一位手外科医生,每台手术被转诊电话打断三到四次,用 AI 替他接听;
- 一位开发者,立志解决 1984 年便已被揭示的教学困局;
- 三人团队搭建虚拟会议室,让 DevOps 与 CFO 在内部“对质”;
- 最后一位,试图让手机上的所有 App 彻底消失。
以下逐一拆解,或许能触发新的思路。
手术室来电拦截
Surgical Triage 的构建者 Brian Pridgen,是旧金山 The Buncke Clinic 的手外科与显微外科医生,专攻断指再植(光听就疼……)。预警:下文包含断指图片,请做好心理准备。
他自称“非技术背景”。

Surgical Triage 空白仪表盘界面
他在演示视频中还原了日常困境:
“我正给患者接回拇指时,手机响了。200 英里外的急诊医生打来,又一名患者刚断指,需立即评估。我只好暂停手术,消毒出来接电话,连珠炮般问 20 个问题:受伤机制、既往病史、用药情况、断指保存方式。一半情况下急诊那边信息不齐,我还得等他们查完再回拨。”
这种电话每天三到四通。每次离开手术台,当前患者就得多承受一段麻醉时间。
Surgical Triage 的核心方案:AI 代接转诊电话。
系统利用 OpenAI Realtime Voice API 与急诊医生进行自然语言对话,逐项收集受伤细节、病史和用药信息。但它远不止提问——还能分析影像。
急诊团队上传的照片和 X 光片,AI 实时解读。若影像不清晰或角度欠缺,会当场要求补充拍摄视图。

Surgical Triage 正在审阅影像
一个关键细节:AI 会对照外科医生预设的个人临床标准(存储在名为“skill files”的知识库中)。例如,断指必须用生理盐水浸湿的纱布包裹,密封后放入冰袋,绝不能直接贴冰,否则造成冻伤。当 AI 发现急诊团队操作不当,会实时纠正。
通话结束时,系统自动生成一份完整的转诊文件包:伤情摘要、影像分析、临床标准核查清单。外科医生待有空时审阅即可,无需电话一响便中断手术。

Surgical Triage 转诊通过界面
一旦接受转诊,Agent 还能自动联系手术室前台排期。
“这一方案的目标是保护正在进行的操作,同时确保下一位患者从第一通电话起就获得正确处置。从电话响起到手术排定,整个过程无人需要离开手术台。”
技术层面,Surgical Triage 使用了 OpenAI 5 月 8 日发布的 GPT-Realtime-2 模型,是四个项目中唯一融合多模态能力的:语音对话 + 医学影像分析。全流程可拆解为:语音问诊 → 影像上传与实时分析 → 基于 skill files 的临床标准核查 → 转诊文件包生成 → 手术室调度。各步骤在对话进行中同步推进。

Surgical Triage 工作流程图
有趣的是,Brian 在 2023 年就试图构建类似系统,当时用 Whisper 做语音识别、Twilio 搭 IVR,东拼西凑。他回忆:“2023 年春天我试过 vibe coding,Whisper、手写 IVR、Twilio……现在,它直接就能跑了。”
从三年前的半成品到今天 6 小时跑通全流程,这正是语音与 AI 过去三年进步的最直接写照。
Brian 也坦诚指出了演示的不足:系统未能在对话中途捕捉患者姓名的切换,也未发现 X 光片与口头描述之间一处手指位置的不匹配。他自己的手术直觉会卡住这些漏洞,但 AI 目前还做不到。
这是四个项目中最让人感慨“怎么到现在才出现”的一个:一位自称“非技术人员”的外科医生,凭借 Codex 写出了一个能替他接电话的 AI。
Bloom 遗留的难题
Curo 是 Ansh Chopra 打造的 AI 物理教师,专注少儿教育。

Curo 欢迎页面
Ansh 此前做过交互式语音教育产品,用户超 100 万。他也参与过开源 AI 可穿戴设备 Omi(GitHub 12,000+ 星),目前常驻旧金山 South Park Commons。
他在视频开头引用了教育学的经典发现。1984 年,教育心理学家 Benjamin Bloom 的研究表明:接受一对一辅导的学生,成绩比传统课堂学生高出两个标准差。这意味着什么?一个普通学生,经一对一辅导后,成绩可跃升至班级前 2%。
Bloom 本人也指出了这个悖论:我们明知一对一辅导效果惊人,却无法为每个孩子配备一位家教。这一发现后来被称为“Bloom 的 2-sigma 问题”。40 年过去,问题仍未解决。

Bloom 2-sigma 问题图示
Curo 的使命正是:为每个孩子提供一个耐心、永不疲倦的 AI 家教。
Ansh 在视频中这样定义 Curo 的定位:像皮克斯动画般的学习体验。与市面上多数 AI 教育产品不同,Curo 采用语音交互。它的虚拟形象是一只蓝绿色小熊,亲切无害。它不会直接递送答案,而是效仿苏格拉底式提问,引导孩子自行推导。
例如这段对话:
“Curo,能教我重力吗?”
“当然。先从简单的开始:如果我同时扔下一颗球和一片羽毛,哪个先落地?”
“球吧。”
“没错,但为什么?想想看,球和地面之间有什么东西可能让它减速?”
“嗯……空气?”
“对了!空气阻力。”
接着 Curo 用 GPT-image-2 实时生成简笔画,展示空气阻力如何影响球和羽毛的下落轨迹。这幅图会出现在共享白板上。

Curo 实时对话界面
孩子可以在白板上写下自己的答案,Curo 能看到并回应。这一点至关重要。大多数 AI 教育产品是单向的:AI 讲,学生听。Curo 加入白板后,对话变成真正的双向互动。孩子写什么,AI 都能识别,能针对写的内容做出引导——就像真实的一对一辅导:老师提问、学生回答、老师看透思路后再推进,而非 AI 念一段课本、学生点“下一步”。
技术栈方面,Curo 同时使用了四样东西:OpenAI Realtime Voice API 进行语音对话,GPT-image-2 实时生成概念图,KaTeX 渲染数学公式,整个项目借助 Codex(OpenAI 的编程 Agent)从头搭建。Ansh 写道:“我小时候没有过一对一辅导的条件。所以我希望为接下来的 10 亿个孩子解决这个问题。”
DevOps 硬怼 CFO
Wagner 由三人团队打造:Yeferson Pena、Jhon Enciso 和 Steve Suarez。

Wagner 多 Agent 会议室
Wagner 本身是一家创业公司,官网定位是:“第一个 AI DevOps 队友”。他们已经推出能自动生成架构图、用自然语言查询基础设施的 DevOps 产品,支持 AWS、GCP、Terraform、Kubernetes 等 20 余种工具集成。GitHub 上的 WagnerAgent 组织下,awesome-mcp-servers-devops 仓库已获 95 颗星。
本次黑客松,他们将已有 DevOps 能力延伸至语音场景,做了一个更具想象力的尝试。
设想这样一个场景:公司计划大规模基础设施迁移,你想把 DevOps 负责人和 CFO 关在同一间会议室,让他们吵清楚方案再决定是否拨款。Wagner 就是这间会议室——只不过 DevOps 和 CFO 都是 AI。
演示中,用户提问:“我在考虑将单体应用迁移到 Kubernetes,你们怎么看?”
DevOps Agent 先开口:“从技术角度看,这是正确的方向。Kubernetes 提供水平扩展、自动回滚和更好的资源利用率。但需要提醒一点:迁移大约需要 3 到 4 个月的工程时间。”
紧接着 CFO Agent 插话:“等等,我们先看数字。”屏幕实时弹出一张预算可视化图表。“目前基础设施每月支出约 15,000 美元。Kubernetes 长期可节省 40%,但迁移本身需要约 18 万美元的工程工时。”

Wagner 预算明细界面
用户继续追问:“那……Serverless 呢?”两个 Agent 再次交锋。DevOps 说:Serverless 对部分服务可用,但主应用有长时间运行进程,会触及超时限制,冷启动也会影响用户体验。CFO 反击:但 Serverless 能将前期迁移成本砍掉 60%。
两个 Agent,各有专业知识和利益立场,实时辩论,帮你压力测试每个决策。

技术上,Wagner 使用 OpenAI Realtime API 实现多 Agent 语音交互。两个 Agent 拥有独立的角色设定和领域上下文,通过 tool calling 动态生成可视化内容:DevOps 拉出架构图,CFO 渲染预算分解表。
Wagner 的产品思路在于:传统 AI 助手是一个角色回答你的问题,但现实中的决策往往需要多视角碰撞。Wagner 做的事就是——把“一个全知全能的 AI”拆成“两个各有偏见的 AI”,让它们在用户面前争论。就像真实会议室一样,最佳决策往往来自不同立场的人把问题吵明白,而非某一个人拍板。
无 App 的手机
接下来的项目叫 Agentic OS for a Phone。作者 Isa Usmanov,慕尼黑工业大学出身的连续创业者。他之前做过 AI 邮箱和日历助手 Liam,已有真实用户。

Agentic OS 日历界面
这是四个项目中唯一一个在黑客松当天现场从零开始做的。他将其称为“The Next Phone”,核心思想是:你不应该去找 App,App 应该来找你。
你对手机说“看看日程”,日历界面凭空出现;说“我要订去纽约的机票”,航班选项直接弹出,通过语音即可下单;说“收件箱有什么”,邮件列表应声而出,直接语音回复。没有主屏幕,没有 App 抽屉,也没有滑来滑去找图标的手动操作。每个界面都是实时生成,为当前需求量身定制。
这一概念,Rabbit R1、Humane AI Pin 都曾尝试过,想做“AI 优先的设备”。不同的是,这些项目选择做新硬件,结果都不太顺利。Isa 的思路不同:不做新硬件,而是在现有手机上叠加一层新软件。
架构方面,手机本地运行一个轻量模型,负责将语音意图转化为 UI;云端 GPT Realtime 模型负责对话理解和推理。本地生成界面,云端负责思考,双方协同。

Agentic OS 架构图
他在演示中说道:“UI 就是系统本身。这部手机除了这个系统之外,没有任何其他操作系统。”从零搭建到这种完成度,确实出色——日历、航班、邮件、天气、提醒几个场景均能跑通。

Agentic OS 航班搜索界面
当然,从 demo 到产品仍有不短距离。有评论提到:“语音演示在 6 小时内总是惊艳。真正的考验是第 600 轮对话,延迟升高,Agent 忘了你两轮前说过的话。把这个做好了才算真产品。”话虽如此,这个方向值得继续深耕。
暂未开源
与上月 Anthropic 的 Claude 黑客松形成对比:Claude 黑客松六个获奖项目大部分已在 GitHub 开源,而本次 OpenAI 语音黑客松的四个项目,目前均未公开源代码。
在 Cerebral Valley 的展示页面中找不到相关 GitHub 链接,搜索也未见对应仓库。可能原因:本次是 demo showcase 形式,参与者带着原型现场打磨,代码尚未达到公开发布状态。Surgical Triage 涉及医疗临床流程,开源需额外合规考量。活动刚结束几天,后续或有变化。
你也可以做
不过,开源与否或许并非关键,思路才是核心。四个项目的共同基础是 OpenAI Realtime Voice API,然后各自向不同方向延伸。Surgical Triage 加上视觉能力(分析 X 光与照片),Curo 加上 GPT-image-2(实时概念图),Wagner 加上多 Agent 协调和 tool calling(动态图表),Agentic OS 加上动态 UI 生成。核心都是语音,区别在于语音之后连接了什么。

四个项目技术栈对比
若你想自己动手构建一个语音 Agent,入门门槛已极低。Realtime Voice API 已向开发者开放,支持低延迟双向语音对话、function calling 和中断恢复。四个 demo 视频均可在 YouTube 找到,从中可参考具体实现思路。
另外,本次黑客松仍在投票阶段。OpenAI 表示将在周一公布获胜者。四个项目的展示页面在 Cerebral Valley 网站上,每个项目都可投票。
两场黑客松放在一起看——一场来自 Anthropic,一场来自 OpenAI——趋势清晰:最好的 AI 工具,往往来自最了解痛点的人。一位手外科医生做出了最佳手术转诊系统,因为他每天都被电话打断。一位关注 Bloom 2-sigma 问题的人做出了最佳 AI 家教,因为他深知一对一辅导的意义。模型就在那里,API 也在那里,你也一样可以。
关键问题在于:谁最清楚该拿它做什么。
启示则是:若你不知道做什么,就多深入一线,感受现场,投入生活。多思考观察,倾听他人反馈,体悟他人的喜怒哀乐,自然就知道要做什么。然后大胆尝试,尤其是那些你从前不敢想的想法,交给 AI 去实现。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。