菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > OpenAI语音黑客松四强榜单:断指外科医生与AI家教
其他资讯 AI语音

OpenAI语音黑客松四强榜单:断指外科医生与AI家教

2026-06-02
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

OpenAI 近日公布了其语音黑客松的四个入围项目,当前正处于公开投票环节。 四个入选项目

OpenAI 近日公布了其语音黑客松的四个入围项目,当前正处于公开投票环节。

四个入选项目

这场黑客松由 OpenAI 联合 Cerebral Valley 在旧金山主办。5 月 27 日,参与者携带自研语音 Agent 原型在 OpenAI 总部现场演示。OpenAI 产品和工程团队全程提供技术支持,唯一硬性要求:必须调用 Realtime Voice API。

与上月 Claude 黑客松持续一周的赛程不同,本次活动采用 demo showcase 形式,参与者现场打磨并展示已有原型。

四个项目分别来自截然不同的领域,最终入围。

核心共性:开发即用户,痛点即产品。

  • 一位手外科医生,每台手术被转诊电话打断三到四次,用 AI 替他接听;
  • 一位开发者,立志解决 1984 年便已被揭示的教学困局;
  • 三人团队搭建虚拟会议室,让 DevOps 与 CFO 在内部“对质”;
  • 最后一位,试图让手机上的所有 App 彻底消失。

以下逐一拆解,或许能触发新的思路。

手术室来电拦截

Surgical Triage 的构建者 Brian Pridgen,是旧金山 The Buncke Clinic 的手外科与显微外科医生,专攻断指再植(光听就疼……)。预警:下文包含断指图片,请做好心理准备。

他自称“非技术背景”。

Surgical Triage 空白仪表盘界面

他在演示视频中还原了日常困境:

“我正给患者接回拇指时,手机响了。200 英里外的急诊医生打来,又一名患者刚断指,需立即评估。我只好暂停手术,消毒出来接电话,连珠炮般问 20 个问题:受伤机制、既往病史、用药情况、断指保存方式。一半情况下急诊那边信息不齐,我还得等他们查完再回拨。”

这种电话每天三到四通。每次离开手术台,当前患者就得多承受一段麻醉时间。

Surgical Triage 的核心方案:AI 代接转诊电话。

系统利用 OpenAI Realtime Voice API 与急诊医生进行自然语言对话,逐项收集受伤细节、病史和用药信息。但它远不止提问——还能分析影像。

急诊团队上传的照片和 X 光片,AI 实时解读。若影像不清晰或角度欠缺,会当场要求补充拍摄视图。

Surgical Triage 正在审阅影像

一个关键细节:AI 会对照外科医生预设的个人临床标准(存储在名为“skill files”的知识库中)。例如,断指必须用生理盐水浸湿的纱布包裹,密封后放入冰袋,绝不能直接贴冰,否则造成冻伤。当 AI 发现急诊团队操作不当,会实时纠正。

通话结束时,系统自动生成一份完整的转诊文件包:伤情摘要、影像分析、临床标准核查清单。外科医生待有空时审阅即可,无需电话一响便中断手术。

Surgical Triage 转诊通过界面

一旦接受转诊,Agent 还能自动联系手术室前台排期。

“这一方案的目标是保护正在进行的操作,同时确保下一位患者从第一通电话起就获得正确处置。从电话响起到手术排定,整个过程无人需要离开手术台。

技术层面,Surgical Triage 使用了 OpenAI 5 月 8 日发布的 GPT-Realtime-2 模型,是四个项目中唯一融合多模态能力的:语音对话 + 医学影像分析。全流程可拆解为:语音问诊 → 影像上传与实时分析 → 基于 skill files 的临床标准核查 → 转诊文件包生成 → 手术室调度。各步骤在对话进行中同步推进。

Surgical Triage 工作流程图

有趣的是,Brian 在 2023 年就试图构建类似系统,当时用 Whisper 做语音识别、Twilio 搭 IVR,东拼西凑。他回忆:“2023 年春天我试过 vibe coding,Whisper、手写 IVR、Twilio……现在,它直接就能跑了。”

从三年前的半成品到今天 6 小时跑通全流程,这正是语音与 AI 过去三年进步的最直接写照。

Brian 也坦诚指出了演示的不足:系统未能在对话中途捕捉患者姓名的切换,也未发现 X 光片与口头描述之间一处手指位置的不匹配。他自己的手术直觉会卡住这些漏洞,但 AI 目前还做不到。

这是四个项目中最让人感慨“怎么到现在才出现”的一个:一位自称“非技术人员”的外科医生,凭借 Codex 写出了一个能替他接电话的 AI。

Bloom 遗留的难题

Curo 是 Ansh Chopra 打造的 AI 物理教师,专注少儿教育。

Curo 欢迎页面

Ansh 此前做过交互式语音教育产品,用户超 100 万。他也参与过开源 AI 可穿戴设备 Omi(GitHub 12,000+ 星),目前常驻旧金山 South Park Commons。

他在视频开头引用了教育学的经典发现。1984 年,教育心理学家 Benjamin Bloom 的研究表明:接受一对一辅导的学生,成绩比传统课堂学生高出两个标准差。这意味着什么?一个普通学生,经一对一辅导后,成绩可跃升至班级前 2%。

Bloom 本人也指出了这个悖论:我们明知一对一辅导效果惊人,却无法为每个孩子配备一位家教。这一发现后来被称为“Bloom 的 2-sigma 问题”。40 年过去,问题仍未解决。

Bloom 2-sigma 问题图示

Curo 的使命正是:为每个孩子提供一个耐心、永不疲倦的 AI 家教。

Ansh 在视频中这样定义 Curo 的定位:像皮克斯动画般的学习体验。与市面上多数 AI 教育产品不同,Curo 采用语音交互。它的虚拟形象是一只蓝绿色小熊,亲切无害。它不会直接递送答案,而是效仿苏格拉底式提问,引导孩子自行推导。

例如这段对话:

“Curo,能教我重力吗?”
“当然。先从简单的开始:如果我同时扔下一颗球和一片羽毛,哪个先落地?”
“球吧。”
“没错,但为什么?想想看,球和地面之间有什么东西可能让它减速?”
“嗯……空气?”
“对了!空气阻力。”

接着 Curo 用 GPT-image-2 实时生成简笔画,展示空气阻力如何影响球和羽毛的下落轨迹。这幅图会出现在共享白板上。

Curo 实时对话界面

孩子可以在白板上写下自己的答案,Curo 能看到并回应。这一点至关重要。大多数 AI 教育产品是单向的:AI 讲,学生听。Curo 加入白板后,对话变成真正的双向互动。孩子写什么,AI 都能识别,能针对写的内容做出引导——就像真实的一对一辅导:老师提问、学生回答、老师看透思路后再推进,而非 AI 念一段课本、学生点“下一步”。

技术栈方面,Curo 同时使用了四样东西:OpenAI Realtime Voice API 进行语音对话,GPT-image-2 实时生成概念图,KaTeX 渲染数学公式,整个项目借助 Codex(OpenAI 的编程 Agent)从头搭建。Ansh 写道:“我小时候没有过一对一辅导的条件。所以我希望为接下来的 10 亿个孩子解决这个问题。”

DevOps 硬怼 CFO

Wagner 由三人团队打造:Yeferson Pena、Jhon Enciso 和 Steve Suarez。

Wagner 多 Agent 会议室

Wagner 本身是一家创业公司,官网定位是:“第一个 AI DevOps 队友”。他们已经推出能自动生成架构图、用自然语言查询基础设施的 DevOps 产品,支持 AWS、GCP、Terraform、Kubernetes 等 20 余种工具集成。GitHub 上的 WagnerAgent 组织下,awesome-mcp-servers-devops 仓库已获 95 颗星。

本次黑客松,他们将已有 DevOps 能力延伸至语音场景,做了一个更具想象力的尝试。

设想这样一个场景:公司计划大规模基础设施迁移,你想把 DevOps 负责人和 CFO 关在同一间会议室,让他们吵清楚方案再决定是否拨款。Wagner 就是这间会议室——只不过 DevOps 和 CFO 都是 AI。

演示中,用户提问:“我在考虑将单体应用迁移到 Kubernetes,你们怎么看?”

DevOps Agent 先开口:“从技术角度看,这是正确的方向。Kubernetes 提供水平扩展、自动回滚和更好的资源利用率。但需要提醒一点:迁移大约需要 3 到 4 个月的工程时间。”

紧接着 CFO Agent 插话:“等等,我们先看数字。”屏幕实时弹出一张预算可视化图表。“目前基础设施每月支出约 15,000 美元。Kubernetes 长期可节省 40%,但迁移本身需要约 18 万美元的工程工时。”

Wagner 预算明细界面

用户继续追问:“那……Serverless 呢?”两个 Agent 再次交锋。DevOps 说:Serverless 对部分服务可用,但主应用有长时间运行进程,会触及超时限制,冷启动也会影响用户体验。CFO 反击:但 Serverless 能将前期迁移成本砍掉 60%。

两个 Agent,各有专业知识和利益立场,实时辩论,帮你压力测试每个决策。

技术上,Wagner 使用 OpenAI Realtime API 实现多 Agent 语音交互。两个 Agent 拥有独立的角色设定和领域上下文,通过 tool calling 动态生成可视化内容:DevOps 拉出架构图,CFO 渲染预算分解表。

Wagner 的产品思路在于:传统 AI 助手是一个角色回答你的问题,但现实中的决策往往需要多视角碰撞。Wagner 做的事就是——把“一个全知全能的 AI”拆成“两个各有偏见的 AI”,让它们在用户面前争论。就像真实会议室一样,最佳决策往往来自不同立场的人把问题吵明白,而非某一个人拍板。

无 App 的手机

接下来的项目叫 Agentic OS for a Phone。作者 Isa Usmanov,慕尼黑工业大学出身的连续创业者。他之前做过 AI 邮箱和日历助手 Liam,已有真实用户。

Agentic OS 日历界面

这是四个项目中唯一一个在黑客松当天现场从零开始做的。他将其称为“The Next Phone”,核心思想是:你不应该去找 App,App 应该来找你。

你对手机说“看看日程”,日历界面凭空出现;说“我要订去纽约的机票”,航班选项直接弹出,通过语音即可下单;说“收件箱有什么”,邮件列表应声而出,直接语音回复。没有主屏幕,没有 App 抽屉,也没有滑来滑去找图标的手动操作。每个界面都是实时生成,为当前需求量身定制。

这一概念,Rabbit R1、Humane AI Pin 都曾尝试过,想做“AI 优先的设备”。不同的是,这些项目选择做新硬件,结果都不太顺利。Isa 的思路不同:不做新硬件,而是在现有手机上叠加一层新软件。

架构方面,手机本地运行一个轻量模型,负责将语音意图转化为 UI;云端 GPT Realtime 模型负责对话理解和推理。本地生成界面,云端负责思考,双方协同。

Agentic OS 架构图

他在演示中说道:“UI 就是系统本身。这部手机除了这个系统之外,没有任何其他操作系统。”从零搭建到这种完成度,确实出色——日历、航班、邮件、天气、提醒几个场景均能跑通。

Agentic OS 航班搜索界面

当然,从 demo 到产品仍有不短距离。有评论提到:“语音演示在 6 小时内总是惊艳。真正的考验是第 600 轮对话,延迟升高,Agent 忘了你两轮前说过的话。把这个做好了才算真产品。”话虽如此,这个方向值得继续深耕。

暂未开源

与上月 Anthropic 的 Claude 黑客松形成对比:Claude 黑客松六个获奖项目大部分已在 GitHub 开源,而本次 OpenAI 语音黑客松的四个项目,目前均未公开源代码

在 Cerebral Valley 的展示页面中找不到相关 GitHub 链接,搜索也未见对应仓库。可能原因:本次是 demo showcase 形式,参与者带着原型现场打磨,代码尚未达到公开发布状态。Surgical Triage 涉及医疗临床流程,开源需额外合规考量。活动刚结束几天,后续或有变化。

你也可以做

不过,开源与否或许并非关键,思路才是核心。四个项目的共同基础是 OpenAI Realtime Voice API,然后各自向不同方向延伸。Surgical Triage 加上视觉能力(分析 X 光与照片),Curo 加上 GPT-image-2(实时概念图),Wagner 加上多 Agent 协调和 tool calling(动态图表),Agentic OS 加上动态 UI 生成。核心都是语音,区别在于语音之后连接了什么。

四个项目技术栈对比

若你想自己动手构建一个语音 Agent,入门门槛已极低。Realtime Voice API 已向开发者开放,支持低延迟双向语音对话、function calling 和中断恢复。四个 demo 视频均可在 YouTube 找到,从中可参考具体实现思路。

另外,本次黑客松仍在投票阶段。OpenAI 表示将在周一公布获胜者。四个项目的展示页面在 Cerebral Valley 网站上,每个项目都可投票。

两场黑客松放在一起看——一场来自 Anthropic,一场来自 OpenAI——趋势清晰:最好的 AI 工具,往往来自最了解痛点的人。一位手外科医生做出了最佳手术转诊系统,因为他每天都被电话打断。一位关注 Bloom 2-sigma 问题的人做出了最佳 AI 家教,因为他深知一对一辅导的意义。模型就在那里,API 也在那里,你也一样可以。

关键问题在于:谁最清楚该拿它做什么。

启示则是:若你不知道做什么,就多深入一线,感受现场,投入生活。多思考观察,倾听他人反馈,体悟他人的喜怒哀乐,自然就知道要做什么。然后大胆尝试,尤其是那些你从前不敢想的想法,交给 AI 去实现。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多