菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > 专访方昱春:手语识别数据难题的权威破解方案与前沿研究
其他资讯

专访方昱春:手语识别数据难题的权威破解方案与前沿研究

2026-05-16
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

上海大学方昱春教授团队专注于数据驱动的手语识别研究,结合计算机视觉与深度学习技术

在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。近期,我们有幸与上海大学的方昱春教授进行了一次深入交流。方教授在计算机视觉领域深耕多年,近年来将研究重心转向手语识别,致力于用技术架起沟通的桥梁。

她的研究重点,在于利用计算机视觉技术探索手语识别,特别是通过深度学习方法来解析这一复杂而独特的视觉语言。目前,她和团队已经在多模态数据采集、孤立词识别、连续手语识别以及人体姿态建模等四个方向上展开了系统性的工作。

实际上,方教授的学术旅程始于人脸识别。2003年,她在中科院自动化所获得博士学位,随后赴法国国立信息与自动化研究院从事博士后研究,专注于图像检索。2005年加入上海大学后,她的研究视野逐渐拓宽。一个关键的转折点出现在2017年,她协助本校手语语言学专家倪兰教授筹建面向人工智能研究的手语数据库。次年,在上海市科委项目的支持下,她的手语识别研究正式步入轨道。

手语研究对她而言,不仅是技术探索,更是深入理解人类认知智能机制的一扇窗口。她指出,手语作为一种自然语言,尽管其系统化发展的历史相对较短,但它所蕴含的关于语言起源和认知机制的信息是极其宝贵的。

如今,方教授的研究不仅关注理论前沿,更着眼于解决实际问题,旨在为聋人群体在应急、医疗、购物等现实场景中提供切实的数字技术支持。她和团队正在开发的应用程序和小程序,正是这一愿景的具体实践。同时,她也敏锐地观察到,大型语言模型等前沿科技的兴起,正为手语识别研究带来新的机遇与挑战,她的团队也正在积极探索计算机视觉与自然语言处理的融合路径。

计算机视觉学者做起手语识别

问:方教授,您是计算机视觉(CV)出身,手语研究在您的研究工作中所占比重在逐年增加,能具体介绍下您是如何把两者结合起来的吗?

方昱春:简单来说,计算机视觉和手语的结合,形成了“手语识别”这一研究方向。这是一个典型的数据驱动领域,而手语数据的获取和标注本身就相当复杂。我涉足这一领域,契机在于倪兰老师参与的相关科研活动,她希望将人工智能技术应用于手语研究,这促使我开始着手语数据的采集和整体研究规划。

在技术路线上,除了我们采用的基于视觉的方法,历史上也存在基于传感设备(如数据手套)的系统。但随着深度学习在人脸识别等领域的巨大成功,手语识别研究的主流也逐渐转向了机器学习与计算机视觉结合的方向。

目前,我的研究小组正紧跟计算机视觉的主流方法,以深度学习为核心处理手语识别问题。我们已经探索了四个主要方向:多模态数据采集、孤立词识别、连续手语识别,以及人体姿态建模和AI生成技术在手语研究中的应用。

特别是在连续手语识别方面,我们试图建模手语运动的多模态特性,比如头部、面部、双手和躯干之间的空间与运动关系,以实现更深入的理解。随着AIGC技术的发展,我们也开始尝试一些手语的计算生成研究,这部分工作尚处于起步阶段。

问:手语识别这一研究领域过去很少人关注,国内在这方面大致经历了怎样的发展阶段?

方昱春:基于计算机视觉的手语识别研究,其发展历程大约有二十年。真正迎来蓬勃发展,是在深度学习技术成熟之后。近两年,相关研究的规模呈现出快速增长态势。

我个人是在2005年加入上海大学,但直到2017年才开始规划手语研究,2018年正式投入。2017年协助倪兰老师筹备数据建设,对上海大学的手语研究而言是一个重要里程碑。同年,倪兰教授建立了“中国手语及聋人研究中心”,展现了前瞻性的布局。

问:您认为手语识别研究的长远目标是什么?

方昱春:从理论视角看,手语作为一门自然语言,是研究语言发展和人类认知机制的宝贵对象。与历史悠久的文字语言相比,手语系统化发展的历史较短,这反而使其成为观察语言形成与认知互动的独特窗口。我们希望能更深入地理解这些底层机制。

从应用层面来说,目标很明确:解决手语在实际场景中的应用难题。例如,在应急、医疗、购物等关键场景中,为聋人社区提供有效的数字化支持工具。我们正在尝试开发相应的应用程序和小程序,来逐步实现这些目标。

问:手语研究现在是您研究工作的主要部分吗?对您招生方面有何影响?

方昱春:手语研究目前是我主要的科研方向之一,自启动相关项目以来,投入的精力和资源都在持续增加。

在研究生招生方面,我们非常希望吸引具有跨学科背景的学生加入,比如兼具语言学和机器学习知识的人才。但现实中,找到这样的复合型人才确实存在困难。幸运的是,上海大学有倪兰老师这样在手语语言学领域积淀深厚的专家。未来,我们计划合作指导学生,共同培养交叉学科背景的复合型人才,这对学生未来的职业发展无疑具有重要价值。

数据是手语识别研究的最大瓶颈

问:我们近期也专访了研究美国手语的田英利教授。她的团队开发了一套实时手语语法错误识别系统,旨在为学习者提供即时反馈。您在这方面的研究是否有相似之处或存在差异?

方昱春:从个人角度而言,我在手语研究领域还算是一名“新手”。我们实验了从计算机视觉角度研究手语的一些基本方法,这些方法在应用上具有实用潜力,对未来的理论研究也颇有助益。

在与倪老师讨论上海大学未来的手语研究规划时,我们了解到田英利教授的工作,并决定主动联系,促进不同团队之间的交流。尽管研究的手语语种可能不同(如美国手语与中国手语),但背后的技术机理是可以互相借鉴的。通过比较不同手语,反而能相互验证方法的普适性。

事实上,我们最初进行手语研究时,也是从孤立词识别起步,并且使用的是美国手语(ASL)的开源数据集。这再次印证了数据驱动的研究离不开数据。在自建数据准备就绪之前,开源数据集是重要的研究基础。

值得一提的是,手语也存在“方言”现象,不同地区的手语表现形式会有差异。目前,国内如中国科学技术大学、西安电子科技大学、中国科学院计算所和自动化所等机构,在手语识别研究方面都很有代表性。团队间的合作与沟通,例如推动数据库共享,无疑对领域发展大有裨益。

问:既然手语也有“方言”之分,您目前使用的手语数据集,是否主要基于上海地区的手语?

方昱春:我们目前在上海进行的手语数据工作还处于比较基础的阶段,例如数据的分割和预处理,尚未深入到识别算法层面。

我们算法研究主要使用的是名为“中国手语识别数据集”(CSL)的开源数据,该数据集由中国科学技术大学的团队建立。在国家层面,为了帮助聋人群体,正在通过制定和推广新的标准手语来做许多语言规范化工作。

对于不打手语的研究者而言,辨识不同地区的手语方言确实存在挑战。关于手语的地域差异,还有许多语言学问题有待深入研究。

问:国内几支领先团队所使用的手语数据,是否也针对特定地区?

方昱春:是的,这几所单位在手语识别研究方面都有丰厚的积累。但针对特定手语方言的深入研究目前还非常少见。

上海在手语语言学发展方面较为先进,倪兰老师与上海的聋人群体建立了长期联系和实际合作。从计算机视觉研究的角度,我们反而更多地使用德国的“凤凰”(PHOENIX)数据集。这是因为在该数据集上已有许多标杆算法,便于我们评估自身算法的水平。其开源数据量较大,也成为了领域内广泛采用的验证基准。

问:使用德国手语数据集进行研究,会存在语言不通的问题吗?这对研究方法有影响吗?

方昱春:从计算机视觉的技术角度看,使用德国或其他国家的手语数据集问题不大,因为方法是具有通用性的。视频中包含的主要是人体上半身的姿态、运动等多模态信号,这些视觉信号本身是相通的。当然,从语言学角度看,不同语系的手语确实存在结构性差异,这是另一个层面的问题。

问:在开发手语数字人应用时,是否遇到一些挑战?比如聋人群体可能难以理解数字人的手语表达,或者不同企业开发的数字人可能出现同质化问题?

方昱春:首先,最大的挑战依然是数据匮乏。

我们选择使用德国凤凰数据集,一个重要原因是它将场景限定在天气预报领域,问题的复杂度因场景限定而得以简化。他们提供了大量开源数据供公共研究,并且其团队本身融合了语言学家和计算机科学家,这种合作模式非常值得借鉴。

第二个挑战,是手语语言学专家和专业人才的稀缺。

上海大学的手语识别研究,有幸能得到倪兰老师的专业指导。如果仅从计算机视觉的单一角度去解决问题,而不了解手语的语言学特点和聋人群体的实际使用习惯,那么开发出的算法或模型很容易脱离真实的应用需求。

田英利教授的工作就是一个跨学科合作的典范,她成功地将语言学与计算机视觉技术相结合,其交叉应用的切入点非常新颖。倪老师也非常赞赏田教授的工作,并特意推荐给我们团队参考。

问:像ChatGPT、Sora这样的大模型在自然语言处理方面成就显著,它们背后的技术理念对您的手语识别研究有何启示?

方昱春:我们团队也一直在密切关注大语言模型的发展动态,并正计划利用学校新建的大型GPU集群,开展更多相关研究。

在结合计算机视觉(CV)和自然语言处理(NLP)方面,受中科大团队将自然语言理解技术应用于手语识别的启发,我们团队近期也提出了一个融合解决方案,并取得了不错的效果。

问:大模型的出现让很多人设想构建通用手语大模型,但这面临数据获取的难题,尤其是涉及肖像权和隐私问题。您主要使用倪兰教授收集的数据库吗?

方昱春:为了妥善使用数据,健全的隐私保护机制是必不可少的。我们团队在数据采集和使用的全过程中,都严格遵守隐私保护的约束。

手语理解数据集面临的核心挑战在于数据标注。采集到孤立词或连续手语视频后,能够进行什么程度的标注?目前,对文字形式的自然语言进行自动分词已经非常成熟。然而,要将手语视频分解成音韵要素(类似于口语的音素),自动化处理的难度极高,依赖人工标注则工作量巨大。

在接下来的线上圆桌讨论中,数据难题正是我希望与同行们深入探讨的核心议题之一。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多