菜鸟游戏网 - 游戏让生活变快乐! 全站导航 全站导航
AI工具安装教程 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

您的位置 : 资讯 > 其他资讯 > 李海大学等五所高校联手:AI能否像老师一样看懂学生的错误思路?

李海大学等五所高校联手:AI能否像老师一样看懂学生的错误思路?

来源:菜鸟下载 | 更新时间:2026-04-27

AI能读懂孩子的数学草稿吗?这项研究给出了耐人寻味的答案 2026年3月,一项由李海大学、

AI能读懂孩子的数学草稿吗?这项研究给出了耐人寻味的答案


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

2026年3月,一项由李海大学、松鼠AI学习、中科院自动化所等五家机构联合完成的研究,在arXiv预印本平台发布(编号:arXiv:2603.24961v1)。该研究首次系统性地评估了多模态大语言模型是否具备与人类教师相当的、解读学生手写数学作业错误的能力。对技术细节感兴趣的读者,可通过上述编号查阅原文。

一个典型的场景是:孩子的数学作业本上布满涂改、笔迹潦草、算式排列随意。家长可能感到困惑,但资深教师却能迅速定位错误根源、分析思维卡点。这项研究的目标,正是赋予人工智能这种“透视”学生思维过程的能力。

一、破译手写密码:AI面临的第一道难题

学生的手写草稿对AI而言构成首道解码难题。数字“7”带勾、除号与加号混淆、涂改墨团掩盖关键步骤——这些对人类教师而言可通过经验克服的障碍,对AI模型却是巨大的初始挑战。

研究显示,现有AI在识别手写数学符号时存在明显局限。例如,在计算4÷35时,学生可能因小数除法概念不清而错误移动小数点,得出8.75的答案。人类教师能通过笔迹追溯思维路径,判断问题源于小数运算技能薄弱。而AI往往连潦草变形的数字符号都难以准确识别,更无法追踪其背后的跳跃性逻辑。

格式复杂性进一步加剧了挑战。数学草稿包含随意绘制的圈注、箭头和旁注,如同在一张凌乱地图上寻路。人类教师能凭经验区分正式步骤与草稿涂鸦,AI却极易被这些“视觉噪声”干扰,从而误解学生意图。

数据直观反映了问题:即便表现最佳的AI模型,其视觉识别错误率也高达36%。这意味着超过三分之一的情况,AI连学生书写内容都未能准确识别,后续分析自然无从谈起。

二、从表象到本质:错误分类的精妙艺术

即便AI成功“看清”内容,更深层的挑战——理解错误本质——才刚刚开始。这类似于中医辨证,同为“答案错误”,其背后“病因”却千差万别。

研究团队将数学错误精细划分为七大类。例如,“程序性错误”指步骤执行出现偏差;“计算错误”是具体运算中的失误;而“逻辑推理错误”最为棘手,如同下棋时战略思路从根本上偏离,导致步步皆错却看似合理。

不同学龄段学生的错误模式差异显著。小学生的错误主要集中在题目理解和基础计算,这两类合计占比约70%,如同烹饪新手看错菜谱或放错调料。中学生则更多在复杂计算和概念理解上出现问题。

值得注意的是,AI对不同类型错误的诊断能力存在明显差异。对于“抄写错误”这类具有明确外在特征的错误,AI识别尚可;但面对需要深度理解的“逻辑推理错误”,AI则显得力不从心。

三、思维追踪:AI能否读懂学生的心思

识别符号属于技术层面,理解思维则属于认知层面的高阶任务。这类似于侦探破案,不仅需要勘察现场,还需推演出完整的动机与过程。

以一个实际案例说明。题目为:“小明4分钟做了35道题,平均每道题用多少分钟?”正确答案应为4÷35≈0.11分钟。但有学生得出8.75的答案。人类教师扫视草稿即可发现,学生将除数与被除数位置颠倒,这暴露了对“平均时间”概念的误解。

AI处理此类问题时,常出现两种典型问题:一是“过度推理”,脑补出学生并未犯下的错误;二是“表面诊断”,仅能指出答案错误,却无法触及错误的根本原因。

一个反直觉的发现是:AI在处理小学低年级简单题目时的表现,有时反而逊于处理中学复杂题目。原因可能在于,小学生的书写更为随意,解题思路跳跃性强,缺乏规范步骤展示,这让习惯于结构化处理的AI更难以捉摸。

四、数据背后的故事:1720份真实作业的启示

这项研究的核心价值在于其基于真实、未经修饰的学生作业数据。团队从海量样本中最终筛选出1720份涵盖一至九年级的数学草稿,覆盖数字与表达式、方程与函数、几何与测量、应用数学、统计与概率五大领域。

数据标注采用严谨的“人机协作”模式:先由AI进行初步判断,再由五位资深数学教师进行最终审核与修正,确保标签的可靠性。这一过程类似于医院的专家会诊。

数据分析揭示了清晰趋势:小学阶段,理解与计算错误是主要问题;进入中学后,随着知识难度提升,概念理解错误的比例显著上升。此外,人类专家在错误判断上的一致性超过90%,这为评估AI性能设定了一个明确的高标准。

五、AI大比拼:16个模型的表现如何

研究团队邀请了16位“AI教师”同台竞技,阵容涵盖开源翘楚与商业明星,包括Qwen2.5-VL、GPT-4o、Gemini 2.0 Flash等。

比拼结果呈现喜忧参半的局面。在“错误原因解释”这项核心任务上,表现最优的模型(o4-mini)准确率约为70%。然而,人类教师的基准准确率在87%以上。这意味着,即使是最顶尖的AI,仍落后人类近20个百分点。

在更为精细的“错误分类”任务上,差距进一步拉大:最佳AI模型的准确率仅略高于40%,而人类教师则轻松超过78%。这好比一位医生能判断患者生病,却经常误诊具体病症。

六、失败案例解剖:AI到底错在哪里

为探究根本原因,研究团队深度剖析了100个典型失败案例。

首要问题依然是“看不清”(视觉识别失败,占36%)。例如,学生书写的“-3÷(-6)=1/2”,在AI眼中可能被识别为其他符号组合,第一步就出现偏差。

其次是“看不懂格式”(占15%)。草稿上的箭头、圈画、涂改等辅助信息,人类教师能自动过滤,却常使AI陷入困惑。

此外,“幻觉”(占16%)和“错位解读”(占17%)也较为常见。AI有时会无中生有,编造学生并未犯下的错误;或者虽能看到所有步骤,却无法按正确逻辑顺序串联,无法还原真实的思考轨迹。

七、不同数学领域的挑战差异

AI的能力存在明显的“偏科”现象。在几何与测量、统计与概率这类步骤相对规范、答案较为唯一的领域,AI表现较好。然而,面对方程与函数这类需要多步骤、复杂逻辑推理的题目,AI则显得颇为吃力。

应用数学题目的表现呈现两极分化:对于“行程问题”等有固定解题套路的题目,AI尚能应对;一旦题目涉及现实情境建模和开放性假设,AI就容易“死机”。这恰好暴露了当前AI在处理现实世界复杂性与灵活性方面的短板。

八、年级差异揭示的认知模式

另一个有趣的发现是AI表现的“年级效应”。在解释错误原因时,AI的表现随年级升高呈轻微下降趋势,可能是被高年级题目内在的复杂性所难住。

但在错误分类任务上,趋势却完全相反:AI对高年级作业的分类准确率明显更高。原因在于,中学生的解题过程更规范、步骤更清晰、书写更工整——这相当于为AI提供了更标准的“文本”,自然比解读小学生跳跃性的思维“方言”更为容易。

九、商业化模型与开源模型的较量

在这场比拼中,商业化模型(如o4-mini)整体上显著领先于开源模型,这背后是数据质量、算力投入与工程优化的综合体现。尤其在需要深度推理的任务上,那些专门强化了推理能力的模型(无论商业或开源)表现更为突出,这表明理解学生错误,核心在于“思考”而不仅仅是“观看”。

当然,开源模型亦有亮点。例如在统计概率等特定领域,个别开源模型的表现可与商业模型媲美,显示了其在垂直领域精细化训练的价值。

十、实际应用的前景与挑战

尽管当前AI尚无法媲美人类教师,但其应用前景已十分清晰。首先,它可以充当教师的“超级助教”,高效完成作业的初步筛查,使教师能聚焦于最需要人工干预的复杂案例。

其次,在推动个性化学习方面潜力巨大。若能精准诊断每个学生的独特思维误区,AI便能生成量身定制的学习报告与练习方案,实现“对症下药”。

挑战依然严峻。技术上,手写识别与深度推理能力有待突破;教育理念上,需警惕过度依赖技术而削弱师生间宝贵的人文互动与情感连接。如何让AI真正成为教育的“助攻”而非“主角”,是未来教育智能化必须深思的课题。

归根结底,这项研究揭示了一个核心事实:理解人类写在纸上、充满跳跃与涂改的思维过程,其复杂程度远超想象。从潦草字迹到逻辑误区,中间需要跨越的不仅是技术鸿沟,更是深刻的认知鸿沟。

这项研究的价值正在于此。它建立了一个坚实的评估基准,提供了高质量的真实数据集,为后续探索铺平了道路。或许在不远的将来,每个孩子都能拥有一位永不疲倦、即时反馈的AI学习伙伴,这无疑将为教育的个性化与公平性,开启一扇全新的大门。

Q&A

Q1:ScratchMath数据集包含了哪些内容?

A:该数据集包含1720份来自中国中小学的真实数学手写草稿,覆盖一至九年级,涉及数字与表达式、方程与函数、几何与测量、应用数学、统计与概率五大数学领域。每份草稿均包含原始手写过程及经专家标注的错误分类信息。

Q2:当前最先进的AI在理解学生数学错误方面表现如何?

A:即使是顶级模型,在解释错误原因任务上的准确率也仅在70%左右,显著低于人类教师近90%的水平;在错误分类任务上,差距更为明显,AI约40%的准确率与人类近80%的基准相比,仍有漫长的道路需要追赶。

Q3:AI在分析学生数学错误时主要面临哪些困难?

A:主要面临三大困难:一是视觉识别关,难以准确辨认潦草、不规范的手写符号;二是格式理解关,易被涂改、圈画等非标准布局干扰;三是逻辑推理关,难以深入追踪并理解学生多步骤解题过程中的根本性思维误区。

菜鸟下载发布此文仅为传递信息,不代表菜鸟下载认同其观点或证实其描述。

展开
神探诸葛执
神探诸葛执
类型:动作射击 运营状态:公测 语言:简体中文
前往下载

相关文章

更多>>

热门游戏

更多>>