其他资讯

DeepSeek识图功能全面评测：图文交互时代的核心体验与实用指南

2026-05-11

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

DeepSeek近期将其“识图模式”从灰度测试转向大规模开放。目前，绝大多数测试用户都能在

DeepSeek近期将其“识图模式”从灰度测试转向大规模开放。目前，绝大多数测试用户都能在输入框上方，看到与“快速模式”、“专家模式”并列的“识图模式”入口。该功能仍标注为“图片理解功能内测中”，标志着其正式进入图文交互的新阶段。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

这并非一个简单的OCR文字提取工具。启用识图模式后，用户可直接上传图片，模型能深度解析视觉内容，其理解维度远超基础的文字识别。

实际测试显示，DeepSeek的视觉理解能力覆盖了广泛场景。在基础图像识别上，它展现出“博物学家”般的素养。例如，用户上传博物馆文物照片，开启“深度思考”后，模型不仅能细致描述纹理与材质，还能准确判断一件玉器属于18世纪清代乾隆时期的“痕都斯坦风格”。

面对高难度逻辑推理题，其能力同样硬核。在一项需要空间想象、于脑海中拼合立方体的题目中，若不开启思考模式容易出错；但启动深度思考并经过约4分钟推理后，它能给出正确答案。

模型还具备出色的“网感”理解力。上传流行表情包或梗图，它能精准识别合照人物，甚至解读出图片中小猫的无奈情绪，准确捕捉网络幽默点。

在生产力场景中，它则化身为高效的“截图转码器”。无论是技术报告中的代码截图，还是复杂的UI界面、网页截图，它都能完整解析并提取文字信息。更突出的是，它能反向生成可交互的HTML代码，精准复原原网页的按钮与跳转逻辑。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

随着功能开放，DeepSeek也披露了其多模态模型的技术框架，核心是“Thinking with Visual Primitives”（用视觉基元思考）。

传统多模态大模型在处理密集复杂场景时，常面临“指代鸿沟”问题：模型虽能“看见”图片，但在后续推理中使用“左边那个大的”等模糊自然语言描述时，容易因注意力漂移而犯错。

DeepSeek的解决方案很巧妙：将点、边界框等代表空间位置的视觉元素，直接作为“思维基本单元”融入推理链条。这相当于模型在思考时拥有一根“赛博手指”，能边推理边精确指向目标，从而有效解决复杂空间布局中的逻辑难题。

该框架在效果与效率上均表现突出。处理一张800×800分辨率的图片，DeepSeek仅消耗约90个tokens。相比之下，GPT和Claude等主流模型处理同等图片需消耗870到1100个tokens。在多项计数与空间推理基准测试中，DeepSeek也达到了比肩甚至超越前沿模型的水平。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

当然，处于内测阶段的DeepSeek识图模式仍有明确局限。综合用户反馈，当前主要存在以下几方面不足。

首先是知识库更新的滞后性。部分测试中，模型的推理逻辑完全正确，但最终答案却会出错。例如，识别一款2025年底发布的新型号手机时，由于其知识库可能停留在2025年，虽能通过副屏等细节推断出旧型号，但仍会给出错误的具体型号。

其次，在面对“数图中老虎数量”、视错觉图形等高难度、反直觉题目时，其答案仍存在较大不确定性。有时经过长时间“深度思考”，反而可能产生更严重的幻觉，导致逻辑链崩溃。

最后需明确，当前上线的识图模式是纯视觉理解模块，专注于图片识别与分析。它尚未集成图像生成、视频理解或更广义的跨模态交互能力。这意味着，让它根据文本描述生成图像，或理解一段视频内容，目前还无法实现。

DeepSeek大范围开放“识图模式”，正式跨入图文交互时代

来源：互联网

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。