模型技术
大模型
2025阿里云DataWorks Data Agent大模型热度分析排行榜
摘要
在全局 AI 模型呈现疯狂增长的背景下,如何高效洞察技术趋势,已经是开发者和企业决策
在全局 AI 模型呈现疯狂增长的背景下,如何高效洞察技术趋势,已经是开发者和企业决策者们绕不开的话题。拿全球最大的 AI 模型托管平台之一 Hugging Face 来说,其公开的模型数量已经突破了 200 万。想想看,面对这么庞大且每天都在高速更新的数据池,想快速提取出高价值的模型热度、任务分布、以及社区关注度的变化趋势,传统的数据开发方式还真有点跟不上趟。
这份案例,就以分析 Hugging Face 模型趋势数据集(数万条真实快照数据)为例,跟你聊聊如何借助 DataWorks Data Agent,完成从原始数据接入、清洗、质量控制、工作流编排到可视化分析的端到端自动化流程。整个过程,我们来一步步拆解。
## 一、数据准备与接入
数据集来源是 Kaggle 上的 Hugging Face 模型快照,主要包含三张原始表:
1. `hf_models_snapshot.csv`(模型下载快照):记录的是近30天内下载量最高的模型,适合用来做下载榜单和任务类型分布分析。
2. `hf_models_trending.csv`(模型趋势快照):记录的是社区点赞数(Likes)较高的模型,适合用来分析社区关注度。
3. `hf_recent_models.csv`(最新模型表):记录的是最新创建的模型,适合用来做新模型发现。
> 需要特别说明一点:下载量和点赞量代表的是热度,这并不直接等价于模型能力的强弱。
### 2.2 自动化 ETL 数据清洗
基于探查结果,Data Agent 会自动生成高效的 SQL 代码,批量执行清洗操作。比如,将 `downloads` 和 `likes` 字段转换为数值型;把缺失的 `pipeline_tag` 统一标记为 `unknown`;规范化 `gated`(访问限制)字段的分类;以及自动去除同一天同一个模型的重复记录等等。
最终,Data Agent 会输出三张标准化的清洗表,为后续的多维分析打下扎实基础。



### 2.2 自动化 ETL 数据清洗
基于探查结果,Data Agent 会自动生成高效的 SQL 代码,批量执行清洗操作。比如,将 `downloads` 和 `likes` 字段转换为数值型;把缺失的 `pipeline_tag` 统一标记为 `unknown`;规范化 `gated`(访问限制)字段的分类;以及自动去除同一天同一个模型的重复记录等等。
最终,Data Agent 会输出三张标准化的清洗表,为后续的多维分析打下扎实基础。







来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。