大模型与AI底层技术揭秘（23）抽象派的小黑子

来源：菜鸟下载 | 更新时间：2025-04-27

小h在学习了本专题后，开始思考一个问题：人的大脑相当于什么级别的CPU和GPU呢？小H仔细思考后，

小h在学习了本专题后，开始思考一个问题：

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

人的大脑相当于什么级别的CPU和GPU呢？

小H仔细思考后，发现自己在计算这个问题：

将48331804981分解为两个质数的积

远比计算机CPU慢很多倍。

然而，当他看到这张图时，却能立即进行渲染（脑补）并识别出图中的人：

大模型与AI底层技术揭秘（23）抽象派的小黑子这让他觉得自己的大脑似乎能与NVidia H100集群一较高下。

方老师发现了小H的想法，嘲笑他：你怎么也学小学生的恶趣味呢？

小H尴尬地回到座位，继续研究上期遗留的问题。

在上期，我们留下了另一个问题：在ARM Cortex-A体系架构下，如何让虚拟机的操作系统能够访问到PCI-E设备的配置空间、IO BAR空间和DMA缓冲区？

我们先来看看在Intel体系架构下是如何解决这一问题的。

在Intel的32位（x86）或64位（x64）模式下，PCI-E配置空间实际上是一段位于系统内存区域的地址，访问这段地址应使用普通的基址变址指令，而不需要使用用于系统IO端口访问的input/output指令。

大模型与AI底层技术揭秘（23）抽象派的小黑子如图所示，在PCI-E配置空间的第16字节到第40字节，是所谓的BAR（Base Address Register），它是这些PCI-E设备本身的工作寄存器（如网卡的MAC寄存器、Phy寄存器等）地址段的起始地址和偏移量。这部分地址的访问方式与配置空间类似，也通过普通基址变址指令来访问，替代传统实模式下的input/output指令。

此外，操作系统在初始化PCI-E设备硬件时，会为PCI-E设备硬件分配自己可直接使用的DMA内存空间，硬件会直接对这部分空间进行数据的读写，因此CPU可以和其他PCI-E设备通过DMA内存地址空间，使用共享存储器的方式进行大批量数据的互通。

在物理机上，这些硬件直接看到的地址（物理机总线上可以通过逻辑分析仪抓到的地址，我们称为宿主机物理地址（HPA，Host Physical Address））。而程序指令中访问的地址为虚拟地址（HVA，Host Virtual Address），HVA是HPA通过MMU映射的结果，二者之间的映射表保存在MMU（Memory Management Unit）维护的TLB（Translation Lookaside Buffer）表中。对于多核处理器，大家共用一个MMU和TLB。

在存在虚拟机的情况下，问题变得复杂化。虚拟机上程序指令发出的地址被称为GVA（Guest Virtual Address）。问题在于，两台虚拟机有可能使用重叠的GVA，但实际上对应的HVA和HPA都不一样。那么，如何对二者进行区分呢？

Intel的方案是，采用EPT（extended page table），在MMU中的TLB增加虚拟机ID的字段，通过虚拟机ID和GVA的组合，来翻译得到HPA。

在ARM体系架构下，也有SMMU来实现这一翻译功能。

大模型与AI底层技术揭秘（23）抽象派的小黑子如图所示，在ARM下，地址翻译类似于Intel，也分为两个阶段：