🍎 Apple M 系列 vs 🔴 NVIDIA GPU：硬件架构深潜与技术解密

2026年技术架构全面梳理

---

引言

当 Apple M5 Max 和 NVIDIA RTX 5090 同时出现在你的购物车里，这场对决早已不只是"苹果 vs 英伟达"的品牌之争——而是两种截然不同的硬件设计哲学的碰撞。

Apple M 系列走的是高能效优先、统一内存架构、SoC 集成的路线；NVIDIA 则走极致算力、专用计算单元、通用 CUDA 生态的路线。两者在 AI 时代狭路相逢，但各自的最强项，恰恰是对方的软肋。

---

一、Apple M 系列：统一内存上的超级缝合怪

1.1 工艺节点演进

Apple 是台积电的最大客户之一，每代 M 芯片都率先用上最新工艺：

M1 (2020) → 5nm (N5) — 震惊业界，Mac 第一次用 ARM


M2 (2022)   → 5nm (N5P)         — 优化版，内存带宽提升
M3 (2023)   → 3nm (N3B)         — 首次进入 3nm，全新微架构
M4 (2024)   → 3nm (N3E)         — AI 时代，Neural Engine 翻倍
M5 (2025)   → 3nm (N3P)         — Neural Accelerator 进入 GPU 核心，AI 性能暴增


工艺的进步带来的不仅是晶体管密度提升，更重要的是每瓦性能（Performance per Watt） 的跃升——这是 Apple 芯片最核心的竞争优势。
1.2 CPU 微架构：被低估的自研深度
Apple 的 CPU 核心既不是 ARM 公版 Cortex，也不是简单定制——而是完全重新设计的微架构。
核心代号演进：

M1: "Icestorm" (能效核) + "Firestorm" (性能核)


M2: "Blizzard" (能效核) + "Avalanche" (性能核)
M3 onwards: 全新微架构，IPC 提升约 12-15% 每代
M5: 全新性能核心，频率逼近 4.6GHz，被 Apple 称为"世界最快 CPU 核心"


> 注：苹果官方从不公布微架构内部参数（如 Reorder Buffer 大小等），以下为业界广泛推测数据，仅供参考。
推测的关键硬件参数：
| 参数 | 苹果核心（推测） | Intel/AMD 公版 | 意义 |
|------|-----------------|---------------|------|
| Reorder Buffer | ~600+ 条目 | ~200-300 条目 | 更高的指令并行度 |
| L1 I-Cache | 192KB/核 | 32KB/核 | 减少内存访问延迟 |
| L1 D-Cache | 128KB/核 | 48KB/核 | 更大的数据缓存 |
big.LITTLE → DynamIQ 的演进：


M1 时代：传统 big.LITTLE（两组核心完全独立调度）
M2 之后：DynamIQ（所有核心共享同一个簇，调度粒度更细）
         → 一个大核可以单独跑一个线程，
           而不影响其他核心的功耗/性能状态


1.3 GPU：Tile-Based Deferred Rendering（TBR）
这是 Apple GPU 和 NVIDIA/AMD GPU 最根本的架构差异，也是理解 Apple GPU 效率的核心。Apple 官方 Metal 文档明确确认使用 Tile-Based Deferred Rendering（TBDR）架构。
传统 GPU（NVIDIA/AMD）的工作方式：

渲染整个帧缓冲区 → 逐像素计算 → 写入显存 → 显示


问题：所有像素都要读写显存，带宽压力大


Apple GPU 的 TBR 方式：

1. 把屏幕分成 16×16 或 32×32 的小 tiles（分块）


2. 每个 tile 的所有像素完全在 on-chip SRAM（L1/L2）里渲染
3. 渲染完成后一次性写回主内存
4. tiles 之间几乎不需要共享数据


TBR 的物理意义：

传统 GPU: 读写显存带宽 = 分辨率 × 颜色深度 × 帧率


         4K @ 60fps = 3840 × 2160 × 4bytes × 60 ≈ 1.9 GB/s
         实际更复杂，因为每个像素需要多次读写
Apple TBR:  tile 数据完全在芯片内部缓存
           外部带宽需求大幅降低
           这就是为什么 Apple GPU 能用相对较低的带宽
           实现接近 NVIDIA 的实际图形性能


M5 架构重大更新：Neural Accelerator 进入 GPU 核心
M5 开始，每个 GPU 核心内部都集成了 Neural Accelerator（神经网络加速器）。这是 M5 系列最重要的架构变化：

M4 及之前：Neural Engine 是独立单元，AI 任务发送到专用 ANE


M5：        每个 GPU 核心内置 Neural Accelerator
           AI 推理直接在 GPU 核心内完成，无需跨 Fabric 拷贝数据
           这就是为什么 M5 Max AI 性能相比 M4 Max 提升 4 倍


1.4 Neural Engine & Neural Accelerator：双层 AI 加速
Apple M5 的 AI 加速体系由两层构成：
第一层：16核 Neural Engine（ANE）
- 这是 M 系列一贯的专用 AI 加速器
- 主要负责大型 AI 模型的推理
- 功耗极低：满载约 1-2W
第二层：每个 GPU 核心内的 Neural Accelerator
- M5 新增的架构
- 处理需要 GPU 着色器参与的 AI 计算
- 与 GPU 核心共享缓存，延迟极低
M5 芯片 Neural Engine 官方数据：
| 芯片 | Neural Engine | GPU 内 Neural Accelerator | AI 性能提升 |
|------|-------------|------------------------|------------|
| M5 | 16核 | ✅ 每个 GPU 核心 | 相比 M4 提升显著 |
| M5 Pro | 16核 | ✅ 每个 GPU 核心 | 相比 M4 Pro 提升显著 |
| M5 Max | 16核 | ✅ 每个 GPU 核心 | 相比 M4 Max 4 倍 |
> 注：各家 TOPS 计算方式不统一，Apple 的 TOPS 和 NVIDIA 的 TOPS 不能直接比较。
1.5 统一内存架构：最大的设计差异
这是 M 芯片和 NVIDIA GPU 本质不同的地方。
传统 GPU 架构：


CPU ←→ PCIe (32 GB/s) ←→ 独立显卡 ←→ GDDR/HBM 显存 (TB/s 级)
                              ↑
                         GPU 独占显存
                         CPU 访问需要拷贝


Apple 统一内存架构：

┌──── CPU 核心


                    │
SOC Bus Fabric ────┼──── GPU 核心（Apple GPU + Neural Accelerator）
（内部极高带宽）     │
                    ├──── Neural Engine（独立 AI 加速器）
                    │
                    └──── 统一内存池（LPDDR5X）
                         CPU / GPU / ANE 共享同一块内存


关键数字对比：
| 芯片 | 内存类型 | 内存带宽 | 最大容量 |
|------|---------|---------|---------|
| M1 | LPDDR4X | 68 GB/s | 16 GB |
| M2 | LPDDR5 | 100 GB/s | 24 GB |
| M3 | LPDDR5 | 100 GB/s | 24 GB |
| M4 | LPDDR5X | 120 GB/s | 32 GB |
| M4 Pro | LPDDR5X 8533 MT/s | 273 GB/s | 64 GB |
| M4 Max (40核) | LPDDR5X 8533 MT/s | 546 GB/s | 128 GB |
| M5 | LPDDR5X | 153 GB/s | 32 GB |
| M5 Pro | LPDDR5X | 307 GB/s | 64 GB |
| M5 Max (40核) | LPDDR5X | 614 GB/s | 128 GB |
| RTX 4090 | GDDR6X | 1008 GB/s | 24 GB |
| RTX 5090 | GDDR7 | 1.79 TB/s | 32 GB |
| H100 SXM | HBM3 | 3.35 TB/s | 80 GB |
为什么 M 芯片带宽"这么低"却能用：
1. TBR 减少显存读写
2. System Level Cache（SLC）巨大（业界推测 ~16-32MB，M1 到 M5 递增）：充当"二阶显存"
3. 内存压缩硬件：苹果有专用压缩器，压缩比很高
4. M5 新增的 Neural Accelerator in GPU 大幅降低了 AI 任务对内存带宽的依赖
1.6 UltraFusion：双芯封装
NVIDIA 有 NVLink 多卡互联，Apple 的回应是 UltraFusion。
实现：


M1 Ultra = 2 × M1 Max，通过 硅中介层（Silicon Interposer）封装
M2 Ultra = 2 × M2 Max
M3 Ultra = 2 × M3 Max
M5 Ultra = 2 × M5 Max（预期）


关键技术指标：
- 互联带宽：2.5 TB/s（双向）
- 延迟：几乎等同于同一芯片内部的核间延迟
- OS 视图：单颗芯片，软件无需修改
对比 NVLink：
| 技术 | 带宽 | 用途 |
|------|------|------|
| NVLink 4.0 (H100) | 900 GB/s | 多卡跨 PCIe/机柜 |
| UltraFusion (M Ultra) | 2500 GB/s | 单封装双芯 |
---
二、NVIDIA GPU：通用计算的霸主
2.1 架构演进


Fermi (2010)   → 奠定 CUDA 基础，SM 概念成型
Kepler (2012)  → 功耗优化，超算主力
Maxwell (2014) → GTX 900 系列，经典一代
Pascal (2016)  → GTX 1080，深度学习觉醒
Volta (2017)   → Tensor Core 首次推出，AI 训练性能 10x
Turing (2018)  → RTX 系列，硬件光追
Ampere (2020)  → A100/RTX 30，主流 AI 时代
Ada (2022)     → RTX 40，台积电 4nm
Hopper (2022)  → H100，数据中心王者
Blackwell (2024) → B200/GB200，当前最强


2.2 SM（Streaming Multiprocessor）：GPU 的基本单元
NVIDIA 每代 GPU 最核心的变化就是 SM 设计的演进。
Hopper GH100 SM 内部：

每个 SM：


├── 128 个 CUDA 核心（FP32/FP64 可变）
├── 4 个 Tensor Core（第 4 代）
├── 1 个 RT Core（第 3 代）
├── 64KB L1 Data Cache + Shared Memory（可配置）
├── 注册文件（32KB per SM）
└── Warp Scheduler × 4


Ampere → Hopper 的关键变化：

Ampere (A100): 每 SM 64 CUDA 核 → 108 SM → 6912 CUDA 核


Hopper (H100):  每 SM 128 CUDA 核 → 132 SM → 16896 CUDA 核


CUDA 核翻倍的原因是：H100 把每 SM 的 FP32 单元加倍了，代价是芯片面积和功耗大幅增加，但并行度更高的 workloads 效率大幅提升。
2.3 Tensor Core：AI 计算心脏
各代 Tensor Core 能力：
| 架构 | 代表卡 | 支持精度 | 关键特性 |
|------|-------|---------|---------|
| Volta | V100 | FP16 | 首次引入矩阵乘法加速 |
| Ampere | A100 | FP16/BF16/TF32/FP64 | 稀疏矩阵加速 |
| Hopper | H100 | +FP8 | Transformer 引擎，动态精度切换 |
| Blackwell | B200 | +FP6/FP4 | 更低精度，量化友好 |
H100 Tensor Core 官方算力：
| 精度 | SXM 版本 | PCIe 版本 |
|------|---------|---------|
| FP64 | 34 TFLOPS | 26 TFLOPS |
| FP32 | 67 TFLOPS | 51 TFLOPS |
| TF32 Tensor | 989 TFLOPS | 835 TFLOPS |
| BF16 Tensor | 1,979 TFLOPS | — |
| FP8 Tensor | 3,958 TFLOPS | 3,341 TFLOPS |
| INT8 Tensor | 3,958 TOPS | 3,341 TOPS |
Tensor Core 工作原理：
传统 CUDA 核做矩阵乘法：

`python


4 次乘加 = 1 次 FLOP，效率低
for i in range(N):
    for j in range(N):
        for k in range(N):
            C[i][j] += A[i][k] * B[k][j]


Tensor Core（脉动阵列）：

输入：A矩阵的一行 + B矩阵的一列


一个时钟周期 → 完成 N 次乘加
一次 4×4 矩阵乘法 ≈ 1 个 cycle
比手工 CUDA 快 100x+


Hopper FP8 的意义：

大语言模型中，大量计算是矩阵乘法


FP8 精度对很多 layer 足够（不敏感）
带宽需求减半 → 速度几乎翻倍
H100 的 FP8 性能：3959 TFLOPS（vs FP16 的 1979 TFLOPS）


2.4 HBM 内存：带宽的物理极限
HBM3 物理结构：

┌──────────────┐


         │   GPU Die    │
         └──────┬───────┘
         TSV    │
         ┌──────┴───────┐
         │  Silicon     │
         │  Interposer  │
    ┌────┴──┐  ┌──────┐
    │ HBM3  │  │ HBM3 │  ← 8-12 个 DRAM Die 堆叠
    │ Die 1 │  │ Die 1│     通过 TSV 垂直互联
    └───────┘  └──────┘


HBM vs GDDR：
| 类型 | 总线宽度 | 带宽 | 成本 |
|------|---------|------|------|
| GDDR6X (RTX 4090) | 384-bit | 1008 GB/s | 低 |
| GDDR7 (RTX 5090) | 512-bit | 1.79 TB/s | 中 |
| HBM2e (A100) | 5120-bit | 2.6 TB/s | 高 |
| HBM3 (H100) | 5120-bit | 3.35 TB/s | 极高 |
HBM 的 5120-bit 总线宽度是 GDDR6X 的 13 倍，这是带宽差距的物理基础。
2.5 NVLink：多卡互联
各代 NVLink 带宽：


NVLink 1.0 (Pascal):   40 GB/s
NVLink 2.0 (Volta):    300 GB/s
NVLink 3.0 (Ampere):   600 GB/s
NVLink 4.0 (Hopper):   900 GB/s


NVSwitch（8卡全互联）：
- 任意 GPU 到任意 GPU：900 GB/s 双向
- DGX H100 服务器：8 × H100 + NVSwitch = 7.2 TB/s 全互联带宽
对比 PCIe：


PCIe 4.0 x16: 32 GB/s
NVLink 4.0:   900 GB/s
差距：28 倍


2.6 RTX 4090 vs RTX 5090（消费级现状）
RTX 4090（Ada Lovelace）：
| 参数 | 数值 |
|------|------|
| CUDA 核心 | 16,384 |
| 内存 | 24 GB GDDR6X |
| 内存带宽 | 1008 GB/s |
| INT8 Tensor | 1,321 TOPS |
| TDP | 450W |
RTX 5090（Blackwell，2026年3月已上市）：
| 参数 | 数值 |
|------|------|
| CUDA 核心 | 待公布 |
| 内存 | 32 GB GDDR7 |
| 内存带宽 | ~1.79 TB/s（提升 78%） |
| TDP | 待公布 |
---
三、光线追踪：物理正确的逆向工程
3.1 核心原理
现实世界中，光从光源发出 → 在物体表面反射/折射/吸收 → 最终进入眼睛。你看到的每个像素，本质上是一束光反向追溯的结果。
光栅化 vs 光追：


光栅化：像素被物体遮住 → 直接涂色 → 阴影是"猜"的，假象
光追：光线反向追踪 → 从眼睛发射 → 打到物体 → 继续追到光源 → 计算真实颜色


数学方程：

P(t) = O + tD


O = 光线起点（摄像机）
D = 光线方向
t = 距离参数
对于每个像素：
ray = (origin, direction)
for each object in scene:
    if ray intersects object:
        shade(based on: 光源方向, 反射方向, 折射方向, 材质BRDF)


3.2 BVH：让光追从不可能变可能
现实场景有几十亿个三角形，光线逐个求交不可能。
BVH（Bounding Volume Hierarchy）：

场景


├── 整个房间（大盒子）
│   ├── 地板（左/右半边）
│   │   ├── 左半边 → 10个三角形
│   │   └── 右半边 → 8个三角形
│   ├── 桌子
│   │   ├── 桌面
│   │   └── 四条腿
│   └── 人物
│       ├── 头部
│       └── 身体


光线先跟大盒子求交 → 排除无关空间 → 层层缩小 → 找到精确交点
3.3 NVIDIA RT Core：硬件 BVH 加速
NVIDIA 官方开发者论坛明确说明：RT Core 专门负责 BVH 遍历（Box/Sphere/Triangle 求交），让 Shader 无需消耗数千条指令来完成这个过程。
RT Core 专门干什么：

CPU/Shader 做 BVH 遍历 = 软件，需要很多指令周期


RT Core 做 BVH 遍历 = 硬件，一个时钟周期完成一次盒子求交
支持的求交类型：
- Box（AABB）求交
- Sphere 求交
- Triangle opacity（半透明判断）


Shader 和 RT Core 的协作：

┌────────────────────────────────────┐


│ Shader（可编程）                     │
│ - 光线生成（Ray Generation）         │
│ - 命中后着色（Closest Hit）          │
│ - 未命中处理（Miss）                 │
│ - 材质属性（PayLoad）               │
└────────────────────────────────────┘
              ↑ 协作 ↓
┌────────────────────────────────────┐
│ RT Core（固定功能硬件）              │
│ - BVH 遍历（盒子/三角形求交）        │
│ - 硬件自动处理，Shader 无法控制      │
└────────────────────────────────────┘


3.4 Apple 的光追实现
Apple 没有独立 RT Core，但有类似机制：
- GPU EU 里加了专用"光追指令"（RT 开头）
- 盒子求交用 EU 执行（非独立硬件单元）
- M5 新增 Neural Accelerator 后，AI 降噪能力更强
Apple vs NVIDIA 光追对比：
| 场景 | NVIDIA | Apple |
|------|--------|-------|
| BVH 遍历 | RT Core 硬件 | GPU EU |
| 三角形求交 | RT Core 硬件 | GPU EU |
| AI 降噪 | DLSS（Tensor Core） | Neural Engine + GPU Neural Accelerator |
| 生态 | DXR/Vulkan RT | Metal Ray Tracing |
---
四、DLSS：AI 重建画质的工程奇迹
4.1 DLSS 是什么
三层构成：


Layer 1: AI 模型（神经网络权重）
         ~30MB（DLSS 3.5），本质是浮点数矩阵
Layer 2: Tensor Core（硬件执行单元）
         NVIDIA 专用 AI 加速器
Layer 3: 驱动 + 游戏集成
         驱动加载模型，游戏通过 API 调用


DLSS 不是"嵌入的程序"，而是运行在 GPU 专用 AI 加速器上的神经网络。
> 截至2026年3月，NVIDIA 官方已发布 DLSS 4 和 DLSS 5，技术持续演进中。
4.2 DLSS 技术演进
| 版本 | 技术 | 帧生成 | 核心原理 |
|------|------|--------|---------|
| DLSS 2.x | 超分辨率 | ❌ | 把低分辨率渲染 upscale 到高分辨率 |
| DLSS 3 | + 帧生成 | ✅ | AI 生成中间帧 |
| DLSS 3.5 | + 光线重建 | ✅ | AI 降噪器替代传统降噪 |
| DLSS 4 | 多帧生成 | ✅ | 基于 Transformer 架构 |
| DLSS 5 | Neural Rendering | ✅ | AI 直接推理完整帧 |
4.3 训练方法：监督学习 + 知识蒸馏
核心逻辑：用贵的渲染结果做"标准答案"，让神经网络学会把便宜的渲染猜成贵的。


"标准答案" = 极高画质渲染
  - 每像素 thousands 条光线（路径追踪）
  - 渲染一帧需要几分钟
  - 这是真正的"物理正确"画质
  
"低画质输入" = 玩家实际能跑的画质
  - 减少 ray per pixel（1024 → 1）
  - 降低分辨率（4K → 720p）
  - 减少阴影/反射质量
  
神经网络学习：输入低画质 → 输出接近标准答案


为什么需要 per-game 训练：
- 通用模型：任何游戏都能用，但效果一般
- 游戏专属模型：针对特定游戏的美术风格专门训练 → 效果更好
4.4 DLSS 的本质
Tensor Core 只会做矩阵乘法，DLSS 的"智能"来自于训练好的神经网络权重——NVIDIA 用海量数据训练出来，分发给玩家。
所以 DLSS 不能在 AMD 显卡上运行：Tensor Core 是 NVIDIA 专属硬件，AMD 的 AI 加速器无法运行 NVIDIA 的 .dlss 模型文件。
---
五、两者正面交锋：算力 vs 能效
5.1 核心参数对比
| 维度 | Apple M5 Max | NVIDIA RTX 4090 | NVIDIA H100 |
|------|-------------|----------------|-------------|
| 工艺 | 3nm (N3P) | 4nm (Ada) | 4nm (Hopper) |
| 功耗 | ~92W | 450W | 700W |
| 内存带宽 | 614 GB/s | 1008 GB/s | 3.35 TB/s |
| AI 算力 | ~38+ TOPS（ANE + Neural Accelerator）| 1,321 TOPS (INT8 Tensor) | 3,958 TFLOPS (FP8) |
| 适用场景 | 本地推理 | 游戏/中小规模 AI | 大模型训练 |
5.2 典型 AI 推理效率


Apple M5 Max (92W TDP):
  Llama-7B 推理: ~40-50 tok/s，功耗 30-40W
  （相比 M4 Max 提升约 60-70%）
  
NVIDIA RTX 4090 (450W TDP):
  Llama-7B 推理: ~80-100 tok/s，功耗 250-350W
  
NVIDIA H100 (700W TDP):
  Llama-7B 推理: ~2000+ tok/s (batching)，700W


Apple 的优势区间：功耗 < 100W 的本地推理
NVIDIA 的优势区间：大规模 batch 推理、高吞吐服务器场景
---
六、M5 芯片的架构意义
M5 是 Apple 芯片历史上AI 架构变化最大的一代。
6.1 Neural Accelerator 下沉到 GPU 核心
这是 Apple 有史以来第一次将神经网络加速单元直接集成到每个 GPU 核心内部。

M4 及之前：


  AI 任务 → 发送到独立的 Neural Engine（16核）
           → 需要跨 Fabric 传输数据
           → 延迟高，带宽受限
M5：
  AI 任务 → 直接在 GPU 核心内的 Neural Accelerator 执行
           → 与 GPU 着色器共享缓存
           → 延迟大幅降低，效率暴增


6.2 AI 性能提升的真实来源
Apple 宣称的"M5 Max AI 性能比 M4 Max 提升 4 倍"并非来自工艺进步，而是来自架构重构：
| 提升来源 | 贡献 |
|---------|------|
| Neural Accelerator 进入 GPU 核心 | 主要贡献（估计 ~70-80%） |
| 内存带宽提升 12% | 次要贡献（~10-15%） |
| CPU 单核性能提升 | 少量贡献（~5-10%） |
| 工艺进步（N3B → N3P） | 辅助贡献 |
6.3 Apple 的 AI 战略
Apple 不再把 AI 当作一个"功能"，而是当作一个分布式的计算范式：


Apple Intelligence = CPU（日常推理）
                   + Neural Engine（大型模型）
                   + GPU Neural Accelerator（图形相关 AI）

这就是为什么 Apple 的 AI 效率在某些场景下能接近 NVIDIA——不是因为单芯片算力强，而是因为任务分流做得好。

---

结语

Apple M 系列和 NVIDIA GPU 代表了两种截然不同的设计哲学：

Apple 选择了一条垂直整合、高能效优先的道路。统一内存、TBR 渲染、GPU 内 Neural Accelerator，这些设计让 M 芯片在受限的功耗预算内实现了极高的实际 AI 性能。但代价是：生态封闭、算力上限受限于统一内存架构。

NVIDIA 选择了一条通用计算、算力至上的道路。HBM 显存、独立 Tensor Core、CUDA 生态，这些设计让它成为 AI 时代的基础设施。但代价是：功耗极高、价格昂贵。

M5 的出现让这场对决更加微妙——当 Apple 把 Neural Accelerator 直接塞进 GPU 核心，NVIDIA 的Tensor Core 优势正在被逐步蚕食。

唯一确定的是：这不是零和游戏。 Apple 和 NVIDIA 服务的场景重叠度，远没有它们各自的最强项那么耀眼。

Apple M 系列 vs NVIDIA GPU：硬件架构深潜与技术解密

🍎 Apple M 系列 vs 🔴 NVIDIA GPU：硬件架构深潜与技术解密

引言

一、Apple M 系列：统一内存上的超级缝合怪

1.1 工艺节点演进

1.2 CPU 微架构：被低估的自研深度

1.3 GPU：Tile-Based Deferred Rendering（TBR）

1.4 Neural Engine & Neural Accelerator：双层 AI 加速

1.5 统一内存架构：最大的设计差异

1.6 UltraFusion：双芯封装

二、NVIDIA GPU：通用计算的霸主

2.1 架构演进

2.2 SM（Streaming Multiprocessor）：GPU 的基本单元

2.3 Tensor Core：AI 计算心脏

4 次乘加 = 1 次 FLOP，效率低

2.4 HBM 内存：带宽的物理极限

2.5 NVLink：多卡互联

2.6 RTX 4090 vs RTX 5090（消费级现状）

三、光线追踪：物理正确的逆向工程

3.1 核心原理

3.2 BVH：让光追从不可能变可能

3.3 NVIDIA RT Core：硬件 BVH 加速

3.4 Apple 的光追实现

四、DLSS：AI 重建画质的工程奇迹

4.1 DLSS 是什么

4.2 DLSS 技术演进

4.3 训练方法：监督学习 + 知识蒸馏

4.4 DLSS 的本质

五、两者正面交锋：算力 vs 能效

5.1 核心参数对比

5.2 典型 AI 推理效率

六、M5 芯片的架构意义

6.1 Neural Accelerator 下沉到 GPU 核心

6.2 AI 性能提升的真实来源

6.3 Apple 的 AI 战略

结语

评论区