ALPAMAYO DISSECTION

GUIZANG · SWISS · 01 / 22

START FROM NVIDIA OPEN TOOLCHAIN

开源项目进入
量产 Robotaxi

以 Alpamayo 为起点，理解开放 VLA 模型、PhysicalAI-AV 数据、AlpaSim 仿真和训练评测脚本，映射到 Robotaxi 量产研发体系。

VLA · DATA · SIMULATION · FLEET FLYWHEEL

2026-05

02 / 22 · ALPAMAYO STACK

What exactly is opened

EXPLODED VIEW

Alpamayo 提供端到端智驾研发样板

入门路径从开放模型、数据、仿真和评测闭环开始，形成可复现、可替换、可扩展的研发起点。

01 · Reasoning VLA

读取视频、自车状态、导航和文本提示，输出推理链与驾驶轨迹。

02 · Post-training / RL

用监督微调、强化学习和蒸馏，把开放模型改造成任务模型。

03 · Evaluation metrics

minADE、闭环仿真分数、推理-动作一致性和轨迹可视化。

ALPAMAYO

开放工具链的价值是给“数据 → 模型 → 仿真 → 评测 → 再训练”提供一套最小闭环。自有运营数据和量产车型参数决定后续差异化上限。

04 · PhysicalAI-AV Dataset

公开多传感器驾驶片段，用来理解 clip schema 和训练输入形态。

05 · AlpaSim

闭环仿真框架，把模型放进可复现场景反复测试。

06 · Notebooks / GitHub

通过样例代码把模型推理、数据读取、可视化和仿真跑通。

Source: NVIDIA Developer Alpamayo; NVIDIA Technical Blog

03 / 22 · VLA MODEL

Inputs → reasoning → actions

MODEL DISSECTION

VLA 把“看见、想清楚、怎么开”合成一个学习问题

VLA 从统一输入里学习场景理解、原因链和可执行轨迹，形成从观测到动作的端到端模型接口。

NVIDIA Alpamayo driving reasoning example: ego vehicle passing a construction zone — NVIDIA Alpamayo · reasoning VLA driving clip

视频输入

多路相机帧提供路口、车道、行人、车辆和交通灯。

状态输入

自车速度、航向、历史轨迹和控制反馈构成运动上下文。

任务输入

导航路线、目标车道、文本提示约束“要去哪、要怎么走”。

推理链

判断谁会影响自车、为什么让行、为什么不能急转。

动作输出

输出未来轨迹、速度曲线、停车/绕行/让行意图。

Source: NVIDIA Alpamayo model description and technical blog

04 / 22 · VLA + COT EXAMPLES

observation → reasoning → trajectory

PRACTICAL REASONING

VLA 的 Chain of Thought 记录驾驶决策依据

在智驾里，Chain of Thought 把感知线索、冲突关系、交通规则、风险约束和动作选择串成可训练、可回放、可审计的中间结构。

一个训练样本可以这样记录推理链

实际训练时，模型不只学习“下一秒往哪开”，还要学习为什么这个动作合理。下面是一个无保护左转片段的结构化样例。

clip: left_turn_urban_0427 input: video: front + front_left + front_right ego: speed=12km/h, turn_signal=left nav: next_action=left_turn reasoning: 1. signal is green, but left turn conflicts with oncoming traffic 2. oncoming sedan enters conflict zone in 2.1s 3. pedestrian is stepping into the crosswalk 4. safe action is to hold before the turn arc action: trajectory = slow_to_stop → wait → creep_after_gap

CASE 01

无保护左转

看到：绿灯、对向直行车、斑马线行人。

推理：绿灯不等于可转；冲突区被对向车和行人占用。

动作：停在转弯弧线前，等待间隙后低速通过。

CASE 02

临停车辆占道

看到：快递车占右车道，左后方有来车。

推理：障碍物静止但不能立即并线；左后间隙不足时先减速跟停。

动作：打灯、减速、等待左后安全间隙后绕行。

CASE 03

信号灯故障路口

看到：信号灯熄灭，四向车辆交替进入。

推理：按无信号路口处理；根据到达顺序和行人优先权决策。

动作：停止线前停稳，低速探头，确认让行后通过。

CASE 04

前车急刹

看到：前车刹车灯亮，后车跟车距离近。

推理：既要避免追尾前车，也要避免过急制动引发后车风险。

动作：平顺减速，保持车道；侧向空间清晰时保留避让轨迹。

05 / 22 · FOUNDATIONS

LLM · attention · vision encoder

PRIMITIVE CONCEPTS

VLA 背后的三块底座：LLM、Attention、视觉编码

先把模型拆成三个最基础的计算动作：语言模型负责把上下文变成下一步概率；注意力负责在信息之间分配权重；视觉编码器负责把图像压成向量。

01 · LLM

大语言模型：预测下一个 token 的函数

LLM 在给定上下文后，计算每个候选 token 出现的概率。

输入：一串 token 向量。
输出：下一个 token 的概率分布。
智驾作用：把场景解释、规则、任务提示和推理链组织起来。

p(x_t+1|x_≤t) = softmax(W h_t)

02 · ATTENTION

注意力机制：给信息分配权重

Attention 的问题很朴素：当前要做决定时，哪些输入更相关。红灯、横穿行人、前车刹车、导航目标会得到不同权重。

Q：当前问题。
K：每个信息的索引。
V：真正要取出的内容。

Attention(Q,K,V) = softmax(QK^T√d_k)V

03 · VISION ENCODER

视觉编码：把图像变成 token

相机帧先被切成小块或局部特征，再投影成向量序列，才能和文字、导航、车辆状态放进同一个模型。

输入：多帧多相机图像。
中间：patch embedding / CNN feature。
输出：视觉 token 序列。

image → patches → embeddings → visual tokens

PIXEL / 图像数字

PATCH / 图像块

EMBEDDING / 向量

ATTENTION / 加权

ACTION / 轨迹

06 / 22 · VLA SYSTEM DIAGRAM

files · tensors · runtime artifacts

DEPLOYABLE VIEW

VLA 交付物由输入包、模型包、运行包和输出包构成

工程落地需要说明：一个 clip 如何用 JSON 描述，视频和标定如何进编码器，权重如何转成 ONNX/TensorRT，输出如何变成轨迹和审计记录。

INPUT PACKAGE

clip_manifest.json

记录 clip_id、时间戳、相机文件、ego 状态、导航任务、标签。

JSON

front.mp4 / surround.mp4

多相机视频源，进入解码、同步、抽帧和视觉编码。

MP4 / raw frames

calib.yaml + ego.parquet

相机内外参、车速、航向、历史轨迹、控制反馈。

YAML / Parquet

VLA CORE

Video Encoder

把视频帧切块、抽特征，输出 visual tokens。

State / Nav Encoder

把速度、航向、路线点、目标车道变成状态 tokens。

LLM / Fusion Transformer

用 attention 融合视觉、状态、导航和提示词。

tokens → fused context → heads

Reasoning Head

输出风险解释、冲突对象、让行原因和 CoT 记录。

Trajectory Head

输出未来 3-8 秒轨迹点、速度曲线和意图。

Runtime Guard

约束加速度、横摆率、舒适性、碰撞边界。

DEPLOYMENT UNITS

model.safetensors训练权重文件；用于继续训练、微调、蒸馏。

model.onnx导出的计算图；用于跨框架推理和优化。

engine.planTensorRT engine；用于车端/服务器低延迟推理。

config.json模型结构、tokenizer、输入 shape、版本号。

trajectory.json输出轨迹、reasoning_trace、置信度和安全标记。

07 / 22 · VIDEO ENCODING

video files → visual tokens

VISION PIPELINE

视频编码把多路时序图像压成 token 序列

训练数据里的视频文件经过解码、同步、采样、切块、特征提取和位置编码，最后变成模型能参与 attention 的 visual tokens。

CAMERA STREAMS

front.mp4

T frames

left.mp4

sync

right.mp4

sync

rear.mp4

optional

ENCODER STEPS

01 Decode

MP4 / ROS bag → frames

02 Sync

timestamp 对齐多相机和 ego

03 Sample

取 2-8 秒窗口，降帧到训练频率

04 Patch

图像切块或 CNN 特征网格

05 Embed

投影成 visual tokens

NVIDIA PhysicalAI-AV · multi-camera training clips

X ∈ ℝ^T×C×H×W

工程上通常同时保存原始视频、抽帧索引、预计算特征和可训练样本包。这样调试看原视频，训练读特征，回归时能追溯到原始 clip。

SOFTWARE ARTIFACTS

clip_manifest.json

视频路径、时间轴、相机名、采样窗口、标签。

frames.index.parquet

每帧时间戳、文件偏移、同步质量、丢帧标记。

video_tokens.npy

预计算视觉 token，供训练/检索/仿真复用。

dataset.webdataset

打包后的训练 shard，支持多机多卡流式读取。

08 / 22 · ATTENTION MECHANISM

query · key · value · weighted context

COMPUTATION DIAGRAM

Attention 的实际含义：把当前驾驶问题和所有线索逐一打分

当自车准备左转时，模型会把“当前问题”作为 Query，把红灯、行人、对向车、车道线等作为 Key/Value，计算每个线索对当前动作的权重。

Q / K / V 在智驾里的对应

Q: ego wants left turn

×

K: scene tokens

score = Q · K

→

softmax weights

weights

×

V: risk facts

Attention(Q,K,V) = softmax(QK^T√d_k)V

一个无保护左转的注意力热力图

Attention mechanism · weighted information flow

query

green

oncoming

pedestrian

lane

turn now?

0.18

0.42

0.31

0.09

creep?

0.08

0.29

0.43

0.20

hold?

0.06

0.48

0.32

0.14

权重高说明该线索对当前动作约束更强，多个高权重线索会共同影响轨迹选择。

工程输出如何落文件

attention_map.npy：每层/每头的权重矩阵，用于调试。
reasoning_trace.json：把高权重对象转成可读风险链。
trajectory.json：未来轨迹点和速度曲线。
model.plan：TensorRT engine，线上推理时不输出完整 attention，只保留必要审计摘要。

context = Σ_i weight_i · value_i

09 / 22 · VLA TO MATH

Pixels → tensors → loss → actions

BOTTOM-UP BREAKDOWN

VLA 拆到底：本质是用大量样本学习一个函数

把行业新词拆回最原始的概念：图像先变成数字表格，文本和导航变成向量，模型不断试算，错误用损失函数衡量，再用梯度下降改参数。

01 PIXEL

图像就是数字

相机帧由每个像素的 RGB 数值组成。

frame ∈ ℝ^H×W×3

02 TENSOR

张量

多帧、多相机、多通道堆成高维表格，GPU 才能并行计算。

X ∈ ℝ^T×C×H×W

03 TOKEN

Token / 向量

把图像块、文字、导航点压成模型能处理的小向量。

x_i → e_i ∈ ℝ^d

04 ATTENTION

注意力

计算每个信息和其他信息的相关程度：红灯、行人、车道谁更重要。

Attention(Q,K,V) = softmax(QK^T√d_k)V

05 LOSS

损失函数

把模型输出和真实驾驶轨迹比较，数字越大表示错得越多。

L = ||ŷ − y||₂

06 ACTION

轨迹 / 控制

最后输出未来几秒的位置点、速度曲线，再接到底盘控制。

a_t = f_θ(obs, nav)

直观类比

像做函数拟合：给大量“输入场景和参考动作”，调函数里的参数，让下次遇到类似题目时误差更小。

训练计算

梯度下降等于沿着“错误下降最快的方向”微调参数：θ ← θ - η∇L。

为什么要算力

一次训练要对海量张量反复做矩阵乘法、注意力和反向传播；卡越多，试验迭代越快。

10 / 22 · DATASET

PhysicalAI-AV as data grammar

DATA DISSECTION

PhysicalAI-AV 示范训练数据的工程形态

公开数据帮助团队理解 clip 粒度、传感器同步、场景标签和训练样本包的工程标准；自有车队数据提供持续长尾来源。

SCALE

1,727 小时 / 100 TB

公开数据规模足以跑通训练、评测和可视化流程。

CLIPS

310,895 个 20 秒片段

clip 是模型训练、场景复现和回归评测的基本单位。

SENSORS

多传感器覆盖

相机、lidar、radar、车辆状态和导航信息要统一时间轴。

OUR DATA

自有车队映射

把运营日志映射成同类 schema，才能进入 Alpamayo 式闭环。

CLIP SCHEMA

一个训练片段需要同时回答四个问题

车看见了什么：多路视频和道路结构
车当时怎样运动：位置、速度、航向、控制量
任务是什么：导航路线、目标车道、下一动作
哪里出错：接管、急刹、近失、乘客反馈、低置信度

ENGINEERING LESSON

数据闭环先解决“格式”和“可追溯”

没有统一时间轴、脱敏记录、场景标签、版本号和来源追踪，数据量再大也难以变成模型能力。

Source: NVIDIA Developer Alpamayo PhysicalAI-AV dataset summary

11 / 22 · ALPASIM

Closed-loop before road exposure

SIMULATION DISSECTION

AlpaSim 让模型先在可复现场景里“考试”

真实道路不能随便试错；闭环仿真把车队真实片段、长尾场景和新模型放进同一个评测回路。

NVIDIA Alpamayo / AlpaSim · predicted trajectory vs ground truth rollout

Scene

从真实 clip 或构造场景还原道路、车辆、行人、信号灯。

Driver

接入待测模型，读取观测，输出未来轨迹或控制意图。

Controller

把模型输出转成车辆运动，检查执行约束和延迟。

Traffic

模拟周边交通参与者变化，生成多种未来发展。

Score

输出碰撞、越界、急刹、轨迹误差和闭环分数。

Source: NVIDIA technical blog on AlpaSim closed-loop simulation

12 / 22 · FIRST RUN

How to onboard a technical team

BEGINNER PATH

Alpamayo 最小闭环是进入量产 Robotaxi 的第一步

最小闭环展示样例数据如何进入模型，模型如何输出推理和轨迹，轨迹如何进入仿真和评测。

取样例

获取官方代码、权重、notebook 和 sample clip。

跑推理

输入视频、车辆状态、导航提示，生成轨迹与推理链。

看可视化

对照视频、预测轨迹和原因链，定位模型行为。

进仿真

把 driver policy 接入 AlpaSim，跑闭环 rollout。

换自有数据

用运营 clip 替换样例，开始构建差异化能力。

Source: NVIDIA Developer Alpamayo notebooks, GitHub/Hugging Face access notes

13 / 22 · ALPAMAYO R&D WORKPLAN

people · data · compute · model · sim · vehicle

EXECUTION MODEL

Alpamayo 研发流水线连接数据、训练、仿真和车型接口

研发团队可以围绕 Alpamayo 的开放样例建立最小闭环，再逐步接入公开数据、自有运营数据、百卡训练、AlpaSim 回归和车型控制协议。

01 · REPRODUCE

复现官方样例

跑通 GitHub / Hugging Face 权重
完成 notebook 推理和可视化
固定环境镜像和实验记录

02 · DATA

建立数据工厂

下载 PhysicalAI-AV
搭建对象存储、元数据、校验
切片、抽帧、特征、标签入库

03 · COMPUTE

建立训练算力线

开发机用于调试
8 卡节点用于微调
32-100 卡用于批量训练/仿真

04 · MODEL

从推理到训练

先做 LoRA / adapter 微调
再做蒸馏、偏好数据和强化学习
输出模型卡和版本报告

05 · SIM

闭环仿真回归

AlpaSim 接入 policy
长尾场景批量 rollout
碰撞、越界、急刹、轨迹误差评分

06 · VEHICLE

车型接口桥接

控制协议映射
影子模式和 HIL 台架
车端日志回流进入数据闭环

sample clip → inference

133TB data → lake

fine-tune → checkpoint

AlpaSim → score

vehicle log → next data

14 / 22 · 133TB DATA FACTORY

download · storage · processing

DATA ENGINEERING

100 多 TB 数据工程围绕校验、切片和复用展开

PhysicalAI-AV 官方数据集约 133TB，按最多 100 clips 的 chunk 组织。研发侧把下载文件加工成可训练、可追溯、可回放的样本库。

下载与存储的工程口径

建议先建 300-500TB 热数据空间：133TB 原始数据、校验副本、抽帧/特征/索引、训练样本包、仿真结果和模型 checkpoint 会同时存在。

133TBofficial dataset scale

10GbE+preferred ingress

300-500TBusable hot storage

理论下载时间：1Gbps≈12.3天；10Gbps≈1.2天；实际按 60-75% 吞吐预留。若用公有云对象存储，按 $0.023/GB·月口径，133TB 热存储约 $3k/月。

01 · 合规与账号

确认 NVIDIA 数据许可、Hugging Face 访问权限、下载 token、用途边界和内部数据隔离。

02 · 分块下载

按 chunk 并发下载，记录 manifest、checksum、失败重试、版本号和来源 URL。

03 · 数据湖结构

对象存储放原始文件；Postgres/ClickHouse 记录 clip、传感器、标签、地域、天气、异常事件索引。

04 · 训练样本生成

把视频、ego motion、calibration、导航、标签转换为 WebDataset/Parquet/LMDB 等训练格式。

05 · 缓存与特征

NVMe 缓存高频 clip；预计算视觉 embedding、场景标签和仿真入口，减少重复解码。

06 · 自有数据接入

把运营车辆日志映射到同一 schema，后续公开数据负责入门，自有数据负责差异化长尾。

15 / 22 · COMPUTE & EQUIPMENT

what to buy · what to rent · when to scale

INFRASTRUCTURE

算力投入分三层：先验证，后训练，再上百卡持续迭代

Alpamayo 1.5 是 10B 级 VLA，单机可做推理和小规模 adapter 微调；真正有价值的是多实验并行、全量数据重扫和 AlpaSim 批量回归。

LAB · 0-4 GPUs

研发启动层

2 台开发工作站或少量云 GPU
跑通 notebook、推理、可视化
抽样 1-5TB 数据建立小样本集
产出：可复现环境、数据 schema、baseline 报告

预算口径：¥20-80万一次性设备，或云 GPU $2-4/卡·小时按需使用。

NODE · 8-32 GPUs

训练验证层

1-4 台 8 卡服务器
100/200Gb IB 或 RoCE 网络
50-100TB NVMe scratch
跑 LoRA、蒸馏、批量仿真和回归题库

若按 H100 级卡 ¥20万/张，8 卡节点 GPU 约 ¥160万；完整节点含主机/网络/存储约 ¥220-350万。

CLUSTER · 100 GPUs

持续迭代层

百卡用于多实验并行、全量重训和仿真回放
调度系统：Slurm/K8s/Ray
实验系统：MLflow/W&B + 模型仓库
产出：月度模型版本、长尾题库分数、安全包

若购买 H100 级卡，仅 GPU 约 ¥2000万；完整集群常见还要叠加服务器、网络、机柜、供电、散热和运维。

19 / 22 · STARTUP BUDGET & OUTPUTS

0-12 month execution plan

OPERATING PLAN

初创公司路线：轻资产起步，资源投入跟随数据闭环扩展

早期投入集中在数据工厂、可复现训练和闭环评测上。百卡算力已经可用时，现金预算重点转向存储、网络、工程团队和车辆接口验证。

Phase

投入重点

预算口径

阶段产出

0-1 月

复现 Alpamayo；账号许可；5-10TB 抽样数据；建立代码镜像和实验模板。

¥20-80万或云 GPU $5k-20k。

可运行 demo、样本数据湖、第一版技术风险清单。

1-3 月

下载 133TB；300-500TB 热存储；数据 schema；小规模 LoRA / adapter 微调。

存储/网络 ¥50-150万；8 卡节点可租可买。

公开数据 baseline、数据工厂 v1、AlpaSim 回归报告。

3-6 月

接入自有运营数据；场景挖掘；蒸馏与偏好数据；32 卡级训练验证。

工程团队 + 算力调度；若自购约 ¥800-1600万。

长尾题库、月度模型版本、模型卡和安全评测包。

6-12 月

百卡持续训练；大规模仿真；车型控制协议影子验证；HIL/台架联调。

若百卡已由合作方提供，新增预算集中在数据、车辆台架、运维。

Robotaxi 技术样车软件栈、可审计升级流程、对外服务化能力。

组织配置

算法 6-10、数据 4-6、仿真 3-5、平台 3-5、车辆接口 3-5、安全/合规 1-2。

团队年化人力通常高于单月云算力，需和算力利用率一起管理。

形成独立算法研发实体：模型交付、数据资产、仿真证据和责任边界独立核算。

110 / 22 · TECH ROUTES

VLA · world model · IL · RL

CONCEPT MAP

四条技术路线如何配合

VLA 负责多模态理解和动作生成；世界模型负责预测环境变化；模仿学习先学专家动作；强化学习在仿真里继续优化策略。

VLA

把“看、读、开”合成一个模型

输入视频、车辆状态、导航和文本提示，输出推理链与轨迹。

直观解释：读题、看图、写解题过程和答案。
数学原型：a = f_θ(video, state, nav, text)。

Alpamayo: teacher model + trajectory prediction

WORLD MODEL

先学会“下一秒会怎样”

学习状态转移概率，用模型预测环境在动作之后怎么变化。

直观解释：在脑子里演算下一步局面。
数学原型：P(s_t+1|s_t,a_t)。

use: synthetic rollout / rare case replay

IMITATION

先照着专家驾驶记录学

让模型输出尽量接近真实优秀司机或安全策略的动作。

直观解释：看标准答案写作业。
数学原型：min ||a_model − a_expert||。

example: behavior cloning / ChauffeurNet

RL

在仿真里按奖励继续改

模型尝试动作，环境给奖励或惩罚，目标是累计奖励最大。

直观解释：做实验，保留得分高的策略。
数学原型：max E[Σ γ^tr_t]。

needs closed-loop sim + compute

111 / 22 · WHAT WE BUILD

From open sample to internal platform

CAPABILITY MAP

照着 Alpamayo 的结构，可以倒推出我们要补的工程模块

开放工具链给的是“骨架”，自有业务要补上数据适配、算力调度、车型参数、版本门禁和运营反馈。

Alpamayo component

它教会团队什么

我们要建设什么

VLA 模型

视频、状态、导航如何变成推理链和轨迹。

自有长尾样本微调、蒸馏和端侧部署流程。

PhysicalAI-AV

训练 clip 的字段、同步、传感器和标签粒度。

运营车队数据适配器、脱敏、切片、标注和样本库。

AlpaSim

闭环仿真评测策略在动态场景中的表现。

长尾回归场景库、批量仿真调度和版本报告。

Post-training

监督微调、强化学习、蒸馏如何进入迭代。

百卡训练任务、实验追踪、模型仓库和安全门禁。

Vehicle interface

开放链条没有替代量产车型工程。

控制协议、电气连接图、三维模型和车端验证平台。

19 / 22 · ROBOTAXI PRODUCTIZATION

Beyond the research demo

PRODUCT SYSTEM

从 Alpamayo 到量产 Robotaxi 需要产品化工程体系

类 Cybercab / Waymo 的可量产车型，需要把开放研发链条接入制造、运营、维护和责任边界。

01

车型参数包

各域控制协议、车身电气连接图、车身三维模型和诊断标定。

02

制造集成

传感器支架、线束、供电、热管理、EOL 标定和质量追溯。

03

运营服务

调度、补能、清洁、远程协助、乘客服务、事故响应。

04

升级维护

OTA、模型卡、安全包、回滚、预测性维护和再标定。

KEY LINK

开源研发链条定义学习路径，量产体系定义稳定服务能力

Alpamayo 帮团队建立技术入门路径；Robotaxi 产品体系承接车辆工程、制造一致性、现场运营和责任切分。

OUR ENTRY POINT

当前优势是开放工具链、自有车队和车型参数包可以直接对接

运营车辆负责暴露长尾；百卡算力负责训练和仿真；车型参数包负责车端执行；独立算法实体负责交付模型和安全证据。

20 / 22 · ENTRY ROADMAP

Four workstreams, one learning loop

PRACTICAL START

入门路线从 Alpamayo 样例推进到自有长尾数据

每个工作流都进入数据闭环，持续沉淀样本、评测、模型版本和车端反馈。

Alpamayo Lab

跑通官方模型、notebook、样例数据、推理可视化和 AlpaSim。

Data Adapter

把运营日志映射为 clip schema，建立脱敏、同步和标签体系。

Compute Line

用百卡集群跑训练、蒸馏、仿真回放、实验追踪和模型仓库。

Vehicle Bridge

把模型轨迹接入控制协议、电气系统和车端影子验证。

Regression Gate

固定长尾题库、闭环仿真分数、模型卡和安全包。

21 / 22 · GLOSSARY

From industry terms to primitive math

TERM COLUMN

术语表：把行业词拆到最底层概念

每个词都按三层阅读：直观解释、数学计算、在智驾训练里对应什么。

VLA

视觉、语言、动作统一建模：看路况、读任务、输出轨迹。

a = f_θ(video, state, nav, text)

CoT

Chain of Thought，把中间判断写成步骤：看到什么、冲突在哪里、为什么让行。

obs → reason steps → action

因果链

把风险和动作的因果关系串起来：继续走会怎样，等待会降低什么风险。

cause → risk → constraint → action

LLM

大语言模型把上下文变成下一个 token 的概率分布。

p(x_{t+1}|x_{≤t})

视觉编码

把图像切块或提特征，再变成视觉 token 序列。

image → patch → embedding

世界模型

学会预测下一秒环境怎么变，用来在“脑内仿真”。

P(s_t+1|s_t,a_t)

强化学习

策略通过奖励改进，适合闭环仿真里的策略优化。

max E[Σ γ^tr_t]

模仿学习

先模仿专家动作，减少从零探索的风险和成本。

min ||a_model − a_expert||

Transformer

让所有 token 互相打分，决定模型应该关注什么。

Attention(Q,K,V)

张量

多维数字表格，图像、轨迹、雷达点都要变成张量。

X∈R^(N×T×C×H×W)

Token

把文字、图像块、导航点切成小单位，再变成向量。

x_i → e_i∈R^d

损失函数

衡量模型错了多少，训练目标是让它越来越小。

L(ŷ,y)

梯度下降

沿着错误下降最快的方向更新参数。

θ←θ-η∇L

反向传播

从最终错误反推每个参数该怎么改。

∂L/∂θ

闭环仿真

模型动作会改变下一帧环境，比离线误差更接近真实驾驶。

obs_t → a_t → obs_t+1

轨迹

未来几秒车辆要经过的位置点和速度曲线。

[(x_1,y_1,v_1), ...]

22 / 22

TAKEAWAY

FROM SAMPLE TO FLEET

先拆工具链
再造数据飞轮

Alpamayo 提供入门地图；Robotaxi 能力来自开放工具链、自有运营数据、百卡算力和量产车型参数包的组合。

ALPAMAYO DISSECTION

END

THREE LESSONS

ENTRY LOGIC

01

模型教会动作生成

VLA 让视频、导航和车辆状态进入同一个学习问题。

02

数据决定能力上限

公开数据教格式，自有车队提供真实长尾和持续迭代。

03

仿真和车型让研发落地

AlpaSim 负责闭环考试，车型参数包负责把模型接到真实车辆。

→ END OF ALPAMAYO INTRO

开源项目进入量产 Robotaxi

Alpamayo 提供端到端智驾研发样板

01 · Reasoning VLA

02 · Post-training / RL

03 · Evaluation metrics

ALPAMAYO

04 · PhysicalAI-AV Dataset

05 · AlpaSim

06 · Notebooks / GitHub

VLA 把“看见、想清楚、怎么开”合成一个学习问题

视频输入

状态输入

任务输入

推理链

动作输出

VLA 的 Chain of Thought 记录驾驶决策依据

一个训练样本可以这样记录推理链

无保护左转

临停车辆占道

信号灯故障路口

前车急刹

VLA 背后的三块底座：LLM、Attention、视觉编码

大语言模型：预测下一个 token 的函数

注意力机制：给信息分配权重

视觉编码：把图像变成 token

VLA 交付物由输入包、模型包、运行包和输出包构成

clip_manifest.json

front.mp4 / surround.mp4

calib.yaml + ego.parquet

Video Encoder

State / Nav Encoder

LLM / Fusion Transformer

Reasoning Head

Trajectory Head

Runtime Guard

视频编码把多路时序图像压成 token 序列

01 Decode

02 Sync

03 Sample

04 Patch

05 Embed

clip_manifest.json

frames.index.parquet

video_tokens.npy

dataset.webdataset

Attention 的实际含义：把当前驾驶问题和所有线索逐一打分

Q / K / V 在智驾里的对应

一个无保护左转的注意力热力图

工程输出如何落文件

VLA 拆到底：本质是用大量样本学习一个函数

图像就是数字

Token / 向量

轨迹 / 控制

直观类比

训练计算

为什么要算力

PhysicalAI-AV 示范训练数据的工程形态

1,727 小时 / 100 TB

310,895 个 20 秒片段

多传感器覆盖

自有车队映射

一个训练片段需要同时回答四个问题

数据闭环先解决“格式”和“可追溯”

AlpaSim 让模型先在可复现场景里“考试”

Scene

Driver

Controller

Traffic

Score

Alpamayo 最小闭环是进入量产 Robotaxi 的第一步

取样例

跑推理

看可视化

进仿真

换自有数据

Alpamayo 研发流水线连接数据、训练、仿真和车型接口

复现官方样例

建立数据工厂

建立训练算力线

从推理到训练

开源项目进入
量产 Robotaxi

先拆工具链
再造数据飞轮