入门路径从开放模型、数据、仿真和评测闭环开始,形成可复现、可替换、可扩展的研发起点。
读取视频、自车状态、导航和文本提示,输出推理链与驾驶轨迹。
用监督微调、强化学习和蒸馏,把开放模型改造成任务模型。
minADE、闭环仿真分数、推理-动作一致性和轨迹可视化。
开放工具链的价值是给“数据 → 模型 → 仿真 → 评测 → 再训练”提供一套最小闭环。自有运营数据和量产车型参数决定后续差异化上限。
公开多传感器驾驶片段,用来理解 clip schema 和训练输入形态。
闭环仿真框架,把模型放进可复现场景反复测试。
通过样例代码把模型推理、数据读取、可视化和仿真跑通。
多路相机帧提供路口、车道、行人、车辆和交通灯。
自车速度、航向、历史轨迹和控制反馈构成运动上下文。
导航路线、目标车道、文本提示约束“要去哪、要怎么走”。
判断谁会影响自车、为什么让行、为什么不能急转。
输出未来轨迹、速度曲线、停车/绕行/让行意图。
在智驾里,Chain of Thought 把感知线索、冲突关系、交通规则、风险约束和动作选择串成可训练、可回放、可审计的中间结构。
实际训练时,模型不只学习“下一秒往哪开”,还要学习为什么这个动作合理。下面是一个无保护左转片段的结构化样例。
看到:绿灯、对向直行车、斑马线行人。
推理:绿灯不等于可转;冲突区被对向车和行人占用。
动作:停在转弯弧线前,等待间隙后低速通过。
看到:快递车占右车道,左后方有来车。
推理:障碍物静止但不能立即并线;左后间隙不足时先减速跟停。
动作:打灯、减速、等待左后安全间隙后绕行。
看到:信号灯熄灭,四向车辆交替进入。
推理:按无信号路口处理;根据到达顺序和行人优先权决策。
动作:停止线前停稳,低速探头,确认让行后通过。
看到:前车刹车灯亮,后车跟车距离近。
推理:既要避免追尾前车,也要避免过急制动引发后车风险。
动作:平顺减速,保持车道;侧向空间清晰时保留避让轨迹。
先把模型拆成三个最基础的计算动作:语言模型负责把上下文变成下一步概率;注意力负责在信息之间分配权重;视觉编码器负责把图像压成向量。
LLM 在给定上下文后,计算每个候选 token 出现的概率。
Attention 的问题很朴素:当前要做决定时,哪些输入更相关。红灯、横穿行人、前车刹车、导航目标会得到不同权重。
相机帧先被切成小块或局部特征,再投影成向量序列,才能和文字、导航、车辆状态放进同一个模型。
工程落地需要说明:一个 clip 如何用 JSON 描述,视频和标定如何进编码器,权重如何转成 ONNX/TensorRT,输出如何变成轨迹和审计记录。
记录 clip_id、时间戳、相机文件、ego 状态、导航任务、标签。
JSON多相机视频源,进入解码、同步、抽帧和视觉编码。
MP4 / raw frames相机内外参、车速、航向、历史轨迹、控制反馈。
YAML / Parquet把视频帧切块、抽特征,输出 visual tokens。
把速度、航向、路线点、目标车道变成状态 tokens。
用 attention 融合视觉、状态、导航和提示词。
输出风险解释、冲突对象、让行原因和 CoT 记录。
输出未来 3-8 秒轨迹点、速度曲线和意图。
约束加速度、横摆率、舒适性、碰撞边界。
训练数据里的视频文件经过解码、同步、采样、切块、特征提取和位置编码,最后变成模型能参与 attention 的 visual tokens。
MP4 / ROS bag → frames
timestamp 对齐多相机和 ego
取 2-8 秒窗口,降帧到训练频率
图像切块或 CNN 特征网格
投影成 visual tokens
工程上通常同时保存原始视频、抽帧索引、预计算特征和可训练样本包。这样调试看原视频,训练读特征,回归时能追溯到原始 clip。
视频路径、时间轴、相机名、采样窗口、标签。
每帧时间戳、文件偏移、同步质量、丢帧标记。
预计算视觉 token,供训练/检索/仿真复用。
打包后的训练 shard,支持多机多卡流式读取。
当自车准备左转时,模型会把“当前问题”作为 Query,把红灯、行人、对向车、车道线等作为 Key/Value,计算每个线索对当前动作的权重。
权重高说明该线索对当前动作约束更强,多个高权重线索会共同影响轨迹选择。
把行业新词拆回最原始的概念:图像先变成数字表格,文本和导航变成向量,模型不断试算,错误用损失函数衡量,再用梯度下降改参数。
相机帧由每个像素的 RGB 数值组成。
把图像块、文字、导航点压成模型能处理的小向量。
最后输出未来几秒的位置点、速度曲线,再接到底盘控制。
像做函数拟合:给大量“输入场景和参考动作”,调函数里的参数,让下次遇到类似题目时误差更小。
梯度下降 等于沿着“错误下降最快的方向”微调参数:θ ← θ - η∇L。
一次训练要对海量张量反复做矩阵乘法、注意力和反向传播;卡越多,试验迭代越快。
公开数据规模足以跑通训练、评测和可视化流程。
clip 是模型训练、场景复现和回归评测的基本单位。
相机、lidar、radar、车辆状态和导航信息要统一时间轴。
把运营日志映射成同类 schema,才能进入 Alpamayo 式闭环。
没有统一时间轴、脱敏记录、场景标签、版本号和来源追踪,数据量再大也难以变成模型能力。
从真实 clip 或构造场景还原道路、车辆、行人、信号灯。
接入待测模型,读取观测,输出未来轨迹或控制意图。
把模型输出转成车辆运动,检查执行约束和延迟。
模拟周边交通参与者变化,生成多种未来发展。
输出碰撞、越界、急刹、轨迹误差和闭环分数。
最小闭环展示样例数据如何进入模型,模型如何输出推理和轨迹,轨迹如何进入仿真和评测。
获取官方代码、权重、notebook 和 sample clip。
输入视频、车辆状态、导航提示,生成轨迹与推理链。
对照视频、预测轨迹和原因链,定位模型行为。
把 driver policy 接入 AlpaSim,跑闭环 rollout。
用运营 clip 替换样例,开始构建差异化能力。
研发团队可以围绕 Alpamayo 的开放样例建立最小闭环,再逐步接入公开数据、自有运营数据、百卡训练、AlpaSim 回归和车型控制协议。
PhysicalAI-AV 官方数据集约 133TB,按最多 100 clips 的 chunk 组织。研发侧把下载文件加工成可训练、可追溯、可回放的样本库。
建议先建 300-500TB 热数据空间:133TB 原始数据、校验副本、抽帧/特征/索引、训练样本包、仿真结果和模型 checkpoint 会同时存在。
确认 NVIDIA 数据许可、Hugging Face 访问权限、下载 token、用途边界和内部数据隔离。
按 chunk 并发下载,记录 manifest、checksum、失败重试、版本号和来源 URL。
对象存储放原始文件;Postgres/ClickHouse 记录 clip、传感器、标签、地域、天气、异常事件索引。
把视频、ego motion、calibration、导航、标签转换为 WebDataset/Parquet/LMDB 等训练格式。
NVMe 缓存高频 clip;预计算视觉 embedding、场景标签和仿真入口,减少重复解码。
把运营车辆日志映射到同一 schema,后续公开数据负责入门,自有数据负责差异化长尾。
Alpamayo 1.5 是 10B 级 VLA,单机可做推理和小规模 adapter 微调;真正有价值的是多实验并行、全量数据重扫和 AlpaSim 批量回归。
早期投入集中在数据工厂、可复现训练和闭环评测上。百卡算力已经可用时,现金预算重点转向存储、网络、工程团队和车辆接口验证。
复现 Alpamayo;账号许可;5-10TB 抽样数据;建立代码镜像和实验模板。
¥20-80万或云 GPU $5k-20k。
可运行 demo、样本数据湖、第一版技术风险清单。
下载 133TB;300-500TB 热存储;数据 schema;小规模 LoRA / adapter 微调。
存储/网络 ¥50-150万;8 卡节点可租可买。
公开数据 baseline、数据工厂 v1、AlpaSim 回归报告。
接入自有运营数据;场景挖掘;蒸馏与偏好数据;32 卡级训练验证。
工程团队 + 算力调度;若自购约 ¥800-1600万。
长尾题库、月度模型版本、模型卡和安全评测包。
百卡持续训练;大规模仿真;车型控制协议影子验证;HIL/台架联调。
若百卡已由合作方提供,新增预算集中在数据、车辆台架、运维。
Robotaxi 技术样车软件栈、可审计升级流程、对外服务化能力。
算法 6-10、数据 4-6、仿真 3-5、平台 3-5、车辆接口 3-5、安全/合规 1-2。
团队年化人力通常高于单月云算力,需和算力利用率一起管理。
形成独立算法研发实体:模型交付、数据资产、仿真证据和责任边界独立核算。
输入视频、车辆状态、导航和文本提示,输出推理链与轨迹。
学习状态转移概率,用模型预测环境在动作之后怎么变化。
让模型输出尽量接近真实优秀司机或安全策略的动作。
模型尝试动作,环境给奖励或惩罚,目标是累计奖励最大。
开放工具链给的是“骨架”,自有业务要补上数据适配、算力调度、车型参数、版本门禁和运营反馈。
类 Cybercab / Waymo 的可量产车型,需要把开放研发链条接入制造、运营、维护和责任边界。
各域控制协议、车身电气连接图、车身三维模型和诊断标定。
传感器支架、线束、供电、热管理、EOL 标定和质量追溯。
调度、补能、清洁、远程协助、乘客服务、事故响应。
OTA、模型卡、安全包、回滚、预测性维护和再标定。
Alpamayo 帮团队建立技术入门路径;Robotaxi 产品体系承接车辆工程、制造一致性、现场运营和责任切分。
运营车辆负责暴露长尾;百卡算力负责训练和仿真;车型参数包负责车端执行;独立算法实体负责交付模型和安全证据。
每个工作流都进入数据闭环,持续沉淀样本、评测、模型版本和车端反馈。
跑通官方模型、notebook、样例数据、推理可视化和 AlpaSim。
把运营日志映射为 clip schema,建立脱敏、同步和标签体系。
用百卡集群跑训练、蒸馏、仿真回放、实验追踪和模型仓库。
把模型轨迹接入控制协议、电气系统和车端影子验证。
固定长尾题库、闭环仿真分数、模型卡和安全包。
每个词都按三层阅读:直观解释、数学计算、在智驾训练里对应什么。