Будущее автопилота: Как Ли Авто | Li Auto меняет правила игры

На конференции NVIDIA GTC 2026 компания Ли Авто | Li Auto представила базовую модель автопилота следующего поколения MindVLA-о1.

«Мы совершили фундаментальный прорыв на нижнем уровне: нативный 3D ViT¹ — по-настоящему трехмерный визуальный кодировщик. Мы пытаемся ответить на один вопрос: людям водить машину вроде бы не так уж и сложно. Любой обычный человек может вести автомобиль быстро и плавно. Но ведущие мировые компании вложили в это сотни миллиардов, а беспилотное вождение до сих пор продвигается медленно» - объяснил основатель компании Ли Сян | Li Xiang в своем посте в социальной сети Weibo.

В чем же именно проблема?

Всё это время мы учили ИИ делать взрослые дела, но так и не дали ему побыть ребенком.Человек учится ходить, бросать и ловить мяч в возрасте от 0 до 6 лет. Кажется, что это простые действия, но на самом деле именно они помогают ребенку сформировать понимание трехмерного физического пространства. Именно поэтому мы способны точно оценивать расстояние и уверенно управлять машиной — наше «3D-предобучение» завершилось еще до шести лет.

Однако все современные сквозные (end-to-end) системы по сути «учатся водить, просматривая 2D-видео». Это больше похоже на человека, который сидит перед компьютером, смотрит 100 000 часов записей с видеорегистратора, а потом сразу садится за руль. У такого ИИ есть интеллект, но он далек от человеческого.

Использовавшийся нами и индустрией ранее подход «с высоты птичьего полета» делал мир плоским. Глядя на него сверху, система теряла информацию о высоте. OCC³-метод действительно работает с 3D, но ему не хватает семантической информации. Проблема ИИ в работе с физическими объектами не в более крупной модели или большем объеме данных, а в отсутствии визуального фундамента для подлинного понимания трехмерного мира. 3D ViT¹ решает эту задачу. Модель не «восстанавливает» 3D из 2D-картинок, а изначально работает в реальном трехмерном мире. С высокоточным мультиракурсным зрением в качестве основы, она выполняет унифицированное понимание 3D-геометрии и семантики пространства — его структуры, взаимного расположения объектов, смыслового наполнения — непосредственно на этапе кодирования. Модель не просто видит изображение, она понимает мир, осознавая, где что находится и чем оно является.

В рамках этой архитектуры меняется роль лидара. Он больше не является ядром восприятия, а выступает скорее высокоточной линейкой, обеспечивающей геометрическую калибровку и пространственные ограничения в ближней зоне для зрения. Теперь верхний предел возможностей системы определяет не количество физических лучей сенсора, а способность модели к характеризации (описанию данных). Благодаря единому моделированию, 3D ViT¹ способен стабильно распознавать и анализировать пространство на дистанции более 500 метров.

Дело не в том, что раньше никто не хотел этого делать — это было просто невозможно, так как 3D ViT¹ предъявляет экстремально высокие требования к вычислительной мощности автомобиля. Наш чип собственной разработки Mach обладает втрое большей эффективной мощностью, чем предыдущее поколение, что позволяет реально внедрить эту архитектуру в серийный автомобиль.

Благодаря поддержке 3D ViT¹, модель MindVLA-о1 объединяет пространственное понимание, мышление, логический вывод и манеру вождения в одной нейросети. Она не просто видит мир, но и способна моделировать изменения сцены на несколько секунд раньше даже в скрытом пространстве, “продумывая” маневр перед его началом. Эту способность мы называем мультимодальным мышлением.

Мы также подтвердили, что эта базовая модель создана не только для автопилота. Одна и та же база VLA² может как управлять автомобилями, так и контролировать роботов, превращаясь в универсального агента физического мира.

Автопилот — это лишь отправная точка для создания физического ИИ.

¹ 3D ViT – 3Д Визуальный трансформер / 3D Visual Transformer – архитектура нейросетей, которая воспринимает трехмерное изображение как последовательность слов. Она видит мир как голограмму, которую разобрал на миллиард мелких деталей и мгновенно понял, как они между собой связаны, чтобы не врезаться в угол стола или припарковать машину.

² VLA – Vision-Language-Action – модель «Зрение – Язык – Действие».

³ OCC – Occupancy prediction – это метод представления и предсказания окружающей среды в виде сетки трехмерных ячеек (вокселей), которая может быть или занята, или свободна, или в статусе «отсутствуют данные».