«Новый DeepSeek-момент»: в Китае представили первый смартфон, которым полностью управляет ИИ-агент
- AlexT
- 08-дек-2025, 09:00
- 0 комментариев
- 4 просмотров

Китайские компании снова подтверждают лидерство в области искусственного интеллекта. Пока многие производители смартфонов ограничиваются голосовыми помощниками и отдельными функциями ИИ, ZTE совместно с ByteDance показали устройство, в котором искусственный интеллект встроен не на уровне приложения, а напрямую в операционную систему. Такой подход фактически превращает смартфон в автономного цифрового агента, способного пользоваться устройством так же, как это делает человек.
Прототип ZTE Nubia M153 основан на переработанной версии Android, где ключевую роль играет ИИ-агент Doubao — мультифункциональная система ByteDance, используемая в чат-ботах и корпоративных сервисах.
В данном устройстве Doubao выполняет значительно более глубокие функции, чем классические ассистенты:
анализирует графический интерфейс на экране,
запускает и устанавливает приложения,
управляет всеми элементами смартфона,
выполняет многошаговые действия без участия пользователя.
По сути, ИИ «видит» смартфон глазами пользователя и способен выполнять любую задачу, которую можно осуществить вручную.
Одной из демонстраций стало решение бытовой проблемы: пользователю требовалось найти сервис, где можно нанять человека, готового простоять в очереди. ИИ самостоятельно:
нашёл подходящее приложение,
скачал его,
открыл нужный раздел,
заполнил форму заказа,
вывел итоговый экран для подтверждения.
Пользователь не знал ни названия сервиса, ни как работает приложение — агент решил задачу от начала до конца.
Прототип работает на флагманском чипсете Qualcomm Snapdragon 8 Elite Gen 5 и оснащён 16 ГБ оперативной памяти.
Система использует комбинированный принцип обработки:
локальные ИИ-модули анализируют интерфейс и управляют устройством напрямую;
облачные компоненты занимаются сложной семантикой и планированием сценариев.
Этот подход ускоряет работу и позволяет хранить чувствительные данные — такие как пароли и платёжная информация — только на устройстве.
Модель Doubao активно используется в Китае: её аудиторией является более 175 млн пользователей. Основа архитектуры — разрежённая модель типа «смесь экспертов», поддерживающая мультимодальность.
В одной из демонстраций смартфон с помощью Doubao распознал по фотографии станцию замены аккумуляторов NIO и объяснил принцип её функционирования — пример того, как ИИ сочетает компьютерное зрение и знание предметной области.
Одним из наиболее показательных случаев стала демонстрация бронирования номера. Пользователь сделал снимок входа в отель и попросил найти доступный номер «на сегодня».
Далее система работала в два этапа:
Doubao проанализировал изображение и понял, о каком учреждении идёт речь, определил дату заселения и запросил дополнительную информацию о политике отеля.
Nebula-GUI, фирменная 7-миллиардная модель ZTE, выполнила техническую часть: открыла приложение бронирования, указала даты, нашла доступные варианты и уточнила условия приема гостей с домашними животными.
Получилось полностью автономное действие: от понимания запроса до завершения операции.
Ещё один пример — вызов беспилотного такси.
ИИ-агент:
определил геопозицию,
нашёл приложение локального оператора,
инициировал заказ через Baidu Apollo,
выбрал точки отправления и назначения,
подтвердил поездку.
Во время поездки пользователь изменил маршрут, а агент автоматически открыл нужный интерфейс, скорректировал точку высадки и подтвердил изменение как в приложении, так и в системе самого роботакси.
Когда возникла проблема со входом в аккаунт, ИИ нашёл связанный номер телефона и назвал последние четыре цифры для подтверждения.
Проект ZTE и ByteDance — один из первых реальных примеров смартфона, которым управляет не голосовой помощник, а полноценный ИИ-агент со своими механизмами восприятия и исполнения. Модель сочетает локальные вычисления, мощные облачные алгоритмы и управление интерфейсом на уровне отдельного цифрового «исполнителя».
Если разработки продолжат развиваться, подобные устройства могут стать новым стандартом взаимодействия с техникой — когда пользователю нужно лишь озвучить цель, а всё остальное сделает агент.