Google представила Gemini 3.5 Live Translate — ИИ-переводчик, который сохраняет голос и эмоции собеседника » У айтишки - Новости кино, игр, IT, интернета

Google представила Gemini 3.5 Live Translate — ИИ-переводчик, который сохраняет голос и эмоции собеседника

AlexT
10-июн-2026, 09:00
0 комментариев
58 просмотров

Google анонсировала Gemini 3.5 Live Translate — новую систему голосового перевода в реальном времени, способную не только переводить речь между десятками языков, но и передавать особенности голоса говорящего. Технология сохраняет интонацию, темп речи и эмоциональную окраску, благодаря чему перевод звучит максимально естественно и приближённо к оригиналу.

Разработка ориентирована на живое общение между людьми, которые говорят на разных языках. В отличие от традиционных переводчиков, ожидающих завершения фразы перед обработкой, Gemini 3.5 Live Translate работает практически синхронно, обеспечивая непрерывный диалог с минимальными задержками.

Перевод без длительных пауз

Одной из главных особенностей новой модели стала способность обрабатывать голосовой поток в режиме реального времени.

Большинство существующих систем сначала ждут окончания предложения, затем анализируют его и только после этого формируют перевод. Такой подход неизбежно создаёт паузы и делает общение менее естественным.

Gemini 3.5 Live Translate использует иной принцип работы. Нейросеть начинает перевод ещё во время речи собеседника, поэтому задержка между оригинальной фразой и переведённым вариантом составляет всего несколько секунд.

В результате разговор становится значительно более плавным и напоминает общение через профессионального синхронного переводчика.

Более 70 языков и тысячи вариантов общения

Новая технология поддерживает свыше 70 языков мира, автоматически определяя язык собеседника без необходимости ручной настройки.

При использовании в корпоративных продуктах Google система сможет обеспечивать более 2000 различных языковых комбинаций. Это особенно важно для международных компаний, образовательных платформ и глобальных онлайн-мероприятий, где участники могут говорить на самых разных языках.

По сравнению с предыдущим поколением переводчика Google сделала серьёзный шаг вперёд. Ранее система поддерживала лишь пять языков и была жёстко привязана к английскому как промежуточному языку общения.

Сохранение интонации и особенностей голоса

Одной из наиболее впечатляющих возможностей Gemini 3.5 Live Translate стала передача индивидуальных особенностей речи.

Во время перевода система старается сохранить:

интонацию говорящего;
темп речи;
эмоциональную окраску;
высоту голоса;
естественные паузы и акценты.

Благодаря этому собеседник слышит не безликий синтезированный голос, а перевод, который максимально напоминает оригинального говорящего.

Такой подход особенно полезен во время деловых переговоров, видеоконференций, интервью, образовательных занятий и международного обслуживания клиентов.

Работа в сложных условиях

Разработчики отдельно отмечают устойчивость модели к внешним помехам.

Система способна корректно функционировать в шумной обстановке, включая улицы, общественные пространства, транспорт и многолюдные помещения. При этом пользователям не требуется вручную настраивать чувствительность микрофона или дополнительные параметры обработки звука.

Это позволяет использовать переводчик не только в офисах или дома, но и непосредственно во время поездок и живого общения.

Защита от подделок и дезинформации

По мере развития технологий синтеза речи возрастает риск создания фальшивых аудиозаписей и дипфейков. Чтобы снизить подобные угрозы, Google внедрила в новую систему механизм цифровой маркировки SynthID.

Каждая аудиозапись, созданная с использованием Gemini 3.5 Live Translate, получает специальный невидимый водяной знак. Он не влияет на качество звучания, однако позволяет определить, что аудио было сгенерировано искусственным интеллектом.

В компании считают такой подход важным элементом борьбы с дезинформацией и злоупотреблением технологиями генеративного ИИ.

Уже доступно разработчикам

На данный момент Gemini 3.5 Live Translate доступна в формате публичной предварительной версии.

Разработчики могут получить доступ к технологии через:

Gemini Live API;
Google AI Studio.

Дополнительно Google объявила о поддержке популярных платформ для работы с потоковым аудио и видео, включая Agora, LiveKit и Vision Agents. Благодаря этому компании смогут быстрее интегрировать функцию перевода в собственные приложения без необходимости создавать сложную инфраструктуру передачи медиаданных с нуля.

Первые крупные внедрения

Одним из первых крупных пользователей новой технологии стал азиатский сервис Grab, работающий в сфере такси и доставки.

Платформа ежемесячно обрабатывает свыше 10 миллионов звонков между клиентами, курьерами и водителями. Использование Gemini 3.5 Live Translate позволит значительно упростить общение между людьми, говорящими на разных языках, особенно в международных регионах присутствия компании.

Подобные решения могут стать востребованными и в других сферах — от туризма и электронной коммерции до медицины и клиентской поддержки.

Интеграция в Google Meet

В ближайшее время технология начнёт внедряться в корпоративную экосистему Google.

Уже в текущем месяце стартует закрытое тестирование для пользователей Google Workspace в сервисе видеоконференций Google Meet.

После запуска участники встреч смогут получать перевод разговоров практически в реальном времени независимо от используемого языка. Это значительно упростит проведение международных совещаний и переговоров без привлечения профессиональных переводчиков.

Полноценный коммерческий запуск функции для бизнеса запланирован на конец текущего года.

Когда функция появится у обычных пользователей

Google также готовит масштабное обновление приложения Google Translate для Android и iOS.

После релиза пользователи смогут использовать любые подключённые наушники для общения с иностранцами: переведённая речь будет автоматически передаваться собеседнику практически без задержек.

Для владельцев Android-устройств предусмотрен дополнительный режим прослушивания. Он позволяет воспроизводить перевод напрямую через динамик смартфона, что может оказаться полезным в ситуациях, когда наушников нет под рукой или необходимо быстро получить перевод незаметно для окружающих.

Новый этап развития голосового перевода

Появление Gemini 3.5 Live Translate демонстрирует, насколько быстро развиваются технологии искусственного интеллекта в области коммуникаций. Если раньше автоматический перевод часто воспринимался как вспомогательный инструмент с заметными ограничениями, то современные решения всё ближе подходят к уровню живого человеческого общения.

Сочетание синхронного перевода, сохранения особенностей голоса, поддержки десятков языков и интеграции в популярные сервисы может сделать языковой барьер значительно менее заметным как для бизнеса, так и для обычных пользователей по всему миру.