Платформа

AI-аватары в реальном времени для production-нагрузок.

Фотореалистичные лица, потоковый полнодуплексный голос и любой LLM — на сайтах, в мобильных приложениях и на физических киосках.

Real-time
От голоса до голоса
50+
Поддерживаемых языков
SaaS · On-prem · Kiosk
Варианты развёртывания
2022
Создаём цифровых людей

Архитектура

Из чего собрана платформа

Голос на входе, голос на выходе

Потоковый ASR захватывает речь, LLM генерирует ответ, TTS озвучивает — обычно около двух секунд end-to-end через voice-backend на co-located GPU.

Рендеринг аватара в реальном времени

2D-бэкенд использует Lipsync-2D с NVENC и WebRTC через WHIP. 3D-бэкенд рендерит персонажей в Unreal Engine 5 с кинематографическим качеством.

Любой LLM

OpenAI, Anthropic, Google, Mistral или собственная дообученная модель — через единый конфиг. Меняйте движок без переписывания архитектуры.

Развёртывание на ваших условиях

Центральный SaaS, on-prem GCP или изолированный киоск — один продукт, три варианта. Один клиент на стек, когда важна изоляция.

Таймлайн внедрения

От kickoff до первой беседы.

Как обычно выглядит наш пилот — три недели от первого созвона до того, как реальные пользователи начинают говорить с вашим аватаром.

01
Неделя 1

Выбор аватара + scope

Выберите аватара из живого каталога или закажите кастомного. Согласуем сценарий, канал и метрику, по которой судим пилот — обычно first-contact resolution или completion rate.

02
Неделя 2

Интеграция

Подключаем ваш LLM (или используем наш), загружаем knowledge base и встраиваем аватар на нужную поверхность: сайт, мобильное приложение или киоск.

03
Неделя 3+

Production

Запуск на реальных пользователях. Смотрим метрики вместе. Если пилот заходит — переходите в Growth или Enterprise без re-platforming.

Возможности платформы

Создано для реального мира

Синхронизация губ в реальном времени

Нейросетевой рендеринг генерирует мимику и движения губ покадрово, синхронизируя с речью.

Голос на входе, голос на выходе

Полнодуплексный голос: ASR распознаёт речь, LLM генерирует ответ, TTS озвучивает — обычно около двух секунд end-to-end на co-located GPU.

50+ языков

Говорите с аватаром на арабском, китайском, испанском, русском или любом из 50+ поддерживаемых языков.

Любая LLM

OpenAI, Anthropic, Google, Mistral или ваша собственная модель. Замена через конфиг.

2D и 3D аватары

Фотореалистичные видеоаватары (Lipsync-2D / WAV2Lip) или кинематографические 3D-персонажи (Unreal Engine 5).

Готовность для киосков

Протестировано для публичных развёртываний: аэропорты, ТЦ, отели, больницы. Офлайн-режим включён.

Сценарии использования

AI-аватары в разных отраслях

Замените стойку информации на AI

Терминалы аэропортов, торговые центры, лобби отелей. Многоязычная помощь 24/7 — без персонала.

Решение с первого обращения

Возвраты, диагностика, инструкции. Стабильный сервис на каждом канале.

Наём и адаптация на автопилоте

Скрининг кандидатов, ответы на вопросы о политике, сопровождение первого дня. Ваш бренд, ваш тон, 24/7.

Образование, которое отвечает

Музейные гиды, обучающие модули, презентации продуктов. Персонаж, с которым хочется общаться.

FAQ по платформе

Обычно около двух секунд от голоса до голоса в центральном SaaS с GPU-пулом в той же зоне. Сетевая дистанция и выбор LLM могут растянуть; on-prem и киоск целятся в тот же диапазон при co-located размещении.
Платформа — AIvatars