Google представила генератор видео по тексту на базе Imagen

Делитесь и голосуйте:

Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280?768 пикселей и частотой 24 кадра в секунду.

Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма».

Изображения, сгенерированные Imagen. Данные: Google.

Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24?48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.

В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280?768 пикселей и частотой 24 FPS.

Первый этап генерации видео Imagen Video. Данные: Google.
Промежуточный этап генерации видео Imagen Video. Данные: Google.
Готовое видео, сгенерированное Imagen Video. Данные: Google.

Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.

Видео, сгенерированное Imagen Video. Данные: Google.

Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном.

Видео, сгенерированное Imagen Video. Данные: Google.

Также система умеет правильно отображать текст. 

«В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта.

По словам ИИ-исследователя из Университета Альберты Мэтью Гуздиала, проблема преобразования текста в видео до сих пор не решена.

«Мы вряд ли скоро достигнем чего-то вроде DALL-E 2 или Midjourney по качеству [создания роликов]», — заявил он.

Чтобы убрать дрожание в видео и избавится от искажений, команда Imagen Video планирует объединить усилия с разработчиками Phenaki. Это еще один генератор от Google, превращающий длинные подробные подсказки в двухминутные ролики низкого качества.

В Google также отмечают, что используемые для обучения данные содержали неприемлемый контент, из-за чего Imagen Video иногда создает клипы с изображением насилия или сексуального характера. Поэтому компания не планирует выпускать модель или ее исходный код до исправления проблемы.

Напомним, в сентябре энтузиаст разработал генератор анимации по тексту Stable Diffusion Video.

В августе TikTok представил инструмент создания фонов для видео по словесным запросам.

В июне китайские исследователи разработали трансформер CogVideo с 9 млрд параметров для преобразования текста в анимацию.

Государство и общество

Ждем новостей

Нет новых страниц

Следующая новость