Google запустила новую нейросеть под названием VideoPoet, которая может создавать аудио и видео контент на основе текстового описания.
Сами авторы проекта уверены: ПО отличается от подобных решений, которые можно встретить на рынке. Разбираемся подробнее, как именно.
Чем данная ИИ отличается от уже существующих?
- Имитирует разные движения камеры
- Использует множество визуальных стилей и имеет несколько визуальных фильтров
- Создает уникальный аудиоряд на основе видео контента
- Может создавать вертикальные ролики для Snapchat и Tik Tok
- Редактирует уже готовые материалы
А все потому что для обучения новой нейросети использовали 270 млн видео и более миллиарда пар текст/изображение, взятых из интернета.
Что еще интересного?
ИИ основана на базе большой языковой модели (LLM), которая обычно используется для создания текста и кода в таких нейросетях, как ChatGPT или Llama 2. Благодаря этой фирменной языковой модели, как утверждает Google, можно генерить более длинные и качественные ролики с минимальными ограничениями, даже в случае с подвижными объектами.
Обычно же для обучения подобных ИИ по созданию видеоконтента используют метод на базе диффузии с открытым исходным кодом. Поэтому у VideoPoet явные преимущества перед конкурентами!
Что кстати быстро оценили сами пользователи: исследование Google Research показало, что 35% опрошенных сделали свой выбор в пользу VideoPoet после сравнения результатов с ИИ других компаний.
Когда именно откроется официальный доступ к Videopoet для коммерческой работы компания не уточняла.