Генеративные нейросети за последние полгода приобрели бешеную популярность. Мы привыкли к невероятным или реалистичным изображениям, которые способен создать искусственный интеллект. Но вскоре нас может ожидать волна генеративных нейросетей, которые способны создавать видео. Над таким проектом уже работают специалисты NVIDIA совместно с Корнелльским университетом. Судя по всему, эту модель искусственного интеллекта представят на Международной конференции по компьютерному зрению и распознаванию образов, которая пройдет в июне.

Nvidia разрабатывает нейросеть для генерации видео

Нейросеть Nvidia Video LDM использует модель скрытой диффузии (LDM) для качественного синтеза изображений, включая наработки LDM Stable Diffusion. Сначала идет предварительное обучение LDM только на изображениях; затем генератор изображений преобразовывают в генератор видео, вводя временные параметры для последовательности изображений; потом идет выравнивание и согласование. Данная модель генеративного ИИ разрабатывается для двух целей — моделирование вождения в реальной среде и создание творческого контента. Проверка автомобильных видео проходит валидацию на реальных записях с разрешением 512 x 1024. Такая технология может быть использована для разработки будущих систем автономного вождения. И в целом у данного ИИ широкие перспективы в разных сферах деятельности.

ИИ сможет генерировать видеоролики по текстовому описанию, например, «коала играет на пианино».

Nvidia разрабатывает нейросеть для генерации видео

Сейчас нейросеть умеет генерировать видео с разрешением до 1280 x 2048 при длительности до 5 секунд. Много забавных примеров представлено на официальной страничке проекта.

Источник:
Cornell University