Генеративные нейросети за последние полгода приобрели бешеную популярность. Мы привыкли к невероятным или реалистичным изображениям, которые способен создать искусственный интеллект. Но вскоре нас может ожидать волна генеративных нейросетей, которые способны создавать видео. Над таким проектом уже работают специалисты NVIDIA совместно с Корнелльским университетом. Судя по всему, эту модель искусственного интеллекта представят на Международной конференции по компьютерному зрению и распознаванию образов, которая пройдет в июне.

Нейросеть Nvidia Video LDM использует модель скрытой диффузии (LDM) для качественного синтеза изображений, включая наработки LDM Stable Diffusion. Сначала идет предварительное обучение LDM только на изображениях; затем генератор изображений преобразовывают в генератор видео, вводя временные параметры для последовательности изображений; потом идет выравнивание и согласование. Данная модель генеративного ИИ разрабатывается для двух целей — моделирование вождения в реальной среде и создание творческого контента. Проверка автомобильных видео проходит валидацию на реальных записях с разрешением 512 x 1024. Такая технология может быть использована для разработки будущих систем автономного вождения. И в целом у данного ИИ широкие перспективы в разных сферах деятельности.

ИИ сможет генерировать видеоролики по текстовому описанию, например, «коала играет на пианино».

Сейчас нейросеть умеет генерировать видео с разрешением до 1280 x 2048 при длительности до 5 секунд. Много забавных примеров представлено на официальной страничке проекта.

Источник:
Cornell University