Ученые из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) при Массачусетском технологическом институте разработали алгоритм глубокого обучения, который умеет создавать свои ролики и предсказывать будущее развитие событий, отталкиваясь от единственного кадра.
Как сообщает Motherboard, инженеры CSAIL " скормили" нейросети около 2 млн. видео общей продолжительностью больше 1-го года, на котором была запечатлена обычная, повседневная жизнь людей. При этом алгоритм не знал заранее, Как дальше будут развиваться события.
Отталкиваясь от этого набора данных, созданная исследователями " двухпотоковая архитектура" попыталась воссоздать движения человека исходя из того, что он видел прежде. Результатом ее усилий стал весьма короткий (длительностью всего 1 секунду, или 32 кадра) ролик низкого качества.
На сгенерированном компьютером видео были изображены, к примеру, пляжи, железнодорожные станции и лица новорожденных. Далее команда ученых обратилась за помощью к краудсорсинговому сервису Amazon Mechanical Turk с прошением оценить качество ролика. На удивление, созданное алгоритмом видео показалось пользователям весьма правдоподобным: его выбирали в 20% случаев как более правдоподобное.
А когда алгоритм применили к неподвижному, статическому изображению, новая разработка сумела " достаточно убедительно" анимировать движения части объектов, пишет создатель статьи Карл Вондрик." Я мечтаю о машине, способной сделать короткий фильм или Телевизионный сериал, — заявил он, — Мы генерируем всего секунду видео, но по мере раздвижения масштабов она, может быть, сумеет сделать несколько минут видео, за которые будет иметь возможность рассказать последовательную историю. Мы не близки к этому, но Я думаю, что Мы делаем 1-ый шаг".