Нейросеть Microsoft научилась «рисовать» изображения на основе текстового описания

Учёные из Лондона, в свою очередь, создали нейросеть которая «оживляет» и озвучивает фотографии.

Подразделение Microsoft Research представило нейросеть, которая создаёт изображения на основе текстового описания. Она может «рисовать» полноценные сцены с несколькими сложными объектами.

Основная проблема инженеров заключалась в том, чтобы «научить» нейросеть понимать, как объекты, описанные в тексте, относятся друг к другу.

Например, получив описание вроде «женщина в шлеме сидит на лошади», система должна понять, как предметы расположены друг относительно друга. Для обучения использовался набор данных COCO, содержащий параметры более 1,5 миллиона реальных объектов.

В основе проекта лежит нейросеть ObjGAN, обладающая сразу двумя дискриминаторами — элементами, которые сначала анализируют реалистичность каждого объекта по отдельности, а потом — картины целиком.

Учёные «Империал Колледж» в Лондоне вместе с сотрудниками Samsung также представили свою работу в смежной области. Их ИИ научился анимировать и озвучивать портреты людей.

Кроме того, алгоритм способен придавать статичным фотографиям конкретные эмоции, которые проявляются в голосе диктора.

#технологии