Нейросеть Microsoft научилась «рисовать» изображения на основе текстового описания

Учёные из Лондона, в свою очередь, создали нейросеть которая «оживляет» и озвучивает фотографии.

Нейросеть Microsoft научилась «рисовать» изображения на основе текстового описания

Подразделение Microsoft Research представило нейросеть, которая создаёт изображения на основе текстового описания. Она может «рисовать» полноценные сцены с несколькими сложными объектами.

Основная проблема инженеров заключалась в том, чтобы «научить» нейросеть понимать, как объекты, описанные в тексте, относятся друг к другу.

Например, получив описание вроде «женщина в шлеме сидит на лошади», система должна понять, как предметы расположены друг относительно друга. Для обучения использовался набор данных COCO, содержащий параметры более 1,5 миллиона реальных объектов.

Нейросеть Microsoft научилась «рисовать» изображения на основе текстового описания

В основе проекта лежит нейросеть ObjGAN, обладающая сразу двумя дискриминаторами — элементами, которые сначала анализируют реалистичность каждого объекта по отдельности, а потом — картины целиком.

Учёные «Империал Колледж» в Лондоне вместе с сотрудниками Samsung также представили свою работу в смежной области. Их ИИ научился анимировать и озвучивать портреты людей.

Кроме того, алгоритм способен придавать статичным фотографиям конкретные эмоции, которые проявляются в голосе диктора.

46
83 комментария