Нейросеть Microsoft научилась «рисовать» изображения на основе текстового описания
Учёные из Лондона, в свою очередь, создали нейросеть которая «оживляет» и озвучивает фотографии.
Подразделение Microsoft Research представило нейросеть, которая создаёт изображения на основе текстового описания. Она может «рисовать» полноценные сцены с несколькими сложными объектами.
Основная проблема инженеров заключалась в том, чтобы «научить» нейросеть понимать, как объекты, описанные в тексте, относятся друг к другу.
Например, получив описание вроде «женщина в шлеме сидит на лошади», система должна понять, как предметы расположены друг относительно друга. Для обучения использовался набор данных COCO, содержащий параметры более 1,5 миллиона реальных объектов.
В основе проекта лежит нейросеть ObjGAN, обладающая сразу двумя дискриминаторами — элементами, которые сначала анализируют реалистичность каждого объекта по отдельности, а потом — картины целиком.
Учёные «Империал Колледж» в Лондоне вместе с сотрудниками Samsung также представили свою работу в смежной области. Их ИИ научился анимировать и озвучивать портреты людей.
Кроме того, алгоритм способен придавать статичным фотографиям конкретные эмоции, которые проявляются в голосе диктора.