Может кто объяснить как это делают ? Я понимаю что через нейросетку и скорее всего не одну

Берут исходное видео и буквально покадрово прогоняют через нейронку. Не знаю, какие именно инструменты используют для этого, но как-то так

3