Нифига себе, производительность в нейронках выросла

Подумал я. А потом прочитал, что для 5090 для графика они использовали сжатую fp4 модель Flux.dev, тогда как на 4090 использовалась fp8 вариант.

Нифига себе, производительность в нейронках выросла

Какой же волшебный звиздобол на куртке это словами не передать

Нифига себе, производительность в нейронках выросла
3838
1717
22
47 комментариев

можно раскрыть в чем разница этих fp моделей для людей вне контекста?

13

1 игрок [fp 8] = тебе надо занести на 5 этаж 1000 кирпичей
2 игрок [fp 4 ]= тебе надо занести на 5 этаж 5000 кирпичей

Победил 2 игрок.

8
1

fp8 - это значит, что параметры представляются в виде 8битных чисел с плавающей запятой, а fp4 - в виде 4х битных

5

Грубо говоря это вес модели, fp16-fp8-fp4 это сжатие от базового размера.

1

https://dennisforbes.ca/articles/understanding-floating-point-numbers.html

неплохо описана тема. Если просто, то вместо прицельной стрельбы пошла стрельба от бедра, на точность чуток подзабит болт

Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16

11
1

Ты прав, только я лично боюсь представить какая там потеря в конечном качестве генерации на fp4 получится.

1