Если не вдаваться в подробности - это квантизация. Фп8 - меньше потерь данных при квантовании и она в 2 раза тяжелее чем фп4, у которой будет больше смазов и потерь данных. В общем фп4 в 2 раза легче для видюх чем фп8
Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16
можно раскрыть в чем разница этих fp моделей для людей вне контекста?
1 игрок [fp 8] = тебе надо занести на 5 этаж 1000 кирпичей
2 игрок [fp 4 ]= тебе надо занести на 5 этаж 5000 кирпичей
Победил 2 игрок.
fp8 - это значит, что параметры представляются в виде 8битных чисел с плавающей запятой, а fp4 - в виде 4х битных
Если не вдаваться в подробности - это квантизация. Фп8 - меньше потерь данных при квантовании и она в 2 раза тяжелее чем фп4, у которой будет больше смазов и потерь данных. В общем фп4 в 2 раза легче для видюх чем фп8
Грубо говоря это вес модели, fp16-fp8-fp4 это сжатие от базового размера.
https://dennisforbes.ca/articles/understanding-floating-point-numbers.html
неплохо описана тема. Если просто, то вместо прицельной стрельбы пошла стрельба от бедра, на точность чуток подзабит болт
Ну если позанудствовать, то наёб хоть и имеется, но лишь частичный - на 40й серии операции с 4х битными матрицами не имплементированы в железе и поэтому прогоны в fp4 и fp8 не будут отличаться в два раза по скорости, плюс в случае если веса квантованы, то часть вычислений (особенно это касается механизма внимания) всё равно нужно делать в более высокой точности (float16 например) и будет тратится время на апкаст мастриц весов из fp4->fp16