JZTXT

大模型量化论文1

发布时间 2023-09-26 14:07:21作者: 张博的博客

大模型如何轻量化训练和部署是非常重要的问题.

相关论文也需要学习.

第一篇我就写这里.

　　　　　　　　　　8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION
1. 基本知识:

　　1.1状态优化器

　　一个优化器在迭代第t次时候更新神经网络参数w的公式为:　

　　. L是损失函数.