大模型如何轻量化训练和部署是非常重要的问题.
相关论文也需要学习.
第一篇我就写这里.
8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION
1. 基本知识:
1.1状态优化器
一个优化器在迭代第t次时候更新神经网络参数w的公式为:
. L是损失函数.
大模型如何轻量化训练和部署是非常重要的问题.
相关论文也需要学习.
第一篇我就写这里.
8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION
1. 基本知识:
1.1状态优化器
一个优化器在迭代第t次时候更新神经网络参数w的公式为:
. L是损失函数.