JZTXT
首页
Ai
Java
Python
Android
Mysql
JavaScript
Html
CSS
ExLlamaV
使用ExLlamaV2量化并运行EXL2模型
量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中,GPTQ在gpu上提供了惊人的性能。与非量化模型相比,该方法使用的VRAM几乎减少了3倍,同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从GPTQ中挤出更多性能的库。由于新的内核,它还经 ......
ExLlamaV2
ExLlamaV
模型
EXL2
EXL
更新时间 2023-11-22
共1篇 :1/1页
首页
上一页
1
下一页
尾页