Falcon 180B 目前最强大的开源模型

发布时间 2023-09-12 09:35:47作者: deephub

Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM),它击败了Llama-2 70b,与谷歌Bard的基础模型PaLM-2 Large不相上下。

180B是是Falcon 40B模型一个最新版本。以下是该模型的快速概述:

180B参数模型,两个版本(base和chat)

使用RefinedWeb数据集训练3.5万亿个令牌

上下文最大为2048令牌

它大约是ChatGPT (GPT-3.5)的大小,它有175B个参数。它是最好的吗?截至2023年9月,Falcon 180B在hug Face的模型排行榜上排名第一。

模型变体

Falcon 180B有两个版本——基础版和聊天版。

基础版是一个因果解码器模型。这个模型非常适合对自己的数据进行进一步微调。

聊天版chat与基础版本类似,这也是一个1800亿个参数的因果解码器模型。但是它对Ultrachat5、Platypus6和airboros7指令(聊天)数据集进行了微调。

模型表现

就它的能力而言,Falcon 180B与PaLM-2 Large并肩而立,使其成为最强大的公开可用语言模型之一。

量化的Falcon模型在基准测试中保持了类似的指标。

 

https://avoid.overfit.cn/post/14268c27f72a4c9d994e9acfbcae25b0