论文阅读记录1——Lmbff（更好的基于微调的语言模型）读后归纳-JZTXT

方法：

基于GPT-3的强大功能：只要给出一个自然语言提示和一些任务演示，GPT-3就能够做出准确的预测，而无需更新其底层局域网的任何权重。

在一个更实际的场景中研究了少数镜头学习，在那里我们使用了更小的语言模型，其中的微调在计算上是有效的。我们提出了lm - bff(更好的语言模型的少量微调)，这是一套简单而互补的技术，用于在少量注释示例上微调语言模型。我们的方法包括:(1)基于提示的微调以及自动化提示生成的新管道;以及(2)动态和选择性地将演示整合到每个上下文的细化策略。最后，我们提出了一个系统的评估，用于分析一系列NLP任务的少数镜头性能，包括分类和回归。

1，采用提示自动构建方式来进行「基于模板的微调方法」。

2，动态选择样本示例，作为输入的上下文

原因：虽然GPT-3有着强大的功能，但是参数过于庞大。（1）不利于在实际场景中应用；（2）参数难以修改；（3）资源消耗庞大。因此提出了一个基于中等预训练模型微调权重的方式来克服以上的困难。

下面参考知乎的一篇文章写成https://zhuanlan.zhihu.com/p/341609647

重要内容：

自动模板的自动生成和选择。

（1）论文指出：在基于提示的微调方法中，不同的模板和标签词选择其实对最终结果影响很大，如上图所示：使用相同「标签词」，即使对「模板」进行较小改动（如删除标点）也会呈现不同结果；使用相同「模板」，不同的「标签词」效果不一样，例如cat/dog和dog/cat就不同了，而互换great和terrible指标则会大幅下降。

因此自动生成模板会使这一工作变得快速而廉价。但是如何自动生成模板，怎样选择模板，怎样评估模板的好坏就是一个难题。

（2）构建自动化提示的方法：

a.自动化构建「标签词」。

即固定模板、选择最佳的标签词映射关系M，使得在验证集的分类准确率最高。由于「标签词」搜索空间随着类别数目呈指数增加，LM-BFF采用一种简单的搜索策略：

1通过未经微调的预训练模型，对于训练集中的每一个类别，选择top-k的单词使得条件概率最大：

2 综合每个类别下的候选标签词，然后找出使得训练集正确率最大的top-n个分配方式

3 通过对dev集微调，从n个分配方式中选择最佳的一个标签词，构建标签映射关系M

b.自动化选择模板

T5基于多种无监督目标进行预训练，其中最有效的一个无监督目标就是：利用<X>或<Y>替换一个或多个连续span，然后生成对应输出。例如：在“Thank you <X> me to your party <Y> week ”，T5会在<X>生成“ for inviting ”、在<Y>生成“last ”。

很显然，T5这种方式很适合生成模板，不需要指定模板的token数目。具体，依然利用<X>或<Y>作为mask tokens，1种可能的输入方式为：

c.对样本的微调Fine-tuning with Demonstrations

在GPT-3中，是从训练集中随机抽取32个示例，以上下文的形式添加到每个输入中的；这种方式的缺陷在于：

样本示例的数量会受到模型最大输入长度的限制；

不同类型的大量随机示例混杂在一起，会产生很长的上下文，不利于模型学习。

LM-BFF采用2种简单的方式进行了改进：

对于每个输入，从每个类别中随机采样一个样本示例，最终将所有类别下的采样示例进行拼接输入；

对于每个输入，在每个类别中，通过与Sentence-BERT进行相似度计算、并从排序得分的top50%中随机选择一个样本示例

可改进点：

1，LM-BFF仍落后基于全量标注数据的标准微调方法，还可以加大数据量

2，LM-BFF自动构建提示的方法虽然有效，但扩展搜索空间在现实应用中仍是一个巨大挑战；

LM-BFF仅支持几种特定的任务：1）能自然转化为「空白填空」问题，如结构化预测的NER任务可能就不适合；2）句子输入不要太长；3）不要包含过多的类别；其中2）和3）可以在长距离语言模型中进行改善。

可用模型参考图：

1，提示学习模板