sd6-JZTXT

1、blip-diffusion

训练：

图片向量注入变为多模态向量注入：给概念“train” 和对应的5张照片，通过Blip(image encoder + multimudal encoder)得到5个subject prompt emb，然后取平均。原图的背景需要做随机替换以防止copy现象

text emb : 把 subject prompt emb 拼接到 text prompt 后面

监督：原图，需要一些微调以便记住概念“train”。本质是引入了多模态向量降低了微调步数，但是还得微调。