sd6

发布时间 2023-10-20 08:56:59作者: Jary霸

1、blip-diffusion

训练:

图片向量注入变为多模态向量注入:给概念“train” 和对应的5张照片,通过Blip(image encoder + multimudal encoder)得到5个subject prompt emb,然后取平均。原图的背景需要做随机替换以防止copy现象

text emb : 把 subject prompt emb 拼接到 text prompt 后面

监督:原图,需要一些微调以便记住 概念“train”。本质是引入了多模态向量降低了微调步数,但是还得微调。