Shikra

Shikra:开启多模态大模型参考对话新维度

在人类的日常交流中,经常会关注场景中不同的区域或物体,人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话(Referential Dialogue)。 如果 MLLM 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到 Apple Vision Pro 等混合现实 ......
模态 维度 模型 Shikra
共1篇  :1/1页 首页上一页1下一页尾页