LLaVA

北京大学 | Video-LLaVA视觉语言大模型:统一输入,同时处理图片和视频数据

前言 北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中,该模型展现出了出色的性能,在多个评估榜单中名列前茅,尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注如何将LLM的输入统一起 ......
Video-LLaVA 模型 同时 视觉 语言

大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求

大规模语言LLaVA:多模态GPT-4智能助手,融合语言与视觉,满足用户复杂需求 一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉,为用户提供了强大的多模式交互和理解。LLaVA旨在更深入地理解和处理语言和视觉信息,从而实现更复杂的任务和对话。这个项目代表了下一代智能助手 ......
模态 语言 大规模 助手 视觉

多模态大语言模型 LlaVA 论文解读:Visual Instruction Tuning

![ ](https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NWE1MDg3NTcwOTljZTFiZTFlMWQwZTdhYmVkYzM1ZjdfRzJUcUV0YzJuM2gwdzVDOThLWk ......
模态 Instruction 模型 语言 Visual

LLaVA 从零复现 第一天

### 1. 准备数据 #### 1.1 预训练数据 目前看来数据部分是两类数据,一类是预训练数据 ![](https://img2023.cnblogs.com/blog/1745844/202305/1745844-20230524105616130-965772788.png) 需要下载对应的 ......
LLaVA
共4篇  :1/1页 首页上一页1下一页尾页