LLaVA

北京大学 | Video-LLaVA视觉语言大模型：统一输入，同时处理图片和视频数据

前言北京大学和其他机构的研究人员近期提出了一种名为Video-LLaVA的视觉语言大模型。该模型的创新之处在于能够同时处理图片和视频作为输入。在处理图片的任务中，该模型展现出了出色的性能，在多个评估榜单中名列前茅，尤其在视频方面取得了令人瞩目的成绩。这项研究的关键点在于关注如何将LLM的输入统一起 ......

Video-LLaVA 模型同时视觉语言更新时间 2023-11-30

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求一个面向多模式GPT-4级别能力构建的助手。它结合了自然语言处理和计算机视觉，为用户提供了强大的多模式交互和理解。LLaVA旨在更深入地理解和处理语言和视觉信息，从而实现更复杂的任务和对话。这个项目代表了下一代智能助手 ......

模态语言大规模助手视觉更新时间 2023-10-18

多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning

![ ](https://r3mu87a8e6.feishu.cn/space/api/box/stream/download/asynccode/?code=NWE1MDg3NTcwOTljZTFiZTFlMWQwZTdhYmVkYzM1ZjdfRzJUcUV0YzJuM2gwdzVDOThLWk ......

模态 Instruction 模型语言 Visual更新时间 2023-06-26

LLaVA 从零复现第一天

### 1. 准备数据 #### 1.1 预训练数据目前看来数据部分是两类数据，一类是预训练数据 ![](https://img2023.cnblogs.com/blog/1745844/202305/1745844-20230524105616130-965772788.png) 需要下载对应的 ......

LLaVA更新时间 2023-05-24

共4篇 :1/1页 首页上一页1下一页尾页

JZTXT

LLaVA

北京大学 | Video-LLaVA视觉语言大模型：统一输入，同时处理图片和视频数据

大规模语言LLaVA：多模态GPT-4智能助手，融合语言与视觉，满足用户复杂需求

多模态大语言模型 LlaVA 论文解读：Visual Instruction Tuning

LLaVA 从零复现 第一天

LLaVA 从零复现第一天