language vision-language模态vision
Vision Transformer
Vision Transformer 本文关注ViT论文`4.5 Inspecting Vision Transformer`可视化的原理及实现,此外还对ViT pytorch源码实现进行理解 [toc] # Introduction [论文地址](arXiv:2010.11929) ## Titl ......
MySQL学习-DML(Data Manipulation Language)数据--select语句
select * from emp select ename,sal from emp 查询不重复的记录: 排序:默认升序排列,desc是降序,asc升序 order by 后面可以跟多个不同的排列字段,并且每个字段可以有不同的排列顺序。 如下先按照deptno升序排列,再按照sal降序排列。 限制 ......
《LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS》论文学习
一、INTRODUCTION 深度神经网络规模和基于注意力的网络架构的结合,导致了语言模型具备了前所未有的通用性。“大型语言模型”(LLM)涌现出了很多令人惊艳的能力,包括: few-shot in-context learning zero-shot problem solving chain o ......
【补充】页面展示之多重模态框
# 【补充】页面展示之多重模态框 # 【前端页面代码展示】 ```html {% block info %} 基本信息 用户名 注册时间 最后登录时间 {{ request.user.username }} {{ request.user.create_time|date:"Y-m-d H:i:s" ......
深度学习——多模态
# 什么是多模学习? 我们平常使用的如图像识别,语音识别这种输入单个样本x(尽管样本可能有多个特征),但是输出对应的y值(结果)就是比较简单的单模态模型。 即单个模型对输入的信息进行线性或者非线性的映射。 多模态可以指的是通过多个模型的组合来让深度学习学习到更多不同的特征。如我们生活中对于事物,除了 ......
Large Language Models are Zero-Shot Reasoners
[TOC] > [Kojima T., Gu S. S., Reid M., Matsuo Y. and Iwasawa Y. Large language models are zero-shot reasoners. NIPS, 2022.](http://arxiv.org/abs/2205. ......
Measuring and Narrowing the Compositionality Gap in Language Models
[TOC] > [Press O., Zhang M., Min S., Schmidt L., Smith N. A. and Lewis M. Measuring and narrowing the compositionality gap in language models. arXiv p ......
《Language Model Cascades》论文学习
一、Introduction 语言模型 (LM) 已展现出令人印象深刻的小样本学习能力,很多人建议应该将LM视为一个基础通用推理计算器,这个基础通用推理计算器可以被用于例如: scratchpads chain of thought prompting learned verifiers selec ......
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
[TOC] > [Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E. H., Le Q. V. and Zhou D. Chain-of-thought prompting elicits reasoning in ......
WINUI 模态框或模态窗口
WINUI中是没有类似Winform里的模态框的,为了实现同样的需求,小子借助于popup进行了相应的实现。 思路:自定义控件实现一个窗体,进行信息展示与信息选择;这个窗体作为弹出窗口的展示页面; 在页面上进行相应的选择进行什么样的操作,则通过通过委托在实例化这个窗口时传递相应的参数,选择后执行相应 ......
Rethinking with Retrieval Faithful Large Language Model Inference
[TOC] > [He H., Zhang H. and Roth D. Rethinking with retrieval: faithful large language model inference. arXiv preprint arXiv:2301.00303, 2023.](http: ......
《Prompting Is Programming: A Query Language for Large Language Models》论文学习
一、前言 大型语言模型在诸如对话问答、代码生成等广泛任务上表现出了出色的性能。 在较高的层次上,给定一段输入,大语言模型可用于按照概率统计方式自动补全序列。在此基础上,用户用指令(instructions)或示例(examples)去提示(prompt)大语言模型,以实施各种下游任务。 本质上,提示 ......
REALM Retrieval-Augmented Language Model Pre-Training
[TOC] > [Guu K., Lee K., Tung Z., Pasupat P. and Chang M. REALM: Retrieval-augmented language model pre-training. ICML, 2020.](http://arxiv.org/abs/20 ......
Guidance:A guidance language for controlling large language models
一、项目简介 与传统的Prompt或Chaining技术相比,“Guidance”能够更有效地控制LLM语言模型。 “Guidance”程序允许您将generation、prompting和业务逻辑控制交织成一个连续的pipeline流程,并与LLM模型实际处理文本的过程相匹配,例如: Simple ......
MySQL学习-DML(Data Manipulation Language)数据
回顾DDL语言: show databases; create database hufei; use hufei; create table emp(name varchar(20),age int(10)); show create table emp \G; alter table emp r ......
LoRA:Low-Rank Adaptation Of Language Model
# LoRA:Low-Rank Adaptation Of Language Model ## O、摘要 本文提出一种新的大模型(本文主要指 transformer)微调方法:低秩自适应。其主要特性为,冻结预训练模型的权重,并将可训练低秩矩阵,分解到模型的每一层,从而大大减少下游任务的训练参数量。与 ......
[论文速览] A Closer Look at Self-supervised Lightweight Vision Transformers
## Pre title: A Closer Look at Self-supervised Lightweight Vision Transformers accepted: ICML 2023 paper: https://arxiv.org/abs/2205.14443 code: https ......
PromptLang:A simple prompt-based programming language specifically designed for use inside GPT prompts
PromptLang:A simple prompt-based programming language specifically designed for use inside GPT prompts ......
SpEL (Spring Expression Language)
https://docs.spring.io/spring-framework/docs/3.0.x/reference/expressions.html 6.1 Introduction The Spring Expression Language (SpEL for short) is a po ......
机器学习洞察 | 挖掘多模态数据机器学习的价值
在过去的数年里,我们见证了机器学习和计算机科学领域的很多变化。人工智能应用也愈趋广泛,正在加速融入人们的日常生活之中。机器学习作为技术核心,也在持续地发展进化,在更多领域发挥出越来越重要的作用。**机器学习会有哪些新的演进趋势和发展方向?**我们又该如何提前布局,紧跟这一热门技术的前沿变化? 亚马逊 ......
机器翻译 | Prompting Large Language Model for Machine Translation: A Case Study论文翻译
## 题目: 机器翻译的提示大语言模型:一个案例研究 ## 摘要 对提示的研究表明,在很少甚至没有监督训练的情况下,提示在许多任务中表现出色。然而,文献中对机器翻译的提示还没有充分的研究。**本文对翻译提示策略进行了系统的研究,考察了提示模板和示例选择的各种因素,填补了这一空白**。我们进一步==探 ......
The information of Seminars Language
‘The seminar is a common way ofteaching students on university courses in the UK and it is very likely that you will experience seminars on your cours ......
我用numpy实现了VIT,手写vision transformer, 可在树莓派上运行,在hugging face上训练模型保存参数成numpy格式,纯numpy实现
先复制一点知乎上的内容 按照上面的流程图,一个ViT block可以分为以下几个步骤 (1) patch embedding:例如输入图片大小为224x224,将图片分为固定大小的patch,patch大小为16x16,则每张图像会生成224x224/16x16=196个patch,即输入序列长度为 ......
LLM多模态•audiocraft•av(interfacing FFmpeg API)•Audio/Video/Bitstream
无论是ChatGPT、 LLM大语言模型、还是Meta公司的AI生成音乐🎶, 都需要对 Audio、Video、Bitstream 进行处理。 以Meta(Facebook已改名为Meta)开源的 audiocraft 为例: ASR(Audio转文本, 人机语音交互与识别)、 TTS(文本合成语 ......
《ReAct: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS》论文学习
一、论文主要思想 本文首先认为,到目前为止,LLM 在语言理解方面令人印象深刻,它们已被用来生成 CoT(思想链)来解决一些问题,它们也被用于执行和计划生成。 尽管这两者是分开研究的,但本文旨在以交错的方式将推理和行动结合起来,以提高LLM的表现。 这个想法背后的原因是,如果你考虑一下作为一个人,你 ......
生物神经元中的多模态神经元
推荐:将NSDT场景编辑器加入你的3D工具链 3D工具集:NSDT简石数字孪生 2005年,发表在《自然》杂志上的一封信描述了人类神经元对特定人的反应,例如詹妮弗·安妮斯顿或哈莉·贝瑞。令人兴奋的事情不仅在于他们为特定的人选择,而且无论他们是否看到照片、图画,甚至是这个人名字的图像,他们都会这样做。 ......
【论文阅读】CrossViT:Cross-Attention Multi-Scale Vision Transformer for Image Classification
> # 🚩前言 > > - 🐳博客主页:😚[睡晚不猿序程](https://www.cnblogs.com/whp135/)😚 > - ⌚首发时间:23.7.10 > - ⏰最近更新时间:23.7.10 > - 🙆本文由 **睡晚不猿序程** 原创 > - 🤡作者是蒻蒟本蒟,如果文章里有 ......
LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解
Valley: Video Assistant with Large Language model Enhanced abilitY 的简介及高效训练》
随着 ChatGPT 在各领域展现出非凡能力,多模态大型语言模型(MLLM)近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为“大脑”,可以执行各种多模态任务。更让人感慨的是,MLLM 展现出了传统方法所不具备的能力,比如能够根据图像创作故事,无需 OCR 的数学推理等,这为实现人工智能 ......
[中英文] Aligning language models to follow instructions 对齐语言模型以遵循指令
We've trained language models that are much better at following user intentions than GPT-3 while also making them more truthful and less toxic, using ......