Transformer

transformer模型的历史

Transformer 模型在深度学习领域，尤其是自然语言处理（NLP）中，起到了革命性的作用。以下是其发展历程的简要概述： 1. **背景**： - 在 Transformer 出现之前，循环神经网络（RNN）及其更先进的版本，如长短时记忆网络（LSTM）和门控循环单元（GRU）是处理序列任务的主 ......

transformer 模型历史更新时间 2023-08-21

transformer小白入门

transformer库是huggingface发布的1个框架，非常好用，很多外行看起来高大上的问题，用它都可以轻松解决，先来看1个小例子：一、情感分析 from transformers import pipeline classifier = pipeline('sentiment-analy ......

transformer更新时间 2023-08-20

论文解读（CTDA）《Contrastive transformer based domain adaptation for multi-source cross-domain sentiment classification》

Note：[ wechat：Y466551 | 可加勿骚扰，付费咨询 ] 论文信息论文标题：Contrastive transformer based domain adaptation for multi-source cross-domain sentiment classification论 ......

domain classification cross-domain multi-source Contrastive更新时间 2023-08-20

聊聊Transformer和GPT模型

本文基于《生成式人工智能》一书阅读摘要。感兴趣的可以去看看原文。可以说，Transformer已经成为深度学习和深度神经网络技术进步的最亮眼成果之一。Transformer能够催生出像ChatGPT这样的最新人工智能应用成果。 ## 序列到序列(seq2seq) Transformer能实现的核心 ......

Transformer 模型 GPT更新时间 2023-08-16

[机器学习]对transformer使用padding mask

注：本文是对GPT4的回答的整理校正补充。在处理序列数据时，由于不同的序列可能具有不同的长度，我们经常需要对较短的序列进行填充（padding）以使它们具有相同的长度。但是，在模型的计算过程中，这些填充值是没有实际意义的，因此我们需要一种方法来确保模型在其计算中忽略这些填充值。这就是padding ......

transformer 机器 padding mask更新时间 2023-08-14

解码Transformer：自注意力机制与编解码器机制详述与代码实现

> 本文全面探讨了Transformer及其衍生模型，深入分析了自注意力机制、编码器和解码器结构，并列举了其编码实现加深理解，最后列出基于Transformer的各类模型如BERT、GPT等。文章旨在深入解释Transformer的工作原理，并展示其在人工智能领域的广泛影响。 > 作者 TechLe ......

机制解码器 Transformer 注意力代码更新时间 2023-08-12

transformer/tensorflow报错：ValueError: tensorflow.spec is None , free(): invalid pointer

# transformer/tensorflow报错：ValueError: tensorflow.__spec__ is None , free(): invalid pointer 由于tensorflow版本（tf1）和transformer版本不匹配产生。解决办法： ``` 1.升级ten ......

tensorflow transformer ValueError invalid pointer更新时间 2023-08-02

《Decision Transformer: Reinforcement Learning via Sequence Modeling》论文学习

一、Introduction 先前的研究工作表明，Transformer可以对处于高维分布的语义概念进行大规模建模抽象，比较典型地体现如：基于自然语言的零样本泛化（zero-shot generalization）分布外图像生成（out-of-distribution image generat ......

Reinforcement Transformer Decision Learning Modeling更新时间 2023-08-01

Attention机制竟有bug？Softmax是罪魁祸首，影响所有Transformer

前言「大模型开发者，你们错了。」本文转载自机器之心仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线! ......

罪魁祸首罪魁祸首 Transformer Attention更新时间 2023-07-29

Meta-Transformer 多模态学习的统一框架

Meta-Transformer是一个用于多模态学习的新框架，用来处理和关联来自多种模态的信息，如自然语言、图像、点云、音频、视频、时间序列和表格数据，虽然各种数据之间存在固有的差距，但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征，不需要配对的多模态训练 ......

模态 Meta-Transformer Transformer 框架 Meta更新时间 2023-07-29

Meta-Transformer：1个框架理解12种模态引发的质变与涌现（已开源）

前言近日，香港中文大学多媒体实验室（CUHK MMLab）联合上海人工智能实验室的OpenGVLAB研究团队提出一个统一多模态学习框架 Meta-Transformer，实现骨干网络的大一统，具有一个模态共享编码器，并且无需配对数据，即可理解 12 种模态信息, 并提供了多模态无边界融合的新范式。 ......

模态质变 Meta-Transformer Transformer 框架更新时间 2023-07-28

Transformer模型

### Transformer模型 [Transformer模型及其实现](https://blog.csdn.net/moo611/article/details/122234867) 历史：谷歌团队在2017年提出的经典NLP模型（目前很火的bert模型就是基于此模型）。特点：Transfor ......

Transformer 模型更新时间 2023-07-28

Vision Transformer

Vision Transformer 本文关注ViT论文`4.5 Inspecting Vision Transformer`可视化的原理及实现，此外还对ViT pytorch源码实现进行理解 [toc] # Introduction [论文地址](arXiv:2010.11929) ## Titl ......

Transformer Vision更新时间 2023-07-27

transformer中解码器的实现细节

1. 前言 17年google团队发表l了论文《Attention Is All You Need》，transformer横空出世，并引领了AI学术圈的研发风向，以Transformer为基础模型的新模型层出不穷，无论是NLP还是CV或者是多模态，attention遍地开花。这篇文章遵循enco ......

解码器 transformer 细节更新时间 2023-07-26

Transformer（转换器）

Sequence To Sequence（序列对序列）输入一个序列，输出一个序列输出序列的长度由机器自己决定，例如：语音辨识、机器翻译、语音翻译 Sequence To Sequence一般分成两部分： Encoder:传入一个序列，由Encoder处理后传给Decoder Decoder:决定 ......

转换器 Transformer更新时间 2023-07-20

斯坦福博士一己之力让Attention提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升

前言 FlashAttention新升级！斯坦福博士一人重写算法，第二代实现了最高9倍速提升。本文转载自新智元仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理【CV技 ......

上下文显存史诗 FlashAttention Transformer更新时间 2023-07-19

Transformer取代者登场！微软、清华刚推出RetNet：成本低、速度快、性能强

前言 Transformer 的训练并行性是以低效推理为代价的：每一步的复杂度为 O (N) 且键值缓存受内存限制，让 Transformer 不适合部署。不断增长的序列长度会增加 GPU 内存消耗和延迟，并降低推理速度。研究者们一直在努力开发下一代架构，希望保留训练并行性和 Transformer ......

速度快 Transformer 成本性能速度更新时间 2023-07-19

从RNN到Transformer

## 1. RNN 循环神经网络的内容可参考https://www.youtube.com/watch?v=UNmqTiOnRfg。 RNN建模的对象是具有时间上前后依赖关系的对象。以youtube上的这个视频为例，一个厨师如果只根据天气来决定今天他做什么菜，那么就是一个普通的神经网络；但如果他第i ......

Transformer RNN更新时间 2023-07-18

大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

# 大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍 # 1.大语言模型的预训练 ## 1.LLM预训练的基本概念预训练属于迁移学习的范畴。现有的神经网络在进行训练时，一般基于反向传播（Back Propagation，BP）算法 ......

模型原理语言神经网络 Transformer更新时间 2023-07-17

论文日记四：Transformer(论文解读+NLP、CV项目实战)

# 导读重磅模型**transformer**,在2017年发布，但就今天来说产生的影响在各个领域包括NLP、CV这些都是巨大的！ Paper《[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)》,作者是在机器翻译这个 ......

论文 Transformer 实战项目日记更新时间 2023-07-14

Swin Transformer结构梳理

[TOC] > Swim Transformer是特为视觉领域设计的一种分层Transformer结构。Swin Transformer的两大特性是滑动窗口和层级式结构。 1.滑动窗口使相邻的窗口之间进行交互，从而达到全局建模的能力。 2.层级式结构的好处在于不仅灵活的提供各种尺度的信息，同时还因为 ......

Transformer 结构 Swin更新时间 2023-07-13

Shell | Transformer-xl代码的shell代码实现

**实现网址：**https://github.com/kimiyoung/transformer-xl/tree/master/pytorch ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230713165109801 ......

代码 Transformer-xl Transformer Shell shell更新时间 2023-07-13

我用numpy实现了VIT，手写vision transformer, 可在树莓派上运行，在hugging face上训练模型保存参数成numpy格式，纯numpy实现

先复制一点知乎上的内容按照上面的流程图，一个ViT block可以分为以下几个步骤 (1) patch embedding：例如输入图片大小为224x224，将图片分为固定大小的patch，patch大小为16x16，则每张图像会生成224x224/16x16=196个patch，即输入序列长度为 ......

numpy 树莓 transformer 可在模型更新时间 2023-07-11

transformer

arXiv:1706.03762 # 1. 问题提出全连接神经网络（FCN），可以很好的处理输入为1个向量（特征向量）的情况，但是如果输入是一组向量，FCN处理起来不太方便以词性标记的问题为例对于处于同一个句子中的相同的2个单词`saw`，词性不同，前者为动词（V），后者为名词（N）如果尝试 ......

transformer更新时间 2023-07-11

Transformer学习笔记

[09 Transformer 之什么是注意力机制（Attention）@水导](https://www.bilibili.com/video/BV1QW4y167iq) [ELMo原理解析及简单上手使用@知乎](https://zhuanlan.zhihu.com/p/51679783) ELMo ......

Transformer 笔记更新时间 2023-07-10

【论文阅读】CrossViT：Cross-Attention Multi-Scale Vision Transformer for Image Classification

> # 🚩前言 > > - 🐳博客主页：😚[睡晚不猿序程](https://www.cnblogs.com/whp135/)😚 > - ⌚首发时间：23.7.10 > - ⏰最近更新时间：23.7.10 > - 🙆本文由 **睡晚不猿序程** 原创 > - 🤡作者是蒻蒟本蒟，如果文章里有 ......

Cross-Attention Classification Multi-Scale Transformer Attention更新时间 2023-07-10

N9、Transformer实战-单词预测

🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍖 原作者：K同学啊 | 接辅导、项目定制 🚀 文章来源：K同学的学习圈子 📌 本周任务：理解文中代码逻辑并成功运行自定义输入一段英文文本进行预测（拓展内容，可自由发挥）数据：Wikitext-2数据集 WikiText 英语词库 ......

Transformer 单词实战更新时间 2023-07-07

【论文阅读】CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention

来自CVPR 2021 论文地址：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2108.00154.pdf 代码地址：https://link.zhihu.com/?target=https%3A//github.com/cheers ......

CrossFormer Cross-scale Transformer Attention Versatile更新时间 2023-07-06

据说，Transformer 不能有效地进行时间序列预测？

## 简介几个月前，我们介绍了 [Informer](https://huggingface.co/blog/informer) 这个模型，相关论文 ([Zhou, Haoyi, et al., 2021](https://arxiv.org/abs/2012.07436)) 是一篇获得了 AAA ......

时间序列序列 Transformer 时间更新时间 2023-07-05

【论文阅读】Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions

来自ICCV2021 论文地址：[2102.12122] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (arxiv.org) 代码地址：https://link. ......

Convolutions Transformer Prediction Versatile Backbone更新时间 2023-07-04

共234篇 :5/8页 首页上一页2345678下一页尾页