JZTXT

Deep Learning入门

发布时间 2023-10-03 15:53:41作者: crazypsz

深度学习入门(更新中)

概述

前置知识:

线性代数
微积分
概率论
python基础语法(包含面向对象的知识)
深度学习框架pytorch的基本api调用

学习资料:

后续学习

矩阵乘法

mm ref

ResNet残差神经网络学习

详解残差网络

SGD和Adam优化器

Transformer结构

墙裂推荐

补充资料

Question

什么是embding层?
以点积注意力机制为例，说明Q,K,V如何计算?
多头注意力机制中，是如何处理各个注意力机制的计算结果的？
机器翻译实例：在transformer架构中，给定一个句子"I have a cat"。阐述transformer是如何将其翻译为"我有一只猫"

Gpipe

Question

什么是mini-batch?什么是micro-batch?
Gpipe的性能评价(bubble)

DP or DDP

Question

为什么要数据并行？什么是数据并行，具体举一个例子？DP瓶颈在哪里？
什么是异步梯度更新？
分布式数据并行(DDP)和数据并行区别是什么?
Ring-AllReduce是什么，具体举个例子?

task

查看pytorch提供的DP的源码

Zero(Deepspeed)

Question

Zero提出的目的是什么?
zero-1,zero-2,zero-3分别干了什么事情?,在一次epoch中具体是如何计算的?
zero-R具体干了什么事情
什么是zero-offload?

Megatron-LM

Question

Megatron 对mlp层，self-attention, 以及embeding层时如何切割和计算的?
Megatron 对比 DP (通讯量,存储开销)

task

阅读Megatron-LM 源码

后续学习

Colossal Ai

阅读手册并部署

Colossal-AI (colossalai.org)

Flash Attention

FlashAttention 的速度优化原理是怎样的?

Lora微调技术

大模型微调（finetune）方法总结-LoRA,Adapter,Prefix-tuning，P-tuning，Prompt-tuning

LOMO

LOMO：利用有限的资源对大型语言模型进行全参数微调

deep-learning-based

loss learning smooth deep

nature-deep learning nature deep

optimization learning deep for

non-deep learning machine notes

spatio-temporal-spectral deep-learning-based

reinforcement introduction learning deep

rmspropasync learning rmsprop deep