Deep Learning入门

发布时间 2023-10-03 15:53:41作者: crazypsz

深度学习入门(更新中)

概述

前置知识:

  • 线性代数
  • 微积分
  • 概率论
  • python基础语法(包含面向对象的知识)
  • 深度学习框架pytorch的基本api调用

学习资料:

后续学习

矩阵乘法

ResNet残差神经网络学习

SGD和Adam优化器

Transformer结构

墙裂推荐

补充资料

Question

  • 什么是embding层?

  • 以点积注意力机制为例,说明Q,K,V如何计算?

  • 多头注意力机制中,是如何处理各个注意力机制的计算结果的?

  • 机器翻译实例:在transformer架构中,给定一个句子"I have a cat"。阐述transformer是如何将其翻译为"我有一只猫"

Gpipe

Question

  • 什么是mini-batch?什么是micro-batch?
  • Gpipe的性能评价(bubble)

DP or DDP

Question

  • 为什么要数据并行?什么是数据并行,具体举一个例子?DP瓶颈在哪里?

  • 什么是异步梯度更新?

  • 分布式数据并行(DDP)和数据并行区别是什么?

  • Ring-AllReduce是什么,具体举个例子?

task

  • 查看pytorch提供的DP的源码

Zero(Deepspeed)

Question

  • Zero提出的目的是什么?

  • zero-1,zero-2,zero-3分别干了什么事情?,在一次epoch中具体是如何计算的?

  • zero-R具体干了什么事情

  • 什么是zero-offload?

Megatron-LM

Question

  • Megatron 对mlp层,self-attention, 以及embeding层时如何切割和计算的?
  • Megatron 对比 DP (通讯量,存储开销)

task

  • 阅读Megatron-LM 源码

后续学习

Colossal Ai

阅读手册并部署

Flash Attention

Lora微调技术

LOMO