JZTXT
  • 首页
  • Ai
  • Java
  • Python
  • Android
  • Mysql
  • JavaScript
  • Html
  • CSS

实习中遇到的问题(1)

发布时间 2023-07-04 09:04:49作者: Halo辉Go

什么是BatchNormalization?

1、先取平均值
2、计算sigama

  2.1、sigama计算方式是见图中公式

3、每一项减去平均值然后除以sigama

什么是Softmax?

 

 什么是Attention和Transformer?

最近在重新学习和认识Attention和Transformer,看到一个视频讲的很详细,是从矩阵计算角度讲的。
Attention、Transformer公式推导和矩阵变化_哔哩哔哩_bilibili

当然理论讲解当然是李宏毅老师讲的比较好一些

强烈推荐!台大李宏毅自注意力机制和Transformer详解!_哔哩哔哩_bilibili

还有一篇博客也不错:Transformer 模型详解及代码实现 - 知乎 (zhihu.com)

 

    本栏目推荐文章
  • 解决 DELPHI 中执行外部命令出现屏幕一闪的问题的方法
  • 从C++CLI工程的依赖库引用问题看.Net加载程序集机制
  • Maven常见问题与原理技巧
  • Hive常见问题
  • VIM/NeoVIM:解决LuaSnip下Tab按键跳转冲突问题
  • 【Leetcode 2474. 购买量严格增加的客户】MySQL用户变量编程解决严格递增连续子序列问题
  • 【LeetCode 2494. 合并在同一个大厅重叠的活动】MySQL用户变量编程解决区间合并问题
  • Spark版本不兼容导致Standalone集群无法连接问题
  • 2d物理引擎学习 - 基于约束的公式解决接触稳定性问题
  • 深拷贝和浅拷贝的问题 [补档-2022-10-22]
版权声明:本网站为非赢利性站点,本网站所有内容均来源于互联网相关站点自动搜索采集信息,相关链接已经注明来源。
联系我们