RNN-T语音模型记录

发布时间 2023-05-25 09:59:37作者: wieneralan

RNN-T 模型最后一层的输出是一个 4-D 的 tensor,维度是 (N, T, U, C), 其中

  • N: batch size。数值大小: 一般是几十

  • T: encoder 的输出帧数。数值大小:一般是好几百

  • U: decoder 的输出帧数。数值大小:几十至上百

  • C: vocabulary size。数值大小:几百至上千

所以,RNN-T 训练时,所需的内存正比于 NT , UC 这 4 个数的乘积 NTUC

训练 CTC 或者 attention-based 模型时,所需的内存一般与 NTC 或者 NUC 成正比。

见 https://mp.weixin.qq.com/s/bgJHwHp0PyFy0pWGVWvv0w