JZTXT

RNN-T语音模型记录

发布时间 2023-05-25 09:59:37作者: wieneralan

RNN-T 模型最后一层的输出是一个 4-D 的 tensor，维度是 (N, T, U, C), 其中

N: batch size。数值大小: 一般是几十
T: encoder 的输出帧数。数值大小：一般是好几百
U: decoder 的输出帧数。数值大小：几十至上百
C: vocabulary size。数值大小：几百至上千

所以，RNN-T 训练时，所需的内存正比于 N, T , U, C 这 4 个数的乘积 NTUC。

训练 CTC 或者 attention-based 模型时，所需的内存一般与 NTC 或者 NUC 成正比。

见 https://mp.weixin.qq.com/s/bgJHwHp0PyFy0pWGVWvv0w