老规矩. 直接第三章
3. 端到端网络结构
给一个audio 短窗口, 也就是片段. 我们预测窗口中间时刻的面部表情.
我们把表情看做一个全端点的向量 (后面我们会看这是什么的一种刻画面部)
一旦我们网络训完, 我们回各个时间点同时生成, 并行. 即使不需要过去的帧画面, 依然生成很稳定的画面. (指的是画面不会跳帧严重, 画面连贯).
老规矩. 直接第三章
3. 端到端网络结构
给一个audio 短窗口, 也就是片段. 我们预测窗口中间时刻的面部表情.
我们把表情看做一个全端点的向量 (后面我们会看这是什么的一种刻画面部)
一旦我们网络训完, 我们回各个时间点同时生成, 并行. 即使不需要过去的帧画面, 依然生成很稳定的画面. (指的是画面不会跳帧严重, 画面连贯).