基于LSTM-RNN的语音声学建模技术

基于LSTM-RNN的语音声学建模技术

开课时间:10月11日周三晚8点
开课时长:一个小时
学员人数:36
回放价格: 免费
课程介绍

分享主题

基于LSTM-RNN的语音声学建模技术

 

分享内容

LSTM-RNN可以对长时序列信息进行建模,广泛应用于语音识别声学模型建模中。此次主要介绍近期LSTM的一些研究进展包括LC-BLSTM,2D-LSTM等。其中LC-BLSTM采用了双向LSTM结构,并在训练和解码时加入了数帧的未来信息来控制延时,解决了普通双向LSTM无法用于实时语音识别的问题;而2D-LSTM在时间和频域两个维度上进行循环,同时保存时间轴与频域轴的序列信息,Google和微软都在大规模语音识别任务上验证了这类2D-LSTM结构的有效性。

 
分享大纲
  • ASR与声学模型简介
  • 传统LSTM
  • 双向LSTM结构
  • 2D-LSTM
 

分享人

张弼弘,2017年4月毕业于西北工业大学并获得硕士学位。研究方向是语音识别声学建模,深度学习,机器学习。目前就职于搜狗。

 

分享时间

10月11日周三晚8点

课程须知
  • 本次公开课将于10月11日周三晚8点准时开始,请大家提前10分钟进入直播间
  • 公开课后两天内会上传回放视频,错过直播的同学也不要担心
  • 欢迎大家多多向嘉宾提问,问题被采纳者有机会获得神秘礼品