
为了进一步促进研究生学术交流,拓宽研究生学术视野,营造良好的学术氛围,足球竞猜平台
主办的“沿途青年说”第35讲于4月4日下午16:00-17:00在线上(腾讯会议:586-824-802)举行。本次主讲人为20级研究生彭奕芬,主题为一种轻量级全频带语音增强算法研究。

彭奕芬同学从研究背景、现状与研究目标、研究方法、关键技术与实践难点、研究结果与应用、论文总结这几个方面进行介绍。
信号在传播过程中会被不同的噪声所污染,这些背景噪声的存在大大影响了语音的可理解性。语音增强的目的是为了从复杂的噪声环境中提取有效的信息,消除噪声信号,提高语音信号的可理解性。
针对噪声对通信,工业,医疗,人工智能等领域带来的影响、相位对语音增强的重要性、语音增强系统在边缘设备的部署,研究适用于轻量级和低复杂度的语音增强算法由为重要。
由于传统的语音增强算法,比如谱减法、滤波器和子空间法有着不同的缺点,人们对基于深度学习的语音增强寄予厚望。一般来说,语音神经网络的常见的特征包含语音的幅度谱,复数谱,对数功率谱,梅尔谱,感知线性预测系数等。
本文提出的模型将全频带语音信号分解为多个子频带,通过和幅度谱一样的时频掩蔽和频谱映射修正实部和虚部的频谱图,从而修正相位,并采用两阶段训练策略训练模型。
针对语音信号的相位信息的非线性和非平稳性。本文提出了基于Transformer的自适应时频线性注意力机制。每个自适应时频率线性注意力模块由两个支路组成:自适应时间线性注意力时间支路(Adaptive Time Linear Attention Branch,ATLAB)和自适应频率线性注意力支路(Adaptive Frequency Linear Attention Branch,AFLAB)。
幅度谱,复数谱,对数功率谱作为主要的训练特征,各有各的优点。我们提出的模型使用两条支路,复数谱支路和幅度谱支路,复数谱支路估计相位和幅度信息,幅度谱估计幅度信息,两者并行地对语音进行增强。
两阶段模型是指将原输入(0-24KHz)经过傅里叶变换后,得到频域信号。将分解成低频带(0-8KHz)和高频段 (8-24KHz)。该模型通过预训练的低频带语音增强系统(第一步)和高频带语音增强系统(第二步)对全频带进行增强。高频带语音增强系统将预训练的低频带模型的输出,与高频带的噪声语音一起作为高频带模型的输入,保证了良好的泛化能力。

最后,和其他先进的全频带语音增强模型比较。本文提出的LCFD-net模型取得了较好的效果。
在活动的问答环节,主讲人对同学们的疑问进行了探讨,通过本次“研途青年说”的分享,同学们轻量级全频带语音增强方面的内容可以有更深的认识和理解,对自己的研究生生涯规划也有了更清晰的认识,为自己今后的科研道路奠定了基础。

彭奕芬
2020级足球竞猜平台
电子信息专业硕士
导师:曹忠
主要研究方向:语音信号处理
主要科研成果:论文一篇,发明专利一篇