ICASSP 2020 | 脑电波竟然能完成语音合成？--中国仿真学会

当前位置：首页 >> 业界动态 >> 业界动态

ICASSP 2020 | 脑电波竟然能完成语音合成？

2020/10/21 10:26:46 新闻来源：中国仿真学会生命系统建模仿真专业委员会

德克萨斯大学奥斯汀分校脑机接口实验室发布了一篇论文《SPEECH SYNTHESIS USING EEG》被ICASSP 2020所收录。不同于常见的sequence-to-sequence 语音合成模型，该论文采用了近期所提出的EEG脑电图特征集来进行建模。其中，一个RNN自回归模型被用来从EEG特征中直接预测声学特征。这种具有可行性的方案可用于帮助肌萎缩性侧索硬化症（ALS）失去语言恢复能力的患者。

一、背景介绍

脑电图是一种非侵入性的测量人脑电活动的方法。EEG具有像侵入性ECoG信号一样的高时间分辨率。由于EEG完全是一种非侵入性技术，因此受试者无需像记录EEG的ECoG那样进行脑部手术，只需脑电图传感器放置在对象的头皮上以获取记录。本篇论文尝试使用GRU来进行语音合成探索。

二、方法介绍

令人兴奋的是，执行此脑电图语音生成的模型仅仅是一个简单的RNN模型。详细来说，本篇论文的模型由两层GRU层组成，（第一层256个单元，第二层128个单元），最后一层GRU连接到一个时间分布的密集层（13个单元），用于在每个时间步长预测13-维特征。在每一层GRU后面添加了一个dropout 正则化层，其中dropout比率为0.2。整个模型的输入向量为EEG脑电图特征，输出为声学特征。目标函数为MSE，实验数据的80%用作于训练集，10%作为验证集用于参数调优，而剩下的10%用作于测试集。

三、实验介绍

图1 EEG-MFCC模型

4名实验对象参与了录制实验，这四名均为德克萨斯大学奥斯汀分校的本科学生，大约20来岁，其中有3名女性，和1名男性。这四名实验对象，首先听一段录制好的语音，然后再将听到的内容，大声朗读出来。EEG脑电波在他们听录音以及朗诵的时候，分别被记录了下来，分别被标记为听力EEG和口语EEG。这四句话分别为"Hi Bixby", "Call Mom", "Open Camera" and " What's the weather". 实验中收集了70个语音-EEG对。实验中采用的是脑视脑电图记录硬件。

图2 实验中使用的盖帽的EEG通道位置

我们的EEG帽具有32个湿EEG电极，其中一个电极接地，如图2所示。我们使用EEGLab 来获取EEG传感器位置映射。它基于32个电极的标准10-20 EEG传感器放置方法进行试验。我们计算了三种类型的性能指标，即mel倒谱系数（MCD），均方根误差（RMSE）和测试期间预测的MFCC与测试集的真实MFCC之间的归一化RMSE，以评估测试集的性能。