第八章，太昊_我是科二代

黑科?太昊实验室。

空气安静了很久。

“怎么感觉和智能音箱差不多？”说完，感觉是在拆台，李舒涵吐了吐舌头，怕男神生气，连忙对陈然道：“太昊肯定不一样吧？”

“当然不一样！”钱斌傻笑，试图化解尴尬，“那些不是经常听错，就是答非所问的人工智障，怎么能跟‘太昊’比？”

“嗯。”李舒涵尴尬的应了一声，见陈然不答，又问：“太昊多厉害？”

“这还用说？！”钱斌再次截胡，与有荣焉，炫耀道：“大多数互联网公司，语音识别准确率最高不到97%，太昊是99.6%，比人的听力强太多了！”

“……”这人怎么老插嘴？

李舒涵小脸微黑，调整一下心情，她拉起陈然的袖子走到一边，“你们好厉害，第一次来，跟我讲讲嘛。”

“诶？”钱斌傻眼，侧头问陆少英，“她怎么走了？”

“为什么不走？”你是不是沙雕？一点眼力劲儿也没有，陆少英叹气，“人家美女感兴趣的不是AI，是陈然……”

“唉！又是一个沉迷于然哥美色的女生？”钱斌终于双商上线，恍然明白了什么，“在她眼里，我们就是电灯泡吧？”

“你是，我不是。”陆少英有一种哔了狗的感觉，带上我干什么，我又没有强行搭话。

说罢，陆少英摇摇头，跟上两人的脚步，也走了。

“现在语音识别有96%吗？感觉一点都不像。”另一边，李舒涵问道。她刚看过一个段子，很火的东北大汉和车载语音，电话号码重复十遍也听不懂，能把人笑死。

“这个问题，其实可以换一个角度来看。”陈然笑了笑，“很多音乐APP都有‘听歌识曲’功能，听一小段旋律，就可以准确搜索到歌曲，几乎不会出错。”

“也是哦。”李舒涵知道酷狗上就有，有时候人都听不清歌词，‘听歌识曲’却能识别出来，“为什么换到人身上，语音识别就不好用了呢？”

“因为歌曲旋律一样，人声却各不相同，现实场景还有干扰，比如语气、情绪、多人对话、噪音、回声等等，所以必须借助设备。”陈然指了指天花板，“注意头顶。”

“头顶？”李舒涵看到了天花板吊着的环形设备，“那是什么？”

“麦克风阵列。”见她不懂，陈然只能解释，“单麦克风拾取的混合信号很难区分，会对语音识别造成困扰。”

“而麦克风阵列不同，它由两个以上、规则排列的声学传感器组成，利用时间、空间差异，可以对音源波束形成，增益、降噪、去混响、定位和干扰抑制。”

“原来还有硬件要求！”李舒涵恍然大悟，水汪汪的大眼睛望着陈然，一脸崇拜，“你好厉害呀，懂这么多！”

其实陈然说得很简略了……

现在很多智能手机就有2到4个麦克风阵列，但是效果呢？

提高语音识别准确率的，远不止一个麦克风阵列，作为一个物理设备，它只是负责声音的采集、处理，转换成计算机能够理解的音源数据。

常用的一种方法是梅尔频率倒谱系数，用移动窗函数把语音分成许多十毫秒级的帧，再把每一帧波形转换成多维向量，声波就成了M行、N列的矩阵。

数据上传到云端，又涉及到两个概念：状态、音素。

通常3个状态组成一个音素，而音素构成音节，音节组成语音。

第一步声学模型，比如隐马尔可夫模型（HMM），简单的理解，就是由单词网络展开音素网络，再展开成状态网络。

过程是将帧识别为状态（难点），音素识别为语音。

第二步语言模型，同音字词、句式、语法、上下文……逻辑严密，包含日常用语的方方面面，不同人的声调、音色、说话方式等等，样本范围越广越好。

就好比报电话号码的东北大汉，车载语音如果只采集了普通话，东北话？鸡同鸭讲，根本识别不了，完全靠蒙。

很多神经网络参数高达上亿，不说极其繁琐的调参和炼丹术的可靠性，关键学习能力也无法与人相比，需要庞大的训练数据支撑！

而这些数据也不是拿来就用，要挑选、清洗……耗费庞大的人力。

这也是常说的，有多少人工，就有多少智能。