1.初步开展了老师交代的构建语音识别系统的任务,拟采用科大讯飞的成型语音识别技术。
2.一开始我Linux虚拟机使用的是32位的Fedora14系统,glibc版本过低导致SDK运行失败,按网上教程安装glibc2.20仍失败。已浪费太多时间,故放弃此系统,转投64位Ubuntu。
3.使用乌班图系统比较顺畅,只遇到一些诸如主机与虚拟机间的复制粘贴、chmod修改文件夹权限之类的小问题,解决后运行SDK成功,得到初步结果。
4.然而,本周工作中最大的难点来了——运行成功后的第二天,我再次测试的时候显示错误“找不到.so文件”,明明与昨天相比没做任何改动,库文件的路径也定义准确。百思不得其解中,查阅多方平台,最终在简书上找到了问题所在——库文件路径的定义是在一个“64-bit_make.sh”文件中的,要想成功读取路径,必须在每次重启虚拟机后重新编译一次该.sh文件。故问题解决。
5.当前代码的局限性在于:并非使用者实时用麦克风进行语音输入,而是使用固定的已经录制好的pcm文件作为音源,也就是说目前只能识别科大讯飞官方已经录制好的两段语音。我用FFmpeg尝试了一下自主录音,发现可以成功录取.wav格式的音频。我下阶段的工作可能集中在:将录好的音频转为pcm格式进而在程序中加以识别。

1 Comment

  • zhangtao

    下一步要尝试语句的识别与分割。因为后期的应用中麦克是一直处于工作状态的,如何完成顺滑的语音转文字,需要多查找相关资料,拿出一个方案来。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注