马天宇9.15周报

1.在b站观看了吴恩达“机器学习”视频课程的第一堂课(五小节),主要是介绍机器学习概念,并说明了监督学习与无监督学习(无监督学习举了两个例子,聚类和鸡尾酒会问题)的差别:总结了一下主要包括如下三点:(1)对特征信息进行分类还是聚类(2)对输入数据是否降维(3)有标签还是无标签,部分相关知识在本科毕设时已经有了初步理解,这里又巩固了一些。下周计划完成第二课(单变量线性回归)。 2.进入Python的入门学习阶段,安装了Python开发环境PyCharm,具体的例程编译实现准备下周尝试,在入门的例程完成后准备尝试手写数字识别。 3.帮明贤师哥答题过程中,明贤师哥帮我复习了一下数据结构中队列、堆栈和二叉树相关知识,并针对判断出栈序列这种题总结了小窍门。 ...
Read More

马天宇9.6周报

本周主要进行了图神经网络的初步学习,成果主要分以下几部分: 1.首先阅读了几篇CSDN上的科普向博客(其中两篇链接如下——https://blog.csdn.net/u012678060/article/details/81056008 https://mq.mbd.baidu.com/u6qwyo4?f=cp&u=286f2eb644f488cc)。了解了GNN是以“图”这一包含节点和边两种信息的模型为基本输入单元的,图数据的复杂性在于图大小的多样性与节点的无序性,GNN与传统的CNN等网络结构的不同点在于:CNN必须使用具有规则矩形结构的卷积核来提取输入中的局部信息,而GNN可以突破欧式空间的限制,对于一些3D模型下的非规则曲面也有处理能力。 2.重点阅读了大连理工大学的一篇题为“基于图神经网络学习的人脸重建方法”硕士学位论文。该方法为图结构的每一个节点训练一个浅层的神经网络,在人脸3D模型这种复杂曲面作为输入的情况下,充分体现了GNN处理任意拓扑结构的优越性。 总结:神经网络在深度学习中的应用已经非常广泛,GNN 在对图形中节点间的依赖关系进行建模方面能力强大,其前景仍是大有可为。 ...
Read More

马天宇4.21周报

1.本周工作的主要方面在毕业设计。尝试编写了一段用阈值法检测锋电位的程序,从画出的图形结果来看效果不错;查阅资料并结合张亚娟师姐的组会课题汇报,进一步了解了主成分分析的基本原理。 2.在老师的帮助下梳理了语音识别部分的流程框图,提出备选方案,并查阅资料了解梅尔倒谱系数、隐马尔可夫模型等概念。 3.结合数据手册初步了解了科大讯飞的两款产品——XFMT101离线识别模块和XFM10621麦克风阵列。其中XFMT101离线识别模块可初步完成我们的要求,能有效识别命令词并将识别结果通过串口传送至上位机,但缺点也很显著——识别词库较小(20),且不宜识别较长语句。我认为可将此作为备选方案,但需自主解决的部分也很多。XFM10621麦克风阵列可在语音预处理阶段用于降低周围噪声,作为备选方案之一。 ...
Read More

4.13周报马天宇

1.初步开展了老师交代的构建语音识别系统的任务,拟采用科大讯飞的成型语音识别技术。 2.一开始我Linux虚拟机使用的是32位的Fedora14系统,glibc版本过低导致SDK运行失败,按网上教程安装glibc2.20仍失败。已浪费太多时间,故放弃此系统,转投64位Ubuntu。 3.使用乌班图系统比较顺畅,只遇到一些诸如主机与虚拟机间的复制粘贴、chmod修改文件夹权限之类的小问题,解决后运行SDK成功,得到初步结果。 4.然而,本周工作中最大的难点来了——运行成功后的第二天,我再次测试的时候显示错误“找不到.so文件”,明明与昨天相比没做任何改动,库文件的路径也定义准确。百思不得其解中,查阅多方平台,最终在简书上找到了问题所在——库文件路径的定义是在一个“64-bit_make.sh”文件中的,要想成功读取路径,必须在每次重启虚拟机后重新编译一次该.sh文件。故问题解决。 5.当前代码的局限性在于:并非使用者实时用麦克风进行语音输入,而是使用固定的已经录制好的pcm文件作为音源,也就是说目前只能识别科大讯飞官方已经录制好的两段语音。我用FFmpeg尝试了一下自主录音,发现可以成功录取.wav格式的音频。我下阶段的工作可能集中在:将录好的音频转为pcm格式进而在程序中加以识别。 ...
Read More