最近大家开始写论文,现在这里写一个大概的写作步骤,随后每个人都可以随时补充。
写论文大体可以分为如下步骤,作为本文的目录吧:
1 方向
2 文献阅读
3 想法
4 想法验证
5 逻辑梳理
6 文档梳理
7 投稿
以下一步一步来讲:
1 方向
大家的方向大多是我给出来的,这个一般不需要过多考虑。需要明确的是这个方向是要做什么。比如做帕金森这个方向,其目的就是可靠的帕金森诊断。那么细分起来,就分为了如何提高精度和如何提高可靠性两个方面。目前我们组内提高精度采用的是以Hog为基本方法的一系列算法,可靠则是在看Max的论文,以及考虑后期采用属性拓扑的概念方法进行结构构造。
2 文献阅读
这个工作是大家最容易忽略的,很多同学都想跳过这一步直接就去做后面的内容。但事实是:出来混早晚要还。大家一定记住:一见钟情且能幸福一生这种事情是童话的桥段,在现实生活中出现的概率很低。所以,踏踏实实的读文献,是必须的。
说一下读文献的目的:
第一,要了解国内外研究现状。一定注意,这里说的是“现状”。有些同学在本科阶段形成了很不好的习惯,就是随便抄一抄文献综述。这在研究生阶段是不可以的。还以帕金森为例,了解现状的标准是自己能闭着眼睛说出这个领域目前谁是最牛的(看谁的文献被提到最多),他们最近的研究成果是什么(可关注作者的google scholar),这个领域当前最热门的研究方法是什么,这个领域的论文在什么期刊发表最多?
第二,要了解这个领域内的通用内容。比如这个领域内都用什么数据集,是否有基准对比方法,用什么评价指标,领域内大体是什么水平,怎么做实验,怎么讨论?这些内容对大家非常有用。当自己有了想法后要进行验证,有了这些内容会帮助大家快速评估自己的想法是否有用。同时,任何论文或成果都是需要比较的,这些通用内容就是标尺。
第三,要了解当前各种方法的优缺点。注意,这里一定是新方法。如果找的方法是很多年前的,那么一定要看看这个文章被谁引用过,他们在这个基础上是否有改进。所以,最好的方法是找新论文。关于各方法的优缺点,所有的论文都会说自己的有点(摘要、引言最后、讨论、结论),也有一部分会说自己的缺点(讨论、结论)。这个时候一定要做到兼听则明,要多看文献相互之间的评价。虽然不一定真实,但一定可以参考。
第四,这个领域内的专业名词应该都会了才对。不能再挨个查字典了。
只有以上几点都烂熟于心,才说明完成了基本的阅读量。注意,此处的阅读量不是指数量,是指质量。
说一下阅读容易犯的几个错误:
第一,只看百度、知乎和csdn这类科普文章。科普文章可以在一开始帮助理解,但如果一直看科普,说明一直也没有进入到研究环节。建议大家看几个这个科普之后,无论是否理解了,一定要找文献来读,通过文献与科普的交叉来提升交替上升理解水平。
第二,只看中文文章。很多同学惧怕英文不敢去碰英文,所以只看中文。绝大部分的中文论文是没有营养的,这个和爱国无关。写论文的目的是传播自己的成果(也就是吹牛),中文的受众和英文的受众哪个大?同样是做一次广告,当然要让全世界都能看懂才好啊。这里别和我抬杠说中国人不看英文,真正做研究的中国人都是看英文的。只有lazybones和loser才不去读。如果你非要读中文,就看看学校期刊目录中的1A期刊,其他的没啥参考价值。
第三,英文文章至上。并非所有的英文都是好文章。除了那几个业界大牛,大家还是读高档次期刊的论文吧。什么是高档次?中科院期刊分类一区和二区的才算,其他都不算。至于英文会议,除了国际公认的顶级会议,其他根本不用看。顶级会议目录可以查询CCF。大多数的会议是滥竽充数的。
第四,乱用翻译软件。觉得翻译软件把英文翻译为中文看会舒服些,却不知道那样做的结果是失去太多信息。即便是高级翻译,对语言每翻译一次也会损失很多信息,何况是机器翻译。所以,宁可头疼一个月,把英文文献读下来,今后就好了。
下面说一下方法:
首先,文献要粗读与精读结合。不可能每一篇文献都去精读,谁也没有那个精力。第一遍读论文,仔细读一读摘要,大概看一看引言,了解这篇论文要说什么,为什么这么说之后直接去读实验。实验也不需要太细的读。当你掌握了领域内的基本实验方法之后,直接看实验结果和讨论。如果觉得结果不错且讨论有点意思,再回去精读方法部分。否则可以先存放起来,今后再说。
其次,要建立知识网络。很多时候读论文是由一篇论文而起,然后顺着参考文献去读其他论文。这个时候就可以给自己用脑图软件画一个阅读的路径了,同时标注好每篇论文的优缺点与你自己的思考。这就是你今后论文引言的基本来源。
最后,综合读过的内容,总结一下现在存在的问题,就可以提出自己的想法了。
3 想法
根据文献阅读结果可以找我讨论,一起来分析用什么方法比较合适。一开始想想法的时候可以天马行空,但最后一定要言而有据。此处最忌讳的就是横着脖子说别的方法就是不好,那时街头老太太打架,不是我们做学术。
比如有人说:“A方法性能太差,所以我提出B方法来提升性能”。这是不可以的。A性能差不能成为你踩他的理由。正规的方法是:“文献A采用MFCC方法对帕金森语音信号进行特征提取取得一定效果。但MFCC为根据听觉特性突出频谱低频段【此处配个参考文献说MFCC突出低频频段的】,而文献【】认为帕金森病语音障碍主要表现在频谱高频段。因此,采用MFCC方法进行分析,可能造成高频信息损失,从而导致性能下降。基于此,本文提付出****方法,对频段做统一处理(或突出高频处理),从而*****,达到******。”
这样一写,是不是就有理有据了?注意,我句子中所有的原因部分都是从参考文献中来的,这样别人就不会挑我的毛病了。唯一需要注意的就是那个参考文献真的说了那句话,不要给别人编造。
大多数的时候,我会给大家一个建议想法。注意,这个想法不一定就是对的。如果我已经知道了它是对的,也就不用你研究了。所以,大家拿到想法后,第一任务就是理解我的意思。
很多同学在这个阶段其实没听懂我说的话,但不好意思提出来。怎么办?回去自己闷被窝苦思冥想。还想不明白就去打把游戏放松一下。这样一放松几个月过去了,时间都荒废了。最好的办法是:没听懂当时就提出来,我给你再讲一遍。讲的时候你要录音,以防丢失关键信息(因为刚刚入门,还不掌握重点,理解会有偏差)。如果还没听懂,说明你文献阅读还不够。
这个时候,要找师兄师姐请教。毕竟他们和我在一起时间长,理解更透彻一些。或者顺着我说的关键词再看几篇文献,看看能不能理解。 如果三天以上还不理解,一定要再找我。直到自己理解了为止。
有时候大家会提出一些想法,这是相当好的。但需要注意的是表述清楚。建议大家把自己的想法用图的方式画出来,把想法的来龙去脉用文字或图写清楚,这样我们好讨论。最怕的就是有些同学拿来一张白纸,随便画了几条线,嘴里全是:“这样之后就那样”这样的指代词语句,把我绕的绕梁三日下不来,还不好意思打消你积极性。所以,建议大家养成把想法用语言或图形表达出来的好习惯,这对于你今后工作汇报也很有用,是职场的基本技能。
4 想法验证
刚刚说了,我的想法不一定就是对的。这就需要大家去证明或证伪了。
验证从两个角度去做:
第一,从可行性角度。有时候我的想法不一定可行。比如,这个想法别人提出来过了,但我没看到。所以大家第一件事就是去查这个想法别人有没有。如果有类似的,他们是怎么做的,和我们的差别在哪里。如果没有,我的想法的基础是否有论文支撑。比如摇荡预测,我提出来用小波,后来一查小波有了。但我的小波是要对不同频段加权的,这个没有。只有对时间关注的模型。看,这就找到了和现有文献的交叉点。时域的关注度Lstm可以作为我们的基础文献,在这个之上,我们可以说我们发现了lstm对频率的动态范围不足问题,所以我们采用小波的频率分解,然后再加权频率。这样就顺理成章的把我们的想法写出来来了。如果别人有,也不怕,因为总会有差别,而且他的实验部分会给我们新的启发。
第二,正确性角度。有了理论可行,实验结果不一定真的好。这就需要证明了。证明方法一般就是实验。根绝我的想法编程,然后用从文献中学到的实验方法去做实验,和对比方法或基准方法作对比,来看看这个想法是否真的可行。如果可行,那么就要分析为什么就好了呢?原因在哪里?如果发现不行,那么我们就要考虑是哪里出了问题,需要从哪个点进行改进。绝大多数的时候,都可以改的比对比文献好。不用问为什么,因为他是死的,而且他是解剖好给我们看的。我们的方法不好,我们把他好的部分拿来与我们的结合,大概率会超过他。所以,不用怕结果有问题,那说明分析的不够。
这里特别指出的是属性拓扑中证明性问题,有时候发现真的错了。那样错了就是错了,没办法。查漏补缺,继续改。
想法验证的每一次实验都要做好实验记录,都要做好实验记录,都要做好实验记录!!!因为你也不知道下一次什么时候这个记录就会有用了。这是科研工作的基本要求,也是基本素养。这个问题我一直在强调,大家也都敷衍说在记录。打算开学后检查一次,没有的按欺君之罪处理———罚请全课题组聚餐一次。
5 逻辑梳理
其实,以上工作如果每一步都做好记录,这个时候一篇论文就基本成型了。
比如:
引言部分就是想法的可行性验证,结合你文献阅读形成的国内外现状,梳理一下就可以。
方法部分就是你的程序啊。所不同的是:程序用代码写,方法用公式写。其实还是一套东西。这里需要注意的是大家都用Python,并不是把Python的模块一摆就可以了,而是需要把里面的内容变为理论描述出来。同时要把各部分有机的融为一体。往往在这个时候,会有一些新想法。如果改动不大,可以尝试;如果改动大,记下来以后再说。饭要一口一口吃,不能一口吃个胖子。
实验结果就是你的实验记录,讨论其实就是实验分析。想想引言中踩了谁,怎么踩的,这里需要用实验数据分析一下你踩的有道理了。
结论就不说了,大多数是客气一下。
看看,如果每一步都按照要求做,是不是挺容易的?这唯一需要强调的就是:逻辑!
在这一步梳理的时候大家有时候容易着急,所以把很多事情当成了想当然。但你要知道,你不交代的事情读者是不知道的(基本常识除外)。所以,一定要把来龙去脉说清楚。最简单的评价标准是:你的每一个观点都有论据支撑,而最终所有的原始论据都出自明确标注的参考文献或来自公理。这样通过逐步推导形成你的结论,这才是论文中应该有的逻辑链条。万不可对读者撒娇,用"我觉得“这样的态度却写作,那样必死无疑。
另外一个逻辑问题是详略要得当。大家有时候会觉得我好不容易学会了傅里叶变换,我在论文中一定要使劲写。这样就大错特错了。实际上,你从别的地方学到了这个内容,恰恰说明你的论文中不应该有这个东西才对啊。为了完整性,你可以简单介绍几句,然后给个参考文献标注就好了。你的重点应该在于你自己的创新部分啊。比如,多尺度关注度模型,应该描述是如何实现的这种多尺度关注,这是一个整体,而不能简单拆解为多尺度+关注度。你需要阐述对于多尺度的关注度我该怎么设计(从多尺度的与普通信号的区别谈起),设计过程中由于多尺度的什么特性,使得我关注度设计中要采用什么方法与之匹配。这样匹配的依据是什么,应该有一些公式推导或定理证明,最终形成了一套多尺度的关注度机制。看到了吧,这就要求不能对现在方法直接照搬,需要从底层理解现有方法的原理(我说的不是科普文档中那几个可怜的公式,而是整套的推导),然后进行针对性的调整。定制的才是最值钱的。都用tensorflow,那是玩积木,没啥技术含量。
6 文档梳理
上面只是做了一个逻辑上的梳理,其实这个时候还不是论文,充其量是论文的骨架。
在这个节点上,务必和我讨论一次,以防论文跑偏。我会帮大家捋顺论文中的重点内容和亮点信息,提炼论文中的科学问题。也就是对大家的提纲进行调整。所以,大家给我看的提纲应该是你们心里有数的提纲,最好是带上了各种图表的。我可以作为审稿人的角度帮你把关。但如果你只拿了几个放之四海而皆准的标题过来,对不起,为师也猜不出来你在想什么。
大家在文档的梳理阶段容易犯的最大问题是:过渡。
并非把所有材料直接放上就好,在段与段之间、局与局之间是需要过渡的。好了,过渡的作用和方法不展开讲了,大家感兴趣请翻看小学语文课本。
另外,大家在整理文档时不用想着一次成功,那基本不可能。一般情况下,文档整理好之后要自我通读几次。比如,在写讨论时发现引言文献不合适,在写引言时发现讨论内容跑偏了,在写实验时发现方法中少写几个变量。这都是很常见的。3-5遍的反复修改是正常的。如果觉得能一次写好后一字不改,请移步其他团队,目前我的水平指导不了。
7 投稿
投稿的过程其实是在想法验证阶段就开始的。那时候就要考虑这篇论文写好后投到哪个期刊。
期刊的选择一般采用对比原则。比如:你踩的文献是1区的,你也可以投这个期刊或其他1区的期刊。不行的话再转投2区。如果你看的文献是4区的,对不起,你的论文能发表的3区以上的机会微乎其微,除非你做了重大的突破。另外,就是找相近的。比如IJAR里经常发表FCA的文章,那我们就往那里去投。这个时候我们引用的期刊是谁就没那么重要了。这也会是阅读论文的好处。
然后,就是常规性的体力劳动:根据期刊要求具体修改论文格式、内容等,不多说了。
最后,强调一点:大家不要用我的邮箱去任何网站注册。目前有两个期刊被注册过,导致我们无法再去投稿。是的,有些期刊就是这么不讲道理,不需要我同意的。所以,大家用自己的信息注册自己的账号。还有,就是不要总是尝试投稿系统。有些投稿系统点击下一步就自动提交了,没有确认提示的。所以,填写进去的每一个信息都应该是正确的。最后,如果有机会,在确认投出之前我再看一眼。以前发现了太多投稿过程中的低级错误。这些错误往往是致命的。
暂时先写这么多,没想到的地方任何人都可以补充。目的是大家一起完成一篇文章,帮助所有成员少走弯路,尽快进步。...