写作技巧 – Tao Team

密码保护：latex初步使用入门

2023年11月4日 by 张, 菁No Comments

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码： ...

如何有理有据地反驳审稿人?–附模板

2023年1月25日2023年1月25日 by zhangtaoNo Comments

审稿人意见：文章缺乏创新性第一句话：The main limitation is the lack of innovation. 首先审稿人开门见山指出文章缺乏创新性，而且是文章的主要缺陷。在本文中红色字体代表可以重点学习和参考词组和句式。第二句话：A cross-cutting approach to stigma is hardly unknown, as the authors themselves point out, and the model they present does not deviate drastically from current stigma conceptualizations. 接下来就是审稿人具体阐述了为什么缺乏创新性，分为了两点，第一点是XXX还很不清楚；第二点是作者展现的模型和现在的也没有太大区别。 Response:作者的五句话句句“经典”，非常值得学习：第一句话：We would like to thank you for your critical and constructive comments. 首先感谢审稿人提出的意见，注意学习Critical和Constructive这两个可以修饰Comment的词。第二句话：We agree that the concept of health-related stigma is not new. 对审稿人提出的意见进行肯定，这里要注意，即使是反驳别人，也不要一上来就把别人说的完全否定，除非审稿人确实是完全错误。第三句话：However, it has not been used in the research area of public health and medical practice. We believe it deserves being highlighted again. 在肯定了审稿人意见的正确性以后，从细节之中找出自己的创新点。注意学习这句话的后半句：We believe it deserves being highlighted。第四句话：This is the first time that the validity of the health-related stigma approach has been clearly demonstrated using data on stigma measurement and interventions. 具体解释作者的创新点在哪里，直接用 This is the (必须加the) first time that...，直截了当指出我们的研究是第一次如何如何。第五句话：Our paper seeks to open the minds ofthe health research community for a new research agenda – one that addresses health-related stigma using integrated approaches. 继上面直接了当指出创新点以后，继续阐释创新点，注意学习词组：seeks to open the minds of ... ...

写好一篇SCI论文的几个“五项原则”

2023年1月16日2023年1月16日 by zhangtaoNo Comments

中科院博士分享：写好一篇SCI论文的几个“五项原则” 来自：https://www.toutiao.com/article/7188708304699261479/?app=news_article&timestamp=1673798109&use_new_style=1&req_id=20230115235508224B3C6DFACB9EE82D1B&group_id=7188708304699261479&share_token=59B16733-0F82-4B35-8140-CA3FBAD89C09&tt_from=dingtalk&utm_source=dingtalk&utm_medium=toutiao_ios&utm_campaign=client_share&dtshare_count=1&source=m_redirect 一篇精致的SCI论文给读者的第一感受一定是愉悦的，审稿人、读者对于这样的论文都是无从挑剔的。我们有时候会抱怨，总觉得是审稿人的偏见导致自己的论文修来修去。每个人都有自己喜欢的写作方式，没有一个统一的说法。但写好一篇稿件所面临的问题都是一样的，一篇无可挑剔的论文是要具备一定的标准的。一、“五大”要素写好一篇好论文就是讲好一个“故事”，要把故事讲得精彩，那就必须包括好论文的“五大”要素：（1）why——为什么这么做？需要目的性明确的研究（对应论文的Introduction部分）。（2）how——怎么做的？科学的研究方法（对应Materials and Methods部分）。（3）what——做出了什么？可靠的结论（对应Results和Conclusion部分）。（4）significance——做出来有什么意义？体现文章的创新，突出论题的意义。（对应Discussion部分）（5）limitation——做出来的东西有什么局限性？留出空间，不断深入（对应Discussion部分）。二、“五步”原则确定了故事的构成，接下来研究一下如何讲这个故事，要想把一个故事讲好，就需要这五步：第一步：列个提纲。为什么要做这个研究？（前言部分）；如何来做这个研究？（方法部分）；这个研究结果是什么？（结果部分）；这个研究意义或启示是什么？（讨论部分）。这个提纲不应该太长，把重点列出来就行。第二步：文献检索。主要是查证自己的科研成果是否解决了一个文献上没有解决的问题，是否往前又走了一步，特殊的意义在哪里？文献搜索常用的网站有Pubmed网站（https://pubmed.ncbi.nlm.nih.gov/），Web of science网站（https://www.webofknowledge.com/），Science Direct（Elsevier）网站（https://www.sciencedirect.com/）等，尽量看英文数据库。第三步：完成草稿。在阅读他人文献的过程中，就把你的科研领域的常用词汇、语句记下来，这样在你自己写作时就可以用起来，但不能照抄。特别要仔细阅读一些你想投稿期刊的论文，按要求写作。第四步：修改内容。找导师、同学帮助修改，提意见。修改稿件时应先从整体上开始，看内容是否完整，思路和段落是否合理，逻辑是否正确，每个句子是否通顺，句子之间是否有合理的连接，用字、标点符号的使用、文献索引是否准确等。在写作过程中可能会产生一些新的想法，随时补充随时完善。第五步：英语润色。必要时，可寻求专业人士或机构来修改英语写作。其实英语润色不仅仅是修改纯语法，更重要的是修改行文逻辑，甚至段落结构。所以大家在寻找相关服务时要询问清楚，不要图便宜找一个英语八级的文科生来改文章，他们大多只能改改基本的语法。三、“五大”因素很多人都有疑问：有些已经发表的论文做的研究其实也没有多深多难，为什么他们的文章能发，而我的研究做得更深更好，却发不了？这里面最常见的原因是我们没有把“故事”说明白。别人的文章不见得“多深多好”也能发表，可能是因为他们做得不深，但有新意，或者是他们恰到好处地验证了自己的假说。而我们故事虽然内容详实，但却说不明白又不能让别人信服，又怎么能发表呢？根据笔者的经验，好论文亮点的“五大”因素是：第一大因素：中心明确。有一个明确的观点，很清楚地揭示论文的思想。“一个核心”是至关重要的，笔者审稿时读过很多论文，每当我觉得终于明白作者想要表达什么时，作者突然笔锋一转，又去聊别的了，读完全文，完全不知道作者的核心观点是什么。第二大因素：创新突出。论文在组织安排上让别人能够看到创新性和科学性。任何一篇SCI论文都需要有自己的创新点，这是审稿人最看重的，创新点要说清楚，也包括文章对后人的工作有何重要意义。第三大因素：结果可靠。科学的数据是发表SCI论文的基本要素之一。研究方法合理，能够在一定程度上支持结论。这里要注意，不要片面地以为结果为反面就不具备发表的可能，要知道论文发表最终是以能够说明问题为基准，反面结果与正面结果一样都可以说明问题。第四大因素：研究价值。你需要目的性明确地研究某个科学问题，如果你的研究不能产生任何价值，你的论文就算发表了也毫无意义。第五大因素：可读性强。好的论文都是具有故事性的，一篇论文就是一个故事，把这个故事讲好，一篇论文就大功告成了。文章要有逻辑性，要有前因后果，越是好的期刊越要求论文具有可读性。最后，如果大家是第一次写英文论文，大部分人都无从下手，这时候可以模仿和借鉴领域内大牛的经典之作，看他们是如何布局论文结构，如何设计实验，如何验证的，借鉴他们的思路。还要敢于动笔，任何事都有第一次，不要觉得自己没做过或害怕做得不好就不敢动笔。只要敢动笔写，不管写得多烂都是一次经历和经验，下次再写就会顺畅很多，慢慢地也就不惧怕英文写作了。 ...

密码保护：新生学习内容

2022年4月22日2023年4月24日 by 程, 毅飞No Comments

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码： ...

密码保护：实验怎么做？(数据集+评价指标)

2022年4月19日2022年4月19日 by 薛在发No Comments

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码： ...

密码保护：有了这份论文撰写宝典，轻松拿下高分期刊！

2021年8月17日2021年8月17日 by 李, 少泽No Comments

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码： ...

密码保护：沈向洋：读论文的三个层次

2021年8月17日 by 李, 少泽No Comments

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码： ...

密码保护：读论文的三个层次–写论文同样如此

2020年5月31日2021年8月18日 by zhangtaoNo Comments

此内容受密码保护。如需查阅，请在下列字段中输入您的密码。密码： ...

如何写论文

2020年3月3日2021年8月18日 by zhangtaoNo Comments

最近大家开始写论文，现在这里写一个大概的写作步骤，随后每个人都可以随时补充。写论文大体可以分为如下步骤，作为本文的目录吧： 1 方向 2 文献阅读 3 想法 4 想法验证 5 逻辑梳理 6 文档梳理 7 投稿以下一步一步来讲： 1 方向大家的方向大多是我给出来的，这个一般不需要过多考虑。需要明确的是这个方向是要做什么。比如做帕金森这个方向，其目的就是可靠的帕金森诊断。那么细分起来，就分为了如何提高精度和如何提高可靠性两个方面。目前我们组内提高精度采用的是以Hog为基本方法的一系列算法，可靠则是在看Max的论文，以及考虑后期采用属性拓扑的概念方法进行结构构造。 2 文献阅读这个工作是大家最容易忽略的，很多同学都想跳过这一步直接就去做后面的内容。但事实是：出来混早晚要还。大家一定记住：一见钟情且能幸福一生这种事情是童话的桥段，在现实生活中出现的概率很低。所以，踏踏实实的读文献，是必须的。说一下读文献的目的：第一，要了解国内外研究现状。一定注意，这里说的是“现状”。有些同学在本科阶段形成了很不好的习惯，就是随便抄一抄文献综述。这在研究生阶段是不可以的。还以帕金森为例，了解现状的标准是自己能闭着眼睛说出这个领域目前谁是最牛的（看谁的文献被提到最多），他们最近的研究成果是什么（可关注作者的google scholar),这个领域当前最热门的研究方法是什么，这个领域的论文在什么期刊发表最多？第二，要了解这个领域内的通用内容。比如这个领域内都用什么数据集，是否有基准对比方法，用什么评价指标，领域内大体是什么水平，怎么做实验，怎么讨论？这些内容对大家非常有用。当自己有了想法后要进行验证，有了这些内容会帮助大家快速评估自己的想法是否有用。同时，任何论文或成果都是需要比较的，这些通用内容就是标尺。第三，要了解当前各种方法的优缺点。注意，这里一定是新方法。如果找的方法是很多年前的，那么一定要看看这个文章被谁引用过，他们在这个基础上是否有改进。所以，最好的方法是找新论文。关于各方法的优缺点，所有的论文都会说自己的有点（摘要、引言最后、讨论、结论），也有一部分会说自己的缺点（讨论、结论）。这个时候一定要做到兼听则明，要多看文献相互之间的评价。虽然不一定真实，但一定可以参考。第四，这个领域内的专业名词应该都会了才对。不能再挨个查字典了。只有以上几点都烂熟于心，才说明完成了基本的阅读量。注意，此处的阅读量不是指数量，是指质量。说一下阅读容易犯的几个错误：第一，只看百度、知乎和csdn这类科普文章。科普文章可以在一开始帮助理解，但如果一直看科普，说明一直也没有进入到研究环节。建议大家看几个这个科普之后，无论是否理解了，一定要找文献来读，通过文献与科普的交叉来提升交替上升理解水平。第二，只看中文文章。很多同学惧怕英文不敢去碰英文，所以只看中文。绝大部分的中文论文是没有营养的，这个和爱国无关。写论文的目的是传播自己的成果（也就是吹牛），中文的受众和英文的受众哪个大？同样是做一次广告，当然要让全世界都能看懂才好啊。这里别和我抬杠说中国人不看英文，真正做研究的中国人都是看英文的。只有lazybones和loser才不去读。如果你非要读中文，就看看学校期刊目录中的1A期刊，其他的没啥参考价值。第三，英文文章至上。并非所有的英文都是好文章。除了那几个业界大牛，大家还是读高档次期刊的论文吧。什么是高档次？中科院期刊分类一区和二区的才算，其他都不算。至于英文会议，除了国际公认的顶级会议，其他根本不用看。顶级会议目录可以查询CCF。大多数的会议是滥竽充数的。第四，乱用翻译软件。觉得翻译软件把英文翻译为中文看会舒服些，却不知道那样做的结果是失去太多信息。即便是高级翻译，对语言每翻译一次也会损失很多信息，何况是机器翻译。所以，宁可头疼一个月，把英文文献读下来，今后就好了。下面说一下方法：首先，文献要粗读与精读结合。不可能每一篇文献都去精读，谁也没有那个精力。第一遍读论文，仔细读一读摘要，大概看一看引言，了解这篇论文要说什么，为什么这么说之后直接去读实验。实验也不需要太细的读。当你掌握了领域内的基本实验方法之后，直接看实验结果和讨论。如果觉得结果不错且讨论有点意思，再回去精读方法部分。否则可以先存放起来，今后再说。其次，要建立知识网络。很多时候读论文是由一篇论文而起，然后顺着参考文献去读其他论文。这个时候就可以给自己用脑图软件画一个阅读的路径了，同时标注好每篇论文的优缺点与你自己的思考。这就是你今后论文引言的基本来源。最后，综合读过的内容，总结一下现在存在的问题，就可以提出自己的想法了。 3 想法根据文献阅读结果可以找我讨论，一起来分析用什么方法比较合适。一开始想想法的时候可以天马行空，但最后一定要言而有据。此处最忌讳的就是横着脖子说别的方法就是不好，那时街头老太太打架，不是我们做学术。比如有人说：“A方法性能太差，所以我提出B方法来提升性能”。这是不可以的。A性能差不能成为你踩他的理由。正规的方法是：“文献A采用MFCC方法对帕金森语音信号进行特征提取取得一定效果。但MFCC为根据听觉特性突出频谱低频段【此处配个参考文献说MFCC突出低频频段的】，而文献【】认为帕金森病语音障碍主要表现在频谱高频段。因此，采用MFCC方法进行分析，可能造成高频信息损失，从而导致性能下降。基于此，本文提付出****方法，对频段做统一处理（或突出高频处理），从而*****，达到******。” 这样一写，是不是就有理有据了？注意，我句子中所有的原因部分都是从参考文献中来的，这样别人就不会挑我的毛病了。唯一需要注意的就是那个参考文献真的说了那句话，不要给别人编造。大多数的时候，我会给大家一个建议想法。注意，这个想法不一定就是对的。如果我已经知道了它是对的，也就不用你研究了。所以，大家拿到想法后，第一任务就是理解我的意思。很多同学在这个阶段其实没听懂我说的话，但不好意思提出来。怎么办？回去自己闷被窝苦思冥想。还想不明白就去打把游戏放松一下。这样一放松几个月过去了，时间都荒废了。最好的办法是：没听懂当时就提出来，我给你再讲一遍。讲的时候你要录音，以防丢失关键信息（因为刚刚入门，还不掌握重点，理解会有偏差）。如果还没听懂，说明你文献阅读还不够。这个时候，要找师兄师姐请教。毕竟他们和我在一起时间长，理解更透彻一些。或者顺着我说的关键词再看几篇文献，看看能不能理解。如果三天以上还不理解，一定要再找我。直到自己理解了为止。有时候大家会提出一些想法，这是相当好的。但需要注意的是表述清楚。建议大家把自己的想法用图的方式画出来，把想法的来龙去脉用文字或图写清楚，这样我们好讨论。最怕的就是有些同学拿来一张白纸，随便画了几条线，嘴里全是：“这样之后就那样”这样的指代词语句，把我绕的绕梁三日下不来，还不好意思打消你积极性。所以，建议大家养成把想法用语言或图形表达出来的好习惯，这对于你今后工作汇报也很有用，是职场的基本技能。 4 想法验证刚刚说了，我的想法不一定就是对的。这就需要大家去证明或证伪了。验证从两个角度去做：第一，从可行性角度。有时候我的想法不一定可行。比如，这个想法别人提出来过了，但我没看到。所以大家第一件事就是去查这个想法别人有没有。如果有类似的，他们是怎么做的，和我们的差别在哪里。如果没有，我的想法的基础是否有论文支撑。比如摇荡预测，我提出来用小波，后来一查小波有了。但我的小波是要对不同频段加权的，这个没有。只有对时间关注的模型。看，这就找到了和现有文献的交叉点。时域的关注度Lstm可以作为我们的基础文献，在这个之上，我们可以说我们发现了lstm对频率的动态范围不足问题，所以我们采用小波的频率分解，然后再加权频率。这样就顺理成章的把我们的想法写出来来了。如果别人有，也不怕，因为总会有差别，而且他的实验部分会给我们新的启发。第二，正确性角度。有了理论可行，实验结果不一定真的好。这就需要证明了。证明方法一般就是实验。根绝我的想法编程，然后用从文献中学到的实验方法去做实验，和对比方法或基准方法作对比，来看看这个想法是否真的可行。如果可行，那么就要分析为什么就好了呢？原因在哪里？如果发现不行，那么我们就要考虑是哪里出了问题，需要从哪个点进行改进。绝大多数的时候，都可以改的比对比文献好。不用问为什么，因为他是死的，而且他是解剖好给我们看的。我们的方法不好，我们把他好的部分拿来与我们的结合，大概率会超过他。所以，不用怕结果有问题，那说明分析的不够。这里特别指出的是属性拓扑中证明性问题，有时候发现真的错了。那样错了就是错了，没办法。查漏补缺，继续改。想法验证的每一次实验都要做好实验记录，都要做好实验记录，都要做好实验记录！！！因为你也不知道下一次什么时候这个记录就会有用了。这是科研工作的基本要求，也是基本素养。这个问题我一直在强调，大家也都敷衍说在记录。打算开学后检查一次，没有的按欺君之罪处理———罚请全课题组聚餐一次。 5 逻辑梳理其实，以上工作如果每一步都做好记录，这个时候一篇论文就基本成型了。比如：引言部分就是想法的可行性验证，结合你文献阅读形成的国内外现状，梳理一下就可以。方法部分就是你的程序啊。所不同的是：程序用代码写，方法用公式写。其实还是一套东西。这里需要注意的是大家都用Python，并不是把Python的模块一摆就可以了，而是需要把里面的内容变为理论描述出来。同时要把各部分有机的融为一体。往往在这个时候，会有一些新想法。如果改动不大，可以尝试；如果改动大，记下来以后再说。饭要一口一口吃，不能一口吃个胖子。实验结果就是你的实验记录，讨论其实就是实验分析。想想引言中踩了谁，怎么踩的，这里需要用实验数据分析一下你踩的有道理了。结论就不说了，大多数是客气一下。看看，如果每一步都按照要求做，是不是挺容易的？这唯一需要强调的就是：逻辑！在这一步梳理的时候大家有时候容易着急，所以把很多事情当成了想当然。但你要知道，你不交代的事情读者是不知道的（基本常识除外）。所以，一定要把来龙去脉说清楚。最简单的评价标准是：你的每一个观点都有论据支撑，而最终所有的原始论据都出自明确标注的参考文献或来自公理。这样通过逐步推导形成你的结论，这才是论文中应该有的逻辑链条。万不可对读者撒娇，用"我觉得“这样的态度却写作，那样必死无疑。另外一个逻辑问题是详略要得当。大家有时候会觉得我好不容易学会了傅里叶变换，我在论文中一定要使劲写。这样就大错特错了。实际上，你从别的地方学到了这个内容，恰恰说明你的论文中不应该有这个东西才对啊。为了完整性，你可以简单介绍几句，然后给个参考文献标注就好了。你的重点应该在于你自己的创新部分啊。比如，多尺度关注度模型，应该描述是如何实现的这种多尺度关注，这是一个整体，而不能简单拆解为多尺度+关注度。你需要阐述对于多尺度的关注度我该怎么设计（从多尺度的与普通信号的区别谈起），设计过程中由于多尺度的什么特性，使得我关注度设计中要采用什么方法与之匹配。这样匹配的依据是什么，应该有一些公式推导或定理证明，最终形成了一套多尺度的关注度机制。看到了吧，这就要求不能对现在方法直接照搬，需要从底层理解现有方法的原理（我说的不是科普文档中那几个可怜的公式，而是整套的推导），然后进行针对性的调整。定制的才是最值钱的。都用tensorflow，那是玩积木，没啥技术含量。 6 文档梳理上面只是做了一个逻辑上的梳理，其实这个时候还不是论文，充其量是论文的骨架。在这个节点上，务必和我讨论一次，以防论文跑偏。我会帮大家捋顺论文中的重点内容和亮点信息，提炼论文中的科学问题。也就是对大家的提纲进行调整。所以，大家给我看的提纲应该是你们心里有数的提纲，最好是带上了各种图表的。我可以作为审稿人的角度帮你把关。但如果你只拿了几个放之四海而皆准的标题过来，对不起，为师也猜不出来你在想什么。大家在文档的梳理阶段容易犯的最大问题是：过渡。并非把所有材料直接放上就好，在段与段之间、局与局之间是需要过渡的。好了，过渡的作用和方法不展开讲了，大家感兴趣请翻看小学语文课本。另外，大家在整理文档时不用想着一次成功，那基本不可能。一般情况下，文档整理好之后要自我通读几次。比如，在写讨论时发现引言文献不合适，在写引言时发现讨论内容跑偏了，在写实验时发现方法中少写几个变量。这都是很常见的。3-5遍的反复修改是正常的。如果觉得能一次写好后一字不改，请移步其他团队，目前我的水平指导不了。 7 投稿投稿的过程其实是在想法验证阶段就开始的。那时候就要考虑这篇论文写好后投到哪个期刊。期刊的选择一般采用对比原则。比如：你踩的文献是1区的，你也可以投这个期刊或其他1区的期刊。不行的话再转投2区。如果你看的文献是4区的，对不起，你的论文能发表的3区以上的机会微乎其微，除非你做了重大的突破。另外，就是找相近的。比如IJAR里经常发表FCA的文章，那我们就往那里去投。这个时候我们引用的期刊是谁就没那么重要了。这也会是阅读论文的好处。然后，就是常规性的体力劳动：根据期刊要求具体修改论文格式、内容等，不多说了。最后，强调一点：大家不要用我的邮箱去任何网站注册。目前有两个期刊被注册过，导致我们无法再去投稿。是的，有些期刊就是这么不讲道理，不需要我同意的。所以，大家用自己的信息注册自己的账号。还有，就是不要总是尝试投稿系统。有些投稿系统点击下一步就自动提交了，没有确认提示的。所以，填写进去的每一个信息都应该是正确的。最后，如果有机会，在确认投出之前我再看一眼。以前发现了太多投稿过程中的低级错误。这些错误往往是致命的。暂时先写这么多，没想到的地方任何人都可以补充。目的是大家一起完成一篇文章，帮助所有成员少走弯路，尽快进步。...

如何读一篇论文

2020年2月16日2022年4月22日 by zhangtao1 Comment

本周对causal bootstrapping这篇论文再次梳理。客观的说，在此之前我对本文涉及到的知识点并不了解，有点类似于大家接触到新课题的状态。我能确定的是，这可能是一种新的知识发现或推理方法。为此，我做了如下准备：第一，复习bootstrapping. 虽然bootstrapping这个东西在以前看过，知道他是random forest的基础，而且其中融合了蒙特卡洛采样这样的思想，但没有深入思考过。这次，通过资料仔细思考了为什么bootstrapping会有用。从本质上考虑，bootstrapping不就是缩小世界的模型吗？在原始抽样中，我们是从现实世界抽样得到数据样本，然后用数据样本去做训练，对不对？但原始世界到底是什么样？没人知道。抽样的结果是否满足采样定理？有些领域是知道的，但大多数领域还不知道。这也是为什么现在的机器学习总喜欢用大样本的原因。因为大样本意味着尽可能多的在原始世界中进行采样，这样有可能增大采集样本对原始世界的描述能力。但同时，有人对big data这个词给出了这样一个解释：在大量样本中抽取极少的信息。换句话说，big data意味着信息含量低。这说明什么？说明我们都到的样本很多都是重复的和没有用的。但究竟该怎么抽？目前还不知道。不去考虑真实世界的问题，回到已经有的数据集上吧。假设这个就是一个完整的真实世界。如何去模拟这样一个认为的世界呢？还是抽样。在交叉验证中，我们是随机抽去了世界的80%（5倍交叉）、90%（10倍交叉）等等，形成模型，然后去测试。但bootstrapping认为，这么抽取是有问题的。万一你采样的样本都特别典型或不典型呢？当然，在交叉验证中可以用方差描述，但方差是评估的，不是避免的。bootstrapping实际上是给出了一种避免偏差的方法。想想我们曾经在组会上讨论过的用蒙特卡洛方法计算一张A4纸上任意图形面积的方法就能明白bootstrapping的本质了。往纸上撒大米然后看看落到图形中的大米比例，从而推断图形面积大小，对不对？但问题是，万一你这次没撒均匀怎么办（前提是你也不知道自己是否撒均匀了，因为在数据模型中你不知道这个纸的分布和图形分布的关系）？那就多撒几次求平均呗。没错，这个就是bootstrapping的想法。在样本集中多采样几次（撒大米），然后用每次采样的结果都进行计算（看落入图形的比例），最后把每次的结果汇总起来分析（求平均）。当然，在bootstrapping中，最后一步不一定是求平均这种等权重处理，也可能是用不同的权重来操作。那么权重怎么来？这篇论文就是用causal方法来的。也是这篇论文的思想。第二，学习因果推理因果推理我们曾经做过一点，但那次实质是充要条件分析，还构不成因果。沿着这篇论文的思路，找到了图灵奖得主Pearl的一系列研究成果，其主要是基于贝叶斯网络的因果图推理。有幸，在放假前曹玉阳同学还找到了《the book of why》这本书的电子版，配合网上的一些资料，构成了我对因果推理的一点了解。我是先粗读了一遍causal bootstrapping这篇论文之后才开始学习因果的，目的是找出我需要再因果推理中学习什么。经过分析，我发现do算子、混杂(confound)、介入（intervention）、前门准则、后门准则是这篇论文的高频词，和因果有关，同时我不懂。所以这些是我需要学习的。看看，我先对论文做了一次采样，然后需要的是根据这个采样去学习了。好在大多数材料是英文的，这样在专业词汇上就做到了统一。而且能通过构词法去理解作者用这个词来定义这件事的原因，这就比读中文文章能够更为直接的和作者沟通。同时，也锻炼了自己的英文阅读。从一开始的每天3个小时读5页左右，到现在半个小时5-8页，进步的速度我还是满意的。而且随着词汇的熟悉，我查字典的次数越来越少了。 the book of why这本书的好处最大的好处是科普读物，对于任何一个问题作者会反复的举例子让你明白其到底是怎么回事，而且会从历史上讲这件事的来龙去脉。读了这样的书，对问题的理解要比读论文深刻多了，毕竟他比较生动。但同时，其知识含量有点低，当做课外书来读可能更合适。所以，我配合了一些网络教程来学习。包括20分钟左右将贝叶斯网络的（快速了解其原理）、分为14讲讲概率图模型的（了解推理的细节）、知乎或csdn上的文字介绍（梳理总结）。学习完了这些之后，我对因果推理有了大体的了解（通过各种绪论、引言），对我需要的具体内容有了细致了解（通过推导），我觉得我可以再看这篇论文了。以上就是我为读这篇论文做的准备。其实并不难，就是看看自己现有的知识体系和论文的体系间交集是什么，差集是什么。然后去填补差集，争取做到交集最大且差集最小。形成这样的目标函数之后就去学习，当迭代几次之后觉得已经收敛（不一定到达全局最优），就可以开始再去论文了。这一次是细读，大约用了三天时间。读的时候关注了以下几点：第一，作者的写作方法。客观的讲，我觉这篇写作挺怪的，可能由于这不是一篇正式发表的论文的原因吧。但前面的引言和后面的相关方法上还是给了很多启示。同时，作者对其涉及到的公式要么给出了出处，要么在文中或附录给出了证明过程。这一点非常值得我们学习。也是我经常强调的：不要去说没有论据的论点。第二，作者的主题思想，到底怎么理解作者所谓的因果。其实，我觉得作者只是deconfound，而不是真正的因果。比如，他的实验是这么做的，以文中的帕金森实验为例吧，这个是我和曹玉阳在讨论deconfound与non confound的一段批注： " 首先，找了三个数据集。这三个数据集是不同人采集的。采集条件不同，会造成对于同样一个特征，其计算结果会有偏差（比如采集时对噪声的控制，如果噪声大的话其信噪比就会低，那么和噪声相关的特征比如HNR等就会不同）。作者是把这种偏差作为了confound来使用的。第二步，deconfound。目的就是排除由于采集不同带来的偏差。这个用字符识别的例子比较好。在字符识别中，如果给不同的字符不同的亮度，用这个网络训练出来的结果是不可信的。因为网络可能把亮度当做了特征，这样就造成了high risk. 第三，关于non-confound，我觉得相当于ground truth. 第一个实验中就是没有加入噪声的原始模型，第二是可以是没有亮度干扰（或随机亮度干扰）的图片，第三个则是对特定数据集而非混合数据集。所以，deconfound是在confound基础上做去除的结果，而non是根本就没有。相当于去噪声信号和理想信号的差别。为什么要deconfound? 就是为了消除关联关系对结果的影响。比如实验中的亮度与数字，书中提到的溺水人数与冰激凌销量，这些都是关联，而不是因果。采用关联分析在所有条件都不变的时候分类性能是好的。原因在于经典机器学习认为数据是独立同分布的，所以训练集和测试集分布一样。但真实情况下这种关系并不稳定。比如，把在秦皇岛统计的溺水人数与冰激凌销量放到新疆就会失效。原因就在于分布发生了变化。而对于因果分析来说，理论上他会从“游泳方便程度->溺水人数->气温->冰激凌销量”这样的关系中得出冰淇淋销量与溺水人数不相关。至于和谁相关，就是前门法则、后门法则等讨论的内容了。 " 同时，曹玉阳问到了和batch norm的区别，我的答复： " 二者的目的都是为了更稳定，但出发点是不一样的，所以本质不同。你的这个例子其实和文章中数字与亮度的问题是一样的。如果所有对猫的训练都是用黑猫，他可能识别一只彩色的猫吗？可能。但如果你的训练样本中是黑猫、黑狗和黄狗，这时你给它一只黄猫的图片，神经网络的内心是崩溃的。因为它会发现两个类都有可能，最终的输出就不一定是什么了。（此段为我自己理解，可能有误） " 但对于deconfound来说，他会发现你现在要识别的是猫和狗，这个和颜色无关，所以会把颜色这个特征先deconfound掉，然后再送给分类器去学习。那么此时分类器学到的结果就更可靠了。所以，BN并没有达到因果的目的。但这里要说明，从我读到的资料看deconfound要依赖casual diagram，而这个diagram往往是专家人工指定的。如何自动生成是个diagram？我还没看到。这也是我对这篇论文感兴趣的原因。其实，对于稳定性我们也在做另一套思路，就是属性拓扑。属性拓扑目前我们在用概念树来表示，概念树中的概念就会随着数据的变化而发生变化，从而趋近更为稳定的结构。这就是目前荣美和浩然在做的东西。概念虽然也是从相关性中提取，但其可能发现更为本质的东西。比如黑猫、黑狗和黄狗的例子，当它打算把黑色作为猫的特征时，会反思训练集中还有谁是黑色的。此时它发现还有黑狗，于是概念结构中会把黑色排除出猫的概念。但概念结构的问题也很明显。还是上面这个例子，它会发现所有的黄颜色对象都是狗，且狗都是黄颜色。那么当来了一个黄猫时，它可能会误判为狗。此时它和神经网络的错误是一样的。我在考虑，casual diagram和属性拓扑都是图结构，现在属性拓扑可以算概念，那么能不能把casual diagram的deconfound方法借鉴到属性拓扑，从而使得其获得因果概念结构呢？我在读论文的过程中写了很多批注，这个批注版我会发到群共享中。总结起来，这个论文的收获：通过设计deconfounded方法改变数据分布，获得更为本质的数据相关性。但其问题在于对confounder的设定要满足提前已知的要求，所以其今后的可扩展性还有待分析。 ...

2025年 4月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30