[美]SanjoyDasgupta《算法概论(注释版)》作品简介与读书感悟

本文为雷锋字幕组编译的技术博客,原标题HeuristicsforScientificWriting(aMachineLearningPerspective),作者ZacharyC.Lipton。翻译|

本文为雷锋字幕组编译的技术博客,原标题Heuristics for Scientific Writing (a Machine Learning Perspective),作者Zachary C. Lipton。

翻译 | 生菜 刘宁 魏洪贵 整理 | 凡江

今天是1月28号,我现在应该正在完成我的论文,你应该也是!但是当我们可以不写的时候为什么要写呢?ICML 的截止日期距今只有仅仅12天,KDD 紧随其后。ACL,COLT,ECML,UAI,和NIPS 所有的都在放暑假之前截止,时间安排很紧几乎没有放松的时候。每一个期刊都会有成千上万的论文投递。

开源软件、YouTube的开放课程、可获得的预印论文,都让机器学习变得越来越触手可及,这也激发了大众对机器学习的巨大兴趣。在接下来一个月的时间里,投递给arXiv的成千上万的文章中,很多都不值一读。 如果写得不好肯定会被拒,还有一些论文也达不到它预期的影响力。即使在被接受和具有影响力的论文中,不用心的写作后期也会引发质疑,甚至会有人批判说这样的论文并不值得获奖。(你最好期待Ali Rahimi 和 Ben Recht 不会赢得其他的经得起时间考验的奖项)。

但是等等,还是希望的!你的论文水平有救。在我的学术生涯中,我对于如何写论文建立了强有力的观点(你可能不会同意所有这些观点)。 我最早跟着Charles Elkan读PHD时,获得很多重要的科学论文写作的启发,把它们总结为精辟的格言,虽然这些格言可能有点过时。这段时间,我和更年轻的学生们一起工作,教他们如何写清晰的科学散文,我发现自己在重复这些格言,偶尔还会发现新的。

以下列举了一些很好记的规定,每一个都有简短的解释。有一些解释了语言,另一些交代了定位,还有一些涉及到美学。大部分都只是我的个人所感,所以你可以选择性地接受它们,特别是当它们有争议的时候。当时如果你想要反对他们,请给出有力的理由。

引言

1.摘要要简短

[美]SanjoyDasgupta《算法概论(注释版)》作品简介与读书感悟

你不可能在摘要中把什么都写了,也别这么做。把摘要当做2分钟的聚光灯下的宣讲。要点要条理清晰,这有一个经过考验的准则:

用一句话或一个短语介绍问题

解释现有方法的不足之处

重点写出 : 清楚地描述你的主要贡献 (也可以用这个开头).

两三句说明细节,主要的定量结果等等

这是我阅读到的机器学习的论文中第一个比较好的摘要

“Mixtures of Gaussians are among the most fundamental and widely used statistical models. Current techniques for learning such mixtures from data are local search heuristics with weak performance guarantees. We present the first provably correct algorithm for learning a mixture of Gaussians. The algorithm is very simple and returns the true centers of the Gaussians to within the precision specified by the user,with high probability. It runs in time only linear in the dimension of the data and polynomial in the number of Gaussians.”

“混合高斯模型是最基本的广泛使用的统计模型。目前的技术对于学习混合数据基本依赖于表现一般的局部搜索启发式算法。我们提供了第一个保证正确的用于学习混合高斯模型的算法。这个算法非常简单,而且能以很高概率返回由用户自定义精度的高斯模型真正的中心。“

– Sanjoy Dasgupta in “Learning Mixtures of Gaussians”(学习混合高斯模型)

注意到 Sanjoy 本可以通过合并开头的两句话来让文章更紧凑:“Current techniques for learning mixtures of Gaussians from data are local search heuristics with weak performance guarantees.”(目前的从数据中学习混合高斯模型的技术是效果一般的局部搜索启发式算法)

优点:更加精炼。 缺点:用关键词“Mixtures of Gaussians” (混合高斯模型)开头比现在的版本更夺人眼球

2.不要调戏读者

如果你有很棒的定量结果,一定要把数据放在摘要和引言;如果你的文章推导出一个可以操作的公式,放在引言。人们会继续阅读是因为他们感兴趣而不是因为你通过隐藏了信息来调戏他们。

3.删掉一般的开头

SanjoyDasgupta,拥有加州大学伯克利分校计算机科学博士学位,现为加州大学圣迭戈分校教授,主要研究领域是多维数据的统计分析。他曾是AT&T实验室的高级技术人员。ChristosPapadimitriou,拥有普林斯顿大学博士学位,现为加州大学伯克利分校。

“The last 10 years have witnessed tremendous growth in data and computers.”(“过去十年数据和电脑发生了巨变”) “Deep learning has had many successes at many things”.(”深度学弟可以应用到很多方面”)。如果你文章的第一句话可以添加到所有的机器学习/大数据 的文章,删掉它。 第一印象非常重要,第一句话是你的引言中最最珍贵的东西,不要浪费它。

4.在回答之前先问问题

5.聚焦于能做的 而不是不能的

有时候你需要提出对比,但是不要陷入负面描述观点,尤其是你自己的观点。当其他条件都一样(语义上地),不要拐弯抹角,直接准确地说某个事物是什么,而不要去管它不是什么。这个对于你自己的方法来说尤其如此。

组织

1.词组不是句子,句子不是段落,段落不是小节。 一个章节包括至少一个(或零个)小节。 一篇论文至少有一个章节。

一个作者糟糕的信号就是,在一字未读的时候,你就知道文章不好。 章节,就像PPT上的重点一样应该是平衡的。如果你只是列出章节标题,他们需要与所属的范围一样有意义。同样的规则适用于所有的组织结构。有时一个段落可以只有2句话,但是更稳妥的做法是一个段落至少有三句话。

2.读者应该只看图或者不看图就能理解你的论文

读者应该能通过你的论文准确地了解你的研究,即使他们错过了一些图片里的数据。任何重要的观察或者技术细节一定要放在论文的正文里,这样就可以引用图片来印证。

类似地,图片应该与文章紧密相连。如果读者跳过了图片(审稿人会),他们应该有可以做到大致了解研究过程并且理解新发现的重要性。如果很难看出Y值越大结果越好还是Y值越小结果越好,那么应该在插图里说明它。

但也不要太过,插图说明不应该是一大段话。好的插图说明应该在一到三行。 注意:在计算机视觉圈子,图片十分难处理。有时一个图片就会占满整个页面,并且有100多个关于草稿中缺失的细节的单词,我不喜欢这种风格,但是你要提交的会议是这种标准,你得自己决定。

3.迅速切入文章价值点

作为一名年轻的博士生,一个机器学习的圈外人,我很沮丧,因为只写论文是不够的,所以我尝试让圈外人能完全理解每篇论文。这让我赢得了一些普通读者,但是也导致了一些早期的会议投稿被拒。

对于会议论文来说首页太冗长非常不利(期刊不太适用),因为以下原因:(1)审稿人在相似的领域,每个会议读5-10篇论文,每年会读50-100篇论文,太基础的东西会让他们觉得非常枯燥。(2)如果你做的工作在第5页才开始(总共8页),对于没有达到审稿人的要求你就不应该有任何借口。

有两个关成败的点:了解你的读者并且聪明地排版。成句的摘要,成段的引言,成页的论文应该能清楚地说明你的研究。

4.预估读者的问题并在论文中回答它

一个好的审稿人会试图提出批判性的问题来挑战提交的文章,这个方法能成功可能是因为X吗?如果答案是“我不知道”或者“不” 会很可怕。如果您能预见到这个问题而且知道答案,直接写下来。如果你不知道,做实验去找到答案。严谨的试验和清晰的写作紧密相连,我希望这个说法一针见血。

风格

1.科学论文中的“我们”

科学写作中,用可数名词“我们”叙述,有说教的作用:“我们”包含了“你(读者)”和“我/我们(读者)”。在这种情况下,当需要表达你的想法时,你需要通过上下文说清楚。

2.不要听天由命

任何一个有资格的读者阅读完你的整篇文章,即使他们生活中不会分享你的观点,方法或者价值,也不会单独否认任何句子。“X方式比Y方式在大多数的数据集上表现更好” 大部分的什么数据集?你的审稿人会不会选择一些数据集,验证发现是错的?更好的方法是说“许多”数据集。这个定义更严谨而且更难反驳。

3.宁可少写,不可错写

与上面相似:如果你不能100%确定你的判断,就不要写上去。审稿人很少会因为你少写一两句话拒绝你的论文,但是很容易因为结论写错而驳回。

语言

1.断开长句

年轻人总是错误的以为句子写得越长越能显示出自己的水平。然而优秀的科学文献作者却更常用短句来写作。当你绞尽脑汁想用一句话来表达你的观点时,可能用多句话来表达更好一些。科技写作的特点是越清晰明了越好,所以能简洁就尽量简洁。 你的论文的价值是其中精妙的观点,而不是华丽的词藻。

2.去掉用来强调的空洞的副词

例如:极其、非常、难以置信、完全、几乎、本质上、相当、绝对、肯定 等词

主语、谓语和修饰语应该保持一致

写作中一个常见的错误是把动词和修饰词用于错误的主语,例如, “the algorithm tries to X(算法尝试在X上使用)”,或者 “ the data is biased(数据是有偏见的) ”。算法不能用尝试做动词,因为它并不能思考。如果我们想表达想法或偏好这样的动词,应该用‘we’做主语,即它们是设计模型人的想法而不是算法的想法。听起来这是个常识性的错误,但是这样不一致的错误存在于所有学科的学术写作中。在一些领域中,例如机器学习的解释性和公平性领域,因为还没有标准化的定义,写作时不注意上述问题会导致整个领域的发展受阻。

1.多引用文章

2.全文都要注意引用

审稿人通常都很懒也不能过目不忘。如果你的工作是基于别人的贡献时,注意不要只把引用写在相关工作进展 这一部分 – 即在文献中说明研究背景的那部分。 你文章中哪里用到了前人提出的方法,就要把引用写在哪。这点对于近几年 (5-10年) 的文章尤为重要, 因为这些文章所讲的内容还没成为常识,因此人们会局限性地把引文全写在 相关工作进展部分。

3.写满引用页

这是一个比较实用的技巧主要适用于限制引用页数(通常1到2页)的会议文章。 如果你忘记引用最相关的文献,审稿人无论如何都不会放过你这一错误。 但是如果你遗漏了一些不是特别相关的文章,当他们提醒你时,你就可以借口说没地方写那篇引文了。但是如果你的引文页还空着,那就别指望审稿人会理解你了。

博客原址

更多文章,关注雷锋网

添加雷锋字幕组微信号(leiphonefansub)为好友

备注「我要加入」,To be an AI Volunteer !

雷锋网雷锋网

上一篇 2023年05月30 07:50
下一篇 2023年01月07 23:55

相关推荐

  • 怎样关闭qq音乐自动续费,qq音乐自动续费为什么关不掉

    在各大音乐平台争相引流、抢夺音乐资源的背后,依靠付费用户提升业绩已经成为平台密码。腾讯音乐娱乐集团2022年第一季度财报显示,公司净利润为人民币6.49亿元,非国际财务报告准则下(Non-IFRS)公

    2023年01月06 207
  • 快怎么拼,你大概什么时候到怎么拼

    随着游泳爱好者们对装备要求的提高,你大概什么时候到怎么拼,越来越多的泳衣厂家把速干当成了泳衣的一个卖点。那么到底什么速干面料?速干面料到底干起来有多快呢?这期泳具小专家就给大家介绍下泳衣速干面料到底是

    2023年05月23 277
  • 怎么设置打印机,如何更改打印机默认设置

    生活中有着许许多多的烦恼,下面就由小编教你如何设置打印机的打印设置,希望你的生活多姿多彩~方法/步骤1、电脑开机后,点击屏幕左下角计算机按钮。2、在菜单选项中找出windows系统下拉选项中的“控制面

    2023年01月15 233
  • 营业执照怎么办理网上申请,网上申请营业执照租赁起止

    网上申请营业执照租赁起止,在网上开店注册营业执照的程序是:申请人到办证大厅或个体工商户的辖区工商所提出申请——登记部门受理——准予登记决定——发照。注册营业执照所需资料网上申请营业执照流程:1、打开政

    2023年01月09 298
  • 淘宝运费险怎么退,退款成功了运费险怎么没退

    让我坚持下去的不是什么宏大的理想而是赚好多好多钱,然后买买买!“女神节”得庆祝,买买买!什么?满300减30,活动划算呀,买买买!春天要来啦,要准备漂亮的裙子,买买买!最近天亮得越来越早了,需要涂抹防

    2023年01月13 209
  • 怎样开淘宝店,淘宝的商品类目

    一、注册账号首先第一步肯定就是注册淘宝账号了,在这里呢按照注册的基本操作相信大家都能完成,淘宝的商品类目,但是,旺旺名是不可以修改的,确定好做什么类目之后,旺旺名最好是能与店铺,产品,类目相关的,这样

    2022年12月26 216
  • 阿里巴巴怎么一件代发,阿里巴巴卖家设置一件代发

    一件代发真挺简单的!花2分钟读完,直接教会你。我直接跟你说有卖家下单后,你需要在1688上操作的步骤!直接上步骤,跟着走,不迷路↓↓↓↓↓第一步:选择你要代销的产品比如你想卖女孩穿的童鞋,你就可以直接

    2023年05月19 232
  • 怎样创业有哪些渠道,创业资金来源有哪些渠道

    创业是创造不同的价值的一种过程,这种价值的创造需要投入必要的时间和付出一定的努力,承担相应的金融、心理和社会风险,并能在金钱上和个人成就感方面得到回报。当前常见的七种创业方式:网络有效利用现成的网络资

    2023年01月03 299
  • 中国移动积分怎么兑换,10086发信息积分兑换

    你知道在网上小伙伴们最关心的问题是什么吗中国移动积分兑换话费第一种是登录手机营业厅,点积分中心进行兑换。第二种是登录移动官网,在积分商城里面进行兑换。第四种是是发送短信jfdh到10086进行兑换。第

    2023年05月25 204
  • 怎么发朋友圈不带图片,如何发纯文字不配图的朋友圈

    随着隐私保护意识的提升,大家对于电话地址、身份证信息这种看得见的隐私已格外在意。对于聊天照片、原图这类看不见的隐私,却还没有引起足够的重视。今天(5月25日)上午。冲上微博热搜。引发关注和热议。你在群

    2023年05月19 245
  • 相册怎样加密,颜图相册加密

    iPhone手机中保存了大量隐私照片,担心被他人看见?如何将苹果手机照片加密隐藏?今天小编将教你三种方法给苹果手机相册加密,为你的隐私保驾护航!一、隐藏相册找到相册,开启加密按钮,相册就加密了苹果手机

    2023年01月09 228
  • 苹果怎么分屏,苹果怎么分屏两个应用

    分屏模式很实用,苹果怎么分屏两个应用,因为无论您需要在iPadPro11上打开两个文档还是在iPhone11上运行两个社交媒体帐户,它都可以让您一次在设备上打开两个选项卡。如何在iPhone或iPad

    2023年01月09 216
  • 怎样打开,拨号打开隐藏应用

    开栏的话:12月15日-16日在北京召开的中央经济工作会议指出,加强重要能源、矿产资源国内勘探开发和增储上产,加快规划建设新型能源体系,提升国家战略物资储备保障能力。1、搜索office,下载安装该应

    2022年12月26 239
关注微信