推荐语:使用网页互动可视化方式介绍统计的基础概念。其中统计推断两章尤为惊艳。中文、英文、西班牙文皆有。
推荐人:黄俊文
链接:https://seeing-theory.brown.edu/basic-probability/cn.html
推荐语:国际计算语言学协会主席周明博士对自然语言处理的综述与展望,高屋建瓴。
推荐人:魏太云
链接:https://www.msra.cn/zh-cn/news/features/acl-2019-ming-zhou
推荐语:郁彬教授与其博生生 Karl Kumbier 在《美国科学院院刊》上发表了一篇论文,提出了数据科学预测性(P)、可计算性(C)与稳定性(S)的三原则,文章同时提供了一个基因组学的案例作为 PCS 工作流的演示,这对科研类数据科学家具备很强的指导意义。
推荐人:魏太云
链接:https://arxiv.org/abs/1901.08152
推荐语:可视化容易陷入工具选择困境,其实再复杂的图也是一个点一条线画出来的,这篇文章用 ggplot2 重现了几种不同风格的复杂图表,可以学些自定义黑魔法。
推荐人:于淼
链接:https://simplystatistics.org/2019/08/28/you-can-replicate-almost-any-plot-with-ggplot2/
推荐语:《为什么》是一本不错的因果分析入门读物,如果读了不过瘾,可以读这本还没出版全文却放网上的《Causal Inference: What If》,基本涵盖了因果分析的所有分支偏重 ACE 部分,作者也是领域大牛,G方法的提出者。另外,xkcd 也有一系列 what if 的文章。
推荐人:于淼
链接:https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/
推荐语:陶哲轩是澳大利亚籍华裔数学家,16岁大学毕业,21岁普林斯顿大学博士毕业,24岁在UCLA拿到终身教授,这是他对处于不同阶段学生及研究人员的职业建议,内容丰富,值得阅读。
推荐人:蔡占锐
链接:https://terrytao.wordpress.com/career-advice/
推荐语:近些年兴起的科研成果可重复性危机根源于统计学里p值的滥用,然而外延已经延伸到学术不端、开放科学及人工智能等主题,牛津大学的塞考乐基斯特 Dorothy Bishop 教授在受邀参加了 MetaScience 2019 会议后在博客上点评了这次会议,提到了当前应对可重复性危机的一些思潮,读来很有启发。
推荐人:于淼
链接:https://deevybee.blogspot.com/2019/09/responding-to-replication-crisis.html
推荐语:这是一套非常直观的 tidyverse 数据整合动画,对于初学者可以搞清楚数据清洗的命令含义,对于老手则可以通过其代码掌握新的可视化方法。
推荐人:于淼
链接:https://github.com/gadenbuie/tidyexplain
推荐语:Christian P. Robert 教授的博客上贴出了一则媒体对科研成果的错误解读,其实也算不上错误,主要是媒体把癌症发病率与工厂强行绑定而实际上没有考虑酒精等混杂因素。统计结果的解读如果完全脱离背景或只看一个背景都是不妥的,不过当前对通用算法与模型的追求似乎在有意脱离对实际情况的考量。
推荐人:于淼
链接:https://xianblog.wordpress.com/2019/09/24/poor-statistics/
推荐语:CRAN 的体积越来越大,但并不是所有的包都是必要的,rocker 项目提供的是包括IDE在内的完整系统镜像,不过有时可能需要的是一个小的镜像服务器来收集并分发部分R包,此时就可以用 miniCRAN 包来制作了,这并不是新东西,但在特定场景下会非常方便,例如在树莓派上维护一个局域网内的R包镜像或对包的版本有特殊要求。
推荐人:于淼
链接:https://github.com/andrie/miniCRAN
推荐语:两个月前 Christopher Tong 在 The American Statistician 杂志上发表了一篇论文,标题很吸引眼球,叫“统计推断催生坏科研、统计思维催生好科研”。文章宣称“正式的、基于概率论的统计推断在多数科学研究中都不应该扮演任何角色”。我尤其同意作者在证据强度方面的观点:在新数据、新条件下被验证的结论,应该比在单一研究中靠统计推断得出的结论靠谱得多。
推荐人:谢益辉
链接:https://www.tandfonline.com/doi/full/10.1080/00031305.2018.1518264
推荐语:邢波教授的概率图模型的公开课,2014年第一次发布时已经非常惊艳,光上了前几门课就足够应付一部分部分论文里凑数拉上的一些简单概率图模型。今年又有新的重置版本。这门课的公开材料非常丰富,包括课程大纲,每节课的课件,视频,笔记,还有推荐阅读材料,以及作业。如果能全部完成,一定能有很大收获。整个课程的组织形式也很值得学习。
推荐人:陈思达,沈家铭
链接:https://sailinglab.github.io/pgm-spring-2019/
请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。
注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。
发表/查看评论