推荐语:数据科学家常常抱怨训练模型只占工作时间的 5%,而 95% 的时间花在处理产品使用 case,捣鼓数据和部署工作。本书的目标是分享方法和建议去更好地处理这 95% 的内容。这本书覆盖机器学习的全过程,从产生想法到上线部署监控,它特别关注模型训练之外的部分。推荐语摘自《Building Machine Learning Powered Applications: Going from Idea to Product》,值得一看。
推荐人:黄湘云
链接:https://mlpowered.com/book/
推荐语:利用 R 语言实现限价单的操作,可以基于 Binance 测试网进行模拟交易,很有意思。
推荐人:王祎帆
链接:https://datawookie.dev/blog/2021/11/binance-spot-trading-limit-orders/
推荐语:Roger D. Peng 等人新出了书籍 Tidyverse Skills for Data Science 基于 Tidyverse 工具箱介绍数据导入、数据变换、数据展示和数据建模等做数据科学的全栈技能,是一部宏篇巨作。
推荐人:黄湘云
链接:https://leanpub.com/tidyverseskillsdatascience/
推荐语:Apple M1 处理器有多快?Harshvardhan 写了一个小的R脚本,执行矩阵的奇异值分解,记录各种处理器进行计算所花费的时间。其中,在 MacBook Air (2020) 上测试,这台机器有 1 TB 的 SSD 存储空间、16 GB 的 RAM 和 Apple M1 处理器,运行整个代码块需要5.6 分钟;在 Microsoft Surface Pro(第 5 代)上进行测试,这台机器有 512 GB 的 SSD 存储、16 GB 的 RAM 和 1.9 GHz Intel Core i7,运行整个代码块需要12.4 分钟。
推荐人:任怡萌
链接:https://www.harsh17.in/how-fast-is-m1/
推荐语:很多时候我们想要的不是“随机”而是“均匀”。比如,从球面上的均匀分布中随机采样,如果使用一般的随机数方法,得到的点往往是”不均匀“的。解决这个问题只需要用到 R 包 randtoolbox 中的 sobol 函数,可以生成非常漂亮的均匀”随机“数。值得一提的是,sobol sequence 的生成原理在高维空间里并没有想象那么简单,其最开始也是最广泛的应用是计算图形学领域,而R中的 sobol 函数也是从 matlab 移植过来的。
推荐人:梁杰昊
链接:https://mirrors.sjtug.sjtu.edu.cn/cran/web/packages/randtoolbox/index.html
彭博社发表的疫情抗击排名显示,菲律宾是抗疫失败者,但菲律宾的抗疫专家却认为这是不公平的。事实上,这一排名试图将一个国家在“社会和经济动荡最少”的情况下应对疫情的能力提炼为一个数字,导致多数西方国家排名非常高。表面上看是客观的,实际上在数据选择、因素选择、权重选择上都存在偏差。根据线性回归重建这一模型,删除某些变量后,也许可以改变菲律宾排在最后的地位。
推荐人:操懿
链接:https://cartesianfaith.com/2021/11/08/lies-damned-lies-and-rankings-the-problem-with-bloombergs-covid-resilience-ranking/
推荐语:很喜欢用树模型,但很不会画,以前网上查到的博客大多画出来不好看,节点一多就是黑压压的一片。发现一本书专讲树模型的可视化,详细介绍了 ggtree, tidytree, treeio 等包和很多其他相关操作,妈妈再也不用担心我不会画树啦!
推荐人:任焱
链接:https://yulab-smu.top/treedata-book/index.html
推荐语:纵观许先生一生,结合历史发展和时代背景,可以说是云谲波诡、世事难料,不免感慨人之渺小。历史的车轮无论是向前滚还是向后退,个人都是渺小的,无论你多有才华,此处不做过多评论。无论是看个人简介、看书、看文章、看访谈都能看到一些自己没有经历过的、甚至也经历不了的故事和人生,从中体会到些许感悟和触动。
推荐人:黄湘云
链接:https://www.math.pku.edu.cn/misc/probstat/doc.pdf
推荐语:如何合理、恰当、规范地引用R和R包,应当是R的使用者应当知道的事情,本文介绍了引用R和R包的重要性,以及引用时候遵循和一些原则和具体操作。
推荐人:赵昊蛟
链接:https://ropensci.org/blog/2021/11/16/how-to-cite-r-and-r-packages/
推荐语:推荐 MIT 课程《数据科学中的数学》,对数据科学感兴趣、尤其是对科研感兴趣的同学可以参考。
推荐人:向悦
链接:https://ocw.mit.edu/courses/mathematics/18-s096-topics-in-mathematics-of-data-science-fall-2015/lecture-notes/
推荐语:这是一份个人翻译的 ESL 笔记,并且包含部分习题的解答,目前在 Github 有1.8k 的 star。主要的更新时间是在2018和2019年(英文版采用2017年获取的第二版电子版),作者目前应该还在持续维护中。
推荐人:孔令仁
链接:esl.hohoweiya.xyz;https://github.com/szcf-weiya/ESL-CN/
推荐语:奇怪的 R 语言社群增加了,这个网站提供了关于钓鱼方面统计分析的各种R包工具和数据集。
推荐人:孔令仁
链接:http://derekogle.com/fishR/
发表/查看评论