很简单,keepyourhandsdirty。不要看书,直接上手实操。
先去datacamp学,边看视频边做题。在这个过程中,你会配好环境,学习基本语法。也会做一些小的项目。
然后可以上coursera的datascience课程,起码学会github加rstudio版本管理,函数式编程,以及knitr与可重复研究。最好学着自己写一个程序包。
这时候趁热打铁,就可以把这些东西用在自己的项目里了。最好试着按程序员的要求来要求自己,坚持做版本管理、文档管理和代码模块化、单元测试,而不要只满足于用批处理脚本处理眼下的问题。试着用这些思路完成一个格式化报告,能增强你的信心。如果你学业完成的同时,把主要工作转化为一个程序包,共享给学术社区,那将是非常大的收获。
这时候你再去读TheartofRprogramming,AdvancedR这些书,就很容易真正入门了。
入门以后再关注一些前沿的发展,学个python和spark之类的,就能进入更广阔的领域。作为一个数据科学家,基本的技能集就已经建立起来了,正确的方法框架和工作习惯也都能同时建立起来。