bookmark_borderCoursera – intro statistics感想

参加了Coursera的在线课程——Statistics: making sense of data.

我跟数据打交道了那么多年(当然,只有上一份工作是要解读数据,之前和现在都在处理数据),同时,数据在生活中也无处不在。学习一些关于统计和概率的知识,也是2013的新年计划之一。几点感想如下:

终于对统计学有点入门了。什么confidence level啊,p值啊之类。关于p值,上一份工作的时候有统计专业的同事,他们会算这个东东,但当我求教它的意义的时候,他们说不清楚。它的概念是有一点点绕,但是决不是无法讲清楚的,也就是:p值是在作假设判定的时候用的。比如当你掷硬币100次,有42个是正面,如果你假设正反面的几率是一样的,那么p值就是,在假设正反面都是50%概率的情况下,观测100个样本会得到42个或者更少的概率。这个概率,也就是p值,越小,就说明假设50%概率越是错的。

统计学(以及一些其它学科)让我觉得神奇的地方是,明明是一个很粗略,没有任何数据的情况下,很多事情会有已知的规律。我指的是中心极限定理;(相应地,在没有数据的情况下,有些公式会有常数,比如常数e。)当然,这个课程没有涉及解释中心极限定理的证明,只是利用了它,讲授了一些非常基本的东西。

下一条感想是,不管学什么,有什么条件,要好好学都得靠自己花时间和精力去理解。“学习的年龄过了”,这个我很不希望承认会发生。但是要抽时间出来好好学习,并不是很容易的事情。我发现我花在工作上的时间太多了。八周的课程,后面四周的assignment和quiz,我都是踏着deadline提交的。虽然最后过了,但当中还是有很多我没有完全理解的内容。

我还是不太喜欢统计学。我更喜欢钻入问题的原理来分析,而不是通过观察外围数据来分析,那样找问题的根源,效率比较低。当然,好的统计分析,需要和背景紧密结合,判断各个因素之间的牵制关系,控制可能的有影响的因素。(想到这里想起了最近读的遗传学,其实最初就是孟德尔统计豆花得以进展的。)