概率论与数理统计这一部分写得比较散乱,没有什么逻辑关系.不过是认知上的反反复复,徘徊彳亍.
概率论和数理统计从某种意义上而言是两个不同的学科,用不同的方法论研究同一事物,因而有所交织.数学始于演绎,统计始于归纳.
概率论的数学基础是测度论——严密的数学基础,是演绎法,从特殊到一般,自顶向下.
数理统计是归纳法,从个别到一般,自底向上.
Statistics is the science of collecting, analyzing, presenting, and interpreting data. Governmental needs for census data as well as information about a variety of economic activities provided much of the early impetus for the field of statistics. Currently the need to turn the large amounts of data available in many applied fields into useful information has stimulated both theoretical and practical developments in statistics.
Encyclopedia Britannica
两大学派
在统计领域,有两种对立的思想学派:贝叶斯学派和经典学派(也称频率学派),他们之间最重要的区别就是如何看待被估计的未知参数.贝叶斯学派的观点是将其看成是已知分布的随机变量,而经典学派的观点是将其看成未知的待估计的常量.各自对应的推断估计方法分别是最大后验估计(Maximum A Posteriori Estimation)和最大似然估计(Maximum Likelihood Estimation).这是看待事物的两种不同角度.
贝叶斯学派认为世界是不确定的,结果会因获取的信息而异.假设对世界现有一个预先的估计,然后通过获取的信息来不断调整之前的预估值.他们不对事件本身建模,而是从旁观者的角度来看待问题——对于同一事件,不同的人掌握的先验不同的话,那么他们所认为的事件状态也会不同.
他们认为模型参数源自某种潜在分布,希望从数据中推知该分布.对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异.这就是贝叶斯派视角下用来估计参数的常用方法——最大后验概率估计(MAP),这种方法在先验假设比较靠谱的情况下效果显著,随着数据量的增加,先验假设对于模型参数的主导作用会逐渐削弱,相反真实的数据样例会大大占据有利地位.极端情况下,比如把先验假设去掉,或者假设先验满足均匀分布的话,那它和极大似然估计就如出一辙了.
频率学派认为世界是确定的,他们为事件本身建模,也就是说事件在多次重复试验中频率趋于一个稳定的值 \(p\),那么这个值就是该事件的概率.
他们认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数.这就是频率学派使用的参数估计方法——极大似然估计(MLE),这种方法往往在大数据量的情况下可以很好的还原模型的真实情况.
似然(Likelihood)和概率(Probility)的区别与联系
参看参考文献[3]和[4]部分回答.
假设 \(x\) 是果, \(c\) 是因,则 \[ P(c|x)=\frac{P(x|c)P(c)}{P(x)}\,. \]
- \(P(c|x)\) 是后验概率(Posterior Probability).
- \(P(x|c)\) 是似然(Likelihood),将 \(c\) 视为参数的话,应该写为 \(P(x;c)\).
- \(P(c)\) 是类先验概率(Class Prior Probability).
- \(P(x)\) 是预测先验概率(Predictor Prior Probability).
参考文献
[1] Rainsley.知乎.第2期 数学与统计学的神秘关系.
[2] 张小磊.知乎.极大似然估计与最大后验概率估计.
[3] 江前云后.CSDN.似然(likelihood)和概率(probability)的区别与联系.
[4] 如何理解似然函数?知乎.
[5] 马同学的数学.如何通俗地理解"最大似然估计法"?
[6] Carnap.知乎.三大统计推断派系 - 频率学派、似然学派、贝叶斯学派.
[7] PENG.知乎.概率与似然.
[8] Rainsley.知乎.条件概率、全概率公式、贝叶斯公式.