德哥 海事知识讨论 2月26日
今天来聊聊贝叶斯推理。
可能很多人和我开始的感觉一样,有点绝望,本来从小数学就不好,你这么专业的名词,还人人都应有,我没有!别着急,先看看身边这个故事的推理。
评价和判断一个陌生人:
我第一次和你见面,不知道你,对你一无所知。我怎么评价?
对你是不了解,但是我对人类还是有点了解的,经验的看法三七开,七分好,三分坏。跟你交往开始假设就是三七开,聊了一个小时的天感觉你还不错,加一分,变成了二八开。接着跟你共事了一年,感觉你人品挺好,做事负责,就变成一九开了。
这个场景你可能熟悉。这里的理论就是贝叶斯推理。
1.给一个既有的判断。
2.获得新的信息不断调整更新。
1
贝叶斯
托马斯-贝叶斯(Thomas Bayes)是出身在英国的一个牧师,和牛顿同时代。牧师的工作就是每天思考上帝的事情,证明上帝的存在。当时贝牧师发现了经典的统计学中的一些缺点,就发明了“贝叶斯统计学”。但是他的这套过了200年以后才被广泛应用。什么情况?上面说过,他的统计中引入了一个主观因素(先验概率),就是上面的三七开。科学这么严谨的东西怎么能让你在这里乱猜,成何体统,所以一点都不被当时的人认可。结果后来经典统计学有了瓶颈,计算机也发展了,他的那套解决了很多以前不能解决的问题,就一下火了起来。这套理论现在是机器学习的核心方法之一,目前热门的人工智能深层都能看到这套方法的影子。那这套推理到底是怎么表示,怎么算?
贝叶斯当年就是解决一个逆概的问题,用证据推假设。证据的英文Evidence,简称E,就是上面说的聊天还不错,共事一年人品挺好;假设的英文单词Hypothesis,简称H,就是上面的三七开。这样贝叶斯推理过程可以表述为:通过不断的收集证据E来调整原来的假设H,得到后验H|E二八开或一九开。
书里都是用A,B表示证据假设,P(B|A)来表示条件概率,这太抽象,也容易把人转晕。这里用H和E表示,那贝叶斯定理公式如下:
公式中:P(H)先验概率(Prior probability),又叫基础概率,无任何条件限制下事件H发生的概率。
P(H|E) 后验概率(posterior probability).
P(E|H) 条件似然(conditional likelihood),也叫似然概率。
P(E)所有情况下证据E发生的概率,不管H发生还是不发生,称为整体似然(total likelihood).
2
贝叶斯公式应用
完了完了,一看到公式又晕了。别着急,再看个故事,你可能就对这个公式理解了。
Case1:
做HIV检查,发现是阳性。现在科技发达啊,仪器检测出来的的准确率很高,得了这种病,检测出来的概率是99.5%。 HIV总的发病率是千分之一,怎么就摊到自己身上了,死定了,死定了。先别绝望,请算算你得HIV的概率是多少?
这还用算?不就是99.5%么?
我先揭晓答案,是不到六分之一。
还有活的希望,还大大的?怎么来的?这就可以用到叶贝斯公式了。
0.1%的发病率就是一千个人有一个感染,而这个人测出阳性的概率99.5%,人没有小数个嘛,就算一个。还剩下999个人,检查结果会有0.5%个假阳性,算出来约等于5个。一加起来,1000个人中有6个人检查出来阳性,而那时,其中只有1个是真的感染者。
之前的99.5%可以看成是先验概率 P(H)。
得病的概率是0.1%,可以看成是似然概率P(E|H)。
那P(-H)就是0.5%。
那P(E|-H)就是99.9% 。
直接代公式:
约等于六分之一。
99.5% 到16.6%,活命的空间还很大,所以不用那么悲观。
原来如此,你现在对这个公式应该了解了吧。
Case 2:
理解了上面的公式,再来分析点进阶的Case.
拿了块地,这块地批复的是三用途,可以盖公寓,盖写字楼,还可以做仓库。要做决策要先调查,经济好的时候和经济差的时候租金是不一样的,市场部去做了个市场调研,分析如下:
后期的经济是好是坏我怎么知道,只能根据自己的认知去猜了,四六开,六分可能经济好,四分可能经济差。
这个算起来简答,加权相加一下。写字楼挣得最多每月租金44K美金。选2
公寓:50*0.6+30*0.4=42
写字楼:100*0.6+(-40*0.4)= 44
仓库:30*0.6+10*0.4=22
这里做个决策树起来看起来比较清楚。
四六开就是我的先验概率。我猜的数据好像不一定对,是不是想着找些靠谱的地方,比如专家预测啊,市场分析报告,咨询机构,模拟仿真等等。人家不是白给,是收费的,而且他也没办法提供完整的信息,只能是一些采样,不完整的信息。假如机构给出的信息数据信息,就做成可能性如下:
有了这些数据我再算出P(P),P(N)
根据采样数据的更新,假如乐观,投资写字楼,期望收益69.22K美金,假如悲观,投资公寓,期望收益35K. 如果没有采样数据,按照之前的计算投资写字楼期望的收益44K.
所以没有数据的话,期望收益44K,有了数据,期望收益63.1944K 。
根据新的数据不段调整收益的情况。收集到的数据越多,期待的收益更接近真实的收益,做出的决策就更准确。在这个case里,采样信息做出的最大贡献值是63.1944-44=19.1944K。这就是数据产生价值, 也是现在大型互联网公司赚钱的底层逻辑。
3
人人都应有的叶贝斯脑
听下来我给一个人打分,HIV的真实概率,商业决策,只要给我的信息越多,我就会越接近真相。 在HIV的例子,你要是做第二次检查,这次的P(E|H)就是六分之一了。代入公式再算: 还是查出来阳性,那就是真的很大概率中招了,该交代的赶紧交代吧。 生活中的贝叶斯人,需要我们根据新的信息,不断更新已有的观念和判断。听起来人人都应该如此,实际上是很难做到。这一定程度上是反本能的,人天生具有不愿改变和封闭自保的惯性。领导做个决定,他会一直感觉这个决策是对的,新的事实出现,他会硬拉别的理由解释这个事实。 观点随新近出现的事实发生改变,听起来简单,但很多人做不到,很多人的认知是陷在两个坑里: 1.就是把身边观察到的事实,局部,特例,当作整个世界来认知。听说隔壁老王炒股发大了,带上身家一个猛子扎进去。 2.权威,顶级杂志,实验室出来的成果就是对的。你怎么知道一定对?贝叶斯的理论是更加优化的方法,随新近的事实不断改变。 不过一旦有贝叶斯意识那么做,你就会保持更加开放包容的心态,进入一种高级思维模式。是什么呢?一叫能听劝,就是观点会随新事实改变,二是绝不听风就是雨,不是一下全部钱拿出去炒股。能听劝,吃饱饭,又稳重,在古代这叫圣达人士。 有用的贝叶斯推理,人人都值得拥有。
还没有评论,来说两句吧...