沙之舟

注册日期:2011-07-02
访问总量:222042次

menu网络日志正文menu

用layman's terms说说大数定律。


发表时间:+-


首先对华政委表示一下敬意。这回坦诚他自己没搞清楚被绕进去了。说话有担当。对就是对,错就是错。有的右派朋友说他说被绕进去了还属于认错不彻底。我则不这么认为。为啥呐。因为概率里很多东西就是很绕人。比如我家沙嫂。人聪明无比但是冲她话讲她上大学时就怕概率。因为总觉得概率那个东西你怎么说好像都有理。什么都是似是而非。什么都有点道理可又哪儿不对劲。所以政委说被绕进去了我理解。应该是属实的。


那么概率到底容易不容易理解呐?我以为只要你把几个弯子转过来了。概率就是件挺容易的事情了。


之所以有概率论的出现。就是因为人们在日常生活中遇到的些不确定事件。古典概率就是从掷骰子投硬币这些赌博活动发展起来的。现代概率则是通过把概率某些原则的公理化。将概率转换成了通过对测度函数的研究从而使之严格化并成为了数学中一个严谨的分支。这个说起来那就扯远了。就不再赘述。同时我在这里就某些概念的理解方面就不企图在有些东西的陈述上搞得太严谨而注重词藻了。这个就是为了科普用。有些专业人士就不用太挑剔了。


现在说第一个弯子。什么是概率或者说几率。要说明这点就先明白什么是样本空间和随机事件。举个例子吧。扔一个硬币。它的统共可能结果就无非是正面反面。或者0,1,或者什么你自己愿意定义的东西吧。总之这个样本空间有两个样本。那么什么是概率呐?我建议你这样理解。概率就是这每一个样本所固有的一个数字0和1间的个数字。这个数字表明了当你在从这个样本空间任取一个结果时这个样本发生的几率。这个概率有什么特别属性呐?就是每一个独立样本的几率加起来是1. 如果把几个样本和起来那么这个集合的概率就是这些独立样本的概率之和。而如果有两个集合相交,那么并集的集合如何计算。交集的集合如何计算等都是有规定的。这里就不详述了。总之这个概率我们就把它当作一个就如同质量似的固有的东西。那么一个随机变量到底在产生结果时出现怎样的结果就是被这个固有的东西所有属性所决定的。


那么具体到最近的讨论。投硬币很多次。比如说1000次。我们讨论的样本空间是则是从0 到 1000 的所有整数。而对于每一个数字。它发生概率通过二项分布就可以计算出来。


在这里。我问你个问题。数字 500(也就是说正面出现500次) 产生的概率说明的是什么? 是一个硬币正面还是反面的概率么?


答案。不是。这个数字表明的是你如果撒1000次硬币,出现五百次正面的概率。直觉的表示就是如果你撒一千次当作一次实验而重复足够多的话,那么一个实验中五百次正面的可能性就是嘎子和真空以及右撇计算及模拟的那个数字了。


所以说要搞明白什么是概率就一定要明白什么是样本空间。这个是第一个弯子。


第二个弯子。什么是极限。


要提大数定律就必须要先理解什么叫极限。有同学说极限不就是当N趋于无穷时的极限值么。可是什么叫做N趋于无穷。无穷是个什么东东。你是看不见摸不到的。你凭什么就说它趋于无穷时就趋于什么值了?数学上是怎么表明的。记得当初兔子大谈无限如何等等。我就说你根本没搞明白无限这个概念在数学里是通过什么来完备的。结果这回看他回来问的些个问题可见没什么长进。


其实在数学里。无限的概念永远是通过有限来表达的。采用的方式就是通过描述精度的不断改进这个过程。学数学最常用的句话就是任给一个精度值。如果我能找到一个足够大的N使得任何一个这个N以后的数字都与我们认定的那个极限值的误差少于这个精度的话那么这个序列就是趋向于这个精度值的。


所以有重要一点就是一个极限值并不意味着你会真的等于这个值。最明显的例子就是1/N,你让N趋于无穷。这个数列极限是0,但是你任挑一点它都不是零,无论N多大。然而随便你要求什么精度。我肯定可以找到一个N值使得从这个N以后的所以值都在这个精度以内。


这个,就是极限的真谛。


那么我现在就是说大数定律吧。其实大数定律还又分强大数和弱大数定律。我这里就说说伯努利的弱大数定律吧。


如果我用简单直观的话来描述的话就是。任给一个精度e,你如果掷硬币次数足够多的话。那么出现正面的比例和固有概率值的差距小于e的概率就几乎为一了。


记住这里

不是一个定数。同样是一个随机变量。


那么具体到我们说的撒一千次硬币时。这个变量可能是501/1000, 或者是499/1000,等等。大数定律说的是如果你给我一个精度。比如说 0.1吧。那么我能保证我会找到一个足够大的N值。比如说一万次。这样在我扔超过一万次硬币时。出现的正面比例在49.9%和50.1%之间概率会趋近于一。(这里我sloppy一点了。严格的陈述就没必要了)。


所以说现在回过头来看看。怎么理解大数定律。比如说我扔一万次硬币。那么正面的百分比我可以说几乎肯定是在49.9%和50.1%之间(设若p是0.5)。这也就是为何在实际中你扔一万次硬币几乎总是看到正面的比例在这个精度中。


那你会问了。这个怎么和关于 一万次中出现五千次的概率小于一千次中五百次的现象说得通呐?这个就是要理解在这个0.1的精度中。你其实还有很多样本的。就比如一万次中从出现正面4990到5010次正面都是属于这个范畴。也就是有21个可能性。所以注重点在于这个精度本身是界定了一个独立事件之集合的概率趋近于一,而不是一个独立事件的概率趋于一。在这个集合里,每单个的概率都是趋于零的。但是他们的集合却是趋于一的。这样一想的话你就应该理解了。




浏览(1764)
thumb_up(0)
评论(51)
  • 当前共有51条评论
  • 嘎拉哈
    华山:

    【就像一大帮附和嘎子的拥趸一样。】

    ------ 这句话可折死俺喽。俺何德何能让别人做俺的拥趸?在这次争论中站在俺一边的,他们其实都是真理的拥趸。俺只不过是歪打正着地一脚踩到了真理上。比如,沙博以前跟俺极少有交流。尤其是vacuum 博,俺过去一直都是他政治上的死对头。而且他以前也没少砸俺。他这次也能站出来坚持真理,俺还是很敬佩的。
    屏蔽 举报回复
  • 华山
    已经说不想参与了,但看了这么多扯蛋的文字和论述,还是想讲两句:

    G莫入与撇子是两个比主角跳得更凶的捧哏。以前关于这个问题的讨论部分咱没过问,所以撇子怎么用随机模拟嘎子的试验设计没读过,也怀疑它有这样的统计功底。G莫入是来跟沙公公学概率入门的,别的咱不说,学了几日,颇有长进,就下面的几句,有点说到这次争论的核心上:

    ---在我這樣真正的數學 layman 看來,大数定律間單的不能再間單了。用真正的 layman 語言表达,就是指像抛硬幣這樣的實驗,拋的次數越多,得到正面(或反面)的頻率就越接近理論計算出的概率。

    這樣看來,嘎子和阿粥的賭盤其實輿大數定率沒有多少干系。無論要拋多少次,嘎子都百分之百贏。
    ---

    这前一段说明从兔子开始,人们的讨论都是遵循着大数定律这个方向的。当然“理論計算出的概率”是外行话。然后嘎子来了,干什么的呢?当人们的命题是“钱币扔得越多,其正面出现的频率(与试验次数之比)越接近理论上正面出现的概率(譬如二分之一)”,他把这个命题篡改为:“当钱币扔得越多,其恰恰是正面出现试验总数二分之一的值的概率越来越小“。这两个命题本来是两码事,嘎子目的是用不相关的命题来搅黄兔子等的命题。当然他的设计也很吊诡,对大家运用的二分之一的概率值,他就用”1000次试验正面出现500次的概率“这样较含混的句子设局,不想明确指出是”正面恰恰出现500次“,也不会说”1001次试验出现500.5次的概率“,那样就容易穿帮。

    如果一开始就有人指出这场鸡同鸭讲的实质,根本就不需要这么多争论。

    华山参加讨论比较迟,没看出其中猫腻。在咱指出大数定律不可能错,并用空间试验(同时一次撒1000枚IID钱币,看恰好出现500次的可能)表面两种命题的不同,给人们比较直观的解释时,忽略的是在时间尺度上的试验也是IID,但很快发现这一点。当时咱期望高人(譬如沙公公)明确给指出,但没等到,他说了几句不着边际的评语,要去看什么比赛。就是本篇大论,也还是不着边际,还抵不上G莫入的几句大实话。

    沙公公确实与嘎子是同类项。请看”方差小并不意味着你的变量等于均值的概率就高“,这里又把”概率“拿出来忽悠,手法如出一辙,目的是与嘎子一样,搅黄常人对方差大小的统计意义的理解。这点居然也被G莫入看出来了。真是不是一家人,不进一家门。另外沙公公言:搞概率的瞧不起搞统计,看来这也是一个不错的籍口,但现实中统计比概率更实用。按嘎子与沙公公的活法,是不能在现实中生存的。譬如两人永远买不到10kg 一袋的米,因为绝对不会一ng 不多一ng不少,那只有把嘴吊起来。另外既然沙公公是概率之人,比统计高出一大截,那就不应该”均值“长,”均值“短的。概率里面是”期望值“,统计里才叫“均值”。

    对有人揪住司马不放很气愤。司马只是附和华山的观点,认为华山解释了一些事理,就像一大帮附和嘎子的拥趸一样。有什么不足也是华山的不足,与他和妨?这样的穷追猛打,不正是说明它们本意不是在讨论问题,纯属党同伐异。
    屏蔽 举报回复
  • 司马懿
    不是中俄共毒太深的,如何会忠于不离口呢?g博,你真是个俄共洗废了的。
    屏蔽 举报回复
  • gmuoruo
    人品幫的司馬幫主,數學可不是人品,隨便你胡言亂語的。
    華政委還是懂概率的,你不該為了忠於阿粥就背叛他的。
    屏蔽 举报回复
  • 司马懿
    寡人这个文革余孽还敢跳出来?基本数学问题让你搞成不可知论了,是否怀念让医学教授用肛门表的岁月?

    我看博主讲的趋向0.5的概率问题,去掉情绪化的东西,就是鱼博的意思,及另一个网友的原意。嘎博本是反已有的数学及基本常识,后混成刚好二百五,对方没有同意他的意思,就硬套到别人头上,靠玩弄文字混淆视听。我判嘎博错,退出万维罢!
    屏蔽 举报回复
  • 寡人
    嘎兄与老沙交上桃花运了:对粥粥这样的flasher来说,被扒光实在是她求之不得、正中下怀的美事,你看她horny时的肉麻叫唤:嘎公公,沙和尚。。。便知一二。他在与你二位打情骂俏呢。话说回来,要想教会这些学统计ABC的主儿概率论,恐怕如同让那些练岳不群剑法的地摊把式重头开始学习正宗少林武功,应该是mission impossible!呵呵。粥粥虽说死鸭子嘴硬,但有死马陪葬,也算死得其所了。棺材里斗嘴,两人堪称旗鼓相当。
    屏蔽 举报回复
  • vacuum
    鱼片粥:

    能不能麻烦你回答一下我先前问过华山的两个问题?(他回答了,但给的答案并不让我明白,我追问了一下,然后他宣布“咱发现咱也被弯弯绕进去了”,决定宣布退出。)

    ===========================

    我们不妨先把那俩个威力无比的“%”放在一边,能不能麻烦你演示一下,算一算:

    抛1000次硬币得到500次正面的概率是多大?

    抛10000次硬币得到5000次正面的概率是多大?

    ===========================(我的追问)====
    P1 = P(同时抛1000枚两面均匀硬币,得到500枚正面朝上)
    P2 = P(1枚两面均匀硬币,抛1000次,得到500次正面朝上)

    你认为P1不等于P2?

    根据最基本的概率的定义,P2是这样得到的:
    在每次实验E中,将1枚两面均匀硬币,抛1000次,记下这次实验中正面向上的次数是不是正好为500次。重复N次实验E,发现有K次实验中正面向上正好为500次。当N趋于无穷时,P2 = K / N.
    屏蔽 举报回复
  • 嘎拉哈
    粥粥:

    比知识,尤其是用抄书的办法跟别人显摆知识,不是俺的兴趣。俺只对一个人对知识的消化和理解力感兴趣。尤其是,俺这人专门喜欢喜欢骗那些喜欢露肚脐,但肚子里又没真货的小潮女的裤衩。

    俺不懂离散概率密度函数的具体名字,但是俺理解了它的意思。就凭这个,俺却赢到了您的小裤衩。您说得意不?
    屏蔽 举报回复
  • 鱼片粥
    Bernoulli大数定律讨论的是离散概率。
     
    Bernoulli大数定律的精髓在于, 当试验次数n趋向于无穷大的时候,获得的均值(减去期待值(μ) 的和大于固定的概率趋于0;也可以说 当试验次数n趋向于无穷大的时候,均值减去期待值的和小于固定的概率趋于1. 这就是为什么大数定律也被叫做平均定律,(Law of Averages)。  
     
    你们二位要么弄了个谈离散分布的二项式,要么弄了个分马牛不相干的连续概率来解释,你们怎么能够整明白? 根据嘎公公的帖子,我敢肯定他至今也没有弄明白大数定律的含义。有些博者,象工科教授,12357等等,都已经很直接的把答案告诉你们了, 大数定律就是指试验次数越多,均值(越趋于期待值(μ)。就这么简单。现代诸多工业,金融,医疗,保险,博弈等等都是建立在这个简单的道理之上。这个道理要是被你们两个傻瓜推翻了,那世界就乱套了。
    屏蔽 举报回复
  • 鱼片粥
    下班回到家,美滋滋的拈起一块双黄白莲蓉月饼放进嘴里,进屋打开电脑,看见沙老妖的帖子,我立马崩溃,两眼翻白,动弹不得。好不容易把噎在喉咙的蛋黄吐出,放声大笑。
     
    硬币正反面是个离散概率问题,可老妖洒洒洋洋谈了一大段连续概率。怎么可以用连续概率的密度函数(probability density function)来描述离散概率问题? 密度函数只能用于连续概率的描述,不能套在离散概率的头上。离散概率的函数式只能用概率质量函数(probability mass function)来论述。 这是两个最基本的数学概念。 用密度函数来描述离散概率就如给嘎公公这样的太监吃春药,让嘎公公无法找到着力点。 呵呵。
     
    概率质量函数是对离散随机变量进行描述,本身代表该值的概率如抛硬币,掷色等子;概率密度函数是对连续随机变量进行描述,本身不是概律,如年龄,体重等。掷硬币出现的值只有两种, 正面或反面, 0或1. 不能取连续值, 这样概率变量的概率函数被称为离散分布. 而连续值就必须以连续分布来讨论. 连续分布概率变量取一个特定值意义. 

    看到老妖用连续概率机关枪似的对我扫射,我立马投降!
    屏蔽 举报回复