海天

注册日期:2012-05-22
访问总量:936997次

menu网络日志正文menu

混浊的水晶球


发表时间:+-

美国总统大选,全美大部刮起一阵农村包围城市的红色旋风,将此前不被看好的川普送进白宫。这个结局完全出乎之前大多数人的预料,因此格外震撼。大选落幕几天了,争论仍然铺天盖地,越来越激烈。对大选结果,人们给出各式各样的解读,有的认为“沉默的大多数”终于发声,这是一场新的人民运动;有的认为根本是民粹当道,大开历史倒车。


每个人的解读,都带着自己的认知模式,好比透过一个独特的棱镜看世界。


000.png


众说纷纭中,有一种说法各方似乎都同意,即民调预测大失准星,完全没能准确反映选情民意。更有人指责主流媒体偏袒克林顿一方,带着偏见操纵民调数据,故意误导民意。一时间,民调机构和预测专家们灰头土脸,前几天他们好像还捧着能看透未来的水晶球,现在仿佛变成了一群数据傻瓜,蹲在角落里反省。普林斯顿大学的华裔学者Sam Wang,选前通过数学模型,预计希拉里获胜机率高达99%,因为把话说得太满,不得不兑现诺言,在CNN当众吃了"虫子"--虽然是富于营养的罐头蟋蟀,但是那镜头,还是令吾心生戚戚。


010.png


选举结果是亿万人一票票投出来的,看走眼的人多了,即使是川普的铁杆支持者,事先也没有多大把握,Dr.Wang不就是自信过度一点嘛?因此就被单拎出来当替罪羊取笑,实在不够厚道。评论看得多了,发现很多人似懂非懂,其实并不真正明白民调到底是怎么一回事,也没有搞清楚民调机构(pollsters)、预测模型(forecasters)、媒体(media)与政治评论家(pundits)的角色与概念。


打个比方说吧,民调机构好比是采矿的,对民意采样收集并做进行必要的数据处理;模型预测机构好比是做深加工的,把民调数据放入统计模型中进行分析,推算出让人一目了然的大选获胜机率;媒体和政治观察家们则好比包装与分销商,把民调支持率和获胜机率预测等拿去报道评论,为自己的判断提供佐证;媒体受众则是这些信息的消费者。这次大选中,美国的主流媒体确实表现出一边倒的倾向性,民众凭直觉就可以感受到偏颇,我觉得问题主要出在大众传播层面,并不意味着民调被有意操纵,预测是故意误导


美国有上百个大大小小的民调机构参与了从个别州到全国的民意调查,这些机构有些隶属于各大媒体,有些由两党资助,也有很多是独立研究机构,比如隶属于大学的,或者从事市场调研的专业公司。做统计预测模型的机构专业性更强,数量也要少很多,有跟媒体挂钩的,如纽约时报的UPSHOT,赫廷顿邮报的模型,也有独立机构,如著名的538和前面提到的普林斯顿模型。认为他们都背弃了专业精神,故意误导民众,于情理于逻辑都难以说通。


与其陷入过于简化的准阴谋论思维,倒不如详细认真地分析一下,民调预测与实际选举结果之间到底有多大的偏离?为什么会出现这样的系统偏差?知其然与所以然,方能对这次大选的真实性质形成更准确的理解,这也是系统纠偏的一部分。


几天下来,看到不少这方面的业内反思,尚有很多模糊不清的猜测,也形成了一些明确的共识,比如民调没有能充分找到/推算/反映出那些“隐藏的川普支持者”。在许许多多的检讨中,我最关注的还是538网站(http://fivethirtyeight.com/)的解释,这是因为这次大选期间,我一直跟踪538的数据分析,对他们的预测模型更加熟悉一些。

 

012.png


有些读者也许不了解538,这是一家从事数据分析与预测的专业网站,涉猎广泛,从体育、经济到政治等等流域,不一而足。538的创始人兼总编Nate Silver运用概率学中的贝叶斯决策理论(Bayesian Theorem),用数学方法对未知事件进行概率分析。和绝大部分政治、新闻专业出身的预测者不同,Silver预测选举结果的基础并不是传统意义的“经验与直觉”,而是通过搜集整理大范围的数据和各种层面的民意调查,通过数学算法得出直观的大选胜率。在2008年大选中,Silver正确预测了49个州的结果;在2012年,他对全部50个州的预测又全部正确,因此声誉鹊起,成为预测模型界首屈一指的大咖兼网红。


009.png


007.png


这次大选,538在选举日早晨给出的最后胜率预测是克林顿71.4%(vs.川普28.6%)。这个预测远低于普林斯顿的99%,赫廷顿邮报的98%,罗斯柴尔德的89%,纽时的85%,或可稍微为538和Nate Silver挽回一点颜面,但他们毕竟还是站在了错误的一边,只能算一份不及格的答卷。


对此,Silver本人如何解释呢?他洋洋洒洒写了一大篇。具体内容叙述起来太繁琐,有兴趣的读者可以自己去看,简单地说,包括如下几条:


1. 全国来看,民调与实际结果的偏差仅有2%,并谈不上太大。关键问题在于出现一边倒的系统性偏差,汇总之后也无法在模型中得到及时纠正。


笔者解读:538大选前的估计,是克林顿支持率大概领先3%。实际投票结果,克林顿确实赢了popular votes,但是幅度仅为+1.2%。这些数据,好像确实不能算太离谱。我记得Silver在选前有一篇文章中讲到,如果克林顿在全部popular votes能胜出+5%,则胜券在握;如果只赢+2%,在选举人制度下,川普就有相当的赢面。这个看法也被证实了)


1479158640400290.png


2. 最严重的希拉里支持率民调偏差发生在中西部与铁锈地带,尤其是在密西根(-4%),宾夕法尼亚(-5%)和威斯康辛(-6%)。

 

笔者解读虽然克林顿在这几个州分别只输给川普0.3%,1.3%,和1%,但足以使该州颜色改变,最终在选举人版图上崩盘。为什么在这些州的民调发生了最严重的系统偏差?这是下一步要深究的问题。)

 

3. 有高达13%的选民到最后时段才拿定主意,他们大多数偏向了川普。

1479158804933352.png


笔者解读:上面这张图我觉得很有信息量,因为对于迟迟没打定主意的一群,民调实在是没什么好办法的。这13%的人有多少是传说中那些隐藏的“害羞的”川普支持者?他们为何犹豫,最后的决定是否受到FBI科米效应的影响?这些都是很有意思的问题。)

 

4. 与其说是民调预测的失误,不如说是依赖传统智慧的失误。

 

笔者解读数据提供者的从众心理,媒体的偏见,人们的选择性聆听,人群中的确认偏误(confirmation bias)倾向,统统难辞其咎。)

坦率地说,我对Silver这位大咖迄今为止给出的分析并不十分满意。他提出了很多精当的见解,但更多在强调民调的问题和客观不确定性,尚没有深入反思自己的预测模型有什么大的漏洞,似乎还在努力维护自己的面子。

我认为至少有一点是值得挖掘的,即传统的随机抽样民意调查方式在今天已经越来越困难(回答率低,随机性差,代表性存疑),难以反映出人们未定的/变化的/隐藏的想法,建立在民调数据基础上的预测模型也难免garbage in, garbage out.相反,很多真实的情绪想法却弥漫在Twitter,Facebook,微信这样的社交媒体中,那是真正的数据金矿,实在不能视而不见,弃而不用。对纷杂的社交媒体数据进行分析,如何识别信号与噪声是更大的挑战,还期待Silver和Dr.Wang这样的数据科学家能在这方面更有作为。

1479159110943422.jpg

说到这里,有一点似乎已经清楚了,就是人们把民调数据或预测模型当成窥探未来的水晶球,实在是个不小的误会。可有什么办法呢?人们总希望能提前预知未来,消除身在未知中的迷茫和困顿。

要真说起来呢,“预测帝”也不是没有。先说远的--早在1987年,普利策奖得主Garry Trudeau就在他的漫画系列Doonesbury中,描绘川普要竞选总统,可能那时候连川普本人都还没生出过这个念头吧。

Bpoll 006.jpeg


再说近的--美国大选前的11月3日,中国湖南长沙石燕湖,红布铺起一个总统预测台,川普和希拉里的硬纸板画像分列左右两边,前面还放着香蕉。一只名叫“哥大”的5岁猴子身穿印有预测帝字样的黄马褂,走上前来,经过深思熟虑,不但吃掉了川普身边的香蕉,而且给了他一个热烈的吻。哥大猴的决策模型,大概只有它的主人明白,但是不消说,结果已经足够棒了。有图有真相--

poll005.jpg


嗬嗬,玩笑归玩笑,我给大家介绍一位真正的预测帝吧 -- 


Scott Adams,著名漫画系列《Dilbert》的作者(奇怪,怎么又是个漫画家??)。我跟踪Adams关于大选的博客近一年,他在去年8月起,就预言川普将拿下共和党内提名,并将一路赢得最后总统大选,而那时候刚刚宣布参选的川普还是很多人眼中的笑料。今年3月,Adams又预言川普将会在总统选举中大胜(landslide),而那时候他还没有拿到共和党候选人提名。怎么样,够厉害吧?


1479222617450681.jpg


更有意思的是,Adams声称自己对政治、经济、移民等等方针政策与影响之类的东东并不在行。他这样说过:“如果川普赢了,会冒出很多政治观察家来著文解释人们为什么投他的票,譬如他惊人的直白,他的商业才能,人们对现状的愤怒,或者他的对手实在糟糕。也会有人提到他的政坛局外人身份。这些当然都不错,因为选民投票不撒谎。但是不会有很多人花时间去弄明白人们如何产生了这些感受。


Adams对川普的预测乃是基于一条非常独特的判断,即川普是一个天才的说服大师,其异常出众的说服力对其目标听众具有催眠般的控制和影响力。这其中包含以下6个基本方面:

    1. 明白大多数的人都是非理性的

    2. 致力于唤起人们的情感诉求

    3. 在唤起情感诉求的时候,事实如何并不重要

    4. 当事实变得不重要的时候,你也就不会错

    5. 扭曲现实,直到达成你的目标

    6. 掌控身份认知政治


听上去有点像个川普高级黑,是吗?其实不然,Adams正式为川普背书的,后期为他鼓吹不遗余力。在他的博客中,Adams一路跟踪川普在选战中的言行,套用“说服力滤镜”这一框架进行解析,川普的语言风格,辩论技巧,战略战术,攻击角度等等,如何在目标受众的脑海里下锚,使人欲罢不能,从而成为他的支持者。


Adams的说服力预测模型,好比他看待事物的独特棱镜。对这个棱镜,我一直将信将疑,但他有几个重要观点还是令我印象深刻:

 

    - 聪明而充分了解各种信息的人们,几乎在所有重大问题上都意见相左。可见,你再聪明,拥有的信息再多,都不能让你如希望的那样准确把握现实。


    - 在真实的世界中,唯有情感才是重要的,因为情感驱动人们的行为。


    - 事实如何,并不影响人们的决策。人们首先形成决定,然后再挑选数据,为他们的非理性选择寻找理由。如果你发现人们总是对你睿智的观点不以为然,记住,那是因为他们也在你身上看到了同样的非理性。

     

这些观点,也许很值得Nate Silver和Sam Wang等数据英雄们体会,借鉴。

 

对川普总统的未来表现,Adams也做了这样一番预期:“有人问我怎么能支持一个法西斯分子,我的回答是他并不是……一旦川普确立了自己的头号莽汉(bad-ass)形象,他也就可以放手领导了,我们会看到他软化遣返非法移民的立场,限制警察搜身的适用区域,翻转对堕胎进行罚款的主张,等等。你如果没有受过说服力方面的训练,川普看起来很可怕。如果你明白说服中的节奏(pacing)与引导(leading)技巧,你可能会认为他其实是一个最安全的总统候选人。


好吧,且让我们祈祷,Scott Adams的这一预测也是正确的吧!


4 balls.jpg


相关博文:

(ZT) 特朗普的崛起与亨廷顿的还魂

(ZT) 特朗普是极右狂人?GOP里最温和




浏览(3860)
thumb_up(12)
评论(96)
  • 当前共有96条评论
  • 阿妞不牛 回复 海天

    完全同感。

    屏蔽 举报回复
  • 海天 回复 阿妞不牛

    "民主制度,就是让各种带有自己的私利与偏见的芸芸众生选择政治领袖与政府的。。。没有一个国家的总统皇帝主席是真正代表全民利益的,更不会出现一个代表全世界利益的世界总统。“--

    同意阿妞的这个看法。在转贴那篇“特朗普的崛起与亨廷顿的还魂”的文后,我写过一小段评论,讲我所知的在美华人中产阶层为什么支持川普,比如反对升学就业中的AA之类,为此还被网友批判为“赤裸裸的利益思维”,后来没有时间及时回复这一误解。我觉得民主制度的基础,首先是各人各方充分表达自己的利益诉求,这是最真切实际基本的东西;民主制度的形式是按多数人(包括多数选举人)的意愿选择政府,但不是压制少数人;如何平衡协调各方的利益,尽量化解针锋相对的矛盾,这样的智慧需要价值观的引领。脱离对社会各阶层利益的分析理解而空谈价值观,只能是书斋里的自我道德欣赏;而一味强调某一群体的利益至上,缺乏价值观引领,则很难不把人类社会带向纷争和退步。从这个意义上讲,我对全球范围内的民粹主义思潮忧心忡忡。

    屏蔽 举报回复
  • 海天 回复 阿妞不牛

    “包括俺自己,就很难做到价值观中立与放弃个人喜好偏见来观察分析客观世界。但是,民主制度,就是让各种带有自己的私利与偏见的芸芸众生选择政治领袖与政府的。” --

    阿妞不能对自己要求过高。价值观绝对中立,放弃个人喜好偏见来观察分析客观世界,这本身就是不可能的事吧。人本身就是主观的动物,认知都是客观世界在主观中的折射,价值观也就是我们每个人手里的那把棱镜。别说政治啊社会啊这种更主观性的话题,就算是对全球气候变化这类客观事实,科学家们的判定和解读也受其自由派或者保守派倾向的影响而大相径庭。所以思维方法是个大课题。人的智力和受教育程度无法阻止偏见的形成,但是对世界怀有一颗好奇之心却能够使我们作出更加明智的判断。推荐BBC的一篇文章“How Curiosity Can Protect the Mind from Bias":

    http://www.bbc.com/future/story/20160907-how-curiosity-can-protect-the-mind-from-bias

    屏蔽 举报回复
  • 海天 回复 谭岳

    “总统一定要被选举出来,但总统不一定要被弹劾。如果说他用他的模型体系预测川普能赢得选举不带有主观色彩,那么他猜测川普可那会被弹劾似乎就有主观色彩了。”--

    谢谢谭岳博回访!上面这几句话我很赞同,说得特别好。对2选1的确定事件尚难以看清端倪,又何况低发生率的不确定事件呢?且行且看吧。讲句老实话,川普当选的后续故事真是比希拉里当选要有更强的可看性,这几天的新闻,每天都不知让多少人欢欣鼓舞,让多少人忧心忡忡,又让多少人raised eyebrows.

    屏蔽 举报回复
  • 阿妞不牛 回复 阿妞不牛

    忘了一根狗尾:因此,没有一个国家的总统皇帝主席是真正代表全民利益的,更不会出现一个代表全世界利益的世界总统。

    屏蔽 举报回复
  • 阿妞不牛 回复 海天

    海天对郑丽文的评价分析很到位。这其实是旁观者清,山中人不识庐山真面目的一个实例。包括俺自己,就很难做到价值观中立与放弃个人喜好偏见来观察分析客观世界。但是,民主制度,就是让各种带有自己的私利与偏见的芸芸众生选择政治领袖与政府的。

    屏蔽 举报回复
  • 谭岳

    同意海天, Allan Lichtman关于川普会被弹劾的想法应该不是一种系统性的预测,最多只能是有知识的猜测(educated guess)。总统一定要被选举出来,但总统不一定要被弹劾。如果说他用他的模型体系预测川普能赢得选举不带有主观色彩,那么他猜测川普可那会被弹劾似乎就有主观色彩了。史上只有Andrew Johnson和克林顿被弹劾过,就是把自己辞职的尼克松算上,

    也只有三个相关例子可作为参考,看起来很难形成一个被弹劾模式。

    北雁好,看了你那篇“没见过面的外公”了,很棒!谢谢你的问候。

    屏蔽 举报回复
  • 海天

    刚刚在微信上看到“大数据文摘”的一篇文章,里面也提到大选话题,有些很不错的表达,摘抄几段贴在这里吧。

     

    2016年11月13日,第二届万物互联创新大会,硅谷风险投资人、《智能时代》的作者吴军博士,观数科技联合创始人、前阿里巴巴集团副总裁涂子沛先生,以及伯凡时间创始人吴伯凡先生,针对大数据和人工智能相关话题进行了探讨。

     

    吴伯凡:今年三场黑天鹅,AlphaGo取胜,英国脱欧,以及川普当选美国总统,这里都有一个很重要的问题,就是智能预测。第一个问题,大数据和人工智能到底有什么样的关联,区别显而易见,关联是什么?

     

    吴军:这一次川普和希拉里竞选,希拉里是一个什么样的势态,传统营销能够想到的办法,砸钱、铺广告位,找意见领袖、代言人,就是好莱坞的,传统方法全用上了,但是不产生结果。为什么呢,很多程度上过去这种传播方式,一个单点到多点的传播出来以后,什么结果不知道,接下来该怎么调整,不知道。

     

    今天大众每一个人都是制造思想想法的这么一些人。通过移动互联网,大家互相抱团,一个个小社区。有这么一些人,他们的思想很相近,这些意见在过去淹没在汪洋大海之中没有人知道。支持川普很多人就是这样的,在今天看来这是一群很奇怪的动物,千奇百怪的想法,在过去媒体时代根本体现不出来。今天,到了大选前几天,在facebook上,这些大数据的体现,好像facebook已经能够感觉到味道不大对了,虽然传统媒体都清一色说希拉里能够当选。在社交媒体上好像反映出要变天了,从这个角度来看也不完全是“黑天鹅”。就像在座各位参与到了大数据时代,智能时代之中了。这是我的看法。

     

    涂子沛:伯凡的问题是大数据和智能有什么关系,我们简单的说,直接回答就是大数据是智能的基础,大数据是智能的母体。我用了一句比较性感的话来说,大数据是智能的土壤。也可以简单的这么说,没有数据就根本不会有智能,所有的智能都是建立在数据的基础之上。

     

    我要来看,过了互联网时代之后是大数据时代,智能时代其实还是大数据时代的一个组成部分,一个巅峰。刚刚谈到今年美国大选,我们在关注大洋彼岸的选举,大家有没有关注浙江发生的事情,5月份阿里淘宝上就看到了和希拉里,川普的各种宣传旗帜出货量,川普是希拉里的5倍。义乌人民说川普的货不要定金都敢做,而希拉里不行,所以数据是什么。刚才我们说数据是目前预测未来最有效,最有力的工具,因为数据表述的是过去,记录是过去的事情,但是表达的是未来,它告诉我们未来,因为整个世界是有因果关系的。黑天鹅是怎么来的,美国是怎么解释,我觉得可以看义乌。

     

    吴伯凡:涂总是数据的代言人,吴军老师是智能时代的代言人,你认为涂总说的数据是大脑,智能只不过是一个延伸,你同意这个观点吗?

     

    吴军:我同意,机器获取智能的方式和人不一样,它很大程度上靠数据。关键的是,机器获得智能在哲学层面和人还是有很大差别,人是强调逻辑推理,很严格导出知识。而机器某种程度上来说是一步到位,因为有这个数据一步到位,通过相关性直接找出知识,它对我们的认知是挑战。过去我们说要知其然,知其所以然,在计算机不是这样的,它知其然,不知所以然。你对这个结论用还是不用,信还是不用。举个例子,比如阿里的好多商品,包括亚马逊很多商品,它之间的关联,你根本说不出是什么原因的。但是你把这两个商品房在一起去卖,结果就是好,实际上这对过去人的认知也是一个蛮大的挑战,所以数据可以讲是机器智能的一个基础。

     

     吴伯凡:知其然,不知其所以然,万物都是有因果关系的,基本关于大数据的尝试,大数据是相关关系,不是因果关系,这个怎么解释?

     

    涂子沛:吴军早上说到一个案例,沃森看病,沃森看疑难杂症比普通病还准确,为什么?我觉得这个问题在某个阶段可以去回答伯凡先生的问题,为什么这么讲呢,我其实还是相信因果性。相关性是没有因果的相关性,我们一定要验证这种相关性之后,才证明它是科学的。比如伯凡说很多东西摆在一起,它们就是会卖得更好,它们有原因吗。啤酒和尿布是最经典的认知,开始沃尔玛也搞不清楚原因,啤酒和尿布摆在一起,双双销量都上升呢。它是有真实原因的,每一个最后有价值的相关性,它是有因果性的。如果没有价值的相关性,它背后这个因果性是不成立的。

    屏蔽 举报回复
  • 海天 回复 北雁高飞

    “宁宁这里还有“一枝独秀”,透着暗香。:-)”

    -- 从这句“暗香”里,猜雁儿对这预测的话题也发生兴趣了? :-)

    不用搬小板凳,请坐太师椅,谈谈自己的高见嘛,说谁都行!

    屏蔽 举报回复
  • 海天 回复 甯宁寧

    宁姐好! 非常高兴看到你推荐的这两段视频,我以前没有看过也没有听说过,也不知道这位郑丽文何许人也。她应该算是位媒体的政治评论员吧?能从头到尾一直预判川普会赢的人,不说绝无仅有,肯定也是不多的。我从她的话里,听到了两点比较新鲜的看法:

    (1)08年民众就舍弃希拉里而选素人O8, 表明那时候美国人就不喜欢克林顿;

    (2)看看地方电视就知道,普通美国人自己就是川普那般的做派德行(所以没觉得有啥不能容忍的)。

    这两点看法,基于她对美国普通民众的了解与判断,看来是靠谱的。有意思的是,为什么美国那么多生于斯长于斯的pundits却没有得出这样的判断呢?我觉得很可能还是要归于人性中的一个弱点,就是总喜欢把自己的想法喜好,想象成大众的想法,在接收反馈的时候做选择性聆听,不断确认自己的偏见(confirmation bias),如此反而不如一个肯做客观观察、独立思考的局外人更能把握真实的现实。

    台湾的时事评论节目看起来很热闹,很活泼。喜欢!

    屏蔽 举报回复