大多数人,包括我自已,对这样的问题只能是退避三舍不甚了了,所以我们大多数时候都在人云亦云而已。
中国人对自已中小学数学教育还是很自豪的,但真相是:我们幼时(其实今天的孩子们也一样)除了会通过反复演算和刷题增长数学考试技巧之外,并不理解数学与世界或生活的关系。我们没有受过统计学、计算机科学的教育,没有系统受过编程或数据处理的训练。我们甚至从文化根源上就习惯于相对性思维和模糊化表达,习惯于用“类比”手法论证观点 --- 我们并没有理解大数据所需的基本技能。
所以我们虽然口上说的热闹,心里对“大数据”还是排斥的 --- 我是文科生,不懂攻城猩程序猿的世界。
大数据与人文趋势
直到前几年读到一本书:《可视化未来---数据透视下的人文大趋势》,才开始把“大数据”和“人文科学”两个概念联系在一起。
这本书的立论是这样的:大数据是一个透镜,为人类提供了认识自已的新的手段。而方法之一,正是Google最娴熟的词频分析法。
首先Google已经和正在做那件创始人最热衷的划时代的大事:将人类历史上所有出版物进行数字化,构建一个人类知识的“总档案库”。然后确定一系列有代表性的语词,测知它们在各个年代出版物中的出现频率,以此推断这些语词所代表的“Idea”在各个时代的“热度”。
书中充满大量的图表,通常是将两个富于对比意义的语词并列,比较它们在各个时代的词频热度。比如:“我想要”的热度在1862年超越“我需要”,这是不是说明工业革命深化后带来的物质增长,让人们开始脱离生存的基本需求(need),转而追求欲望的达成(want)呢?
从1882年开始,“圣诞老人”词频超过“魔鬼”,是不是也说明人类开始变得更乐观,更向往美好事物,而不是对世界充满恐惧?
再看性别的权力对比。19世纪“男人”出现的频度远超“女人”,之后开始下降,“女人”在1983年反超。这是一百年来女权主义奋斗的结果吗?
凡此种种。这种方法提供了“概念”后面的词频数据,但根据这些数据能做出什么样的结论?如何解释数据呈现的事实?大数据回答不了这个问题,这里需要的是更广博的人文视野和更深厚的历史洞察。
但这起码是文科生能理解的大数据。
大数据与人类本性
最近,另外一本书续上了我对“文科生的大数据”的兴趣 --- 《人人都在撒谎:赤裸裸的数据真相》。
这本书的作者实际上是一位数据分析师。他多年来描准Google和Facebook的搜索和社交大数据,试图发现数据所呈现出来的,与想当然的常识相悖的真相。
比如他认为:人们搜索信息的行为本身,就是相当丰富的信息。人们在独自一人时在手机和电脑搜索引擎上输入的搜索关键词(Enquiry),本身就透露着他们内心真实的想法。这与他们在社交网络上“高大上”的言行往往大相径庭。最后作者的结论就是:人人都在撒谎。
书中的实例分析过于庞杂,我这里仅选几个角度:
一、种族问题
特朗普拥趸最多的地区,的确就是“黑鬼”一词的谷歌搜索量最多的地区,但特朗普媒体曝光增强时,并不会引发“黑鬼”搜索量上升。
引起更多人搜索“黑鬼”、“黑鬼笑话”的,不是“白人至上主义者”特朗普,而是政治正确的奥巴马。当他在电视上发表“完全没毛病”的演讲时,传统媒体以为他振奋人心的言辞有利于种族间的和谐,但搜索行为数据却呈现:他的演讲实际反而点燃了白人心中的怒火,种族偏见愈加严重。
要命的是,不仅仅是奥巴马事实上激发了种族仇恨,每当黑人更多出现在大众传媒的时候(例如马丁·路德金纪念日,卡特琳娜飓风后挣扎求生的黑人),“黑鬼”一类的搜索就会上扬。作者总结:
谷歌搜索揭示出很大一部分美国人都有的黑暗和仇恨心理,而这些则是权威人士多年来一直忽略的部分。搜索数据显示,我们所生活的社会与那些学术界人士和新闻工作者(依据民意调查)所认定的那个社会有着天壤之别。数据显示,民众内心有着卑鄙险恶、提心吊胆而又迅速蔓延的愤怒情绪,亟待某位候选人代为表达。
所以你就不会奇怪为什么特朗普会当选了。
二、性
人们在对待“性”时的言行是个特别值得研究的课题。比如人们总是无意识地夸大自已的性能力和性生活跃度。例如一次市场调研中,女性受访者说她们平均每年有55次性行为,其中16%的情况下使用安全套。按此计算,每年美国人将消费11亿个安全套。同理,美国每年需要16亿只安全套才能满足男性的使用。但实际情况是:美国安全套的年销售量,还不到6亿只。
人们在调研时夸口,在独自一人上网搜索时,才卸下伪装原形毕露。他们不仅大量搜索色情内容,而且搜索的指向(关键字)极其激进露骨,甚至到了变态的地步。这点在性观念不那么开放的更“压抑”文化中一样成立:比如在印度,以“我丈夫想要……”为开头的搜索中,数量最多的是“我丈夫想要我给他喂奶”。
大数据告诉我们,人类其实还是活在本能之中。
三、性别差异
当今社会里说“男孩才能成才,女孩只能靠脸”是政治不正确的,但搜索数据的确证明人们是这样想的。家长搜索“我的儿子有天赋吗”的次数比“我的女儿有天赋吗”多2.5倍;家长问他们的女儿是否漂亮的次数是问儿子是否英俊的一倍半,而问他们的女儿丑不丑的次数更是问儿子丑不丑的三倍!
See? 人们并不是他们“应该是”的那个样子。
人们“应该是”的那个样子,其实就存在于社交网络之中。事实上没有一个社交网络用户的言行不是“社会性”的,而人们的“社会性存在”又与他们的“个人化存在”,以及他们真实的内心,有着巨大的鸿沟。
社交网络用户关于Facebook的世界与现实世界的差异,作者有段不错的论述:
脸谱网是数字化的 (是向我的朋友吹嘘我的生活有多好的) 吐真剂。在脸谱网的世界里,一般的成年人似乎都已经结婚了,而且婚姻幸福,在加勒比海度假,阅读《大西洋月刊》;在现实生活中,很多人都在超市付款排队时生闷气,偷偷浏览《全国问讯报》,无视爱人的来电,和枕边人也是多年没有过性生活活了。在脸谱网的世界里,家庭生活似乎是完美的;在现实生活中,家庭生活一团糟,甚至有些人偶尔会后悔生下孩子。在脸谱网的世界里,每个年轻人似乎在周六晚上都会参加炫酷的聚会;在现实生活中,大多数人都是独自在家,在网飞(Netflix)网站上看视频狂欢。在脸谱网的世界里,一位女性上传了和男朋友度假时拍摄的26张快乐的照片;在现实生活中,就在发布动态之后,她在谷歌搜索“我的男朋友不愿意和我发生性行为”,也许就在同时,她的男朋友正在观看色情视频。
这正是张小龙所言:微信朋友圈其实就是一个“人设道具”的功能。泡在朋友圈的朋友,是不是有点共鸣感?
Then, So What?
读罢这一大堆揭露,文科生们大概也能掩卷慨叹一下了:人性,其实就是口是心非。
这其实不是新鲜的发现。自从智人从东非走出丛林到今天,数万年过去了,人类的工具早已进入科学时代,而人类的社会组织形式却停留在中世纪时期,而人类的本能和情感,其实还停留在数十万年前的狩猎采集时代。人类早习惯于私底下做那些不见容于社会道德的事,说一些不那么真实的话,其实是本性使然,无可厚非。
只是对有好奇心的人来说,理解这样的大数据是有意义的,因为我们对人性的理解,对世界的认识会得到深化,即使只是那么一点点。