你好,游客 登录 注册 搜索
背景:
阅读新闻

我们对“大数据”的误解多于理解

[日期:2017-11-18] 来源:千山区教师进修学校评价部  作者:柳凤兰转载 [字体: ]

 

大数据似乎可以解决所有问题,甚至有大数据比你更了解你自己的说法。普及大数据知识的文章比比皆是,本文探讨一些和学术研究有关的常见误解。

 

大量数据不等于大数据

 

有一种很流行的趋势,只要是名字里曾经有数据的项目,现在都喜欢加一个字:大数据分析大数据清理公益大数据等等。然而,目前我们接触的很多数据只能叫大量数据,而并不能称作大数据。业界往往喜欢用3Vs来定义大数据的特征:Volume,数据量大; Velocity,数据的快速增长与分析;Variety,多元化的数据类型与来源。对于学术研究来说,大数据往往意味着数据的颗粒度增加,以及分析方法变得更为复杂。

 

所谓颗粒度,是指数据的详细程度。以大数据在体育赛事中的应用为例,布拉德皮特主演的《点球成金》描写了在早期的棒球比赛中,如何运用数据计算来评价球员表现,以提高球队的获胜概率。那时记录的数据只是单个球员每场的综合表现,例如:击球几次,得分多少等等。而随着技术的发展,现在的比赛可以记录球员投球、挥棒、奔跑、上垒等动作的每个瞬间,对球员的表现给出实时、精确的评价,并同其最好的状态做出比较,然后判断该球员在本场的表现是否符合预期。颗粒度的提升得益于数据记录技术的发展,比如高速摄影技术和定位技术等等。颗粒度提升后对数据的存储和分析都提出了更高的要求,因为要记录和分析的数据量比以前高出了很多个量级,对分析结果的时效性也有很高要求,甚至是实时分析,以及数据流分析。

 

另外一点是分析方法变得更为复杂。如果对数据的分析仅仅使用经典的统计学方法,例如:描述平均数、差异性分析或回归分析等,并不能称之为大数据分析。经典统计学的主要分析对象是结构化数据,而对于非结构化数据则相形见绌。例如,如果要分析三十万本书所涉及的主题,则很难用经典统计学,这就需要自然语言处理技术(NLP)。很多人对于自然语言处理的理解还仅仅停留在数关键字频率阶段,这虽然是NLP的基础分析技术之一,但还有很多更高级的分析方法。例如:印第安纳大学与斯坦福大学合作的哲学文库主旨分析项目就是一个例子(http://inphodata.cogs.indiana.edu/sep/)。此外,传统统计学只分析对象的属性,例如:温度、性别或距离,而对分析对象之间的关系则并不擅长。基于数学图论的网络分析,例如:社会网络分析、神经网络分析、引证文献分析等等,则重在分析关系这类比较特殊的数据。随着网络中个体(或称为节点)数量的增加,网络分析的计算量呈几何级增长,这对算法效率、时效性都提出了巨大的挑战。

 

从这个意义上来说,公益大数据其实也只是在跟风炒概念:公益领域的数据不仅颗粒度不高,例如一般只是一些年报数据和捐赠数据,分析方法也往往是简单的描述性统计。不仅没到大数据,有的甚至连数据都没有。

 

大数据不代表精确度不再重要

 

记得几年前看过一本时下非常流行的介绍大数据的书,里面的一个观点就是随着数据量的增加,精确度就不是那么重要了,因为揭示规律的信号会随着数据量的增加而变得明显,而淹没信号的噪音因为其产生具有随机性,其强度并不会随着数据量的增加而增加,甚至能够相互抵消。这样的观点有一定道理,但真实的研究中并不是这样。

 

我们所收集的数据仅仅是我们对这个世界的近似描述,说近似,是因为这样的描述含有很多误差。误差一般分系统误差和随机误差。比如测量一块玻璃的长度,我们每次测量的结果可能都不一样——这次测短了一些,下次测长了一些,这是随机误差。为了抵消随机误差,我们可以测量多次,然后取其平均值,因为随机误差会相互抵消(统计学概念在此不讨论)。因此随着测量次数的增加,我们认为随机误差并不会影响数据的精确度。但是如果尺子本身比标准长度短10%,无论我们测量多少次,平均值都会比真实长度短10%,这便是系统误差。系统误差不会随着数据量的增加而抵消。

 

对于学者来说,实验室之外产生的非结构化大数据意味着很难判断哪些地方会产生随机误差,哪些地方会产生系统误差。即使能够判断,清理数据也很难——研究者经常会感叹:这就是真实世界的数据!

 

数据都是定量的

 

一提到数据,我们经常陷入两个误区。第一,数据以数字为核心,与定量同义。因此,偏向传统定性社会科学思维方式的人往往排斥数据,认为数据无法揭示只能由定性的故事展示的人性,这一误解在公益领域尤为普遍。第二,崇尚科学管理主义的人往往视KPI(关键绩效指标)至上,极力推崇以定量数据为核心的管理与评估方式,忽视了定性数据的作用与价值。这一误解在商界跨界人士中尤为普遍。这两个误区带来了对数据截然不同的态度,争论的焦点往往回到了老生常谈的定性与定量之争大数据非结构化的特点也让其能够呈现定性的资料,从而更加模糊了定量定性的边界。

 

一个真正应该讨论的深刻问题是:我们认识的世界是否能够被描述,又应该如何被描述?——这便是社会自然主义(Sociological naturalism)和反自然主义(Antinaturalism)的争论焦点。讨论这样的问题不在于寻求正确答案,而在于引导人们批判性地思考自己立场的局限。

 

大数据对研究的可复制性提出挑战

 

在构建中国基金会研究基础数据库RICF)的时候,一个最大的需求就是如何对数据库进行版本控制。一个科学研究的结果如果不可复制,那么这个研究的结果就不能称之为规律。复制研究结果的前提是使用同样的数据或实验环境、同样的研究和分析方法,应当得出同样的结论。复制和验证研究结果在心理学界这几年非常流行,但是结果令人失望,因为科学家发现大量的即使发表在顶级期刊的论文结果都无法复制。

 

大数据的一个特点就是动态产生大量数据,如何对这样的数据进行及时地研究并存档,以供验证使用,都是挑战。

 

为什么学术研究很重要

 

说了这么多,都是针对学术研究而言。很多人可能对学术研究四个字望而生畏,但并不理解其重要性。曾经和美国社会科学研究理事会(Social Science Research Council)的前主席有过一次谈话,期间请教过他一个问题:转型期的中国,从他的专业领域来看,什么最重要?

 

他的观点让我感到很意外,但又在情理之中:一个没有腐败的支持科学研究的基金会很重要。政府和商业的腐败,并不会从根本上损害一个社会,因为可以通过法律和制度改革对其进行纠正。人类所有的社会和经济结构,都是建立在科学研究所生产的基础知识和理论之上。如果支持科学研究的基金会腐败了,科学研究的准确性就会受到损害,这将从根本上损害经济和社会结构。

 

我的另外一个研究方向是非营利领域的知识生产。以我自己的研究经历和结论来看,美国的非营利组织发展之所以能够成为与政府、商业并驾齐驱的第三部门,过去近百年的学术研究至关重要。当前对中国非营利领域的基础理论研究还很少,这也是中国基金会研究基础数据库设立的初衷:向国内外学者提供开放、免费的中国基金会原始数据,服务于基础理论研究。

 

作者简介:马季,美国印第安纳大学礼来家族慈善学院慈善研究与数据科学博士候选人;数据科学类社会企业英明泰思创始人;中国基金会研究基础数据库创始人。

 

收藏 推荐 打印 | 录入:柳凤兰 | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
热门评论