大数据与归纳
提问:归纳是发现新真理的方式,大数据的技术是不是用来“赋能”归纳,为更好地发现真理?
思考:
那些从有限数量的特殊事实推出普遍结论的论证,被称之为归纳论证。它们在逻辑上有别于演绎论证。归纳论证不同于演绎论证的一个特点就是,它们把有关某一特定种类的某些事情的命题,推广到有关该类的所有事情的命题。
大数据就是海量数据的意思。我们可以收集海量数据,进行人为分析,得出结论,指导实践;也可以让计算机收集更为海量的数据,让计算机分析,让计算机做出响应。比如记录人脸图像,让计算机进行新的人脸图像识别;记录购买历史,让计算机推荐用户感兴趣的内容,让人剁手剁到欲罢不能;记录你的短视频观看历史,让你沉迷于软件无法自拔。
当我们掌握大数据的时候也没有掌握全部数据,如果能掌握,另外如果上帝存在,那么应该是上帝掌握全部数据,我们就可以推出上帝是全知全能的。
大数据只是在小数据的有限数据基础上,扩充了样本维度、样本容量。
样本维度的扩充有什么好处呢?我竟然想到了中庸。中庸,用朱熹的方式来解释,为不偏不倚、无过无不及之意。我想用数学的方式来解释,中庸就是在尽可能多地掌握事物维度的情况下,选择合适的那个。用什么来评判不偏不倚呢?如果我们掌握的维度是2,然后选其一,那就是非黑即白,谈不上不偏不倚(掌握1个维度就是认死理!我们省略);若维度为5,我们把事物看得就更全一些,对待一件不公正的社会事件,我们从一两个维度和从五六个维度去评判,所得到的感受是不同的。五六个维度的时候,我们对待社会事件中的不公正内心就可能平和一些,活得就要舒畅一点;我们处理家庭矛盾、同事冲突,就会站在不同的角度、维度去思考,就更能理解别人,减少矛盾和冲突,除去不必要的人际麻烦,专注于更好地生活和工作。数学是可以突破三维空间的,如果你需要,便可以创造无穷多维度。如果把维度扩充到10000呢?先不谈可行性。如果一个人能做到用10000个角度去看世界,那他或许能做到中庸的高境界。如果你读了10000个哲学家的书,我们知道一般情况下,每个哲学家的哲学都不同,那我们便掌握了10000个哲学家的思想维度。刚开始读,我们在内心会冲突,这个人说的对那个人说的也对,而且这个人说的竟然和那个人说的是相反的,我们不能理解,我们会挣扎,我们会越来越糊涂。但是读到10000个哲学家的时候,我们内心便没有了那种冲突,在这么多看世界的维度下,我们自然能选择为平常、为合适、不偏不倚、无过无不及的立场。
思考完了样本维度,我们开始思考另外一个方面:样本容量的扩充。从统计角度讲,就是在增大样本量,提升准确度。样本量是多少才是大样本?下面的模拟和检验程序会产生5000个样本量为100000的t(2)分布的样本均值,并检验这些均值是否为正态分布(按照中心极限定理,在大样本情况下,会服从正态分布)
set.seed(10);y=NULL;for(i in1:5000){
y=c(y,mean(rt(100000,2)))
}
shapiro.test(y) #得到W = 0.83095, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: y
## W = 0.83095, p-value < 2.2e-16
我们得到的p值说明,拒绝了服从正态分布的假设。即,当样本量为100000,也算不上是大样本。我们就希望通过大数据掌握更多样本量,得到真理。
相关文章