第一,大数据并不是在所有时候都是“全数据”。大数据虽然在有些时候收集的是总人口的信息,而不是像抽样调查那样依靠随机样本,但网络用户并不是全部人口。例如,在2012年的世界价值观中国部分的调查中,只有40%的受访者表示通过网络获取政治社会新闻信息,而通过电视获取同样信息的比例则高达88%;这40%的人具有高学历、低年龄和白领阶层的显著特征,但并不能代表中国人口的全体。显然,如果用这一群体的网络行为来推算中国人口的信息摄取偏好和民众意见的分布,就很有可能出现偏差。
第二,大数据并不是大家都可以用。绝大多数的大数据推崇者认为它是比较容易得到的,因为大数据是公开、透明的。然而在很多方面,大数据涉及个人隐私、商业机密或国家安全,因此不仅有侵犯个人隐私的道德问题要处理,更重要的是根本无法得到许多涉及商业或政府行为的数据。此外,研究人员如果只能依靠政府公布的大数据来寻找研究题目,而无法根据本领域理论和现实的需要来设计研究计划,将会大大限制社会科学研究的发展。
第三,大数据并不意味着数据的多样化。大数据的支持者认为,大数据时代的特点不仅仅是数据量上的庞大,还具有数据种类来源多的特点。然而,大数据无论有多么全面,也只能记录人的行为,而不能确切描述人的思维。在社会科学研究中,很多时候研究的关注点是人的主观态度和价值观,例如人际信任、社会公平观、政治效能感、民族主义情绪等等。这些概念都是社会科学关注的重要理论问题(因变量),也是社会现象和个人行为的重要解释变量(自变量),但是大数据在测量这些主观态度方面却显得有些力不从心。
第四,大数据重相关而轻因果。在大数据库中,由于数据量庞大,通常很容易得出统计意义上显著的回归系数,但这并不意味着两个变量之间存在因果关系。
第五,大数据特别是以网络为基础的大数据不能准确反映人的社会政治行为。原因有三:首先,有些人认为,基于网络社交媒体而收集的大数据可以用来预测社会运动等社会政治行为。然而,大数据无法回答的问题是,同样有社交网络和网络意见表达的国家中,为什么有些发动了成功的社会变革(例如突尼斯),而有些却没有(例如埃及)显然,网络行为不是社会运动成功与否的决定因素。人与人面对面地互动以及在社会组织和环境(例如教会、工作场所、社区等等)中产生的“强联系”,才是社会运动产生的更重要原因。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱