在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:

  • 数据的获取
  • 文本(非结构化)数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。爬虫市面上有很多爬虫课,这里我们举文本分析的一个应用。使用Python可以帮助我们加速洞察的广度和速度,假设你需要研究几千家公司数十年的报告,需要你标记出

  • 公司发生重大政策变化的年份
  • 外部环境发生重大变化的年份   


如果靠人工去挖掘这两类信息,很难,不具有可实施性。但熟悉Python的人, 会借助Pandas粗略的绘制出每一个公司年报前后年份的相似性曲线

,再用人工去读图。就会很快的识别出或政策或环境发生变化的时间点。

大数据分析与爬虫 数据分析和网络爬虫_数据


上图是 Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018. 

文中的一图。我们知道 前后年份年报相似性越小,说明该年份前后发生了很大的改变

大数据分析与爬虫 数据分析和网络爬虫_大数据分析与爬虫_02