python获取影响因子 如何用python获取文献_python获取影响因子

上一篇介绍了我用过的一些数据源,这篇准备介绍一下获取数据可能会用到的一些python库

本文针对人群的是不了解python,并且想通过python获取dota2数据并开展相关分析的同学们,主要内容是所需技能的概述,具体的库怎么用可以自行百度。

python的基础教程

python获取影响因子 如何用python获取文献_数据_02

python对于做数据分析或者数据挖掘工作的人来说就是一把瑞士军刀,刚开始接触我们不需要知道刀上的螺丝刀是怎么造出来的,我们只要知道十字口的螺丝刀拧十字口的螺丝,一字口的螺丝刀拧一字口的螺丝就可以了,至于以后想深究螺丝刀是如何造出来的,可以在循序渐进的过程中去学习。

python 有成千上万的库,它们都是围绕着一个大的目的或者一个小的功能进行开发的。在我们想实现一个什么功能之前可以先去pypi、github甚至是百度,去搜一下有没有相关的python库能够实现我们想要的功能,如果有的话直接用就可以了不要重复造工具。

我用的开发工具(也叫IDE,集成开发环境)Pycharm,我用的Python环境Anaconda。百度都能查到安装教程和环境配置(搜:Pycharm配置Anaconda环境)

一、requests

requests库是一个用来访问互联网链接的库。

OpenDota的数据就可以通过它获,通过requests库发送get请求到https://api.opendota.com/api/explorer

后面带一个sql参数,可以直接获取结构化(数据表)的数据。

二、pandas

一个数据处理的库,里面隐藏了大量的数据处理,数据变换,表关联,汇总统计,数据探索等等常用和不常用的工具。

pandas documentationpandas.pydata.org

实际上的功能跟excel差不多,为什么不用excel

第一,python的运算速度比excel快得多,虽然python语言效率并不比其他语言快,但是跟excel比还是有很大优势的,而且pandas为了提速底层使用C语言实现的。

第二,python本质上是一个脚本语言,只要搭建好了流程,可以直接从数据获取,数据处理,绘图,数据发布(邮件、微信、微博),一键式完成,而pandas就是其中的一个重要环节。

三、Matplotlib(静态图),Pyechart(动态图) 绘图库

matplotlibmatplotlib.org A Python Echarts Plotting Library built with love.pyecharts.org

这两个库一个能画静态图,一个能画可交互的动态图。

四、其他

列举处一些其他的库来应对不同的需要。

爬虫框架

爬虫可以自动在网页中提取信息,因此爬虫框架必有的功能就是访问网页,提取我们需要的信息,信息的保存。爬虫适合获取dotabuff,dotamax等数据网站中的数据。但是注意控制爬取速度,不要给相关网站造成过大的访问压力。

一个完整流行的爬虫框架是scrapy,这个框架包含了上述三个功能,但是学习成本较高。

A Fast and Powerful Scraping and Web Crawling Frameworkscrapy.org

BeautifulSoup是一个网页信息解析(提取)库,只能提供爬虫的数据提取功能。

We called him Tortoise because he taught us.www.crummy.com

python获取影响因子 如何用python获取文献_如何用python自动获取文献_03

关于数据的保存:根据要保存的数据类型需要不同的库

如果要保存为csv或者xlsx文件,直接用pandas就可以 DataFrame类有to_csv和to_excel函数,直接调用即可。

如果要存到mysql数据库,可以用pymysql库

如果要存到sqlserver数据库,可以用pymssql库

如果要存在SqlLite数据库,可以用SqlLite库

有这方面基础同学可能会问,为什么不用XXX库,目前我用到过这些,整体用起来感觉还是易用并且能够满足大部分需求的,当然,有相关有用的好东西也欢迎大家留言讨论。