凡事都有个源头,从RPA机器人——>python——>爬虫——>自动化,一步步的前进,都源于公司的一个需求:实现自动找到电脑存储的号码excel文件,将excel里边的号码按靓号规则按进行归类,写入新得excel文件里。当时的这个需求,公司请了RPA的厂家来开发,当然,项目最后没能完成,很可惜,没能看到这个项目落地。但,这却是我的一个开始,有一个专门负责项目的大佬,和我们共处一个工作环境和用餐,这期间和他探讨了许多,也让我见识到了新得领域:RPA( Robotic Process Automation 机器人流程自动化软件),是一种新型的人工智能的虚拟流程自动化机器人。经过几年的发展,RPA已经广泛应用于各个需要流程自动化的领域,特别是在财税自动化领域。
以上,我的RPA机器人学习史正式开始,对于未知的技术领域,RPA机器人酷炫的功能,令我十分着迷,以至于在后来的一个星期里,沉迷于之中,不能自拔,因此,也结下了一位非常非常好的朋友:UiBot (学习社区链接,有兴趣的小伙伴可以自己去学习哦):
作为学习,我用的还是开源版,并没有用收费版,大家根据需要去做选择吧,当然初学还是以开源为主。先介绍下自己用此工具实现的一些小demo(项目):
- 高阳数据自动导入
- 系统使用量自动统计
- 经纬度校验
- 号卡库位修改
- OA通讯录信息抓取
随着需求的复杂,工具自带的功能已不足以满足我的需求,好在此工具允许使用python、php等语言进行接口开发和使用;为了实现需求,经过考虑,筛选,我选择了使用python进行开发,随着学习的的深入,我发现python不仅轻巧,语言简洁,语法简单,最重要的是,uiBot的功能都可通过python来实现;基于此,我把系统使用量统计的模块用python脚本重构,实现了脚本查询多个数据库数据,爬取网页上不同系统的数据,写入excel文件中。
在不断完善系统使用量统计模块的过程中,我也主键接触了爬虫的概念,我的网页抓取就是通过requests包来实现的,但此版本我所实现的自动抓取数据有个致命的缺点,那就是对于一些需要登录后才能抓取的数据,我需要手动复制网页的cookie放到脚本中的headers头部中,每次运行都要走这一步,十分的麻烦!
经过不断地研究,在网上找到了使用selenuim + requests实现自动登录爬取数据;同时也找到了此方法的升级版requestium = selenuim + requests;提升了爬取的效率。另外,仅仅使用这些模块是不够的,还需要结合爬虫框架(pyspider),才能更高效实现数据抓取,pyspider还提供了定时执行任务,这样就能实现定期自动执行任务,逐步由手工处理任务转为自动化处理任务,解放了双手,让我们有更多时间做自己喜欢的事情!