利用selenium库爬虫确实是利器,虽然效率稍微低一些,但是可以抓取动态加载的网页数据呀。但是对于Mac终端运行+sublime写代码这个配置的同学来说,怎么完成库的安装和配置倒是非常容易出问题。现在就简单介绍下。
1.安装selenium库,这个很简单,在终端里输入如下代码即可
python3:pip3 install selenium
python2:pip install selenium
2.下载对应浏览器的驱动,以下以Google浏览器为例(Chromedriver)
下载网址:http://chromedriver.storage.googleapis.com/index.html
注意:需要下载与自己的谷歌浏览器对应的版本的驱动,不然会有问题
查看自己的浏览器版本的路径:找自己最接近的即可,很有可能没有完全一模一样的,但保证前三部分的数字一样也能运行成功。自己的谷歌浏览器版本可以在设置-关于Google Chrome里查看。
3.下载之后解压,将Chromedriver放到usr/local/bin文件夹下。(Mac的这个bin目录,是一个已经包含在环境变量里的目录,程序放在里面或者链接到里面就可以在终端里直接执行。不然运行的时候Python找不到浏览器驱动就会报错)
不过这个文件夹默认不对用户可见,可以用【command+shift+G】快捷键来调出搜索文件夹(需要再打开「访达」的前提下按,也就是文件夹需要在最前台。)
然后输入usr/local/bin来找到对应的文件夹,然后将文件移入其中即可。
但是如果搜索usr/local/bin发现找不到这个文件夹,那有可能就是你的电脑目前真的没有这个文件夹,可以自己新建bin文件(搜usr/local应该大家都会有这个文件目录的)
新建方法:不能直接自己新建或用mv命令移入,因为权限不够。
可直接执行:输入密码后就可以创建成功啦。
sudo mkdir -p -m 775 /usr/local/bin
4)运行下面的代码测试即可。tips:url里一定记得加上https://这个开头,不然会报错selenium.common.exceptions.InvalidArgumentException: Message: invalid argume
from selenium import webdriver
driver= webdriver.Chrome()
url = 'https://www.baidu.com'
driver.get(url)
能看到自动打开的浏览器就说明成功啦