Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫

原创

oxoxwork 2022-08-15 10:34:11 博主文章分类：python-flask ©著作权

文章标签 chrome linux python 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者oxoxwork的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、创建一个spyder.py文件

通过代码测试参数的传递

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_linux

二、根据不同参数调用不同方法

Pycharm传递参数：

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_linux_02

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_linux_03

运行脚本获取到被传递的参数：

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_chrome_04

所以可以根据参数的值，来执行不同的操作：

if __name__ == '__main__':
    l = len(sys.argv)
    if l == 1:
        s = """
        请输入参数
        参数说明：
        up_his 历史记录表
        up_hot 百度热搜
        up_det 每日详细表
        """
        print(s)
    else:
        order = sys.argv[1]
        if order == "up_his":
            update_history()
        elif order == "up_det":
            update_details()
        elif order == "up_hot":
            update_hotsearch()

三、部署定时爬虫

1.上传脚本：

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_linux_05

2.服务器上安装selenium

pip3 install requests
pip3 install selenium

3.Linux安装chrome

3.1 cenos 安装

sudo su root
yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

3.2 Ubuntu安装

一、选择安装位置

sudo mkdir /download_packages
cd /download_packages

二、下载
Chrome32位版本：

wget https://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb

Chrome64位版本：

wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

三、安装chrome

sudo dpkg -i google-chrome*
sudo apt-get -f install

安装过程中可以知道版本

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_python_06

4.下载chromedriver

http://npm.taobao.org/mirrors/chromedriver/

4.1下载对应版本

wget -N http://http://npm.taobao.org/mirrors/chromedriver/89.0.4389.23/chromedriver_linux64.zip

4.2解压并赋予权限

unzip chromedriver_linux64.zip

chmod +x chromedriver

4.3添加软链接

ln -s /usr/local/share/chromedriver /usr/local/bin/chromedriver
ln -s /usr/local/share/chromedriver /usr/bin/chromedriver

5.获取crontab

5.1 `crontab -l` 列出当前任务

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_python_07

5.2 `crontab -e` 编辑任务

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_chrome_08

格式:

*****   指令

5个星号分别代表 分、时、日、月、周

30 * * * * python3 /home/hbq/Cov/spyder.py up_his >> /home/hbq/Cov/log_his 2>&1 &
3 */2 * * * python3 /home/hbq/Cov/spyder.py up_hot >> /home/hbq/Cov/log_hot 2>&1 &
*/5 * * * * python3 /home/hbq/Cov/spyder.py up_det >> /home/hbq/Cov/log_det 2>&1 &

最后可以看到抓取到的文件的log信息：

在这里插入图片描述

Python Flask定时调度疫情大数据爬取全栈项目实战使用-20Linux下部署定时爬虫_chrome_09

上一篇：Python flask实战订餐系统微信小程序-29登录/版本号/访问记录/错误处理记录功能添加及优化

下一篇：人工智能与深度学习入门实战-01win10 gpu版本 tensorflow的安装

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯