passwall配置 passwall 服务器端

转载

laojean 2024-07-05 07:37:44

文章标签 python 爬虫大数据 nginx 文章分类 架构后端开发

本文针对scrapy爬虫在调试完成后，怎样部署到linux服务器，以及使用scrapyd-client上传的相关配置做简单总结

1.概括：

服务端 : nginx+htpasswd （配置访问端口及密码）>>> screen（窗口切换工具，用于将前台守护进程类软件变成后台守护型）+scrapyd（服务端执行scrapy爬虫的相关进程）

客户端：安装scrapyd-client 配置爬虫目录下的scrapy.cfg 文件，使用crontable 和curl 两个工具进行定时访问指定url启动爬虫（此操作亦可在服务端配置）

2. 服务器软件安装和配置（centos）：

nginx、htpasswd、screen 都是普通软件使用"yum install <软件名> "方式安装
scrapyd 是Python软件需要使用"pip/pip3 install scrapyd"方式安装
找到nginx 的配置文件我的在:/usr/local/nginx/conf/nginx.conf 里面按照例子修改（HTTP下可有多个server）

     server {
             listen 6801; 端口号
             location / { 默认位置
                 proxy_pass    http://127.0.0.1:6800/;转发地址这里基本不用改
                 auth_basic    "Restricted"; 提示文字
                 auth_basic_user_file    /etc/nginx/conf.d/.htpasswd; 密码文件位置
             }}

在密码文件位置上使用命令 htpasswd -c <文件名> <用户名> 进行创建密码文件操作（会有交互式提示输入密码两次）
然后使用命令 nginx启动nginx
使用命令 screen 进入到screen环境中，
再使用命令 scrapyd 命令启动scrapyd 这样你就可以在任何地方使用访问http://你的ip:6801 按照提示输入用户名密码访问你的scrapyd的网页统计了（后面client也会使用密码链接这个地址）
最后使用组合键 ctrl+a d三个键退出screen 这时候你就可以安心退出SSH链接了。

3. 客户端:

先使用 pip/pip3 install scrapyd-client 安装上传scrapy项目用的工具
然后找到项目的scrapy.cfg文件，修改如下

[deploy]修改为[deploy:xx_project]样式，这个xx_project就是你本地项目的名字
在这个标签下修改对应值到刚才你设置的值

url = http://你的ip:6801
username = 用户名
password = 密码
project = 项目名（不是上面的值，scrapy startproject时候的名字默认就行）

使用命令"scrapyd-deploy <xx_project> -p <服务器端项目名字>" 将项目上传到远端服务器上如果成功远端会返回
Server response (200):
{"node_name": "VM-0-5-centos", "status": "ok", "project": "<服务器端项目名字>", "version": "1609213087", "spiders": 4}
如果错误会返回错误原因
4. 调启远端爬虫

可以使用命令:
" curl http://用户名:密码@<远端ip>:6801/schedule.json -d project=<服务器端项目名字> -d spider=<需要启动爬虫的名字> "
来激活爬虫，同时可以在
http://远端IP:6801 网址里的jobs里面看到你正在运行的项目还可以看到其ID

5.停止爬取
" curl http://用户名:密码@<远端ip>:6801/cancel.json -d project=<服务器端项目名字> -d job=<上一步返回或者在监控页面看到的ID>"

6.定时爬取:
使用命令 “crontab -e”来编辑linux内置的定时器模块，将上面 3. 的命令复制到对应的命令位置即可
详情请自己搜索crontab用法简单而且功能很多建议学习
在服务端可以用 127.0.0.1 代替公网网址

PS：操作心得
1.服务端
     那个密码的软件确实叫那个奇怪的名字
     screen或者其他进程管理软件都可以，screen相对简单可以上网找相关介绍几分钟就可以了解
     scrapyd 在启动后报错，尤其是一些自己定义的类找不到，可能是因为路径问题，我将import xx 改成from .xx import xx这种形式就可以正常导入了
2. 客户端
     读写外部文件时候最好使用绝对路径（服务器的路径），不然用相对路径可能会出现找不到相关文件或者无法创建的问题。
     crontab 和curl 这两个命令都可以在服务端操作，在服务端操作时候可以用127.0.0.1代替外网ip，而且不用用户名密码
3. 不用密码保护的
     如果是Demo不想设置Nginx和密码的话，想直接访问IP的6800来调用服务的话，可以不装nginx和htpasswd 在 /usr/local/lib/python3.6/site-packages/scrapyd/default_scrapyd.conf
（根据自己Python环境找一下）文件下的 bindip 修改为0.0.0.0 因为有重大安全隐患（可以被上传任意spider执行任意Python脚本），墙裂建议只用于演示和内网安全环境下