python3爬虫算法 python爬虫302

转载

mob6454cc6dac54 2023-06-20 10:56:23

文章标签 python3爬虫算法数据 Code 重定向 文章分类 Python 后端开发

　　淘宝那次抓包，居然发现不了要抓的url位置，三星中。。。

　　不过不怕，不就是没法快点分析出包嘛，下次用phantomJS硬杠，或者有时间慢慢分析也好。

　　打开后台代码一看，山口山

python3爬虫算法 python爬虫302_数据

　　一堆<p style="display:none;">直接影响分析数据。

　　有个运用无头浏览器的爬虫使用了图像分析法，不过老夫真心认为这玩意还是不要随便用比较好，就像一些简单的网站不要用phantomJS一样

　　稍微分析ip那里的代码就可以找到解的（避免查水表不发布源代码）去除html标签，连着里面的元素去除什么的，用regex还是比较简单的

　　结果想再爬这个网页时，出现了302重定向

　　这里，直接ban掉重定向没有多大用，关键是识别到状态再根据情况重新请求。

　　从stackoverflow一哥们那里搞来了这段代码：

python3爬虫算法 python爬虫302_python3爬虫算法_02

python3爬虫算法 python爬虫302_Code_03

self.log("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))
        if response.status in (302,) and 'Location' in response.headers:
            self.log("(parse_page) Location header: %r" % response.headers['Location'])
            yield Request(response.headers['Location'],callback=self.parse,meta=self.meta)

View Code

　　这段代码判定返回状态，并根据情况决定要不要重传。（这里应该有urljoin的，不知为何我安装的scrapy没有）

　　结果是yield后面的代码没有运行就退出了。

　　还是一样去stackoverflow求助，结果有人告诉我，ban了filter。

　　dont_filter这个参数开始是为了防止程序死循环设计的，然鹅在这个框架就成了问题，它不能yield第二层request

　　初始化request时，dont_filter=true，程序就会不管3721把请求提交，然后数据就返回了

　　幸好这里的302不会一直302，只要cookies对上了，返回的就是200和网页代码，不会出现栈溢出

python3爬虫算法 python爬虫302_python3爬虫算法_02

python3爬虫算法 python爬虫302_Code_03

self.log("(parse_page) response: status=%d, URL=%s" % (response.status, response.url))
        if response.status in (302,) and 'Location' in response.headers:
            self.log("(parse_page) Location header: %r" % response.headers['Location'])
            yield Request(response.headers['Location'],callback=self.parse,meta=self.meta,dont_filter=True)

View Code

　　后来仔细看源码。。。特码这个教程只解决了display:none和302的问题，实际的数据还是有毒。。。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。