Python 请求下载如何获取下载链接

转载

mob6454cc6e1f98 2024-07-19 11:45:49

最近在写一个网络爬虫的代码，提供命令行来下载文件或者是打印根域名下指定节点及深度的子节点。用的是urllib2库，算是比较简单，但是功能并没有很强大。

说重点吧，在实际爬网页的过程中，一般的过程是一次调用下面的三个函数：

所得到链接的内容就是保存在html中，然后便可以进行解析了。

但是在实际的爬虫中，我们所遇到的url不只是有html文件的，还有那些下载文件的链接，而对于这些链接对于爬取整个网络的框架是没有帮助的，不应当对其调用read函数获取内容。所以就需要对url所链接文件的类型进行判断从而过滤掉非html类型的链接。

对于文件类型的判断，是通过http header头部的Content Type项的内容来进行判断的。对于html类型Content Type的内容为“text/html”，其他的可见网址：。判断的代码如下：

如果是”text/html”类型的，则使用read函数，然后进行解析，否则进行下一个url的解析。

说重点吧，在实际爬网页的过程中，一般的过程是一次调用下面的三个函数：

所得到链接的内容就是保存在html中，然后便可以进行解析了。

如果是”text/html”类型的，则使用read函数，然后进行解析，否则进行下一个url的解析。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Python 请求下载 如何获取下载链接