python怎么调取a标签下的href python提取href

转载

colddawn 2024-02-24 19:42:29

文章标签 python怎么调取a标签下的href 爬虫 URL python html 文章分类 Python 后端开发

实验室任务详细：写一个python脚本,脚本后面跟上一个url的网址页面。
要求：正则匹配爬虫的方式，匹配该url网页中的html的href标签中的url，显示这些url，一行一个。

首先明确什么是 href：
定义和用法

<a> 标签的 href 属性用于指定超链接目标的 URL。
href 属性的值可以是任何有效文档的相对或绝对 URL，包括片段标识符。如果用户选择了 <a> 标签中的内容，那么浏览器会尝试检索并显示 href 属性指定的 URL 所表示的文档
提示和注释
注意：<a> 标签中必须提供 href 属性或 name 属性。

语法

<a href="value">
属性值
值 描述
URL 超链接的 URL。可能的值：绝对 URL - 指向另一个站点（比如 href="http://www.example.com/index.htm"）相对 URL - 指向站点内的某个文件（href="index.htm"）锚 URL - 指向页面中的锚（href="#top"）

获取超链接之间内容

通常在使用正则表达式时，需要分析网页链接，获取URL或网页内容。核心代码如下：
        res = r'<a .*?>(.*?)</a>'
        urls=re.findall(r"<a.*?href=.*?<\/a>", content, re.I|re.S|re.M)
        re.I 忽略大小写

re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释

例子：

# coding=utf-8
import re
 
content = '''
<td>
<a href="https://www.baidu.com/articles/zj.html" title="浙江省">浙江省主题介绍</a>
<a href="https://www.baidu.com//articles/gz.html" title="贵州省">贵州省主题介绍</a>
</td>
'''
 
#获取<a href></a>之间的内容
print u'获取链接文本内容:'
res = r'<a .*?>(.*?)</a>'
mm =  re.findall(res, content, re.S|re.M)
for value in mm:
    print value
 
#获取所有<a href></a>链接所有内容
print u'\n获取完整链接内容:'
urls=re.findall(r"<a.*?href=.*?<\/a>", content, re.I|re.S|re.M)
for i in urls:
    print i
 
#获取<a href></a>中的URL
print u'\n获取链接中URL:'
res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
link = re.findall(res_url ,  content, re.I|re.S|re.M)
for url in link:
    print url

输出如下图所示：

>>> 
获取链接文本内容:
浙江省主题介绍
贵州省主题介绍
 
获取完整链接内容:
<a href="https://www.baidu.com/articles/zj.html" title="浙江省">浙江省主题介绍</a>
<a href="https://www.baidu.com//articles/gz.html" title="贵州省">贵州省主题介绍</a>
 
获取链接中URL:
https://www.baidu.com/articles/zj.html
https://www.baidu.com//articles/gz.html
>>>

python正则表达式（菜鸟教程）
http://www.runoob.com/python/python-reg-expressions.html

Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。
re 模块使 Python 语言拥有全部的正则表达式功能。

最终成果：

# coding=utf-8
import re
#导入正则模块
import urllib
#导入URL模块
url = "http://www.baidu.com/"
#可变更URL
content = urllib.urlopen(url).read()
#打开，并读入链接内容

print u'\n获取链接中URL:'
# 获取<a href></a>中的URL
res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
#正则匹配URL
links = re.findall(res_url, content, re.I | re.S | re.M)
#用数组盛放爬取的链接，findall函数返回的总是正则表达式在字符串中所有匹配结果的列表
#re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法）
#re.M(re.MULTILINE): 多行模式，改变'^'和'$'的行为
#re.S(re.DOTALL): 点任意匹配模式，改变'.'的行为

for url in links:
    print url
#打印links数组中的每一个URL

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。