<ul class="panel_body">
<li>
<a href="/zhaoyangjian724/article/category/1756569" οnclick="_gaq.push(['_trackEvent','function', 'onclick', 'blog_articles_wenzhangfenlei']); ">
Oracle dump解析</a>
<span>(20)</span>
</li>
<li>
<a href="/zhaoyangjian724/article/category/1756685" οnclick="_gaq.push(['_trackEvent','function', 'onclick', 'blog_articles_wenzhangfenlei']); ">
sql 查询优化
</a>
<span>(159)</span>
</li>
##获取博客分类的URL,根据a标签查找
@Links = $tree->find_by_tag_name('a');
#print Dumper(@Links)."\n";
foreach (@Links) {
$href = $_->{'href'};
print "\$href is $href\n";
#print $_->attr("text")."\n";
###获取博客每个类别的url
####@href 表示所有分类的url
};
my @type=$tree->findvalues( '/html/body//ul[@class="panel_body"]/li/a');
print @type;
node2:/root/pachong#perl scan.pl
$href is /zhaoyangjian724/article/category/1756569
$href is /zhaoyangjian724/article/category/1756685
Oracle dump解析sql 查询优化node2:/root/pachong#
怎么使用最麻烦的一点在于这个XPath的语法.下面是简单的语法介绍.
XPATH的简单语法介绍
XPATH 基本上是一种类似目录树的方法来描述在XML文档中的路径,比如用"/"来作为上下层间的分割
第一个"/"表示文档的根节点(注意,不是指文档最外层的tag节点,而是指文档本身).
比如对于一个HTML文件来说,最外层的节点应该是"/html".
@type=$tree->findvalues( '/html/body//ul[@class="panel_body"]/li/a');
取出body 里的class=panel_body的ul节点下的li/a节点
用“/html/body/div[@id='main']”,即可取出body里id为main的div节点。
perl HTML::TreeBuilder::XPath 说明
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
whisper安装说明
whisper模型安装说明
cmd命令 安装文档 whisper -
使用xPath读取html文件
读取一个html文件中的联系人的所有信息html文件:personList.html
html java List