爬行深度之类的我没加,加上也容易,几句话的事情。直接代码描述吧。我C写得多一些,所以perl代码的风格不怎么perl。
#d:\perl\bin\perl.exe -w
use warnings;
转载
2012-03-17 22:56:00
119阅读
2评论
jrhmpt01:/root/lwp# cat data.html 首页上一页111212/12 首页上一页111212/12 jrhmpt01:/root/lwp# cat c1.pl use ...
转载
2016-04-02 08:08:00
84阅读
2评论
jrhmpt01:/root/lwp# cat data.html 首页上一页111212/12 首页上一页111212/12 jrhmpt01:/root/lwp# cat c1.pl use ...
转载
2016-04-02 08:08:00
51阅读
2评论
jrhmpt01:/root/lwp# cat data.html 首页 上一页 11 12 12/12 首页 上一页 11 12 12/12 ...
转载
2016-04-02 08:09:00
146阅读
2评论
HTTP::Tiny是Perl的一个轻量级HTTP客户端,适合简单的请求,但不像LWP那样功能全面,不过对于基本需求应该足够了。
首先,我需要熟悉HTTP::Tiny的基本用法。比如如何发起GET请求,设置user-agent,处理响应。用户可能还需要处理异常,比如连接错误或者超时。另外,可能需要设置超时时间,避免脚本卡住。用户代理的设置也很重要,有些网站会阻止默认的User-Agent。
使用 Perl 和 WWW::Curl 库编写爬虫程序是一个常见的做法。WWW::Curl 是 Perl 对 libcurl 库的封装,提供了强大的 HTTP 请求功能,可以帮助你抓取网页内容。
Perl 虽然不像 Python 那样是当今爬虫领域的绝对主流,但它凭借其独特的优势,在特定场景下与爬虫结合能碰撞出非常惊艳的火花,尤其是在文本处理、快速原型、系统集成和遗留系统维护方面。
Perl的LWP::UserAgent库是一个用于发送HTTP请求的Perl模块。它可以用于编写Web爬虫、测试Web应用程序、自动化Web操作等。以下是一个简单的使用LWP::UserAgent库发送HTTP GET请求的Perl脚本的例子:
原创
2023-11-14 13:56:41
58阅读
一、system perl也可以用system调用shell的命令,它和awk的system一样,返回值也是它调用的命令的退出状态. [root@AX3sp2 ~]# cat aa.pl #! /usr/bin/perl -w $file = "wt.pl"; system("ls -l wt.pl ...
转载
2021-07-16 10:05:00
1360阅读
2评论
今天学习了perl的哈希 哈希符号%%#!/usr/bin/perl perl头,如果不能运行则需要换成 #!/usr/bin/perl -wmy %ss = ('a' => 1,'b' => 2,'c' => 3,'d' => 4); 哈希数a对应1、b对应2、c对应3、d对应4 也可写成my %ss = ('a',1,'b',2,'c',3,'d',4);
原创
2014-01-20 19:50:47
1082阅读
my @ss = ("a","b","c","d");print $ss[1] 显示为aprint @ss[1,3] 显示为a c@ss的标量为4if (@ss < 5){command}else{command}if($date == $today){command;}elseif($date == $christmas){command;}else{command;}prin
原创
2014-01-20 19:52:01
661阅读
[oracle@jhoa 2]$ cat a2.pl foreach $key (keys %main::) {print "\$$key => $main::{$key}\n";}[oracle@jhoa 2]...
转载
2014-12-25 21:02:00
194阅读
2评论
1,一个相当常见的全局替换是缩减空白,也就是将任何连续的空白转换成单一空格:
s/\s+ //g;
2,将开头的空白替换成空字符串
s /^\s+//;
3,讲结尾的空白替换成空字符串
s /\s+$//
4,去除开头和结尾的空白符
s/^\s+|\s+$//g
原创
2013-02-20 16:00:07
636阅读
AAA
原创
2015-03-06 16:47:21
648阅读
perl 常用法
常用正则表达式
匹配中文字符的正则表达式: [\u4e00-\u9fa5]
评注:匹配中文还真是个头疼的事,有了这个表达式就好办了
匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
匹配空
转载
2024-04-20 10:19:18
208阅读
问题:具体的操作步骤,是windows环境下的,要求说明具体点,具体的操作步骤和运行命令?解答:首先确定你已经装好了PERL。Windows的话,应该是用Active PERL吧。其次,看你想怎么运行。如果你是用记事本或者UltraEdit 32这样的编辑器写的程序,应该需要在命令行运行。在Win XP下,从开始菜单选择运行,输入cmd,回车,进入命令行界面。然后更改目录到你要运行的程序所在的文件
转载
2023-07-03 16:02:20
198阅读
$_ 俗称perl的老地方,当你的程序中未告知使用哪个参数或者变量时,perl就会自动使用$_中的值,比如for(1..10){
print ;
}这里print没有指定参数,所以它就会使用$_,那$_里面是什么呢?每次循环$_的值都会变化,所以$_实际上就是1 .. 10这10个值,所以上面的代码打印的结果就是12345678910$!当且仅当某个函数调用失败
转载
2023-06-08 17:02:54
114阅读
过滤重复字符[plain] view plaincopy
1. perl -e '$_=<STDIN>; @in = split; if (@in < 100){ @out = grep {! $hash{$_}++ } @in; print join "\n", @out;}'
统计全文单词数 (同awk '{for (i=1;i<=NF;i++){a[$i]++
转载
2024-05-19 20:29:28
78阅读
\s+(?\d+(?:\.\d+)?)\s+1、命名分组格式为(?),反向引用时用/k2、命名分组的匹配的结果存在在变量%+变量中,取命名分组值,$+{grp name}.3、反向引用也可以用/g1,/g{1},...
转载
2017-01-10 20:28:00
301阅读
2评论
Another good feature of Perl is RE, PerlRE.
In Perl, RE usually means patten, a match (or unmatch) of some characters template.
The patten can divide any characters into two parts: match and unmatch
原创
2012-11-15 21:03:45
1038阅读