三件事 使Web 成为可能: 编码文件的HTML, HTTP传说他们,并确定他们的URL。

从wen页面提起信息, 你必须知道 所有3个–你构建一个URL 页面你希望获取的,

发出HTTP 请求和 解码HTTP 响应,然后解析 提取HTML的信息。

本章包括的URL结构和HTTP背后的概念。HTML解析是很困难的,都有自己的章后,就可以让你操纵URL模块。

你还将学习实现自动化的最资本的网络任务 LWP::Simple 模块。 正如它的名字所暗示的一样,

这个模块有一个非常简单的接口。你将会学习到这个接口的局限.

2.1. URLs

统一资源定位器(网址)是网络上的东西的地址。例如:

http://www.oreilly.com/news/bikeweek_day1.html

在这个例子中, scheme is http, the server is www.oreilly.com, and the path is /news/bikeweek_day1.html.

This is an FTP URL:

ftp://ftp.is.co.za/rfc/rfc1808.txt

schme 是ftp, host是ftp.is.co.za path是 /rfc/rfc1808.txt。

scheme 和hostname是不区分大小写的, 但是顺下的是

ftp://ftp.is.co.za/rfc/rfc1808.txt and fTp://ftp.Is.cO.ZA/rfc/rfc1808.txt are the same

ftp://ftp.is.co.za/rfc/rfc1808.txt and ftp://ftp.is.co.za/rfc/RFC1808.txt are not

唯一允许在URL路径的字符 是US-ASCII characters A到Z, a到z 0-9
这些允许的标点符号:
  • _ . ! ~ * ’ ,
@ & + $ ( ) /

对于一个查询组件,同样的规则保存,除了唯一的标点字符是这些:

  • _ . ! ~ * ’ ( )

任何其他符号必须是URL编码的,即,