三件事 使Web 成为可能: 编码文件的HTML, HTTP传说他们,并确定他们的URL。
从wen页面提起信息, 你必须知道 所有3个–你构建一个URL 页面你希望获取的,
发出HTTP 请求和 解码HTTP 响应,然后解析 提取HTML的信息。
本章包括的URL结构和HTTP背后的概念。HTML解析是很困难的,都有自己的章后,就可以让你操纵URL模块。
你还将学习实现自动化的最资本的网络任务 LWP::Simple 模块。 正如它的名字所暗示的一样,
这个模块有一个非常简单的接口。你将会学习到这个接口的局限.
2.1. URLs
统一资源定位器(网址)是网络上的东西的地址。例如:
http://www.oreilly.com/news/bikeweek_day1.html
在这个例子中, scheme is http, the server is www.oreilly.com, and the path is /news/bikeweek_day1.html.
This is an FTP URL:
ftp://ftp.is.co.za/rfc/rfc1808.txt
schme 是ftp, host是ftp.is.co.za path是 /rfc/rfc1808.txt。
scheme 和hostname是不区分大小写的, 但是顺下的是
ftp://ftp.is.co.za/rfc/rfc1808.txt and fTp://ftp.Is.cO.ZA/rfc/rfc1808.txt are the same
ftp://ftp.is.co.za/rfc/rfc1808.txt and ftp://ftp.is.co.za/rfc/RFC1808.txt are not
- 唯一允许在URL路径的字符 是US-ASCII characters A到Z, a到z 0-9
- 这些允许的标点符号:
- _ . ! ~ * ’ ,
对于一个查询组件,同样的规则保存,除了唯一的标点字符是这些:
- _ . ! ~ * ’ ( )
任何其他符号必须是URL编码的,即,