爬虫前端
网页由三部分组成:结构structure、表现presentation、行为behavior。
结构:HTML、XHTML
数据:XML、JSON
表现:CSS
行为:ECMAScript(JavaScript)
HTML
严格来讲HTML不是编程语言,是一种网页信息的符号标记语言。是一套标记。
HTML可以实现的功能
1. 设置文本格式,例如标题、字号、文本颜色、段落等
2. 创建列表
3. 插入音频、图像等媒体
4. 建立表格
5. 超链接
常用标记
<html></html>,HTML文件最外层标签,标记此文件是一个HTML文件。
<head></head>,HTML头文件的标记,头文件用来包含文件的基本信息,比如网页的标题、关键字等,<head>内可以放<title></title>、<meta></meta>、<style></style>等标记,但是head包含的内容不会在浏览器中显示。
<tile></title>,HTML文件标题标记。网页的‘主题’,一般显示在浏览器窗口的左上方。
<body></body>,HTML文件的网页的主体部分,里面可以包含<p></p>、<h1></h1>等标记。
<meta></meta>,页面的元信息,必须放在head标签内,描述有关搜索引擎、更新频度的信息。
<br>,强制换行标记
<p>,段落标记。
<center>,居中标记。
<pre>,预格式化标记。保留预先编排好的格式,常用来定义计算机代码。
<li>,列表项目标记。
<ul>,无序列表标记。
<ol>,有序列表标记。可以显示特定的一些顺序。
<dl><dt><dd>,定义型列表。对列表条目进行简短说明。
<hr>,水平分割标记。可用作段落之间的分割线。
<div>,分区显示标记,也称为层标记。可以用来编排一大段HTML内容,也可以用于将表格式化。