爬虫前端

网页由三部分组成:结构structure、表现presentation、行为behavior。

结构:HTML、XHTML

数据:XML、JSON

表现:CSS

行为:ECMAScript(JavaScript)

HTML

严格来讲HTML不是编程语言,是一种网页信息的符号标记语言。是一套标记。

HTML可以实现的功能

1.       设置文本格式,例如标题、字号、文本颜色、段落等

2.       创建列表

3.       插入音频、图像等媒体

4.       建立表格

5.       超链接

常用标记

<html></html>,HTML文件最外层标签,标记此文件是一个HTML文件。

<head></head>,HTML头文件的标记,头文件用来包含文件的基本信息,比如网页的标题、关键字等,<head>内可以放<title></title>、<meta></meta>、<style></style>等标记,但是head包含的内容不会在浏览器中显示。

<tile></title>,HTML文件标题标记。网页的‘主题’,一般显示在浏览器窗口的左上方。

<body></body>,HTML文件的网页的主体部分,里面可以包含<p></p>、<h1></h1>等标记。

<meta></meta>,页面的元信息,必须放在head标签内,描述有关搜索引擎、更新频度的信息。

<br>,强制换行标记

<p>,段落标记。

<center>,居中标记。

<pre>,预格式化标记。保留预先编排好的格式,常用来定义计算机代码。

<li>,列表项目标记。

<ul>,无序列表标记。

<ol>,有序列表标记。可以显示特定的一些顺序。

<dl><dt><dd>,定义型列表。对列表条目进行简短说明。

<hr>,水平分割标记。可用作段落之间的分割线。

<div>,分区显示标记,也称为层标记。可以用来编排一大段HTML内容,也可以用于将表格式化。