1. 基本步骤在我们了解标签嵌套在网页和网页的构成,我们可以开始学习使用第三方库BeautifulSoup在python中过滤出我们想要的数据在web页面。接下来,让我们看看抓取网络信息的步骤。有三个步骤,得到我们需要的数据。第一步:使用BeautifulSoup解析网页汤= BeautifulSoup (html, lxml的)。第二步:描述你想爬的地方的信息。信息=(? ? ?)知道什么是它的名字,如何找到它。第三步:获取您想要的信息的标签从标签获取我们需要的信息,删除一些无用的结构,并安装一个数据容器中我们得到的信息在一个特定的格式,以便我们查询。第二,两种路径采集方法的详细解释下,我们首先进行第一步,如何使用BeautifulSoup解析网页汤= BeautifulSoup (html, lxml)事实上,我们需要一个web页面文件和一个解析查询库构建解析文件。

今天我们需要讨论BeautifulSoup,告诉它元素的特定位置,我们可以指定信息我们要爬行。找到相应的元素并单击右键查看,看到的代码信息元素并单击右键,我们有两个办法的具体描述标签的位置:1。使用选择器2副本。使用XPath副本有什么区别这两个复制路径,接下来,让我们看一下右键单击标签复制路径复制的选择器。右键单击标签的路径复制副本XPath \/ html \/身体\/ div [4] \/ div [2] \/ div \/ div [2] \/ div[14] \/描述法这两种不同的路径,使用复制拷贝的路径选择器被称为CSS选择器,和路径复制使用XPath调用XPath副本。这两条路径的描述可以用于未来的研究,但我们今天要学习的BeautifulSoup只承认第一个,CSS选择器。

学习后,CSS选择器将更好地理解,一些图书馆在未来我们需要学习也需要使用。去XPath来描述一些元素的位置。XPath和XPath1。XPath是什么?XPath使用路径表达式在XML文档中导航和解析XML元素跟踪的路径。路径表达式xpath路径表达式是传入的参数,xpath使用路径表达式来定位节点(或多个节点)的XML文档。路径表达式类似于这样的:\/ html \/身体\/ div [4] \/ div [2] \/ div \/ div [2] \/ div[14] \/或\/ html \/身体\/ div [@class =\u201C内容\u201D],[@class =\u201C内容\u201D)在第二个路径来定位一个标签在多个相同的标签。

下面我们通过这个结构图可以理解一下。为了更清楚地了解每个节点之间的关系,我们可以理解更直观地通过以下图片。html是父节点相对于下面的节点的父节点,下面的身体和头部是子节点相对于html div标签是后代节点相对于html标签。身体是相当于div标签的子节点,和div标签是同级节点。基本结构和水平是这样的。CSS Selector1。CSS选择器是什么?Css选择器定位实际上是品牌定位的HTML Css选择器。顾名思义,CSS选择器是一种基于风格的选择标记。css选择器选择器路径表达式的路径,第一个路径是身体,不像XPath,第一个路径是html。让我们看一下刚才的路径。在这个路径,添加一个.body-wrapper后第一个div。

这种选择方法选择根据风格。如果XPath选择的路径根据:谁,,数量,然后选择CSS选择器根据:谁,在哪里,数字,和它是什么样子。第三,使用python代码来抓取网页信息通过刚才在我们的团队理解各种元素的路径后的网页,我们可以简单地使用python的BeautifulSoup图书馆实现网页信息抓取代码级别。不多废话,只是上传代码。打开本地网页的方法是使用一个新的html文件pycharm复制源代码。如果你使用内置的记事本,你需要改变格式保存到utf - 8。这一点,简单的网页信息抓取就完成了。我们得到产品图片在网页上的地址和网页的分类标签通过这个字符串的代码。这一次只有简单的信息抓取