今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改。

一,如何快速建表

若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。

1.字段类型

①主键字段

②名称

③标题

④数字(-20亿~20亿)

⑤长整型数字

⑥时间值

⑦地址

⑧小文本(小于64k)

⑨大型文本

(>>字段参数)

2.表单模板

在表单模板中选择已经建好的表单,可以在表单中添加、删除、修改字段。




mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



【快速创建表单】

二,如何自由建表

1.概念解释

表单:规定了数据表都有哪些“列”,也就是都有哪些字段。数据存储结构类似的采集任务,可以共用同一个表单。一个表单可以创建多个数据表。

字段:在数据库中,表单的“列”称为“字段”,每个字段存储某一项的信息。

2.创建表单和字段

在表单列表点击“添加”按钮,创建一个新的表单。点击表单配置右侧的“添加”按钮,即弹出添加字段的窗口。


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_03


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02




mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_数据_05


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02


【添加字段】

字段具体参数的设置方法,详见下节(>>字段参数)

3.字段修改

在数据建表的表单配置右侧,可以对表单进行一系列操作。


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_07


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



添加字段


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_09


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



修改字段


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_11


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



字段排名上移


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_13


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



字段排名下移


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_数据_15


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



删除字段


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_17


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



保存数据表

三,字段参数

1.字段名称

字段名称由英文字符、数字、下划线、$构成,且不能以数字开头。

①不支持中文。

②区分大小写。

③不能是SQL语句关键字:如select、time等。

2.字段属性

大部分情况无需选择字段属性。

一般数据表都需要一个主键字段,作为唯一ID记录。主键字段需要勾选“主键字段”,勾选后自动会选上“索引字段”和“键值唯一”。


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_表单_19


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



3.采集内容

指该字段需要从网页上获取的数据内容。

当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。(>>自动取值字段)

当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_表单_21


mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02



示例:

(1)选区内全部文本:

  • 百度

,采集全部标签下的内容。

(2)选区最外层节点文本:

  • 百度

,只选取

  • 节点,不采集
  • 和内容。(3)选区最外两层节点文本:
  • 百度
  • ,只采集
  • 的内容,不采集的内容。
  • (4)网页内文字文本:采集整个页面中所有可见的文字文本。

    4.数据类型

    数据类型如下表所示:

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_表单_23

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02

    5.字符串长度

    只有变量类型是字符串时需要填写长度。字符串长度有两种情况:

    (1)短文本

    文本长度不大时,可以填写字符串长度,字符串可填写的最大长度为255。字段长度尽量不要设置的偏小,防止有超出长度的数据无法存入数据库。

    (2)大文本

    文本较大时,无需填写字符串长度。

    ①长文本:适用于新闻、正文等小于64K的文本。

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_表单_25

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02

    【设置长文本】

    也可以通过选择变长字段的方式,在数据库中两种方式效果相同。

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_表单_27

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02

    【设置变长字段】

    ②超长文本:适用于论文等长文。

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_数据_29

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02

    【设置超长文本】

    6.字段描述

    在“字段描述”文本框里,用户可以为字段填写描述性的注释内容。

    四,数据表的创建、关联与删除

    表单只是定义了都有哪些字段,想要实现数据的存储,需要对表单创建对应的数据表。(软件默认连接了ForeLib数据库,可更改。)

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_数据_31

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02

    【关联数据表】

    1. 创建数据表

    选择表单,在表单的左下方点击“创建”,输入数据表名称(仅限英文),完成数据表的创建。

    2. 关联数据表

    勾选前面的多选框,即已关联数据表。取消勾选,解除关联。

    采集数据时,数据存入勾选的数据表。

    3. 删除数据表

    可以删除已创建的数据表。

    4. 反建表单

    反建表单会根据数据库中,已存在的数据表创建爬虫表单。

    五,表单变更后的配置修改

    表单建好后,如果已经配置了模板中的字段,甚至已经建立了数据表,则修改表单,需要进行下列操作。

    1.影响字段节点取值的情况

    如果字段名称、字段数量和采集内容更改,需要到对应任务的字段节点,修改字段和采集内容。修改方式有两种:

    (1)重置表单

    重新选择表单名称后,这里的表单将被重置,所有的字段取值配置(包括字段处理脚本)也被清空,需要逐一重新配置字段取值。

    (2)添加删除字段

    当表单做了修改字段名称、添加删除字段的操作后,可以不必重置表单,在模板列表对应的数据抽取节点,通过右键添加删除字段,将两边的字段名称和数量保持一致即可。

    这里的添加删除操作只针对该数据抽取,不会改动表单。

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_数据_31

  • mysql 自带小海豚工具导入备份数据库 小海豚数据库怎样建表_字段_02

    【添加数据字段】

    ①添加字段

    在模板列表对应的数据抽取节点,点击右键,选择“添加数据字段”,可以新建字段。

    ②删除字段

    在某字段上点击右键,可以删除该字段。

    ③修改采集内容

    通过字段节点向导中的下拉菜单,修改采集内容与表单中的一致即可。

    2.已创建数据表

    当数据表已经建好后,修改表单会影响采集,原数据表不能适应新的表单结构。在上述修改字段的基础上,还需要删除原数据表,再重新创建一个新的数据表。