当您指定网站上应该或不应该抓取的网址时,或在建立基于网址的集合时,网址应符合下列有效格式。 有关详情,请参阅在 Search Appliance 文档网站上发布的 Constructing URL Patterns(构建网址格式)(仅提供英语版本)。

1.任一包含主机/路径分隔斜线的网址子字符串

http://www.google.cn/

www.google.cn 上使用 HTTP 协议的任意网页。

www.google.cn

www.google.cn上使用任意支持协议的网页。

google.cn/

google.cn 域内的任意网页。

2.字符串任一后缀。您可以利用 $ 在字符串结尾指定后缀。

home.html$

以 home.html 结尾的所有网页。

.pdf$

扩展名为 .pdf 的所有页。

3.字符串的前缀。 您可以通过在字符串开头加上 ^ 来指定前缀。前缀可以和后缀组合使用,以获得更精确的字符串匹配。例如,^candy cane$ 与字符串“candy cane”完全匹配。

^http://

使用 HTTP 协议的任一网页。

^https://

使用 HTTPS 协议的任一网页。

^http://www.google.com/page.html$

仅指定网页。

4.网址的任意子字符串。 利用前缀“contains”指定这些格式。

contains:coffee

包含“coffee”的任一网址。

contains:beans

包含“beans”的任一网址。

5.以 -(减号)符号标记的例外。

candy.com/
-www.candy.com/

表示“www.chocolate.candy.com”是匹配项,但“www.candy.com”不是。

6. GNU 正则表达式库中的正则表达式。在设备中,正则表达式:

(1) 区分大小写(除非您指定“regexpIgnoreCase:”)

(2) 将保留字符添加到正则表达式中时,应使用两个转义字符(反斜杠“\\”)。请注意: regexp: 和 regexpCase: 等同。

regexp:-sid=[0-9A-Z]+/regexp:http://www\\.example\\.google\\.cn/.*/images/

regexpCase:http://www\\.example\\.google\\.cn/.*/images/

regexpIgnoreCase:http://www\\.Example\\.Google\\.cn/.*/IMAGES/

请参阅 GNU 正则表达式库

7.评论

#这是注释

允许使用以 # 开始的空行和注释。 这些注释会从网址格式中删除并被忽略。