1.计算机检索原理
计算机一方面接受用户的检索提问,一方面从数据库中读取文献记录,然后把两者进行比较,即检索提问标识与文献记录标识进行匹配运算,如果比较的结果一致,那么这篇文献就会作为命中文献在检索结果中显示,否则就是未命中文献。
2.文献数据库的结构
(1)文献数据库(Database):作为以某种方式将众多的文献信息存贮在计算机存贮设备上(如磁盘、光盘等)的数据结合,由于往往包含数以万计的文献记录,为便于选择检索,常被划分为若干个文档。如dialog联机检索的MEDLINE数据库被划分为若干个回溯文档(MED66、MED75、MED80、MED85、MED90)和现期文档 MED93.
(2)文档(File):是数据库一部分记录的集合,是由按一定方式排列的文献记录构成。
(3)记录(Record):是构成文献数据库的基本信息单元,每条记录描述一种(篇)文献的外表和内容特征,如文献篇名、作者、主题等。
(4)字段(Field):是构成记录中的数据项,如文献的篇名、作者、主题词等,分别成为篇名字段、作者字段、主题词字段等。字段可作为一个检索入口,所以又称之为可检字段。
3.计算机检索功能
3.1布尔逻辑检索功能
(Booleans)
布尔逻辑组配检索是现行计算机检索的基本技术,它利用布尔逻辑组配符表示两个检索词之间的逻辑关系,常用的组配符有:“ AND ”(和)、“ OR ”(或)、“ NOT ”(非)三种,其优先级依次为“ NOT ”、“ AND
”和“ OR
”;改变优先级的方法是使用括号“(
)”,括号内的逻辑式优先执行。为缩短检索式和醒目起见, Dialog 检索系统中“ AND ”、“ OR
”、“ NOT
”算符可分别用“ *
”、“+
”、“ – ”代替。
逻辑与: 逻辑与也称逻辑乘,用关系词“ and
”或“ * ”表示。
A and B (或 A*B
)表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息,见下图,阴影部分即为命中信息。使用“逻辑与”组配技术,将会缩小检索范围,增强检索的专指性,能够提高检索信息的查准率。
逻辑或: 逻辑或也称逻辑和,用关系词“ or
”或“ + ” 表示。
A or B (或 A+B
)表示两个概念的并列关系,记录中只要含有任何一个概念就算命中信息,即凡单独含有概念 A 或单独含有概念 B 或者同时含有 A 、 B
两个概念的信息均为命中信息,可用下图表示,阴影部分为命中信息。使用“逻辑或”组配技术,可扩大检索范围,能够提高检索信息的查全率。在检索中,可对与检索概念有关的同义词、近义词、相关词等用逻辑或来连接,以避免漏检。
逻辑非:
逻辑非也称逻辑差,用关系词“ not
”或“-” 表示。 A not B (或 A - B
)表示两个概念的排除关系,指记录中含有概念 A
而不含概念 B
的记录为命中信息,可用下图表示,阴影部分为命中信息。使用“逻辑非”组配技术,则剔除了不需要的概念,可提高检索信息的查准率,但这种方式也会排除掉相关信息,影响检索信息的查全率。
复合检索: 使用布尔逻辑组配检索词构成的检索式,逻辑算符 AND 、 OR
、 NOT
的运算次序在不同的检索系统中有不同的规定,往往在检索系统的“帮助”菜单中会有说明。布尔算符的优先执行顺序一般是:逻辑非、逻辑与、逻辑或,但用括号可以规定或改变其执行顺序,如下图所示,三个概念的信息集合中,阴影部分是逻辑表达式(
A and B )not C
的命中信息。三个逻辑算符和括号的配合使用,可将检索词组配成较为复杂的逻辑提问式,以满足复杂概念信息检索的需要。
3.2词位限定检索功能
(Proximity)
该技术主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。布尔算符检索时,只对检索词进行逻辑组配,未限定检索词之间的位置及检索词在记录中的位置关系。在某些情况下,若不限制检索词之间的位置关系则会造成误检,影响查准率。例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control
biological)的文献也查出来,这显然不是所需文献。因此,在大部分检索系统中设置了位置限定运算符号以确定检索词之间的位置关系,常用的相邻位置算符有(W)、(nW)、(N)、(nN),句子位置算符(S),字段算符(F)、(L)等。但在不同的检索系统所采用的位置运算符是不一样的,功能也有差异,使用时应具体对待。 下表为 Dialog 联机检索系统供的词位限定算符及相应功能
算符
用法
表示的检索含义
W
A(nW)B
A 、B 两词相隔 n 个单词且前后次序不变; n=0 时格式为 A()B 或 A(W)B
N
A(nN)B
A 、B 两词相隔 n 个单词且前后次序不限; n=0 时,格式为 A(N)B
L
A(L)B
A 、B 两词在同一主题词字段中,
A 为主题词, B 为其副主题词
S
A(S)B
A 、B
两词在同一子字段中,即同一语句或同一短语中,词序不限
F
A(F)B
A 、B 两词在同一字段中,字段不限,词序不限
3.3截词检索功能
(Wildcard)
在英语等西方语言中,常常有词语单、复数表示形式不同,英美拼写方式不同,词根相同、含义相近而词尾形式不同等情况,为使检索时不遗漏相关词,提高检索效率,一般信息检索系统都发展了截词技术,利用截词符来屏蔽未输入的字符。截词符根据检索系统的不同而不同,常用截词符有“?”、“ *
”、“ $
”、“!”等,截断方式也有后截、中截、前截等。
截词检索的方式有多种,按截词位置可分为前截词、后截词、前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断。 前截词:
也称左截词或后方一致。截词符位于词干的前边,允许检索词的前端有若干变化形式,如 ?computer 可检索 computer 、 minicomputer 、 microcomputer 等结果。 后截词:
也称右截词或前方一致。截词符位于词干的后边,允许检索词尾部有若干变化。
如computer?可检索
computer 、 computers 、 computerize 、 computerized 、 computerization 等结果。 前后截词:
词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如 ?computer?可检索 computer 、 computers 、 computerize 、 computerized 、 computerization 、 minicomputer 、 minicomputers 、 microcomputer 、 microcomputers 等结果。 中间截词: 也称“通用字符检索法”,截词符作为通用字符位于检索词的中间,而词的前后方一致,凡前后方一致的词,都能检出,通常用在英美对某些词的不同拼写法。如:
defen*e 可同时检出
defence 和 defense 的结果。
截词检索技术能提高检索的查全率。不同数据库使用的截词符号也不同,如 DIALOG 系统用“?”,
BRS 系统用“ $”, ORBIT
系统用“ #
”等。网络信息检索工具中绝大多数都支持截词功能,有的是自动截词,有的是在一定条件下才能截词。在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比校罕见。
3.4短语检索功能(Phrase)
也称精确检索功能,常用“”表示。当把一个短语作为一个整体进行检索时,在短语的两端加上双引号。
如“gene express” 只能检出
gene
express的结果,而不会检出express
human gene、gene
constructs to express等结果。
3.5限定字段检索功能
(Field)
文献数据库的每条记录通常都由多个代表不同信息内容的字段组成,几乎所有机检系统中均设置了字段限定检索的功能,以满足用户特定检索某一字段信息的要求。限定字段检索即指定检索词在记录中出现的字段,检索时,计算机只对限定字段进行匹配运算,以提高检索效率和查准率。不同数据库和不同种类文献记录中所包含的字段数目不尽相同,字段名称也有区别。在一些网络数据库中,字段名称通常放置在下拉菜单中,用户可根据需要选择不同的检索字段进行检索。数据库中常见的字段和代码见下表。
基本字段
辅助字段
字段名称
英文全称
缩写
字段名称
英文全称
缩写
题目
Title
TI
记录号
Document Number
DN
文摘
Abstract
AB
作者
Author
AU
叙词
Descriptor
DE
作者单位
Corporate Source
CS
标题词
Identifier
ID
期刊名称
Journal
JN
出版年份
Publishing Year
PY
出版国
Country
CO
文献类型
Document Type
DT
文献性质
Treatment Code
TR
语种
Language
LA