一、企业搜索愿景
 
1、将人与其需要的信息专家快速连接起来
    每次搜索返回的都是有用信息
    与相关系统集成
    从一个位置搜索全部企业信息
    可扩展、可管理,并且是安全的
 
2、整个企业使用统一的一个搜索引擎
    可搜索从结构化到非结构化的数据
    每次搜索都得到确实相关的结构
    可以跨越企业中各种各样的内容类型
    可扩展并且可管控的部署
    作为企业服务的搜做
     wss与moss的搜索采用一致的系统
 
(1)WSSv3单一服务器场:
    WSS搜索系统在网站内进行搜索
    随网站数量的增加,系统尺度增大
(2)WSSv3/MOSS2007服务器场
    MOSS2007搜索系统在网站和门户上对聚合内容进行搜索
    搜索系统可对更多的网站和内容进行处理
 
3、相关性
(1)每次搜索的最佳结果都在第一页
(2)企业搜索与互联网搜索不同
    缺少丰富的链接
    许多Web内容,Office文档,LOB系统数据
    安全性需要考虑
    IT人员长官搜索服务
(3)改进的分级引擎
    与Microsoft Rearch 和MSN Internet搜索团队的合作
    为企业增加新的因素
        A、点击距离:与权威页面的浏览距离,越近相关性越高
        B、锚点文本:超链接作为其目标内容的注释
        C、URL深度:URL在继承关系中排的越高,相关度行越高
        D、URL匹配:直接匹配URL中的文本
        E、元数据抽取:自动从文档内容中抽取作者、标题等信息
        F、自动语言侦测:从结果中筛选用户需要的语言
        G、文件类型偏好:比如PPT可以比XLS文件相关性更高
        H、文本分析:传统的分级方式,词条匹配、词条出现频率,词的变化等等
 
二、广泛的内容聚合
1、搜索体验的提升
(1)搜索中心
(2)查询:新的查询语法;属性搜索
(3)搜索结果:高亮显示;最佳结果;自动定义;直接匹配
(4)提醒:搜索结果变化时得道通知;与WSS提醒机制集成
(5)自定制:样式或重用搜索控件;为自定义搜索创建新的标签
 
2、索引管理
(1)搜索管理的基础部分
    选择索引内容、方式和时间
    内容源、爬网规则、爬网日志
(2)流线式体验以及更多的控制
    每个ssp一个索引
    每个内容源可以有不同的起始地址
    全新的可浏览,可筛选索引日志
    清晰的SharePoitn内容源类型
    内容源与搜索范围分离
 
3、爬网架构
(1)爬网器基于URL的前缀决定对何种内容进行爬网
(2)加载如下内容:Protocol handler;iFilter(Index Filter);Site Path Rules;爬网设置(深度和跳转);站点点击频繁度规则
(3)与内容源链接
(4)流输出元数据与内容
 
4、架构更新
(1)基于定式任务的通知每天发送,提醒用户搜索结果的变化
(2)影子索引连续的从索引服务器向搜索服务器发送数据,当传输出问题之后,自动暂停,等待问题解决
(3)索引的重置会导致邮件提醒偶功能功能的关闭,管理员需手动启动
 
5、人员与专家
(1)将人员引入搜索体验中
(2)在sps2003基础上的改进:索引任意LDAP v3目录;为人员搜索定制的标签;将搜索结果以与用户的社会关系距离分组;结果可依据属性细分,比如部门
 (3)与只是网络结合的专家查找(knowledge组件)
 
6、共享搜索服务
(1)索引是很耗费资源的(索引要单独部署)
    网络负载、本地IO、CPU、对外部网站的负载
    要避免多余的索引
(2)Sharepoint Portal Server2003
    在“主”门户中统一索引
    特定配置有限制
(3)MOSS2007
    运行在共享服务商:所有的网站可以配置使用同意索引
    耗费资源的操作统一管理,但是每个分站点的搜索仍可以单独管理
 
三、部署与管理
1、DEMO 演示
(1)管理中心>服务器场拓扑结构>当前服务器:启动相关的搜索服务
    Office SharePoint Server搜索:MOSS2007强大的搜索引擎
    Windows SharePoint Services帮助搜索:在WSS级别对网站内部进行搜索
(2)管理中心>操作>共享服务管理>搜索设置:当前共享服务的搜索设置
     爬网设置
         默认本地SharePoint站点为内容源,刚装好后不会自动开启,需要手动启动,或在“编辑”中,对内容源的开始地址进行编辑,然后创建一个爬网计划,设定爬网的时间和频率。
        爬网规则:编辑URL,配置相关的爬网配置,并确定有关的用户权限
        关键文件类型:设置搜索时能够被搜索的文件的类型
        爬网日志:方便用户去查看爬网搜若的日志,有方便的筛选功能
        默认内容的访问账户:在默认情况下,搜索引擎去搜索的账户与sharepoint的指定账户的权限类似。建议不要使用管理员的权限,而是读者的权限。由此提高安全性
        服务器名称映射:搜索结果中某些服务器的url换成固定的url,防治从url上的攻击。
        基于搜索的通知:当重置索引之后,该功能会自动关闭,需要在本处手动开启
        删除搜索结果:当有一些内容已经被网站删除,而搜索还能看到时,可以在本处将相关的url删除,则用户不会再看到相关内容。本处填完之后,爬网规则中也会删除相关的url。如想取消相关的操作,不仅要在此处修改,还要在爬网规则中进行修改。
         范围:查看和设定爬网范围,包括网站和人员
         范围更新计划:使范围的定义划分有规律的更新计划
         权威页面:默认网站集页面为权威页面,可以继续制定其它的权威页面
(3)管理中心>操作>共享服务管理>搜索使用率报告:当前搜索查询的内容,后台以图表的方式进行展现,方便对搜索功能、索引、关键词等方面的改进。具体内容也可以导出EXCEL,可以在本地进行处理和分析
(4)网站设置>网站集管理>搜索设置:可对本网站集的搜索进行管理