|
我们日常生活中经常会用到搜索引擎,用户提交查询,搜索引擎返回查询列表,看似平常不过,实则不简单。本系列博文将介绍WEB搜索引擎原理及基本构成。一般WEB搜索引擎包括“网络爬虫”、“预处理模块”、“查询服务模块”等主要模块。“网络爬虫”从英特网中抓取网页作为原始网页库保存在搜索引擎服务器,这也是我们在百度等搜索引擎上经常看到的“网页快照”。根据爬虫抓取的原始网页库,“预处理模块”经过“网页分词器”、“分词器”、“索引器”提取网页关键字,剔除广告等信息,建立关键词语网页的索引关系。“查询服务模块”主要服务于用户。首先,用户浏览器输入查询词P(假设),分词器将查询词P根据一定的语义分隔成等小词组或短语组合,再以这些词组匹配数据库的索引词得出查询结果,更进一步,返回给用户的网页结果根据查询条件相关度排名(Page Rank)得到网页排名。综上为WEB搜索引擎的全部工作过程,后续文章将具体介绍每个模块的具体工作过程。 |
|