搜索引擎原理(二)

操作方法

  • 01

    早在 Web     出现之前,互联网上就已经存在许多旨在让人们共享的信息资源   。那些资源当时主要存在于各种允许匿名访问的FTP 站点(anonymous   ftp), 内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材 料的编码通常是PostScript 或者纯文本(那时还没有HTML)。      为了便于人们在分散的FTP 资源中找到所需的东西,1990 年加拿大麦吉尔大 学(University of McGill )计算机学院的师生开发了一个软件,Archie。它通过定 期搜集并分析FTP 系统中存在的文件名信息,提供查找分布在各个FTP 主机中文 件的服务。Archie 能在只知道文件名的前提下,为用户找到这个文件所在的FTP 服务器的地址。Archie 实际上是一个大型的数据库,再加上与这个大型数据库相 关联的一套检索方法。该数据库中包括大量可通过FTP 下载的文件资源的有关信 息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽 管所提供服务的信息资源对象(非HTML 文件)和本书所讨论搜索引擎的信息资 源对象(HTML 网页)不一样,但基本工作方式是相同的(自动搜集分布在广域 网上的信息,建立索引,提供检索服务),因此人们公认 Archie  为现代搜索引擎 的鼻祖。      值得一提的是,即使是在 10 多年后的今天,以FTP  文件为对象的信息检索 服务技术依然在发展,尤其是在用户使用界面上充分采用了Web 风格。北大天网 文件检索系统就是一个例子(见http://bingle.pku.edu.cn )。不过鉴于本书写作定位 的关系,后面将主要讨论网页搜索引擎的相关问题。      以Web  网页为对象的搜索引擎和以FTP  文件为对象的检索系统一个基本的 不同点在于搜集信息的过程。前者是利用 HTML  文档之间的链接关系,在 Web 上一个网页、一个网页的“爬取”(crawl),将那些网页“抓”(fetch)到本地后 进行分析;后者则是根据已有的关于FTP 站点地址的知识(例如得到了一个站点 地址列表),对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下 载到系统上来。因此,如何在 Web 上“爬取”,就是搜索引擎要解决的一个基本 问题。在这方面,1993 年Matthew Gray 开发了World Wide Web Wanderer,它是 世界上第一个利用HTML 网页之间的链接关系来监测Web 发展规模的“机器人”  (robot )程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能 够通过它检索网站域名。鉴于其在Web 上沿超链“爬行”的工作方式,这种程序 有时也称为“蜘蛛”(spider)。因此,在文献中crawler, spider, robot 一般都指的是 相同的事物,即在Web 上依照网页之间的超链关系一个个抓取网页的程序,通常 也称为“搜集”。在搜索引擎系统中,也称为网页搜集子系统。      现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey 工作的基础上对 它的蜘蛛程序做了改进。1994 年7 月,Michael Mauldin 将John Leavitt 的蜘蛛程 序接入到其索引程序中,创建了大家现在熟知的 Lycos,成为第一个现代意义的 搜索引擎。在那之后,随着Web 上信息的爆炸性增长,搜索引擎的应用价值也越 来越高,不断有更新、更强的搜索引擎系统推出(下一节会有介绍)。

(0)

相关推荐

  • 搜索引擎原理(五)

    操作方法 01 的形式就是q 在其中直接出现.不过后面我们会看到,如果一个搜索引擎就是以 百分之百满足这种简单的包含关系为目标,即使实现了也并不就达到了最好的效 果. "列表",这 ...

  • 百中搜优化软件怎么样?百中搜优化软件使用教程(附视频教程)

    百中搜优化软件怎么使用呢?百中搜优化软件是一款可以实现关键词优化.提升百度排名.相关搜索.下拉框,百中搜优化软件是一款专业的百度排名优化软件.效果显著,软件主要通过代理IP来模拟用户真实访问轨迹,达到 ...

  • 黄金分割点比例怎么用

    "黄金分割"是一种由古希腊人发明的几何学公式,遵循这一规则的构图形式被认为是"和谐"的,在欣赏一件形象作品时这一规则的意义在于提供了一条被合理分割的几何线段,对 ...

  • 《最终幻想7核心危机》如何打造HP999%魔石

    <最终幻想7核心危机>打造HP999%魔石: 原理一:魔石合成中,母本魔石只能从父本魔石中继承一半的能力. 原理二:魔石合成中,我们可以利用ブリザド+对应药品增加父本魔石的能力. 材料 0 ...

  • 网页静态化有利于网站优化SEO

    操作方法 01 静态页面是能让客户在最短的时间内打开他所想要的页面,这是现代的快节奏社会中所需要的,什么都要讲究速度,那么静态页面就恰好符合了这一优越的条件.也是越来越多人喜欢它的原因,快! 静态网站 ...

  • 微信付款二维码被骗怎么追回 微信付款扫二维码行骗原理

    微信付款二维码被骗了怎么办,如何追回呢?最近有新闻报道最新微信行骗手段,通过诱骗受害者提供微信微信付款二维码来多次使用小额免密支付的功能骗取钱财,大家一定要谨记:不要将微信付款二维码发送给别人! 是怎 ...

  • 百度搜索引擎蜘蛛的工作原理解析

    运营网站,就要推广,推广怎么推?我们前面已经谈论过,如果没看过的同学可以看一下济南网站建设-济南网站建设公司-济南腾飞网络前面写的一篇文章<企业网站如何推广自己的网站>.这里我们就不多说了 ...

  • 搜索引擎的工作原理

    搜索引擎(Search Engine)是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.搜索引擎包括全文索 ...

  • 搜索引擎工作原理

    搜索引擎工作原理分为三个阶段:1:爬行和抓取:搜索引擎蜘蛛通过跟踪访问页面,获得html代码存入数据库.2:预处理:索引程序对抓取来的页面数据进行文字提取·中文分词·索引等处理.以备排名程序调用.注: ...