|
在人类即将跨入二十一世纪时候,正在由工业社会向信息社会过渡,并由此产
生一种新的经济形态--知识经济。这是人类自农业革命、工业革命以来进行的第三 次产业革命,其基本特征是信息的数字化和网络化、经济的全球化。信息化给各国的
社会发展带来了新的机遇和挑战,并将对未来的社会发展产生深远的影响。信息是无 形的财富,它是大至一个国家,小至一个企业,甚至个人的战略资源,这种观点已成
为许多有识之士的共识。所以利用已有的信息资源变得十分重要,找到需要的信息就
成为必须学会的技术,搜索引擎就是获取信息的有效手段之一。
因特网与信息爆炸
近几年因特网(Internet)特别是其上的Web网(WorldWideWeb万维网)的迅猛发
展使信息的采集、传播、利用不论从规模和速度上都达到了空前的水平,实现了全球 的信息共享。它已成为全球最大的信息资源基地,是人类技术与文明的巨大财富。它
的内容非常广泛,几乎包括了商业、信息资讯、工农业生产、科技教育、娱乐休闲、 文化艺术等人类活动的各个方面,可以说包罗万象,是几乎取之不尽用之不竭的信息
库。在国内外通过因特网购物、在线股市、在线教育、远程医疗、点播电影、网络会 议、网络展览都已成为现实。但与之俱来的问题是:大量的信息有时使人无所适从,
从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。这种 现象被称为"信息爆炸"或"信息过剩"。所以,人们需要一种工
具,使信息资源得到有效的利用,以因特网上的信息为主要处理对象,即根据不同的 需求来检索出有用的信息,网络搜索引擎(Search
Engine)应运而生。本文简要介 绍关于搜索引擎的工作机理、搜索技巧和国内外著名的搜索引擎的特点和使用方法。
搜索引擎的分类和工作机理
搜索引擎是因特网上的一类网站,这类网站与一般的网站不同的是,其主要工作
是自动搜寻Web服务器的信息,将信息进行分类、建立索引,然后把索引的内容存放 到数据库中。搜索引擎分为两类,一类是分类目录型的检索,它将因特网上的信息资
源,如网址、描述主题、字顺或时间顺序汇总整理,形成图书馆目录一样的分类树型 结构目录,用户通过逐级浏览这些目录来找寻自己需要的网址或相关内容;另一类是
基于关键词的检索,这种方式用户可以用逻辑组合方式输入各种关键词 (Keyword),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据
一定的顺序(如字母排列、时间、相关级别等)反馈给用户包含此关键字词信息的所 有网址和指向这些网址的链接。需指出,在Web网检索工具出现初期,上述两种方法
的界限明显,如最著名的分类目录检索工具yahoo!,起初就没有关键词检索功能;同
样关键词检索工具AltaVista开始也没有建立分类目录。目前的发展趋势是两种方法
合二而一。
由于因特网每时每刻都在增加新的内容,用人工方式收集网址几乎不可能。为了
及时反映信息源的情况,人们开发出一种称为机器人(Robot)或蜘蛛(Spider)的程
序,负责访问网络上的各个站点,收集有关信息,生成有关信息,如生成关键词、建
立索引,并且自动生成有关信息资源的简单描述,据此更新源地址数据库。 搜索引擎的评价标准
目前因特网上中西文搜索引擎有几十种,它们各有其特点。这里归纳出评价一个
搜索引擎的标准为以下几点:
1.具有全文搜索功能 目前搜索引擎的一个发展方向是全文搜索(FullTextSearch)引擎,它是采用对
站点页面文字内容进行全面检索。全文检索技术的出现,导致了信息检索领域的一场 革命;比起目录检索,全文检索提供了全新的、强大的检索功能,可以直接根据文献
资料的内容进行检索,支持多角度、多侧面地综合利用信息资源。全文检索技术是发 现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。以全文
检索为核心技术的搜索引擎已经成为网络时代的主流技术之一。但全文搜索虽然多而 全,但其没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁乱的感觉。全
面、准确和快速是衡量全文检索系统的关键指标。最典型的全文搜索引擎站点为
www.altavista.digital.com和www.excite.com。国内功能较为完整、提供中文全文
搜索的站点为www.4u4me4us.com和www.netnease.net等。
2.具有目录式分类结构(Directory) 世界上最具代表性的目录式分类搜索引擎是Yahoo网站。分类搜索引擎的是将信
息系统地分门归类,用户可方便地查到某一大类信息,与符合传统的信息查找方式相 近,特别适合希望了解某一方面信息并不严格限于查询关键字的用户。但目录式搜索
引擎的搜索范围,较全文搜索引擎要小许多。它只是将该网站划分到某个分类下,并
记录一些摘要信息等概述性的介绍。
3.在分类中实现全文检索 由于纯粹的全文式和目录式的搜索引擎都存在各自的不足,人们自然想到将上述
两种搜索引擎的优点结合起来,扬各自的长,避各自的短。实际上目前优秀的搜索引
擎都是采用这种方式。
4.查询速度快、性能稳定可靠,可维护性好 查询速度当然是搜索引擎的重要指标。另外,系统稳定可靠,完整的容错、备
份、崩溃修复机制也是重要的因素。 中文搜索引擎简介 随着华人世界加盟因特网的广度和深度的加大,中文信息也越来越丰富。中文搜
索引擎的发展也引世人瞩目。这里介绍几个主要的中文搜索引擎,挂一漏万是不可避
免的。 ?北极星搜索引擎www.beijixing.com.cn
1.搜狐:http://www.sohu.com 搜狐站点全部采用人工分类,分为搜狐新闻、免费资源、企业集粹、搜狐社区、
搜狐多媒体、搜狐三维空间、搜狐体育、外国参考大全等十余个栏目,是国内较有影
响的中文搜索引擎。
2.雅虎(Yahoo!):http://gbchinese.yahoo.com 它是著名的搜索引擎Yahoo!的中文站点,不论是国标码的简体字、大五码的繁体
字的信息都可在这里查询到。使用的方法是:如果你清楚地知道你查询的主题,可在
检索栏内键入相关主题的关键字;或者按照其分级目录一级一级地查询。
3.若比邻:http://www.robot.com.cn 它是中国互联网信息中心(CNNIC)设计的。有三部分导航系统组成:中国上网
单位导航、站点导航和网页导航。
4."悠游":http://www.goyoyo.com.cn 它不仅仅是一个中文搜索引擎,还包含关于中文信息处理的功能,提供自动构造
式的概念类型(ConceptSearch)查询。它的查询方式有:分类查询、概念查询、精
确查询和网址查询。它还有一个特点是自动转换繁体、简体汉字。
5."天网":http://www.pku.edu.cn:8000/gbindex.htm 这是由北大计算机系开发的搜索引擎,是中国教育和科研计算机网的示范项目。
其特点为收集的网页较多,查询速度快。它采用了中文分词技术,对能分出词的查询
字串的查准率较高。它的查询界面分为简单查询和复杂查询两种方式。 由于篇幅关系,下面列出主要中文搜索引擎的网址: 东方网景导航:http://www.east.cn.net/search 华好网景导航:http://www.chinaok.com 瑞得站点导航:http://www.rol.cn.net/station/index.htm 四通利方中文检索:http://www.richsurf.com 网现引擎:http://www.search.com.cn 网易中文搜索http://www.yeah.net Cseekhttp://www.cseek.com "我是野虎":http://www.5415.com "指南针":http://www.yippee.com.cn "搜索客":http://www.cseek.com "北极星":http://www.beijixing.com.cn "常青藤":http://www.tonghua.com.cn "中经网搜索"http://www.infonavi.gov.cn 广州视窗:http://www.gznet.com
英文搜索引擎网址 下面列出几个英文搜索引擎的网址,供大家参考。 1.AltaVista(http://www.altavista.com) 2.Excite(http://www.excite.com) 3.Webcrawler(http://www.webcrawler.com) 4.Lycos(http://www.lycos.com) 5.Opentext(http://www.opentxt.com) 6.Infoseek(http://www.infoseek.com) 7.Yahoo!(http://www.yahoo.com) 8.HotBot(http://www.hotbot.com) 9.http://www.searchenginewatch.com 10.Magellan(http://www.magellan.com)
需指出,searchenginewatch和Magellan实际上不是搜索引擎,而是一个在线的
因特网指南,包含了被分级和评价过的站点的目录,也有很多没评价站点的索引。
网上查询技巧
在Web上有许多有价值的信息,实际上对搜索引擎来讲,内容是否足够多并非最
重要的,重要的是使用户能够找到有用的信息。今天的搜索引擎不仅迅速准确而有清 晰的组织结构同时提供多项有助于用户快速缩小包围圈的搜索功能。但仍需要通过不
断的实践来积累经验,使用户在大量的信息中筛选需要的信息成为可能,如果你对网 上搜索不熟悉,可以到上述站点去看一看。在此可以了解搜索引擎是如何工作的,以
及如何使用搜索引擎,你还可以找到有关搜索引擎的历史、新闻、综述等,甚至还有
一些搜索引擎的游戏。
我们常常遇到检索的结果常常是过于庞大,有用信息只是其中的一小部分。那
么,查询过程中是否有捷径呢?一般地,查询带来垃圾是不可避免的,但你可以在一
定程度上减少它。
首先,你要熟悉经常使用的查询工具及其特性。另外要认识到不同的查询方式会
产生不同的结果。不同目的的查询应使用不同的查询策略,这主要取决于你是想得到 一个问题的多方面信息还是简单的答案。有时,你需要得到一个广泛论题的大致信
息,对于这类查询,没有简单的一蹴而就的方法,你需要从头开始查询,积累信息, 不断深化查询,缩小搜索范围。有时候看上去简单的问题并不一定是容易查找的问
题。在这类问题上,建议尽可能的多试一些关键字,这需要耐心。
对实时新闻报道的查询也需要技巧。搜索引擎的设计结构决定了它能在因特网的
各个角落里查找信息,但却不能得心应手地跟踪网络信息的实时变化。幸运的是当查 找对时间敏感的信息时我们还是有几个办法可选的。因为几乎所有的搜索引擎都有新
闻页或新闻频道。这些新闻页包括一些电子文章和一些来自不同渠道的摘要。
不同的搜索引擎指令可能是不同的,只有熟悉了它的机理才可以起到事半功倍的
效果。统计表明,很多用户只输入一个词来进行查询,这往往带来很多不需要的匹 配。建议同时使用多个词来缩小搜索范围,如果你最初的查找并不成功,可以用同义
词来进行查找。 |