首页 |站点导航 | 细胞生物学 | 分子生物学 | 神经科学 | 生物信息学 | 生物芯片 | 生物技术 | 检索与期刊 |
|
发展中的搜索引擎模式
译自searchenginewatch
引言
著名的搜索引擎服务商Altavista最近推出了一个全新的搜索引擎Raging Search,其纯净的搜索界面和高度相关的搜索结果,令人赏心悦目、如沐春风,被业内人士评论为"Altavista重振其完全搜索指南形象的杀手锏"。Raging Search诠释了一种"唯美的、唯搜索至上"的搜索引擎模式,同时预示着基于不同理念、技术、用户和商务模式的搜索引擎正在兴起。
综合门户搜索引擎模式
长期以来Yahoo!已经成为搜索引擎的代名词,Yahoo!模式更是人们亦步亦趋追随的流行时尚。Yahoo!类搜索引擎的最大特点是无休止地横向扩张,服务内容从目录搜索到综合信息门户,服务范围从一个地域到有着不同语言文化背景的几十个地域,把人工分类的网站目录数据库与机器人自动生成的关键词数据库相互融合,试图涵盖所有的网络资源。但是,随着网络向纵深方向的拓展,人们对信息的需求更加广泛和深入,这种由大众化信息、免费服务和个性化特性建成的围墙有点"山雨欲来风满楼"的感觉了。从近期Yahoo!的改版,我们不难发现一种趋势,即开始逐步向客户需求驱动下的定制服务发展。新的Yahoo!将所有相关类目集中显示在一个"Inside
Yahoo!"区域内,下?quot;类目"、"最常用网站"和"完全网站列表"三部分内容,减轻了用户层层寻找信息的负担,并帮助用户有效定位于一些重要的网站。虽然有人预测"品牌和门户将不再重要",但是一定时期内Yahoo!、AOL(http://www.aol.com)、Lycos(http://www.lycos.com)网络门户的"三剑客"仍将风光依旧。最新发布的NPD搜索引擎用户调查报告也表明,Yahoo!、Altavista(http://www.altavista.com)、Excite(http://www.excite.com)等仍然是最受用户推崇的搜索引擎。
纯净搜索的搜索引擎模式
搜索引擎的发展很像一个高速旋转的陀螺,扩张、扩张再扩张,最终绕了一个大大的圈子之后又回到了起点,重新开始诠释纯净搜索的真谛。有调查分析指出,造成用户对搜索引擎不满的一个重要原因是,过多的附加信息大大加剧了用户的信息负担,因为大多数用户选择访问搜索引擎的惟一目的就是寻找网络资源,而不是天气、股票、购物等。纯净的搜索引擎摆脱了门户信息和广告的束缚,把提供优质的网络搜索服务作为其生存的手段,是真正专注于搜索的搜索引擎。Raging
Search是继Google之后的又一个纯净式搜索引擎,据说它是专门为那些"搜索网虫"定做的搜索引擎。Raging
Search依靠传统Altavista庞大的数据库资源(约3.5亿个页面),大胆尝试,引进不同的搜索理念、技术和机制,不仅使搜索速度提高了近20%,而且搜索质量更是令人瞠目结舌。专家预它计将带走Altavista核心用户群15%~20%的流量。Raging
Search的外在特点还包括:具有丰富的用户定制匦裕缦允炯锹嫉氖俊⑾允靖袷剑ㄍ耆汀⒔羲跣停⒊扇四谌莨撕陀镅陨柚玫龋患焖鹘峁蛏现幌允疽桓鐾局幸桓鲆趁娴哪谌荩没Э裳≡窠徊讲榭锤猛镜钠渌谌莸取W苤琑aging
Search是Altavista公司为今年在Nasdaq上市抛出的又一重量级砝码。另外, Fast(http://www.alltheweb.com)也是这一模式中特别值得关注的搜索引擎,因为Fast是业界公认的"巨灵神","巨"在其数据库规模已成为搜索引擎之最,而且仍在迅速扩大,"灵"在其独特的并行搜索机制,使搜索速度达到每分钟3亿文件的水平。"巨"与"灵"的完美结合使Fast脱颖而出,成为人们对付高难度搜索课题的必备工具。除了以上两者外,纯净搜索引擎还有Google、GoTo.com、Ixquick等。
基于链接评价体系的搜索引擎模式
Google一词来源于"googol",表示一个非常巨大的数字概念,隐喻着要穷尽所有Web资源的壮志豪情。Google独创的"链接评价体系"是基于这样一种认识:一个网页的重要性取决于它被其他网页链接的数量,特别是一些已经被认定是"重要"的网页的链接数量。每一个链接都是一张价值不等的"选票",所获选票的总价值将决定谁是这场比赛的优胜者,谁将被安置在最重要、最显赫的位置上。事实证明,这一技术是非常有效的,尤其是网络资源的膨胀必然产生更多的链接,从而为Google评价文件重要性提供了更多的证据。有业内人士评论其"集中了所有Web的智慧,从而使人们找回了失去已久的对搜索引擎的忠诚"。目前,这一技术已被广泛应用于Altavista、Excite、Fast、NorthernLight等著名搜索引擎中。除此之外,Google
还提供了许多"玲珑剔透"的特性:"I'm feeling
lucky"(我很幸运),类似Windows的快捷方式,对于一些常用信息资源(如公司名称),可以在第一时段内将最确切的信息展现在用户面前;"Show
Matches",将系统缓存的大量原始页面内容呈现在用户面前,不仅大大提高了搜索速度,而且可以作为系统紧急状态的备份资源使用,并帮助用户查找那些曾经有过的Web内容。对于那些时限要求不是很高的搜索来说,往往有事半功倍的效果;搜索结果中的PageRank指数,以数字的形式直观地显示出网页的重要性,而且可以用点击查看其具体被引用的情况,保证了充分的透明度;可以产生包括检索词的自动摘要等。Google以强大的技术为后盾,不断扩大服务内容,最近新推出的项目有:引进Open
Dirctory目录数据库,开发了具有Google特性的目录搜索服务功能;可自动识别接入设备并实现协议转换的WAP搜索服务等。总之,Google正是"满园春色关不住,一枝红杏出墙来"。
基于访问大众性的搜索引擎模式
Direct Hit与Google同是第二代搜索引擎模式的典型代表。Direct
Hit的基本理念是,在Internet上由多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的搜索要求。通俗地讲就是看谁的人气最旺,因此具有典型的趋众性特点。这种由网络大众集体确认网站重要性的方法,具有一定的客观性和公正性,实际效果令人满意,包括HotBot、Lycos等在内的搜索引擎都引进了这一技术。随着网络向纵深发展,Direct
Hit模式将广泛用于针对某个网站与某个关键词之间的相关度分析,帮助企业建立自己的"相关度代理服务?quot;,像Go2Net已经开始着手把该技术融入企业的服务体系中。目前,Direct
Hit已经被著名的搜索引擎Ask
Jeeves高价收购,通过强强联合和资源整合,该体系模式将得到进一步的完善和广泛推广。采用类似趋众性搜索引擎模式的搜索引擎目前还有WebSideStory(收集冲浪者的冲浪习惯)、Yep.com等。
基于自然语言智能答询系统的搜索引擎模式
与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一是使网络交流更加人性化;二是使信息查询变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,但是要建立真正的基于自然语言理解的智能答询系统,还存在很多的技术难点,如:如何理解自然语言及所代表的实际含义;如何根据问题找出用户实际想要的答案;如何建立大规模知识库等。Ask
Jeeves是第一个实现了智能答询系统的搜索引擎。用户只需输入简单的疑问句,如"Where can I find ..."、"How can I
do..."等。Ask
Jeeves在对提问进行结构和内容分析之后,或直接给出问题的答案,或引导用户从几个可选择的问题中进行再选择。为了弥补目前技术水平和知识库的不足,Ask
Jeeves同时提供目录搜索服务和元搜索服务,可同时搜索多个独立的搜索引擎,并提供集成的搜索结果。Ask
Jeeves在开创智能答询搜索引擎模式的同时,也为企业建立智能、在线、全天候的产品问答服务系统奠定了基础,所以有人说,2000年将是一个到处弥漫着"?"的年代。
垂直主题搜索引擎模式
一段时间以来,所有的搜索引擎都在忙着为所有的人收集所有主题的网络资源。随着网络资源十倍速的扩展,由于缺乏一个有效的"资源收集策略",正在导致搜索变得越来越难以控制,用户需求和市场服务间的巨大差距产生了强大?quot;搜索噪音",人们呼唤更有针对性的搜索引擎。垂直搜索引擎的应运而生,成为搜索引擎发展史上的一块里程碑。About.com、VerticalNet、Open
Directory Project
都是这一模式的急先锋。最近,Go.com(Infoseek)也宣布将放弃综合门户网站模式,集中向娱乐领域方向发展,提供纵深型娱乐信息搜索服务。About.com目前涵盖700多个主题领域,每个主题内容定位于不同的独立空间领域,并由公认的、具有较高专业素养和敬业精神的、该领域的权威人士担任教导员,负责资源的收集、整理、评价和用户引导服务。如著名的搜索引擎评论家Chris
Sherman目前担任About.com中"Web搜索"主题领域的教导员。这种高度目标化、专业化的搜索引擎最大的优势在于,能够把具有相同兴趣点的人们集中在一个"主题社区"内,不仅集中提供各种专业资源,而且给大家提供了一个相互交流、共享经验和教训、展望行业发展前景的机会和场合,因此受到越来越多用户的欢迎。目前,垂直主题搜索引擎模式正处于一个蓬勃发展的时期,各种的专业搜索引擎层出不穷。
元搜索引擎模式
人们在探讨哪个搜索引擎更好的过程中,发现由于搜索机制、范围和算法的不同,导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查询相关率不足45%。元搜索引擎(Metasearch
Engine),有搜索引擎之上的搜索引擎之称,用户在递交一个搜索请求后,将由其代替用户去调用多个独立的搜索引擎分别进行搜索,并负责将各个查询结果集中处理后,以统一的格式呈现在用户面前,提供相对全面可靠的搜索结果。在Metacrawler首创这一模式取得成功后,元搜索引擎开始风起云涌,相继出现了SavvySearch、Dogpile、Mamma、Profusion、FindWhat等。虽然每个元搜索引擎都在自我标榜能够"在最短的时间内搜索所有的搜索引擎",但实际性能的差异还是很大的。主要的衡量标准包括:搜索速度、搜索结果的智能处理能力和个性搜索功能设置、用户界面友好性等。目前,最成功的元搜索引擎有Metacrawler、Dogpile、ProFusion。其中前两个已先后被Go2Net公司兼并,后者刚刚成为Intelliseek公司的一部分。这种频繁的兼并表明了业界对元搜索引擎的关注,而且强大的财力支持将进一步促进该模式搜索引擎的发展。Metacrawle是公认的"常青树",它调用12个主要的独立搜索引擎,并提供近20个主题的目录检索服务。另外必须提到的是,Ixquick(http://www.ixquick.com)在这一领域横空出世,并以其纯净的搜索界面、优异的搜索速度和优秀的"星星评价体系"成为该领域一颗冉冉升起的新星。
揭示"不可见"Web的搜索引擎模式
正像现实世界生物的多样性一样,网络世界并非只有人们司空见惯的Web页,还有看不见、摸不着、总称为"不可见"或"无形"Web的一族正在悄然壮大,其发展态势正在超过有形的Web,人们熟悉的交互式数据库信息资源就是其中最重要的一部分。面对"不可见"的动态Web,搜索蜘蛛好像是撞上大型图书馆的巨型铁门,使尽浑身解数却只能望洋兴叹。由于这类资源大多由政府机关、学术机构、高等院校等建立和维护,有较高的权威性和学术性,其价值通常?quot;鱼目混珠"的有形Web所不能比的。目前,Invisibleweb.com类搜索引擎有很多种,有的以导航服务为主,如Direct
Search、Lycos Invisible Web
Catalog、I-Sleuth等;有的以信息搜索服务为主,如Invisibleweb.com、Northern
Light等,使用方法都非常简单。Northern Light(http://www.northernlight.com)是一个以大见长的搜索引擎,但很多人可能不了解它还是一个优异的、善于揭示"不可见"Web的搜索引擎。Northern
Light 的"Special
Collection",共收录了近6200种全文期刊、图书、杂志、新闻报道和参考资源等,提供免费搜索服务和有偿阅读服务($1~$4/条),是进行学术资源搜索的重要站点。
商务化搜索引擎模式
这是一种颇有争议的搜索引擎模式。很多人认为,它亵渎了搜索引擎的公正性,除了广告商,没有用户会对它感兴趣,最终必将失去其存在的价值。从1995年开始,就有人试图推出这种模式的服务,但最后均以失败告终。但是,随着电子商务的迅速兴起,以GoTo.com为代表的这种"另类"搜索引擎不仅发展壮大,而且在搜索引擎林立的世界中获得了相对稳固的地位。GoTo.com采用了一种"竞标式"管理策略,所有的参与者在成功地进行关键词注册后,将允许通过实时竞标的方法自主地决定自己在搜索引擎相关条目下的排列位置,从而有效购买用户的页面点击率和注意力。GoTo.com的成功并不是偶然的,它的成功得益于四点:首先是网络商务环境的发展和人们对于商务化趋势娜峡伞9圆⒎且晃奘谴Γ欢ǔ潭壬峡梢源偈顾阉饕娓庸刈⑺阉骱吞峁└咧柿康姆瘢坏诙侨嗣嵌杂诿夥阉阉饕嬉鸬母髦?quot;隐形"支出的愈加清醒的认识,希望建立一个比较透明的管理机制;第三是严格的、实时的管理体系,特别是相关度评审体制等的健全;第四是和元搜索引擎的联合带来了有效的信息流量。GoTo.com已经建立了与Metacrawler、Ixquick等的合作关系。目前,此类搜索引擎还有:FindWhat、Searchound、Kanoodle等。另外,商务化搜索引擎模式的另一种极端类型当数iWon,在提供搜索服务的同时赠送挣钱的机会,用户的每一次链接都将获得一定的分数(最高100分),并据此获得相应的奖励。今年三月份该公司已付出近1百万美元的奖金。
专家咨询搜索引擎模式
目前,网上专家又开始红火起来了。人们在经历了搜索引擎的许多折磨后,不约而同地重新开始寻求专家的帮助。一批以提供专家咨询服务为主的搜索引擎涌现出来。这类搜索引擎的最大优势是不需要任何技巧,有人这样形容"像按门铃一样简单,因为你已经来到了正确的门前"。ExpertCentral是这一模式中比较有典型意义的一个,它的服务流程大致如下:首先用户要申请成为合法的用户或专家;然后浏览分类目录或直接输入问题的所属领域,获得相关专家的列表;第三根据系统提供的所有专家的背景材料选择一个合适的专家并提出问题;第四用户将通过E-mail获得问题的解决方案。用户也可以将问题直接发布在公告栏上,所有注册的专家都可以予以回答,而且所有这些基本服务都是免费的。类似的搜索引擎还包括:EXP(http://www.exp.com)、Askme.com (http://www.askme.com)、AllExperts(http://www.allexperts.com)等。
方兴未艾的搜索引擎新模式
1. Oingo(http://www.oingo.com):基于语义理解的搜索引擎模式
有越来越多的人们开始研究通过发展语义理解搜索技术来提高传统关键词搜索的效能。传统的搜索技术可以说是一种"哑巴"技术,只能"形似"不能"意会",而 "AND"、"OR"等逻辑算符的使用在对于信息需求的表达上经常是无能为力的,反而加剧了用户的信息负担。基于语义理解的搜索引擎,通过将语言学的研究成果和搜索引擎技术结合在一起,实现了搜索引擎对搜索词在语义层次上的理解,为用户提供最确切的搜索服务,为"智能代理"的发展奠定基础。也许当我们再次输入"Portal" 时,搜索引擎将会很自然地理解为"门户"。目前,该搜索引擎模式的代表主要有:Oingo、Simpli(http://www.simpli.com)、ejemoni(http://www.ejemoni.com)等,前两者主要通过开发检索词专用词典,实现用户在信息需求表达上的"0"投入,而ejemoni 的目标是通过全文扫描和词间关系的分析,力争把文件放到最准确的分类目录下。由于Oingo有着"开放服务"的营销推广策略,因此被认为是比较有发展前景的。
2. Hotlinks(http://www.hotlinks.com):驾驭书签的搜索引擎模式
Hotlinks是一个很有新意的搜索引擎,通过挖掘人们日常使用的书签(或收藏夹)的潜在价值,形成一个类似Yahoo!的分类搜索体系,同时它采用类似Google的链接评价分析方法,对每一条记录的重要性进行评价并给出相应的分数。Hotlinks的目标不是最终代替主流搜索引擎,而是成为另一个有力的辅助工具,帮助用户挖掘那些可能被大搜索引擎忽略掉的重要资源。目前,大约10万人已在Hotlinks开设了账号。虽然由于刚刚起步,存在诸如数据库容量太小、文件自动分类技术不完善、搜索质量有待提高等问题,但是其精巧灵活的搜索功能受到了越来越多的关注。另一个涉足该模式的搜索引擎是BackFlip。
3. Kenjin(http://www.kenjin.com):智能搜索代理 Kenjin 是由主要从事语言模式匹配技术的Autonomy系统有限公司开发的一个以提供主动服务为主的Web搜索软件,虽然并不完善,但从中可以体会"智能搜索代理"的一系列崭新理念,是未来智能搜索引擎的雏形。该软件的特点包括:将信息主动推送到用户面前,免去了用户被动搜索的困扰;搜索的是活动窗口而不是某一个关键词的主导概念,因此相关性增强;不同于传统搜索引擎,提供的链接除WWW外,还包括客户端的本地内容、Kenjin社区中的同类用户及相关内容的百科全书、参考资源等。该软件是一个免费软件,目前只支持Windows 95/98 或NT 4.0/2000平台。
Copyright 2002 All Rights Reserved
版权所有http://www.bioon.com,2001-2002 安徽中医学院 邮政编码:230038