返回首页
 【公告】 1. 本网即日起只接受电子邮箱投稿,不便之处,请谅解! 2. 所有文章的评论功能暂时关闭,主要是不堪广告骚扰。需要讨论的,可到本网留言专区 
学界动态 |  好汉反剽 |  社科论丛 |  校园文化 |  好汉教苑 |  好汉哲学 |  学习方法 |  心灵抚慰 |  好汉人生 |  好汉管理 |  学术服务 |  好汉网主 |  说好汉网 |   English  |  学术商城 |  学术交友 |  访客留言 |  世界天气 |  万年日历 |  学术吧台 |  各国会议 |  在线聊天 |  设为首页 |  加入收藏 | 
网络检索工具
时间:2008/6/8 23:55:32,点击:0


网络检索工具

  7.3 索引型搜索引擎

7.3.1 天网  1.WWW查询  2.FTP搜索
7.3.2 Google 1.检索方式 2.检索技术 3.检索结果
7.3.3 Excite 1.分类检索 2.关键词检索
7.3.4 Lycos 1.检索方式 2.检索结果  
7.3.5 Hotbot 1.分类检索 2.简单检索 3.高级检索

索引型搜索引擎是使用自动索引软件来搜集和标引网页资源,建立数据库,以Web形式提供查找网络资源的一种网络信息检索工具。当用户输入检索的关键词(或检索式)后,它在数据库中找出与检索式匹配的记录,按相关性显示输出。索引型检索工具由自动索引软件生成数据库,所收录的网络资源范围广、速度快,更新及时,但因缺乏人工干预,准确性较差,检索噪声较大。这种类型的检索工具适于查找特定的信息以及专指性强或不易明确分类的具体问题。下面是几种常用的索引型搜索引擎。

7.3.1 天网

天网由北京大学计算机系开发,于1997年10月提供网上检索服务。它主要提供Web网页和FTP文件查询。它信息丰富、更新迅速,尤其以中国教育科研网上的信息资源为特色。它支持中文简、繁体及英文关键词检索。

天网只提供关键词检索,检索方式分:简单查询和复杂查询。并支持在检索结果中,进行二次检索。

1.WWW查询

直接在主页(见图7.311)的检索框中输入检索的关键词或短语(短语用“”引上),单击“搜索WWW”按钮即可。

 

该系统支持逻辑检索:用 &、|、-分别表示逻辑与、或、非运算;若在输入的多个关键词之间用空格分隔,也表示检索词之间是逻辑“与”运算。

 

2.FTP搜索

天网的FTP搜索,可从天网主页访问。天网的FTP搜索,分为简单搜索和复杂搜索。

(1)FTP简单搜索:在主页的检索框中输入要查询的文件名,点击“搜索FTP文件”即可。在输入的文件名中,可以使用截词符:*表示无限右截词;?表示有限截词,只截一个字符。

检索时还可以选择搜索的文件类型,如:图像、声音、视频、压缩、文档、程序、目录、源代码等。为方便用户的检索,天网还提供了快捷方式,常用的有:电影、MTV &动画、MP3音乐、gif动画、flash电影等。可以直接点击快捷方式,来检索有关的内容。

(2)FTP复杂检索:从FTP检索页面点击“FTP复杂检索”,进入FTP复杂检索页面。在这里可以对检索进行许多限定,检索的限定内容包括:文件大小、文件日期、页面显示数量、文件类型、搜索站点的范围等。

(3)FTP检索结果:对于检索结果,每条记录显示的内容包括:图标(表示文件的类型)、文件名、文件创建时间、文件大小等。点击文件名可以打开相应的文件;文件名下方是该文件所在的目录,点击可以在新窗口中打开该目录。

回顶部

7.3.2 Google

Google是1998年由美国斯坦福大学的两位博士生创建的,Google Inc.于1999年成立。Google是由英文“googol”(数学词汇:10的100次方)一词变化而来,表示他们想征服网上无穷无尽资源的雄心。Google是第3代搜索引擎的代表,它收录了50种语言的30亿个网页,采用全文标引的方式,提供26种语言的检索界面,数据每日更新。该引擎的图片搜索功能十分强大,可检索3.2亿幅图片。此外,该搜索引擎还有新闻组搜索、PDF格式文件搜索、美国电话号码查询、在线词典查询等,它还提供商品目录服务、20年Usenet全文库、网页翻译(在检索结果页面点击“Translate this page”链接)等。

1.检索方式

Google提供基本检索和高级检索两种方法。

(1)基本检索:是指在主页(见图7.321)的检索框中输入检索词,点击“Google搜索”即可。如果是多个检索词,它们之间用空格隔开,系统默认为逻辑“与”运算。如果要进行短语或专用词检索,则应在专用词上加双引号,或者用-、\、+、=等作为短语的连接符。

 

该系统设有为用户推荐网页的功能,可以将用户直接引导到与检索词最相关的网页。用法是:输入检索词之后,点击“手气不错”按钮即可。例如,要查找吉林大学,只要输入:吉林大学,并点击“手气不错”按钮,Google就会直接将用户带到“www.jlu.edu.cn”即吉林大学的主页。

(2)高级检索:是指在检索中可以使用限制检索的方法,例如将检索限定在某些网站上,可以在输入检索词的后面跟site:<网站>;将检索限定在某一类文件中,在输入检索词的后面跟filetype:<文件类型>。可以使用“-<网站(或者域名)>”的形式,来排除某个特定站点的网页。如果输入link:<网址>,可以查出所有链接到此网址的网页。还可以限定检索的语种。并可以检索某个网页的所有页面,检索与某个网页相关的所有网页等。

2.检索技术

Google系统支持的检索技术有:逻辑“与”运算(即输入的多个词之间用空格)、限定检索(“-”后面的词不许出现在检索结果中,“+”后面的词必须出现在结果中;注意减号或加号前要留一个空格)、字段检索等,该系统支持跨语种检索和多语种检索,检索结果按相关性(与网页被链接的多寡、对网站的评价等因素有关)排序。另外,该系统具有完全过滤功能,用户可以自行设置检索参数。

Google 搜索不支持逻辑“或”运算,也不支持截词检索;在英文检索中,不区分字母大小写,所有的字母均按小写处理。例如:输入"george washington"(乔治•华盛顿),或是"George Washington", 再或是"gEoRgE wAsHiNgToN",结果都是一样的。

该系统通常忽略:http、com、数字等使用频率很大的词,如果要想检索这类词,则应在其前面用+。

Google采用智能汉字简繁转换系统,可以将表达同一概念的简、繁体不同的词进行转换,例如简体的“计算机”一词对应于繁体的“电脑”一词(而不是单纯的字面转换)。这样在检索所有的中文网页时,Google会自动对检索词进行简繁转换后,同时检索简体和繁体的网页,并将检索结果的标题、摘要等转换成与用户输入的检索词相同的字体(简体-简体,繁体-繁体),以便于用户的阅读。

检索式
意义

金庸 site:edu.cn 在中国教育网上搜索有关“金庸”的信息
鲁迅 site:edu.sina.com.cn 在新浪网的教育频道中检索有关“鲁迅”的信息
windows produces site:microsoft.com 在microsoft.com站上检索windows produces
big bang site:fr 在法国的网站搜索有关“big bang”的信息
ecommerce filetype:pdf 检索有关ecommerce方面的PDF格式的文件
"沧海一声笑" inurl:midi 查找MIDI音乐“沧海一声笑”
"盛夏的果实" intitle:mp3 查找“盛夏的果实”MP3歌曲
link:www.newhua.com 检出所有链接到“华军软件园”主页的网页
mother-in-law 将该词视为专用词,进行检索
intitle:张柏芝 写真 在网页标题检索“张柏芝写真”的简体中文网页
海滨 度假 将这两个词进行“与”检索
" OS/ +2" 查找OS/2方面的网页
太阳神 -足球 查找太阳神,但不含足球的资料
ACDSee V4.0 下载 以软件名称和版本号为关键词,查找并下载某一具体的软件

3.检索结果

检索结果,每条记录显示的内容包括:网页标题、网页内容摘要(并以醒目的字体显示检索词)、网址、网页文本的大小等,点击“网页快照”可看到Google保存的该网页内容。

在检索结果的页面上,点击“相似网页”可以获得与该网页性质类似的网页。例如,该页是某大学的首页,则Google会寻找其他大学的首页;如果该页是某大学数学系,则Google会寻找其他大学的数学系。

该系统允许用户自行设定每页显示的结果数量,如10条、30条、100条,系统默认值为10条。

另外,在Google的首页上点击“图像”链接,可以打开Google的图像搜索引擎。使用方法同上所述,只要在检索框中输入要检索的图像内容的关键词即可。Google会将与输入的关键词相关的图片以缩略图的方式显示出来,并提供图片链接、图片分辨率、文件大小等信息,单击图片可进入相关网站查看图片。如果对图片检索的结果有特殊要求,可以单击“高级图像搜索”链接,进入Google的高级搜索界面,对检索条件进行精确定义,例如对检索结果中是否一定要有某词或排除某词、图像的大小、图像的格式(gif、jpg)、图像的色彩等进行设定。

在Google的首页上点击“新闻群组”链接,可以打开Google的新闻组搜索引擎(见图7.322)。该系统的新闻组检索功能也十分强大。如果在基本检索中不能实现检索要求,还可以点击“高级群组搜寻”进入高级检索界面(见图7.323)进行复杂检索。

 

 

另外,登录http://labs.google.com可以了解Google的工程师们正在进行的实验,那里有许多新奇的东西。Google Glossary是一个在线词典查询引擎,可供检索英文单词、短语的解释;Google Sets是群组查询引擎,在输入一组同类的词语后,可检索与该组词相关的一组词,如输入:红、黄、绿等可检出蓝、白、黑等词;Voice Search是语音搜索,可以通过拨打该网站的专用电话,告知检索的关键词来进行检索等。

回顶部

7.3.3 Excite

Excite于1995年开始提供网上服务的,它是互联网上著名的搜索引擎之一,Excite于1996年先后兼并了Magellan和WebCrawler两个著名的搜索引擎(这两个引擎仍独立运行)。Excite主要用于检索Web网页、网上的文本信息、新闻组、音频、视频、图片、地图等信息。它采用网络机器人搜索,数据每周更新。Excite提供分类检索和关键词检索。

1.分类检索

Excite与LookSmart合作,由各方面的专家人工筛选、甄别收录的信息,组织分类目录。

Excite的分类检索,提供两种方式:(1)可直接在Excite主页上(见图7.331)从Web Directory下所列的目录或从Popular Searches下的类目中,选择并点击所需的类目,进行逐层搜索。(2)在检索框中输入查询词,选择“Directory”,并点击“Search”按钮,系统会列出目录供用户选择(如图7.333)。这种方式结合了关键词检索与分类检索的优点,可以直接通过关键词找到具体的子类目,省去了层层浏览的费时,提高了查询效率。

 

 

2.关键词检索

关键词检索时,直接在主页上的检索框中输入关键词,并选择检索信息的类型(Web Sites、Directory、News、Photos),点击“Search”按钮即可。Excite同时启动Ask Jeeves、About、Looksmart、Overture等多个搜索引擎,检索世界各地的相关信息(见图7.332)。也可以使用Quick Find功能,进行快速查询。快速查询的内容包括:拍卖Auctions、汽车Autos、求职Careers、担保Cash Back、赌场Casino、名人Celebrities、团体Community、计算机Computers、电子信箱Email、娱乐Entertainment、时尚Fashion、游戏Games、贺喜Greetings、健康Health、占星Horoscope、投资Investing、生活Lifestyle、彩票Lottery、电影Movies、音乐Music、新闻News、房地产Real Estate、关系Relationships、购物Shopping、地图Site Map、运动Sports、今天today、旅游Travel、电视TV、气象Weather、黄页Yellow Pages、白页White Pages等。

 

检索中,可以使用布尔逻辑检索,逻辑与使用AND或+;逻辑或使用OR;逻辑非使用NOT或-,例如:Hyperactivity AND children 或者 Hyperactivity + children(两个检索词均出现在结果中);Cats NOT dogs 或者 Cats - dogs(检索结果中不含有dogs)。并非所有的搜索引擎都支持逻辑检索,如果检索式中含有逻辑算符时,Excite将只搜索支持逻辑运算的引擎,因此仍然可以获得最佳的检索结果。

Excite对检索结果按相关性排序,每页按相关性高低显示10条记录。检索结果显示内容包括:网页标题、网址、网站简介。

回顶部

7.3.4 Lycos(中文http://cn.lycosasia.com)

Lycos是1995年创建的资格最老的搜索引擎之一。它采用智能化搜索技术,并结合了其他搜索引擎的技术特长,利用机器人自动采集信息和用户提交信息相结合,数据每4周更新。利用它可以检索Web网页、新闻、FTP、图像、音频、视频等信息。

1.检索方法

Lycos提供分类检索和关键词检索。关键词检索又分为简单搜索和高级搜索两种。

 

Lycos将收录的信息分为22大类,每个大类下又分若干小类。层层细分,直至底层。分类检索时,可以在主页左侧选择要查询的类目或者点击“Web Directory”链接,逐层检索即可。

在Lycos主页(见图7.341)的检索框中输入检索的关键词或短语(短语用“”引上),单击“Go”按钮即可进行简单检索。

在主页上点击Advanced Search链接,进入高级检索界面(如图7.342)。使用高级检索,可获得更精确的检索结果。Lycos高级检索主要分3种类型:Web(Web网页检索)、News(新闻检索)和Shopping(购物信息检索)。

 

高级检索时,根据检索的不同需要,从:Web、News、Shopping 3个选项卡中选择其一。

Web网页检索(系统默认),在高级检索页最上部的关键词查询框中输入主要关键词/词组(可以使用截词符$),然后在Word Filters后面的检索框中输入次要的关键词,并选择它们与主关键词的逻辑关系:Must include(与)、Should include(或)、Must not include(非),并可根据需要,进一步限制检索的站点(URL)、检索的语种、搜索的目录(Lycos、Ask jeeves、Web category、Editorial result、Overture)等,最后点击“Submit Search”按钮即可检索。

2.检索结果

在检索结果页面中(图7.343),上部显示本次检索的检索式,可以在“Search these results”前面打勾,再点击“Go”按钮,在本次检索的基础上继续检索,否则进行新的检索。

检索结果按相关性排序,列出相关网站的标题、网页简介和URL。检索结果页面的最下部显示与其他搜索引擎的链接,可以直接进入其他搜索引擎。

 

回顶部

7.3.5 Hotbot

Hotbot是Wired Digital Inc.于1996年推出的一种搜索功能很强的检索工具。Lycos于1998年兼并了Wired Digital公司,Hotbot仍作为独立的搜索引擎运行。它是第一个具有自动跟踪Web页面变化的搜索引擎。Hotbot除可检索Web网页、新闻组、讨论组等资源外,还可检索音乐、黄页、人名、E-mail、FTP等信息,数据每日更新。Hotbot提供分类检索和关键词检索,关键词检索又可分为简单检索和高级检索。

1.分类检索

Hotbot的主页(如图7.351)分左右两个区,左区是关键词检索的限制选项,右区是分类检索。

Hotbot分类大致为:艺术与娱乐、汽车、商业财经、计算机与互联网、健康、新闻与媒体、消遣、参考资料、地区、科技、社会、体育、旅游等。在参考资料大类下,可以检索词典、百科全书、地图集、黄页、白页、电子邮件地址等信息。分类检索时,根据查询的需要层层点击所需的类目即可。

 

2.简单检索

在主页上部的“Search Smarter”后面的查询框中输入检索词,单击“Search”按钮即可简单检索。可以利用主页上左区的限制检索项,进行限制检索的设置。限制选项主要包括:

(1)Look for(限制检索词出现的位置):All of the Words(逻辑与)、Any of the Words(逻辑或)、Exact Phases(短语检索)、The page title(检索网页标题)、The Person(检索人名)、Links to this URL(检索与指定URL有链接的网页)、Boolean Phrase(布尔运算选项,可用AND、OR、NOT)。

(2)Date(限制检索时间):任意时间、最近1周、最近2周、最近1个月、最近3个月、最近6个月、最近1年、最近2年。

(3)Language(限制检索语种):任意语种、丹麦语、荷兰语、英语、芬兰语、法语、德语、意大利语、挪威语、葡萄牙语、西班牙语、瑞典语。

(4)Pages Must Include(限制网页中必须包含):图片、MP3、声像、Java脚本,可以多选。

(5)Return Results(限制检索结果):记录数量(10条、25条、50条、100条)、显示格式(所有字段、简要字段、只显示网址)。

3.高级检索

在Hotbot主页左栏下侧点击“Advanced Search”按钮,进入高级检索页面(图7.352)。

在高级检索中,有更多的限制检索选项,可以帮助用户获得更精确的检索结果。检索时,在页面上部的查询框中输入主要检索词或词组,并从界面上列出的选项中进行选择,来限制检索范围。限制选项除包括简单检索中的各项外,还有如下几种限制:

(1)Word Filter:可以同时在给定的3个检索框中输入次要检索词并选择它们与主要检索词之间的关系(must contain逻辑与;shoude contain逻辑或;must not contain逻辑非)以及检索词出现的位置(the words 表示相对应的多个检索词作为独立词;the person表示相对应的词是人名;the phrase表示相对应的多个检索词是词组),进行组合检索。点击“more terms”链接可以调出更多的检索框,输入更多的次要查询词。

(2)Pages Must Include:除包括简单检索中的图片、MP3、声像、Java脚本选项外,又增加了许多内容,如Shockwave、ActiveX、VRML、Acrobat、VB Script、Win Media等,可以多选。

(3)Location/Domain:有地区和域两种选择,地区选择包括:North America、Europe、Southeast Asia、India & Asia、South America、Australasia、Africa、Middle East、Central America等,其中北美地区的最详细,还列出了具体的域,包括.com、.net、.edu、.org、.gov、.mil、all(所有域)等。

(4)“Best Page Only”:表示仅显示相关性最好的页面。

(5)Page Depth:表示对页面深度的限制。

上述选项选择完成后,点击“Search”按钮执行检索,点击“Clear settings”对各选项进行修改。

如果了解该系统的检索技术,也可以直接在页面上部的检索框中输入检索式,完成检索。

系统支持的检索技术包括:布尔逻辑检索、字段检索、截词检索(截词符为*)等。可以使用()改变运算的优先级;短语检索时,在输入的短语两侧用双引号;。运算的优先级依次为:()>AND NOT>AND>OR。在检索词前面,可以利用+、- 来限定检索词是否可以出现在结果中。检索中对检索词区分大小写。

逻辑检索算符:与:AND、&;或:OR、|;非:NOT、!。

字段检索主要有:anchor(在链接中检索)、applet(在应用程序中检索)、domain(在域名中检索)、host(在主机名中检索)、image(在图像标签中检索)、link(在链接站点中检索)、text(在网页全文中检索)、title(在网站名称中检索)、url(在网址中检索)、audio(在声音文件中检索)、video(在影像文件中检索)、vrml(在vrml格式文件中检索)、newsgroup(在新闻组中检索)、after、before、within(在指定时间内检索)。

检索式 意义
"bed and breakfast" AND ((grapes AND california) OR "wine country")
词组检索及逻辑检索,并用()改变运算优先级

anchor:"Click here to visit my homepage" 检索有这段文字的链接,用双引号进行短语检索
applet:morgh 检索应用了morgh程序的网页
domain:edu.cn 检索中国教育网的网站
host:jlu.edu.cn 检索吉林大学主机的网页
( + cloning - sheep) AND within:8/months 限制文章最新版本,在指定的时间内
after:26/04/2002 检索2002年4月26日以后的网页
before:15/03/2002 检索2002年3月15日以前的网页
- feature:image + title:cloning 在指定位置检索某词或排除某词

检索结果按相关性排序。每条记录显示内容包括:网页标题、摘要、更新时间、网址等。

在检索结果界面,通常情况下Web网页检索结果(Web Results)有3种情况:优先显示10个最相关的站点、HotBot目录结果(通过目录检索且有目录专家评论的,才显示此项)、主要的相关网页。

如果是普通检索,检索结果的第一页显示最常用的10个相关网页,并通过“this site only”链接指向某个特殊站点的主页或重要的页面,以使用户获得更多的相关信息;第二页可看到本次检索结果的总数。

可以从目录检索结果(Directory Result)获得更多的内容,通过目录树进行更深入的检索。

http://emuch.net/html/52082.html

分享到新浪微博+ 分享到QQ空间+ 分享到腾讯微博+ 分享到人人网+ 分享到开心网+ 分享到百度搜藏+ 分享到淘宝+ 分享到网易微博+ 分享到Facebook脸谱网+ 分享到Facebook推特网+ 【打印】【关闭
上一篇: 学术论文的英文题目和摘要的撰写方法
下一篇: 学士学位论文如何不走题
相关评论

我要评论
查看所有评论内容
评论内容