目录互联网之搜索引擎21.
搜索引擎的分类及其工作原理31.
1.
分类31.
1.
1.
搜索引擎与目录索引的区别31.
1.
2.
搜索引擎与目录索引的当前情况41.
2.
工作原理42.
搜索引擎的历史与发展53.
搜索引擎的评价标准73.
1.
根据比较评价方式的不同分类:73.
2.
利用主题网页查找方式评价搜索引擎性能的具体步骤:83.
3.
评价测试实例94.
常用搜索技巧104.
1.
专业网站的搜索技能说明104.
2.
其他的一些小小的建议.
115.
相关搜索研究115.
1.
2010年(当前)世界上营业收入最高的5个公司以及营业额和中国收入最高的5个公司极其营业额:115.
2.
自助游需做哪些方面的准备:125.
3.
血红素的结构组成:135.
4.
帮忙找三个笔记本生产厂家的地址和联系方式:13联想笔记本电脑13神州笔记本电脑13华硕笔记本145.
5.
我国名字中包含"鹿"的濒危珍稀动物及它们保护等级:145.
6.
依据问题对搜索引擎的比较:146.
学习心得与体会157.
参考文献及网址15搜索引擎的分类及其工作原理分类搜索引擎按其工作方式主要可分为两种.
一种是严格意义上的搜索引擎(SearchEngine),具代表性的有AltaVista、Google、Excite、HotBot、Lycos等.
它们都是通过在互联网上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,因此是真正的搜索引擎.
另一种是目录索引(SearchIndex/Directory).
顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找.
如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站.
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外).
实际上它们算不上是搜索引擎,仅仅是按目录分类的网站链接列表而已.
用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息.
目录索引中最具代表性的莫过于大名鼎鼎的Yahoo.
其他著名的还有OpenDirectory(DMOZ)、LookSmart、About等.
此外,还有一种"免费链接列表",FreeForAllLinks,简称FFA.
这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多.
由于搜索引擎和目录索引都为用户提供搜索服务,为方便起见,我们通常将其统称为搜索引擎.
搜索引擎与目录索引的区别首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作.
用户提交网站后,目录索引编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准及编辑人员的主观印象,决定是否接纳你的网站.
其次,向搜索引擎提交网站时,只要遵循有关的规则,一般都能登录成功.
而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功.
尤其象Yahoo!
这样的超级索引,登录更是困难.
(由于登录Yahoo!
的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo!
的技巧.
)此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory).
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制.
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的.
搜索引擎与目录索引的当前情况目前,搜索引擎与目录索引有相互融合渗透的趋势.
原来一些纯粹的搜索引擎现在也提供目录索引注册,有些则在搜索结果中直接列出其他目录索引的网站(如Google就在其搜索结果中列出OpenDirectory的网站).
而如Yahoo!
这些老牌目录索引则开始通过与Google的搜索引擎合作扩大搜索范围,只不过在其目录中注册的网站永远排在Google查询结果之前.
在这方面,国内几家著名的搜索引擎网站做得更进一步.
比如搜狐、新浪就有网站搜索和网页搜索之分,用户可自行选择.
选择网站搜索时,它们是目录索引,搜索范围仅限于自身注册的网站;而选择网页搜索时,它们又成了搜索引擎.
工作原理搜索引擎的自动信息搜集功能分两种.
一种是定期搜索,即每隔一段时间(比如Google是28天),搜索引擎主动派出"蜘蛛"程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库.
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出"蜘蛛"程序,扫描你的网站并将有关信息存入数据库,以备用户查询.
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法—通常根据网页中关键词的匹配程度,出现的位置/频次等计算出各网页的信息关联程度,然后根据关联程度高低,按顺序将这些网页链接返回给用户.
搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎.
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来.
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列.
搜索引擎的基本上分为四个步骤:1.
爬行和抓取搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛.
搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件.
搜索引擎会跟踪网页中的链接,访问更多的网页,这个过程就叫爬行.
这些新的网址会被存入数据库等待抓取.
所以跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一.
没有反向链接,搜索引擎连页面都发现不了,就跟谈不上排名了.
搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库.
2.
索引蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程既是索引(index).
在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录.
3.
搜索词处理用户在搜索引擎界面输入关键词,单击"搜索"按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况.
搜索词的处理必须十分快速.
4.
排序对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到"搜索"页面.
再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化.
没有SEO的帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息.
搜索引擎的核心数据结构为倒排文件(也称倒排索引),倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件,即次索引.
倒排文件中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于复杂查询.
与传统的SQL查询不同,在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务.
而现行最有效的数据结构就是"倒排文件".
倒排文件简单一点可以定义为"用文档的关键词作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键词,书的页面是索引目标).
搜索引擎的历史与发展1990年,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发出Archie.
当时,万维网(WorldWideWeb)还没有出现,人们通过FTP来共享交流资源.
Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件.
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件.
虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务.
所以,Archie被公认为现代搜索引擎的鼻祖.
Robot(机器人)一词对编程者有特殊的意义.
ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序.
由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序.
1993年MatthewGray开发了WorldWideWebWanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的"机器人(Robot)"程序.
开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL).
1994年4月,斯坦福大学(StanfordUniversity)的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo.
随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索.
因为Yahoo!
的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录.
雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司.
1994年初,华盛顿大学(UniversityofWashington)的学生BrianPinkerton开始了他的小项目WebCrawler.
1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容.
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字.
1994年7月,卡内基·梅隆大学(CarnegieMellonUniversity)的MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中,创建了Lycos.
除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量.
1994年底,Infoseek正式亮相.
其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表.
1995年,一种新的搜索引擎形式出现了——元搜索引擎(AMetaSearchEngineRoundup).
用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户.
第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler.
1995年12月,DEC的正式发布AltaVista.
AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等).
用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects.
AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线.
AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站.
在面向用户的界面上,AltaVista也作了大量革新.
它在搜索框区域下放了"tips"以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能.
这系列功能,逐渐被其它搜索引擎广泛采用.
1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的.
1995年9月26日,加州伯克利分校助教EricBrewer、博士生PaulGauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前.
声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容.
HotBot也大量运用cookie储存用户的个人搜索喜好设置.
1997年8月,Northernlight搜索引擎正式现身.
它曾是拥有最大数据库的搜索引擎之一,它没有StopWords,它有出色的CurrentNews、7,100多出版物组成的SpecialCollection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类.
1998年10月之前,Google只是斯坦福大学(StanfordUniversity)的一个小项目BackRub.
1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了google.
com的域名,1997年底,在SergeyBrin和ScottHassan、AlanSteremberg的共同参与下,BachRub开始提供Demo.
1999年2月,Google完成了从Alpha版到Beta版的蜕变.
Google公司则把1998年9月27日认作自己的生日.
Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强.
Google公司的奇客(Geek)文化氛围、不作恶(Don'tbeevil)的理念,为Google赢得了极高的口碑和品牌美誉.
2006年4月,Google宣布其中文名称"谷歌",这是Google第一个在非英语国家起的名字.
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品.
1999年5月,发布了自己的搜索引擎AllTheWeb.
Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之.
Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能.
(2003年2月25日,Fast的互联网搜索部门被Overture收购).
1996年8月,sohu公司成立,制作中文网站分类目录,曾有"出门找地图,上网找搜狐"的美誉.
随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应.
sohu于2004年8月独立域名的搜索网站"搜狗",自称"第三代搜索引擎".
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室.
Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分.
2002年6月,Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域.
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司.
2001年8月发布Baidu.
com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索.
Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索.
2002年3月闪电计划(BlitzenProject)开始后,技术升级明显加快.
后推出贴吧、知道、地图、国学、百科等一系列产品,深受网民欢迎.
2005年8月5日在纳斯达克上市,发行价为USD27.
00,代号为BIDU.
开盘价USD66.
00,以USD122.
54收盘,涨幅353.
85%,创下了5年以来美国股市上市新股当日涨幅最高纪录.
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索.
2004年2月,中国搜索发布桌面搜索引擎网络猪1.
0,2006年3月中搜将网络猪更名为IG(InternetGateway).
搜索引擎的评价标准评价引擎与搜索引擎在技术和服务上必然存在一定的交叉,但是两者在信息处理方面具有根本的区别.
搜索引擎为用户寻找消息,用户出发点是明确的目标;Digg的评价引擎为用户寻找消息,但是用户出发点只有笼统的方向,并没有具体的目标.
所以,评价引擎既具有对于个人的信息寻找意义,更具有整体性的网络信息的加工整理和评价排序意义,他是真正推动"信息服务于人"的网络终极目标的新运用.
简单来讲,搜索引擎要满足用户对信息查询的需求,提高用户的搜索体验.
以下是几个比较重要的指标:1.
网页覆盖率.
提高查全率,是保证查准率的基础.
2.
返回结果的准确性,主要是第一页结果的准确性.
大部分用户仅仅察看搜索结果的第一页.
3.
重复信息返回的过滤.
返回结果应该尽可能不出现重复、类似的结果.
4.
网页更新速度.
取决于新网页的发现,和死链(指无法访问网页)的及时删除.
结果中大量的死链和过时信息的链接,将会降低用户体验.
5.
搜索服务的相应时间,也就是用户提交检索后得到结果返回的等待时间,一般要低于一秒即可.
6.
搜索服务的系统稳定性.
根据比较评价方式的不同分类:1.
以描述为主的搜索引擎评价方式这种评价方式大多是从搜索引擎的在线使用手册和个人的使用经验出发,集中在对单个搜索引擎的使用方法及特色服务的描述,而对于搜索引擎中较核心的搜索算法的性能一般不是特别涉及.
由于其测试集往往是评价者自身实践的产物,而对于测试结果的评价也往往是评价者个人得出的结论,因而造成此类评价方法通常带有较多的主观因素,其参考价值有限.
2.
以查询结果的命中个数作为评价标准莫斯科州立大学的AlexanderLebedev在"BestsearchenginesforfindingscientificinformationintheNet"comparis.
html)中给出了较为详尽的实验结果和评价.
其评价方法的出发点是源于研究人员查找论文时,尽量多获取前人有用结论的需要.
因此,Lebedev将查全率(recall)赋于性能评价中重要乃至首要的地位.
这也就造成了这种评价方法的不足之处,即对于Web上的大多数用户而言,在通常情况下,精确度(precision)而非查全率才是其关注的最主要因素,搜索引擎返回的命中网页个数过多,甚至恰好是用户不愿看到的.
3.
对索引网页的数目、索引更新间隔、用户交互的友好程度等搜索引擎实现的外围接口进行综合,作为评价标准云南师范大学计算机科学与信息技术学院的陶跃华在其"因特网搜索引擎评价系统"(《计算机工程与科学》,2002[23]3)中,利用系统工程的基本思想和层次分析法,对上述各指标的权重进行了计算,建立了一个搜索引擎评价模型,给出了一种比较系统、科学的评价方法.
但这种方法可能存在的弱点在于,它是从系统实现角度而非用户角度进行评价,考虑用户的实际需要较少,缺少进一步按照其满意程度进行优劣评估的途径.
4.
TREC进行的实际测试由NIST(美国国家标准技术局)举办的文本信息检索会议(TextRetrievalConference,TREC)是文本信息检索领域一个国际性的标准评价类型的比赛.
它向各参加者发布标准测试数据和检索问题,并在规定时间内提交检索结果,由组织者根据结果做出标准答案并对各结果进行评价.
由于TREC提供的测试数据在信息检索领域具有较高的可信度,利用这些测试数据进行搜索引擎的性能评价工作也开展得较多.
澳大利亚联邦科学与工业研究组织(CSIRO)研究员、TRECWebTrack的组织者DavidHawking与NickCraswell在2001年召开的WWW10会议上就报告了一个利用TREC8和TREC9的测试数据进行搜索引擎(包括Google、lycos等11个搜索引擎)在线服务搜索性能比较的实验.
当然,由于数据集内容差异很大,这些测试数据并不能使用TREC给出的测试标准答案来进行评测,这就使这些测试的可信度打了一些折扣.
5.
主题网页查找方式主题网页查找任务是去年的TREC11在网络信息检索方面加入的新内容,其任务是根据NIST给出的150个涉及社会生活各个方面的检索问题,在一个源于现实网络环境的多达19GB的超文本信息库中,查找最满足问题的一个或极少数几个答案.
该任务与用户实际使用搜索引擎的形式十分贴近,即在浩繁的网络数据中找出与用户要求最匹配的网页,因此也被用来作为评价搜索引擎性能的一个衡量方式.
该任务与以往的TREC测试数据相比,其利于进行搜索引擎性能评价的理由是,所采用的尽管仍是一个封闭的数据集合,但这个集合是从2002年当年标有".
gov"的政府相关网页中获得的,其实时性很高,甚至其答案集中的绝大部分网页可以在现实的网络环境中找到,因此,测试具有较高的可行性与可信性.
当然,从这个测试出发,总结出一种可操作的评价搜索引擎的一般性的方法,是本文更重要的内容.
与前面提到的几种方式不同,该方法从用户的实际需要出发,拥有比较客观公允、涉及不同用户需要的测试集合,甚至可以允许使用不同的专业测试集合,得出针对这一特定专业内容的搜索引擎的性能评价.
因此,具有较高的可信度和灵活度.
简单地说,主题网页查找的目的就是在超文本信息库中查找预知存在的、与所提问题最匹配的一个或极少数几个答案(通常用URL地址表示).
当然,应用主题网页查找方式对搜索引擎性能进行评价,事实上有以下两个前提条件:条件1使用搜索引擎的用户预先知道他所要查询的页面存在于Internet上;条件2在搜索引擎返回了用户需求的页面时,使用搜索引擎的用户希望该页面在排序中尽量靠前.
事实上,以上两个前提条件是符合大多数用户使用搜索引擎的心理和行为的.
统计表明,大部分用户只浏览返回结果页面的第一页,以核对是否搜索出适合的页面.
因此,用户目标页面的排序位置是搜索引擎是否满足用户需要的几乎是决定性的因素.
利用主题网页查找方式评价搜索引擎性能的具体步骤:1.
构造测试问题集合测试集合的构建与评价搜索引擎对某一方面内容的搜索性能有关.
我们可以根据不同领域中有代表性的问题,得出适用于某一领域或综合领域的测试问题集合.
对搜索引擎中用户搜索请求数据的实际统计是获取这些测试问题的一个不错的途径.
2.
获得标准答案标准答案的获取是该性能评价方式中的关键,获取方式包括以下几种:(1)从测试集出发,挑选出评价人员认为最符合要求的网页作为标准答案,对使用的搜索工具不限.
(2)从被评价的搜索引擎返回的结果集合出发,挑选出若干排序都比较靠前的网页作为标准答案.
(3)综合以上两种方法,从被评价的搜索引擎返回的结果集合中挑选出若干排序都比较靠前的网页,让每个评价人员在其中挑选出自己认为最符合要求的一个或几个网页作为备选答案,再均衡几个评价人员的备选答案(例如取交集),以得到最后的标准答案.
方案(3)应当比较可取,因为它一方面尽可能地排除了人的主观因素对答案集的影响,另一方面也从搜索引擎的使用者--人的角度给出了一个答案的预期.
事实上,这也是NIST给出标准答案的方式.
3.
根据标准答案进行结果评价对不同搜索引擎的返回结果进行评价,就可以得到搜索引擎对这个测试集合中不同问题的查准率.
具体评价方式采用平均排序倒数(meanreciprocalrankofthehomepage,MRR)方式,即对每个问题而言,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均.
评价测试实例下面结合实验,具体对几个常用搜索引擎进行主题网页搜索性能评价.
根据上面提到的评价搜索引擎的具体步骤,我们对几个著名的Internet英文搜索引擎进行了评价测试.
这些搜索引擎包括Alltheweb、Hotbot、Lycos和MSN.
1.
测试问题集合查找问题集合来自NIST的TREC11NamedPageFindingTask给出的150个问题.
这些问题是MSN搜索引擎使用中用户实际提出的,带有很大的普遍性且涉及社会生活各方面的问题.
因此,这是一个针对普通用户需要的多领域的比较客观的测试集合.
2.
测试标准答案测试的标准答案来自于NIST提供的针对TREC11NamedPageFindingTask的标准答案.
由于这部分答案是根据一个真实的网络环境中.
gov域的子集而非整个网络数据得出的,因而不可避免地带有一定的偏差,如:原网页被删除、原网页URL被更换、新网页出现等.
不过对于被评价的几个搜索引擎而言,由于这些测试几乎是同时完成的,因此,测试环境对于它们来说基本上是公平的.
3.
根据标准答案进行结果评价结果在一定程度上反映了进行评价的一段特定时间内的主题网页查找性能.
根据每个搜索引擎页面设计的不同,它们每页返回结果的个数也有不同.
从用户使用的角度出发,我们的评价实验只把第一页返回结果作为有效结果加以评价,这些返回结果的数目也列在了表中.
常用搜索技巧专业网站的搜索技能说明把搜索范围限定在网页标题中——intitle网页标题通常是对网页内容提纲挈领式的归纳.
把查询内容范围限定在网页标题中,有时能获得良好的效果.
使用的方式,是把查询内容中,特别关键的部分,用"intitle:"领起来.
例如,找林青霞的写真,就可以这样查询:写真intitle:林青霞注意,intitle:和后面的关键词之间,不要有空格.
把搜索范围限定在特定站点中——site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率.
使用的方式,是在查询内容的后面,加上"site:站点域名".
例如,天空网下载软件不错,就可以这样查询:msnsite:skycn.
com注意,"site:"后面跟的站点域名,不要带"http://";另外,site:和站点名之间,不要带空格.
把搜索范围限定在url链接中——inurl网页url中的某些信息,常常有某种有价值的含义.
于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果.
实现的方式,是用"inurl:",后跟需要在url中出现的关键词.
例如,找关于photoshop的使用技巧,可以这样查询:photoshopinurl:jiqiao上面这个查询串中的"photoshop",是可以出现在网页的任何位置,而"jiqiao"则必须出现在网页url中.
注意,inurl:语法和后面所跟的关键词,不要有空格.
精确匹配——双引号和书名号如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的.
如果您对这种情况不满意,可以尝试让百度不拆分查询词.
给查询词加上双引号,就可以达到这种效果.
例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,"上海科技大学",获得的结果就全是符合要求的了.
书名号是百度独有的一个特殊查询语法.
在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的.
加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分.
书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说.
比如,查电影"手机",如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了.
要求搜索结果中不含特定查询词如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页.
例如,搜神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页.
那么就可以这样查询:神雕侠侣-电视剧注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能.
减号和后一个关键词之间,有无空格均可.
其他的一些小小的建议.
选择适当的关键词.
毋庸置疑,选择正确的关键词是一切的开始.
学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧是所有搜索技巧的基础.
同时,搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一.
我们还可以在搜索过程中,根据返回的结果适当调整关键词.
使用逻辑命令.
搜索中的逻辑命令一般是指"AND"、"OR"、"NOT",以及与之对应的"+"、"-"等逻辑符号命令.
Google可以在查询词中使用"-"来指定返回结果能不包含某个特定的词.
也可以使用"高级搜索"来实现相应的功能.
进行精确匹配.
精确匹配搜索是缩小搜索结果范围的有力工具.
一般来说,搜索引擎会把查询输入分成单个的词,然后查找包含这些词的页面.
但是这样并不能够保证输入中连续的查询词在返回的页面中也是连续的.
但是如果我们用引号("")把相邻的一些词连起来,就能够保证查到页面中包含这些相邻的词.
使用特殊搜索命令.
除普通搜索之外,很多搜索引擎都提供一些特殊搜索命令,来满足一些高级用户的特殊需求.
比如Google可以使用site:命令指定在某个特定的网站内查找相关信息;使用inurl:命令和intitle:命令指定仅在网页的url或title中搜索(有关更多的Google搜索命令,可以查看Google网站的帮助,或在网上查找"Google使用从入门道精通").
其他搜索引擎也有类似的命令.
这些命令虽然不是很常用,但当有这方面搜索需求时,它们就能够起到很大的作用.
相关搜索研究2010年(当前)世界上营业收入最高的5个公司以及营业额和中国收入最高的5个公司极其营业额:世界:1沃尔玛美国一般商品零售378,7992埃克森美孚美国炼油372,8243皇家壳牌石油荷兰炼油355,7824英国石油英国炼油291,4385丰田汽车日本汽车230,201单位百万美元中国:1中国石油化工集团公司1227863222国家电网公司1010732543中国石油天然气集团公司1000677274中国工商银行股份有限公司390034005中国移动通信集团公司35790506单位万元谷歌,获得约3,240,000条结果(用时0.
23秒)【彼岸花】http://zhidao.
baidu.
com/question/147028077.
htmlsi=12010-9-21自助游需做哪些方面的准备:1、备好行囊自助旅游需备物品包括:身份证(学生证)、便携包、雨伞(雨衣)、相机(电池、充电器)、望远镜、太阳镜、水杯、梳洗用品(男士须带上剃须刀)、护肤品、常用药品(感冒、腹泻、创可贴、消炎、晕车药等)、多用途刀、可折叠的旅行袋等.
2、捂紧口袋旅途费用大致包括路费、伙食费、旅游购物费、住宿费和景点门票费5部分,前两项收费伸缩性较小,而后3项可算计的空间就大了.
要节省游览购物费,一方面出行前带齐旅行中可能用到的物品,另一方面要节制购物欲,对旅游景点的一些粗俗工艺品和土特产不要随意购买.
住宿最好别在车站、码头和机场附近,这些地方易"杀生"宰客,而闹市区的大街小巷有一些价格低廉又卫生清静的小旅馆.
对景点在自然景观之外设置的"园中园"和"景中景"要持谨慎态度,少看一眼也不会留下太大的遗憾.
3、选择好出游路线参观著名景点不是旅游的唯一内容,行、住、吃在整个旅游过程中应该是更为重要的内容,它是保证玩好的基础,也是我们出外享受生活的一部分,因此,笔者不赞成所谓自助游要吃苦的说法.
自助游的精髓在于经济周全的计划,换来超豪华的身心体验.
选择自助旅游线路,最好是一些曾经被旅行社开发且风行一时的线路,这些地方旅游设施完备甚至过剩,可以供游客从容享受.
如果你想去目前比较热门的线路,最好还是选择跟团队走,因为拥挤的人群使你不但拿不到折扣,还会遇到许多麻烦.
自助旅游的优势在于灵活自由,但出行前周密的安排当属必须,如果你能将旅游的4个要素行、住、吃、玩落实到时间、地点和内容上,自助旅游就有了许多与团队游一样的省心与踏实.
我国目前还没有适合自助旅游者的旅游指南,因此,出发前,向有经验的朋友讨教一下,也是十分有益的.
4、交通方面旅行者除了要对出发地的交通资料有所了解外,对于旅途中各站之间的交通工具、班期及价格,也需要弄清楚.
每到一站必须先办妥至下一站的交通手续,以免临走时买不到票,在旅游旺季尤其重要.
游程中大多数工薪族会选择火车.
新型空调车硬座的价钱相当于普通火车硬卧的价钱.
假如你年轻体健、精力旺盛,可以尝试坐硬座,省下的钱可以多玩几天.
火车班次选择也要注意,不要光看发车时间,重要的是看到达时间.
必要的时候可以选择慢车,在车上呆一夜可以省下一晚住宿费.
外出旅游时,除要留意路线及所乘站数外,每到一地必须购买当地交通地图.
一般在当地车站、机场都可以买到,切记要买最新地图,以防资料过期.
总之,旅游在外切不可随心所欲,一定要遵循景区的相关规定,量力而行.
事先对要去的景区做一些了解,掌握一些野外生存的常识,做到有备无患.
在景区复杂地段,尽量随人流而行,切不可为了好奇,对自己不熟悉的地段随便攀走.
在景区游览时最好备上景区线路图,时刻关注自己所处的位置.
另外还要了解当地的风俗习惯,避免产生不必要的误解而带来的风险.
百度,找到相关网页约18,400篇,用时0.
049秒【点头笑】http://zhidao.
baidu.
com/question/24851642.
htmlsi=12007-4-2717:00血红素的结构组成:人体内的血红素由四个亚基构成,分别为两个α亚基和两个β亚基,在与人体环境相似的电解质溶液中血红素的四个亚基可以自动组装成α2β2的形态.
血红素的每个亚基由一条肽链和一个血红素分子构成,肽链在生理条件下会盘绕折叠成球形,把血红素分子抱在里面,这条肽链盘绕成的球形结构又被称为珠蛋白.
血红素分子是一个具有卟啉结构的小分子,在卟啉分子中心,由卟啉中四个吡咯环上的氮原子与一个亚铁离子配位结合,珠蛋白肽链中第8位的一个组氨酸残基中的吲哚侧链上的氮原子从卟啉分子平面的上方与亚铁离子配位结合,当血红素不与氧结合的时候,有一个水分子从卟啉环下方与亚铁离子配位结合,而当血红素载氧的时候,就由氧分子顶替水的位置.
谷歌,获得约32,300条结果(用时0.
19秒)【全国科学技术名词审定委员会】http://baike.
baidu.
com/view/84093.
htm#22010.
7.
2帮忙找三个笔记本生产厂家的地址和联系方式:我寻找到的三个笔记本生产厂家是:联想笔记本电脑From:http://www.
lenovo.
com.
cn/Public/public_bottom/contact.
shtml行政总部地址:1009ThinkPlaceMorrisville,NC27560USA电话:+1866-45-THINK(+1866-458-4465)主要运营中心:Raleigh地址:1009ThinkPlaceMorrisville,NC27560USA电话:+1866-45-THINK(+1866-458-4465)北京地址:中国北京海淀区上地创业路6号邮编:100085电话:(86)105886-8888神州笔记本电脑From:http://www.
hasee.
com/cn/News_Views.
htmlnews_views=wo1地址:深圳市龙岗区坂雪岗工业区(邮编:518112)电话:(+86)-755-84710000华硕笔记本From:http://support.
asus.
com.
cn/contact/contact.
aspxSLanguage=zh-cnASUSTechnology(HongKong)Ltd.
地址:九龍深水埗長沙灣道202-204號瑞星商業大廈5樓C室FlatC,5/F,SuiSingBuilding,202-204CheungShaWanRoad,Kowloon香港灣仔灣仔道101號明德商業大廈8樓C室UnitC,8/F,MingTakcommercialbuilding,101WanchaiRoad,HongKong电话:+852-3582-4770我国名字中包含"鹿"的濒危珍稀动物及它们保护等级:鼷鹿:国家一级保护动物海南坡鹿:国家一级保护动物豚鹿:国家一级保护动物【海南省大田国家级自然保护区管理局】http://www.
hnpolu.
com/news.
phpid=172007百度一下,找到相关网页约142,000篇,用时0.
100秒依据问题对搜索引擎的比较:问题1问题2问题3问题4问题5关键词2010年、营业收入、营业额、公司、最高、世界、中国自助游、事先准备红素、血红蛋白、分子结构笔记本电脑生产厂家、地址、联系方式中国、鹿、濒危珍稀动物、保护等级搜索结果结果数量(个)搜索时长(秒)结果数量(个)搜索时长(秒)结果数量(个)搜索时长(秒)结果数量(个)搜索时长(秒)结果数量(个)搜索时长(秒)Baidu4,040,0000.
189805,0000.
0882,3500.
134827,0000.
1468,2200.
175Google2,780,0000.
48111,0000.
1747,4000.
381,650,0000.
249,9100.
43Sogou81,6590.
197112,8610.
1362,6510.
116414,1630.
4222,5980.
116比较评价Baidu结果最多,Baidu速度最快Baidu结果最多,Baidu速度最快Google结果最多,Sogou速度最快Google结果最多,Baidu速度最快Google结果最多,Sogou速度最快直接命中率Google直接命中结果Baidu的头十个结果与问题最相似Sogou直接命中结果Google的头十个结果与问题最相似Sogou直接命中结果推荐GoogleBaiduSogouGoogleSogou学习心得与体会运用百度搜索时,歌曲数目种类不大齐全.
经过本次作业后,了解搜索引擎优缺点,学会更加熟悉掌握了计算机技巧,标题,艺术字,字体大小,表格等等.
百纵科技:美国高防服务器,洛杉矶C3机房 独家接入zenlayer清洗 带金盾硬防,CPU全系列E52670、E52680v3 DDR4内存 三星固态盘阵列!带宽接入了cn2/bgp线路,速度快,无需备案,非常适合国内外用户群体的外贸、搭建网站等用途。C3机房,双程CN2线路,默认200G高防,3+1(高防IP),不限流量,季付送带宽美国洛杉矶C3机房套餐处理器内存硬盘IP数带宽线路防御价格/月套...
HostHatch在当地时间7月30日发布了一系列的促销套餐,涉及亚洲和欧美的多个地区机房,最低年付15美元起,一次买2年还能免费升级双倍资源。商家成立于2011年,提供基于KVM架构的VPS主机,数据中心包括中国香港、美国、英国、荷兰、印度、挪威、澳大利亚等国家的十几个地区机房。官方网站:https://hosthatch.com/NVMe VPS(香港/悉尼)1 CPU core (12.5%...
LightNode是一家成立于2002年,总部位于香港的VPS服务商。提供基于KVM虚拟化技术.支持CentOS、Ubuntu或者Windows等操作系统。公司名:厦门靠谱云股份有限公司官方网站:https://www.lightnode.com拥有高质量香港CN2 GIA与东南亚节点(河内、曼谷、迪拜等)。最低月付7.71美金,按时付费,可随时取消。灵活满足开发建站、游戏应用、外贸电商等需求。首...