电子技术论文发表可以让网络工程师用来评职称,也可以作为学者之间的学术交流来使用.
本篇论文是选自计算机期刊《信息与电脑》上的一篇论文范文,全文如下,以供各位同行下载及参考.
【摘要】网络蜘蛛搜索策略的研究是近年来专业搜索引擎研究的焦点之一,如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求是目前所面临的重要问题.
本文重点阐述了搜索引擎的WebSpider(网络蜘蛛)的搜索策略和搜索优化措施,提出了一种简单的基于广度优先算法的网络蜘蛛设计方案,并分析了设计过程中的优化措施.
【关键词】搜索引擎,网络蜘蛛,搜索策略0引言近年来,随着Internet技术的广泛应用,传统的通用搜索引擎,如Google、Fast、AltaVista和GoTo等正面临巨大的挑战.
挑战之一是Web信息资源呈指数级增长,搜索引擎无法索引所有页面.
据统计,目前Web上静态页面的数量超过40亿个,而且这一数量还在以平均每天730万个页面的速度递增.
在过去的几年中,尽管各种通用搜索引擎在索引技术、索引数量上有所提高,但远远无法跟上Web本身的增长速度,即使是目前全球最大的搜索引擎Google,其索引的页面数量仅占Web总量的40%;挑战之二是Web信息资源的动态变化,搜索引擎无法保证对信息的及时更新.
近年来的研究表明,Web上的页面平均50天就有约50%的页面发生变化,而目前通用搜索引擎更新的时间至少需要数星期之久;挑战之三是传统的搜索引擎提供的信息检索服务,不能满足人们日益增长的对个性化服务的需要.
因此如何设计网络蜘蛛(WebSpider)来更有效率的爬取互联网上的内容成为搜索引擎的一个首要问题.
在设计网络蜘蛛时,不仅需要充分考虑到爬取的效率和站点设置的灵活性还要确保系统的稳定性.
一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能.
本文在分析网络蜘蛛的工作原理的基础上,提出了一种基于广度优先搜索算法的网络蜘蛛的实现,并对提高网络蜘蛛搜索效率的相关看法.
由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数.
[2]例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层.
如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的.
这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到.
香港大带宽服务器香港大带宽云服务器目前市场上可以选择的商家十分少,这次给大家推荐的是我们的老便宜提速啦的香港大带宽云服务器,默认通用BGP线路(即CN2+BGP)是由三网直连线路 中国电信骨干网以及HGC、NTT、PCCW等国际线路混合而成的高品质带宽(精品带宽)线路,可有效覆盖全球200多个国家和地区。(适用于绝大部分应用场景,适合国内外访客访问,域名无需备案)提速啦官网链接:点击进入香港Cer...
官方网站:点击访问青云互联活动官网优惠码:终身88折扣优惠码:WN789-2021香港测试IP:154.196.254美国测试IP:243.164.1活动方案:用户购买任意全区域云服务器月付以上享受免费更换IP服务;限美国区域云服务器凡是购买均可以提交工单定制天机防火墙高防御保护端口以及保护模式;香港区域购买季度、半年付、年付周期均可免费申请额外1IP;使用优惠码购买后续费周期终身同活动价,价格不...
mineserver怎么样?mineserver是一家国人商家,主要提供香港CN2 KVM VPS、香港CMI KVM VPS、日本CN2 KVM VPS、洛杉矶cn2 gia端口转发等服务,之前介绍过几次,最近比较活跃。这家新推出了洛杉矶CN2 GIA VPS,512MB内存/20GB NVME/800GB流量/200Mbps/KVM,58元/季,并且进行了带宽升级,同时IP更改为美国IP。点击...