robots协议robot协议是谁发明的?为什么不允许蜘蛛来

robots协议  时间:2021-07-12  阅读:()

网络爬虫必须遵守robot协议吗

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。

这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。

你说的这个情况应该是网站对搜索引擎做了一定的限制了。

比如:限制某个浏览器或者全部浏览器不能抓取整个网站,或者是限制某个浏览器或者所有浏览器不能抓取某个特定的页面。

robot协议是谁发明的?为什么不允许蜘蛛来

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。

真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。

即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。

在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

不允许蜘蛛来抓取的情况有很多,比如某个网站不靠搜索引擎导入流量,就可以通过robots.txt协议禁止搜索引擎抓取,因为搜索引擎频繁抓取页面会占用服务器的带宽,影响服务器性能;再比如会员登录后才能看到的内容、重复内容、程序文件等等都需要通过robots.txt文件来禁止搜索引擎抓取,一方面可以节约带宽,另一方面可以对搜索引擎友好。





菠萝云:带宽广州移动大带宽云广州云:广州移动8折优惠,月付39元

菠萝云国人商家,今天分享一下菠萝云的广州移动机房的套餐,广州移动机房分为NAT套餐和VDS套餐,NAT就是只给端口,共享IP,VDS有自己的独立IP,可做站,商家给的带宽起步为200M,最高给到800M,目前有一个8折的优惠,另外VDS有一个下单立减100元的活动,有需要的朋友可以看看。菠萝云优惠套餐:广州移动NAT套餐,开放100个TCP+UDP固定端口,共享IP,8折优惠码:gzydnat-8...

老周互联24小时无理由退款,香港原生IP,28元起

老周互联怎么样?老周互联隶属于老周网络科技部旗下,创立于2019年12月份,是一家具有代表性的国人商家。目前主营的产品有云服务器,裸金属服务器。创办一年多以来,我们一直坚持以口碑至上,服务宗旨为理念,为用户提供7*24小时的轮班服务,目前已有上千多家中小型站长选择我们!服务宗旨:老周互联提供7*24小时轮流值班客服,用户24小时内咨询问题可提交工单,我们会在30分钟内为您快速解答!另免费部署服务器...

轻云互联(19元)香港高防云服务器 ,美国云服务器

轻云互联成立于2018年的国人商家,广州轻云互联网络科技有限公司旗下品牌,主要从事VPS、虚拟主机等云计算产品业务,适合建站、新手上车的值得选择,香港三网直连(电信CN2GIA联通移动CN2直连);美国圣何塞(回程三网CN2GIA)线路,所有产品均采用KVM虚拟技术架构,高效售后保障,稳定多年,高性能可用,网络优质,为您的业务保驾护航。活动规则:用户购买任意全区域云服务器月付以上享受免费更换IP服...

robots协议为你推荐
诺诺云代账上海的亮证节有讲到诺诺云代账,产品如何?bindserviceonserviceconnected什么时候执行deviceidAndroid里DeviceId和AndroidId都是什么意思?slideshare如何通过slideshare扩充LinkedIn人脉数秦科技数秦科技旗下有哪些区块链项目?waves插件请问下waves9是什么东西,插件吗?数据分析报告范文如何写数据分析报告?新手怎么制作表格我是初学者、电脑上怎么制作表格菜霸保险是传销吗?水表读数家用水表怎么读数
fc2最新域名 最便宜的vps 域名备案信息查询 ftp空间 新秒杀 zpanel sugarsync 远程登陆工具 最好看的qq空间 合肥鹏博士 dd444 100x100头像 699美元 cdn加速原理 服务器合租 hdd vul 浙江服务器 789电视剧网 谷歌搜索打不开 更多