Robots协议：友好沟通工具而不是竞争武器

时间：2013-10-12 13:10:57 来源：互联网编辑：星辉 发表评论无障碍通道

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，而不是作为搜索引擎之间互相限制和不正当竞争的工具。

在2012年由中国互联网协会举行的《互联网搜索引擎服务自律公约》签约仪式上，百度、即刻搜索、奇虎360、搜狗等12家搜索引擎服务企业签署公约，共同承诺：互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则，限制搜索引擎抓取应有行业公认合理的正当理由，不利用Robots协议进行不正当竞争行为，积极营造鼓励创新、公平公正的良性竞争环境。

Robots协议初衷：保护网站内部信息，保护服务器流量平衡

在互联网发展早期，搜索引擎还没有为网站带来明显的商业价值，搜索引擎爬虫也没有受到网站的普遍欢迎，主要有如下原因：

一、快速抓取导致网站过载，影响网站正常运行;

二、重复抓取相同的文件，抓取层级很深的虚拟树状目录，浪费服务器资源;

三、抓取网站管理后台等内部敏感信息，或抓取临时文件等对用户没有价值的信息;

四、抓取会对投票等CGI脚本造成负面影响，可能出现虚假的投票结果。

Robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。1994年，Robots协议由荷兰籍网络工程师Martijn Koster首次提出，Martijn Koster也因此被誉为“Robots之父”。之后直到2008年6月，Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准，各大搜索引擎公司开始对Robots协议进行商业研究，各种公司标准的Robots协议开始产生。

对于网站来说，设置Robots协议主要有三个目的，首先是保护网站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡，避免爬虫快速抓取给网站服务器带来过大压力。

但通常来说，用户在利用搜索引擎检索到内容网站时，对内容网站并不构成伤害，反而会为内容网站带来更多用户。绝大多数网站非但不会使用Robots协议禁止搜索引擎抓取，反而希望自己的网站内容能够更快、更全面地被搜索引擎收录，并展现在搜索结果的前列，由此也催生出搜索引擎竞价排名、SEO(搜索结果优化)等商业模式。

Robots协议使用现状：绝大多数网站对搜索引擎一视同仁

Robots协议也就是robots.txt文本文件，当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt。如果存在，搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在，搜索爬虫将会抓取网站上所有没有被口令保护的页面。

商业网站大多会在robots.txt中提供SiteMap文件链接地址，为搜素引擎指路，方便爬虫更好地抓取网站内容。此外，网站也可以使用robots.txt屏蔽网站中一些比较大的文件，如：视频、图片等，节省服务器带宽，也可以屏蔽网站的一些死链接。

Robots协议的写法包括两类：

一类是对所有的网络爬虫一视同仁，使用UserAgent * 这样的写法，明确写明不允许抓取的目录，这也是国际上商业网站Robots协议的主流用法，在Alexa的网站排行榜上选取前100个有Robots协议文件的国外网站，其中有85个站点使用了Original Robots协议规范，即不设置任何黑白名单，对所有爬虫一视同仁，或只针对部分爬虫做细微的规则指导，但是不禁止任何爬虫抓取;

另一类是如Facebook、LinkedIn、Twitter这种采用黑白名单机制写robots.txt的网站，在robots.txt中针对每种网络爬虫规定哪些目录不能抓取，LinkedIn在robots.txt文件中还列出了申请将网络爬虫加入白名单中的联系方法。Alexa上有Robots协议文件的TOP100网站中，有15个网站在robots.txt中设置了黑白名单，但只有一个是对通用搜索引擎的爬虫进行了黑名单设置，其他都是针对一些非通用搜索引擎的特殊爬虫设置黑名单。

Robots协议的误区：并非真正意义的“协议”

Robots协议虽然名为“协议”，但只是行业惯用的说法，它并非真正意义上的协议，也不受任何机构保护。

“Robots之父”Martijn Koster对Robots协议的性质进行了如下阐述：Robots协议是一个未经标准组织备案的非官方标准，它也不属于任何商业组织。本协议不受任何机构保护，所有现有和未来的机器人不一定使用本协议。Robots协议是Robot创作者们向互联网社区提供的用来保护互联网服务器免受骚扰的一个通用工具。

早在1997年，Martijn Koster曾向IETF(互联网工程任务组)提交申请，试图把Robots协议作为该组织规范，但被IETF拒绝。之后，国际电信联盟(ITU)、万维网联盟(W3C)的规范也同样拒绝采纳Robots协议。欧美电信专家担心，由于Robots协议包含排斥性条款，搜索巨鳄可能会利用Robots协议的条款，迫使某些热门网站与其签署排他性协议，从而将后起竞争者挡在门外，维护垄断。

在2012年11月1日，中国互联网协会在北京举行《互联网搜索引擎服务自律公约》签约仪式。据中国互联网协会胡启恒理事长介绍，“本次公约的制定充分体现了互联网的精神，一方面，公约对非法律条文规定、国际互联网界拥有共识的Robost协议给予了的充分的尊重和肯定。另一方面，互联网是生而自治的，在日后随着互联网技术应用的不断发展，还会有许多新兴问题出现，同时也希望业界能够基于诚信、自主自治的互联网精神来解决互联网的争议，共同讨论和解决出现的问题。”

《互联网搜索引擎服务自律公约》明确规定，“互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则，限制搜索引擎抓取应有行业公认合理的正当理由，不利用Robots协议进行不正当竞争行为，积极营造鼓励创新、公平公正的良性竞争环境。”

百度、即刻搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等12家发起单位在现场共同签署了《互联网搜索引擎服务自律公约》，表示将自觉遵守自律公约各项规定，不断提升服务水平，努力改善用户体验，积极为搜索引擎服务行业的健康发展贡献力量。

在当前市场上，千元级别的投影仪中，当贝Smart1和小明Q5 Pro无疑是两款备受瞩目的产品。它们各自凭借独特的特点和优势，赢得了用户的认可，今天就来说说这两款哪个是千元投影仪最好的?将从显示技术、系统性能、智能功能以及设计便携性四个方面，对这两款投影仪进行详细

双十一购物狂欢节持续进行中，各大电商平台与厂家，纷纷推出了超值优惠吸引消费者。与此同时，为了解锁PC的出色性能，DIY装备也成为了玩家们重点关注的对象。对此，小编带来了全新“ROG三神套装”：ROG RYUJIN龙神3代360 ARGB水冷散热器、ROG THOR雷神3代氮化镓1600W电

近日，法国巴黎的Pathé Palace影院顺利安装了六套三星Onyx LED电影屏，连同影院大厅内安装的8K显示屏“The Wall”以及遍布影厅周边的智能标牌共同构成了一个全面提升的观影环境，旨在为观众带来更加沉浸与便捷的观影体验。经过长达五年的全面翻新，Pathé Palace 影院

近来传的沸沸扬扬的“Hi MateBook”笔记本终于水落石出，WIKO官方正式认领该产品，并官宣该系列笔记本电脑定于10月31日正式发布，届时将推出Hi MateBook 14 和Hi MateBook D 16两款新品。作为入局笔记本电脑赛道的首秀，官方大秀了一把同微软的亲密关系，同时揭晓了两款

2024年10月,鲸语品牌首款开放式真无线耳机——鲸语Loki 正式上市!鲸语以创新性地“配饰化”形态,专为潮流人群和音乐数码爱好者开辟开放式耳机的全新风格领域,以叛逆玩家的姿态,打造出街的潮音单品。鲸语Loki售价159元,上市期间限时优惠仅需129元。各大电商平台鲸语旗舰

鉴于ROG键盘改装赛2.0受到热烈反响，ROG决定将此赛事的报名期限延长，新的报名时间为10月25日至12月15日(其中，12月15日为决赛日，而最终结果的公示则定于12月25日)。本次延长赛程为玩家提供了丰厚的奖励，除了一系列诱人的ROG产品外，还准备了ROG键盘礼包，内含夜魔专

八位堂64手柄，为Analogue 3D精心打造，拥有霍尔摇杆并且采用人体工学设计，外观上重现任天堂N64手柄经典元素。八位堂与Analogue携手为玩家们带来无与伦比的游戏体验，重返游戏的黄金年代。八位堂64手柄，在2024.10.21预售开启当天，引爆外网，突破八位堂预售首发历史记

从“无线通信公司”转型为面向新一代AI处理时代的“连接计算公司”，在过去很长一段时间以来，都是高通标榜自身的主基调，而今年在夏威夷茂宜岛如期举行的骁龙峰会，话题正是从这一基调展开。连接与计算，是通信技术与智能技术的代称，新一代AI技术席卷之下，一切用户体

京东11.11福利再次加码，为耳机音箱产品爱好者们带来了一场品牌爆款五折抢购活动，10月24日晚8点，多款热门耳机音箱产品将以真五折的价格震撼上线。对于广大游戏爱好者来说，一款优质的游戏耳机无疑是提升游戏体验的重要装备。ROG棱镜精英版游戏耳机，作为ROG系列的明星

宛如岁末星河初绽，11.11如期而至。身处这场专为甄选精品而设的璀璨盛典，众多广受赞誉的臻品如星辰竞相闪耀，为每个追求品质生活与卓越人生的用户带来入手心仪好物的良机。例如代表着现代智能化科技生活的三星商城，就在其「超级星动为AI狂欢」活动中，为三星Galaxy T

莲偶科技最新发布的夜视AR眼镜莲光Visual- N，作为全球首款星光夜视AR眼镜，以其独特的差异化定位赢得了广泛关注。这款眼镜不仅搭载了先进的8片特制玻璃透镜光学模组，实现了66°的超大视场角(FOV)，在底照度低至0.01lux的环境下依然能清晰呈现，识别距离更是覆盖从最近

松下更新的 LUMIX S5D是一款混合型全画幅无反相机，在视频和照片方面都有出色的表现，非常适合专业摄像师和日常摄影使用。我们在原先LUMIX S5 紧凑型设计的基础上，配备了大疆 LiDAR 自动对焦功能*。如今的LUMIX S5D 与大疆 LiDAR 测距模块及大疆 RS3 Pro 云台配对使用

随着无人机的广泛普及，它们正逐渐融入智慧城市的各个领域，悄然改变着城市的建设与监测方式。相较于传统人力高空作业的高风险与低效，无人机以其独特的优势，不仅规避了人工操作的潜在危险，还降低了城市更新过程中如路网规划、自动化巡逻及风力发电机维护等关键任务的

在如今的用户购机需求中，性能是很多用户的第一需求，毕竟大家都经历过买的手机用了没多久就卡顿、不流畅的情况。原因有很多，很多的原因是你买的手机是入门款而不是旗舰手机，所以购机尽量买旗舰款，功能和配置都是top级别的。就比如刚刚发布没多久的vivo X200，不仅搭

好像在早几年之前大家普遍都比较认可蓝厂的人像拍摄能力，vivo也是比较听劝的，这两年一直在深耕手机的人像拍摄能力，在vivo X100系列上大家已经公认为这款手机是拍摄人像领先的手机了，结果这台手机甚至还专门为演唱会拍摄开拓了一个新场景，在去年演唱会众多的情况下

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.