专注出海运营平台,解决跨境电商问题
当前位置:跨境智通山 > google > 正文

Google 开源 robots.txt 解析器,推动 REP 标准化

2021-10-31 14:22:29 google

Google 开源 robots.txt 解析器,推动 REP 标准化

文中将产生Google 开源系统 robots.txt 在线解析,促进 REP 规范化內容,期待大伙儿根据文中能掌握Google 开源系统 robots.txt 在线解析,促进 REP 规范化。

Google 开源 robots.txt 解析器,推动 REP 标准化

雷锋网信息,7 月 1 日,Google 在其blog上公布了一个重磅消息,它公布,Google 开源系统了储存 robots.text 在线解析的 C 库,便于促进 REP(Robots Exclusion Protocol,也称爬虫协议,智能机器人协议书)变成互联网技术规范。

1994 年,西班牙前端工程师 Martijin Koster 明确提出了 REP 的定义,根据 robots.txt 文档来掩藏一些信息内容不被百度搜索引擎爬取,例如,只爬取应当被调用的网页页面;屏蔽掉一些网络中很大的文档;屏蔽掉一些失效连接;信息保密比较敏感信息等。

雷锋网注:百度搜索引擎的抓取方法(照片来源于百科)

我们可以那么来了解,网址就如同一个屋子,robots.txt 文档便是主人家在房间门上悬架的“请勿打扰”的警示牌,能够令人停步于一些储放贵重的物品的屋子,但它终归并不是看门人,阻止不了怀着故意的小偷。

25 年过去,业界对 REP 表明了充足的认同,但目前它更好像一个职业道德,而不是第三方的互联网技术规范。

但是,Google 正专注于改善这一现况。Google 在blog中讲到,

大家期待协助网址使用者和开发人员在互联网技术上造就令人震惊的感受,而不是担忧怎样操纵爬取专用工具。Google 和协议书的发起者,及其别的网络工程师和百度搜索引擎一同拟定了一份有关怎样在当代互联网上可用 REP的提议,现阶段开始上交到了 IETF(雷锋网按:Internet Engineering Task Force,非营利互联网技术对外开放规范机构,承担开发设计和营销推广自行互联网技术规范)。

Google 的提议体现了 20 很多年来 Googlebot 和一些关键爬虫,及其大概 5 亿依靠 REP 的网络运用 robots.txt 的真实工作经验,而且在当今互联网方面干了拓展,界定了 robots.txt 分析和配对的全部以前未定义情景:

一切根据 URI 的传输协议都能够应用 robots.txt;它不会再限于 HTTP,也可用以 FTP 或 CoAP。

开发者务必最少分析 robots.txt 的前 500 KB 內容。界定文档的最高值,以保证开启联接不用花太长期,进而缓解网络服务器上多余的工作压力。

新的最多缓存文件的时间为 24 钟头或可以用的缓存文件命令值,授予网址使用者协调能力随时随地升级 robots.txt,而网页爬虫不容易因而使网址负载。

当今能够浏览的 robots.txt 文档因为网络服务器常见故障而更加不能浏览时,这种无法打开的网页页面将在较长一段时间内不被查找。

除开协同各方能量向 IETF 上缴提议,Google 还做出了其他勤奋,开源系统了自身 robots.txt 文件库致力于建立规范化英语的语法来建立和分析文档,清除全部搞混。

Google 在blog中那样讲到:

REP 是互联网中最基本上,最核心的构成之一,但它仅仅约定成俗的规范,这难免会令人觉得消沉;这给网络工程师和爬虫工具开发人员带了困惑......促进 REP 变成国家标准这件事情十分关键,因为它合乎每一个人的权益。但是,针对分析 robots.txt 文档的开发者而言,这类规范化必须 投入更高的勤奋,因此,大家开源系统了带有 robots.txt 在线解析的 C 库。

据悉,这一 C 库早已具有了 20 年时间,里边涵盖了自 90 时代起就撰写的指令精彩片段。在这里 20 年来,该库经历了持续的发展趋势,也遮盖了很多在撰写 robots.txt 文档层面十分适用的实例,这对要想搭建自身的在线解析的开发者而言很有帮助。

此外,Google 仍在开源项目库中加上了一个检测工具,能够协助撰写工作人员检测 robots.txt 的实际效果。

在 Google 开源系统 robots.txt 后,这一话题讨论造成了普遍的关心,乃至登上 Hacker News。

Constellation 科学研究企业(雷锋网按: 主要从事企业战略转型和颠覆性创新技术性层面的技术性科学研究与资询)的投资分析师 Holger Mueller 告知 SiliconANGLE,规范化针对互联网技术一切正常工作中尤为重要,很高兴见到 Google 在 REP 那样基本上的物品上具有领跑。

Holger Mueller 还填补道,

与一切开源系统提倡和规范化试着一样,大家还必须 静候,看一下这一举动究竟是否会取得成功,大家又能在这里当中学得哪些。这是一个非常值得高度关注的行业。

在中国,网民们也陆续高喊“谷人希”(雷锋网按:“Google,人们的期待”)来表明对该事情的称赞。

请先 登陆 后发帖子~

Google 开源 robots.txt 解析器,推动 REP 标准化