上周,我们发布了 的新更新,其中包含 8 月份抓取并收录的数据。一些用户注意到了该索引的一些重大变化,尤其是在链接计数和一些 PA/DA 指标方面。我想在这篇文章中花些时间讨论 Linkscape 的数据、我们的流程、我们面临的一些挑战以及未来几个月索引的预期变
如果您一直密切关注
索引更新的统计数据,您可 电报数据 能会发现,在过去一年中,域名多样性(索引中根域名的数量)和整体规模(唯一 URL 的数量)似乎呈反比关系。索引规模越大,我们抓取的域名就越少;而抓取的域名越多,来自这些域名的页面就越少。
以下是从去年 8 月开始的图形比较
抓取的单个 URL 数量反而减少了。长期 诊所管理软件提供动态解决方 以来,这一直是我们构建服务时所用某些系统的痛点,也是我们无法克服的缺陷。今年 4 月,我们开始测试一套新的抓取系统,希望它能够让我们兼顾深度和广度,但为了扩展处理能力、修复错误并精简 Linkscape 的架构,我们首先需要完成许多复杂且难以构建的步骤。
我们的工程副总裁 Kate最近在问答中谈到了这个问题:
大家好!
我只是想快速回复一下,以便更清楚 电话线索 地说明情况。去年,我们启动了一个旨在大幅改进索引的项目。该项目的第一步是让我们的爬虫能够发现更多网络内容——这包括更深入地爬取域名,更快地发现更多链接(新鲜度),以及总体上包含更多链接。
背景
为了理解这些变化,如果我解释一下我们的爬虫程序过去是如何工作的以及我们是如何改变的,可能会有所帮助。
我们的爬虫程序会爬取网页
(持续 3-4 周),然后计算链接图,并创建您在Open Site Explorer中看到的所有链接列表和指标——这就是我们所谓的处理过程(这大概需要 2-3 周)。在处理过程中,我们会选择排名前 100 亿的 URL 进行爬取,然后开始爬取这些 URL。
这个系统的问题在于,数据可能已经过时7-8周了(爬取时间 + 处理时间 + 部署到 API 和 OSE)。而且它不是递归的——这意味着我们只有在处理爬取数据时才会发现新的链接,所以可能需要几个月的时间才能看到更深层次的新链接。