爬虫系统

Tue 23 September 2025

搜索系统 ⁃ 网页界面 ⁃ 命令行界面 ⁃ 编程接口 ⁃ 嵌入系统 用于嵌入网页,或与其他服务集成

索引系统 ⁃ 域名索引系统 仅限有效域名 索引域名 ⁃ 内容页发现索引系统 对文章内容索引。提交到webarchive。 ⁃ 内容页刷新索引系统 更新文章内容与索引 标记失效内容 删除完全无法访问的内容及完全变更的内容

爬虫系统 ⁃ 主域名发现系统 ⁃ 子域名发现系统 ⁃ 正常域名刷新系统 ⁃ 异常域名刷新系统 ⁃ 主入口页面刷新系统 ⁃ 次入口页面刷新系统 ⁃ 内容页面刷新系统 ⁃ 内容页面发现系统

爬取结果存储 ⁃ 网址映射表 ⁃ 规范结果 ⁃ 错误结果 ⁃ 网址规范化 ⁃ 200网页存储 ⁃ 404,403,400,410网页存储 ⁃ 500,502,503网页存储 ⁃ 301,302,307,308网页存储 ⁃ 其他错误网页存储

爬取任务存储(发现) ⁃ 每小时爬取 200索引,其他错误不动,即不索引 ⁃ 每日爬取 200索引,其他错误不动,即不索引 ⁃ 每周爬取200索引,其他错误不动,即不索引 ⁃ 每月爬取200索引,其他错误不动,即不索引

爬取任务存储(刷新) ⁃ 每周刷新 200重新索引 301,302,307,308以新地址索引,400,404,410删除,其他错误不动 ⁃ 每月刷新 200重新索引 301,302,307,308以新地址索引,400,404,410删除,其他错误不动

页面索引 ⁃ id ⁃ 目标url ⁃ 标题 ⁃ 描述 页面内容 ⁃ id ⁃ 目标url ⁃ 内容html 页面主要内容 ⁃ id ⁃ 目标url ⁃ 内容html ⁃ 内容文本

域名索引 ⁃ 域名 ⁃ 状态 ⁃ 目标网址

搜索结果页面

⁃   标题
⁃   描述
⁃   标识网址
⁃   访问网址


⁃   域名
⁃   可注册域名



⁃   附加服务

名单 ⁃ 域名后缀黑名单 ⁃ 域名及对应的路径黑名单 ⁃ 全局域名匹配黑名单 ⁃ 全局域名匹配白名单 ⁃ 全局路径匹配黑名单 ⁃ 全局路径匹配白名单

网址状态
⁃ 原始网址 目标网址 是否允许抓取 内容抓取 存于缓存中。之后的索引从这里建立。 ⁃ 内容网址 返回头 返回html 内容索引 发现和刷新时,符合索引条件则加入索引,或删除索引。 ⁃ 内容网址 原始头 ⁃ 内容网址 原始html ⁃ 内容网址 解析html ⁃ 内容网址 解析text ⁃ 内容网址 结构化信息 包括标题 标识网址 跳转网址 描述 ⁃ 内容网址 内容网址 内容标题 内容text 存于Sonic中

Category: 待整理