爬虫系统
Tue 23 September 2025
搜索系统 ⁃ 网页界面 ⁃ 命令行界面 ⁃ 编程接口 ⁃ 嵌入系统 用于嵌入网页,或与其他服务集成
索引系统 ⁃ 域名索引系统 仅限有效域名 索引域名 ⁃ 内容页发现索引系统 对文章内容索引。提交到webarchive。 ⁃ 内容页刷新索引系统 更新文章内容与索引 标记失效内容 删除完全无法访问的内容及完全变更的内容
爬虫系统 ⁃ 主域名发现系统 ⁃ 子域名发现系统 ⁃ 正常域名刷新系统 ⁃ 异常域名刷新系统 ⁃ 主入口页面刷新系统 ⁃ 次入口页面刷新系统 ⁃ 内容页面刷新系统 ⁃ 内容页面发现系统
爬取结果存储 ⁃ 网址映射表 ⁃ 规范结果 ⁃ 错误结果 ⁃ 网址规范化 ⁃ 200网页存储 ⁃ 404,403,400,410网页存储 ⁃ 500,502,503网页存储 ⁃ 301,302,307,308网页存储 ⁃ 其他错误网页存储
爬取任务存储(发现) ⁃ 每小时爬取 200索引,其他错误不动,即不索引 ⁃ 每日爬取 200索引,其他错误不动,即不索引 ⁃ 每周爬取200索引,其他错误不动,即不索引 ⁃ 每月爬取200索引,其他错误不动,即不索引
爬取任务存储(刷新) ⁃ 每周刷新 200重新索引 301,302,307,308以新地址索引,400,404,410删除,其他错误不动 ⁃ 每月刷新 200重新索引 301,302,307,308以新地址索引,400,404,410删除,其他错误不动
页面索引 ⁃ id ⁃ 目标url ⁃ 标题 ⁃ 描述 页面内容 ⁃ id ⁃ 目标url ⁃ 内容html 页面主要内容 ⁃ id ⁃ 目标url ⁃ 内容html ⁃ 内容文本
域名索引 ⁃ 域名 ⁃ 状态 ⁃ 目标网址
搜索结果页面
⁃ 标题
⁃ 描述
⁃ 标识网址
⁃ 访问网址
⁃ 域名
⁃ 可注册域名
⁃ 附加服务
名单 ⁃ 域名后缀黑名单 ⁃ 域名及对应的路径黑名单 ⁃ 全局域名匹配黑名单 ⁃ 全局域名匹配白名单 ⁃ 全局路径匹配黑名单 ⁃ 全局路径匹配白名单
网址状态
⁃ 原始网址 目标网址 是否允许抓取
内容抓取 存于缓存中。之后的索引从这里建立。
⁃ 内容网址 返回头 返回html
内容索引 发现和刷新时,符合索引条件则加入索引,或删除索引。
⁃ 内容网址 原始头
⁃ 内容网址 原始html
⁃ 内容网址 解析html
⁃ 内容网址 解析text
⁃ 内容网址 结构化信息 包括标题 标识网址 跳转网址 描述
⁃ 内容网址 内容网址 内容标题 内容text 存于Sonic中
Category: 待整理