联系人: 张老师
所在地:江苏 苏州市
一种主题相关的分布式网络爬虫系统,包括:主题链接存储器,用于存放系统未完成抓取的超链接;控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;网页数据库,用于存放爬行节点抓取的网页;网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。
Copyright © 2019 青海技术市场 青ICP备18001110号-4