专利名称:一种网络爬虫系统及网络爬虫多任务执行和调度方
法
专利类型:发明专利发明人:宋轲,刘世才,毛海涛申请号:CN201310610659.4申请日:20131126公开号:CN103605764A公开日:20140226
摘要:本发明公开一种网络爬虫系统及网络爬虫多任务执行和调度方法,所述方法包括:A.根据不同的内容和网站特点,对爬取内容进行细粒度切分并分别制作各爬虫解析模板文件,设置网络爬虫分别结合各爬虫解析模板文件形成用于执行爬取任务的各采集模块;B.多个节点服务器上分别部署所述网络爬虫,每个节点服务器分别设置有用于调度爬取任务的调度器;C.所述调度器按照预先定义的调度策略调用关联的采集模块执行爬取任务进行数据采集。本发明通过对爬取内容进行细粒度切分,实现任务的高并发执行,采取负载均衡策略,充分利用了服务器资源,爬取效率得到明显提高,而且避免了单机故障造成的系统可靠性不高的问题,保障了系统高可靠性运行。
申请人:TCL集团股份有限公司
地址:516001 广东省惠州市鹅岭南路6号TCL工业大厦8楼技术中心
国籍:CN
代理机构:深圳市君胜知识产权代理事务所
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容