一个方便易用的爬虫框架

news/2024/7/19 10:28:02 标签: 爬虫, git, java

本文转载至  http://www.tuicool.com/articles/VZBj2e

原文  http://itindex.net/detail/52388-框架

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫

官方网站  http://webmagic.io/

 

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。

web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,webmagic不会做反封锁的事情,包括:验证码破解、代理切换、自动登录等。

 

webmagic的主要特色:

  • 完全模块化的设计,强大的可扩展性。
  • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
  • 提供丰富的抽取页面API。
  • 无配置,但是可通过POJO+注解形式实现一个爬虫
  • 支持多线程。
  • 支持分布式。
  • 支持爬取js动态渲染的页面。
  • 无框架依赖,可以灵活的嵌入到项目中去。

http://git.oschina.net/flashsword20/webmagic#readme

转载于:https://www.cnblogs.com/Camier-myNiuer/p/4201609.html


http://www.niftyadmin.cn/n/812125.html

相关文章

Hystrix 使用与分析

转载请注明出处哈:http://hot66hot.iteye.com/blog/2155036 一:为什么需要Hystrix? 在大中型分布式系统中,通常系统很多依赖(HTTP,hession,Netty,Dubbo等),如下图: 在高并发访问下,这些依赖的稳定性与否对系统的影响非常大,但是依赖有很多不可控问题:如…

如何用游戏化思维构建“好玩”平台

QQ小程序游戏中心主打丰富多样化的小游戏,作为设计师如何通过视觉表现构建一个更好玩的平台,向用户传达“好玩”的感受。1FOREWORD 从游戏中学习什么是 “好玩” 为什么在游戏中我们明知得不到实质的回报却愿意投入大量时间和金钱?好玩的游戏…

iOS-Core-Animation-Advanced-Techniques(一)

本文转载至 http://www.cocoachina.com/ios/20150104/10814.html 图层树、寄宿图以及图层几何学(一)图层的树状结构 巨妖有图层,洋葱也有图层,你有吗?我们都有图层 -- 史莱克 Core Animation其实是一个令人误解的命名…

《深入理解Java虚拟机》Java内存区域与内存溢出异常

先来一张JVM运行时数据区域图,再接下来一一分析各区域功能: 程序计数器 程序计数器(program Counter Register)是一块较小的内存空间,它可以看作是当前线程所执行的字节码的行号指示器。此内存区域是唯一一个在Java虚拟…

iOS-Core-Animation-Advanced-Techniques(二)

本文转载至 http://www.cocoachina.com/ios/20150104/10816.html 视觉效果和变换 (四)视觉效果 嗯,园和椭圆还不错,但如果是带圆角的矩形呢? 我们现在能做到那样了么? 史蒂芬乔布斯 我们在第三章『图层几何…

深入理解 Java 虚拟机 Java内存区域与内存溢出异常

Java内存区域与内存溢出异常 1.概述 对于 Java 的开发者来说,在虚拟机的自动内存管理机制的帮助下,不再需要为每一个 new 操作去写配对的 delete/ free 代码,这样不容易出现内存泄露和内存溢出的问题,只要全权交给虚拟机去处理。不…

uitableview滚动到最后一行

本文转载至 http://mrjeye.iteye.com/blog/1278521 - (void)scrollTableToFoot:(BOOL)animated { NSInteger s [self.tableView numberOfSections]; if (s<1) return; NSInteger r [self.tableView numberOfRowsInSection:s-1]; if (r<1) return; NSIndexPath *ip [NS…

UI设计师产品设计规范

UI设计师是产品设计非常重要的一个岗位需求&#xff0c;不过现在很多UI设计师因为公司和产品的差异化&#xff0c;往往弄不清楚身为一个UI设计师具体的产品设计规范是什么&#xff1f; 1、制定MRD(Market Requirements Document) 市场需求文档。获得项目发起部门的认同后产品进…