Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大
CrapApi是一个由angularjs+bootstrap+springMVC+mybatis搭建的免费开源的API接口管理系统、BUG管理系统、文档管理系统(应用接口管理系统)。CrapApi是完全免费开源项目,源码在GitHub、码云上可以获取,所有功能免费全部开放,不收取任何费用!企业内部
Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。Gecco 整合了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架,让您只需要配置一些 jquery 风格的选择器就能很快的写出一个爬虫。Gecco 框架有优秀的可
IOTGate是一个JAVA版基于netty的物联网高并发智能网关 。如何启动自行将项目打成jar包,在linux下,执行java -jar iotGate.jar -n 1 [args...] 默认前置端口为8888,可自行源码中修改;单机方式启动 :命令行参数使用“-m”指定前置服务地址集群方
spiderflow是一个高度灵活可配置的爬虫平台。作为新一代爬虫平台,它以图形化方式定义爬虫流程,不写代码即可完成爬虫。特性:支持Xpath/JsonPath/css选择器/正则提取/混搭提取支持JSON/XML/二进制格式支持多数据源、SQL select/selectInt/selectOn