限定符和类型 | 方法和说明 |
---|---|
abstract Generator |
Crawler.createGenerator() |
Generator |
BreadthCrawler.createGenerator() |
限定符和类型 | 字段和说明 |
---|---|
Generator |
Fetcher.QueueFeeder.generator |
限定符和类型 | 方法和说明 |
---|---|
void |
Fetcher.fetchAll(Generator generator)
抓取当前所有任务,会阻塞到爬取完成
|
构造器和说明 |
---|
Fetcher.QueueFeeder(Fetcher.FetchQueue queue,
Generator generator,
int size) |
限定符和类型 | 类和说明 |
---|---|
class |
CollectionGenerator
爬取指定集合中的url列表的爬取任务生成器
|
class |
FSGenerator
广度遍历使用的爬取任务生成器
|
限定符和类型 | 类和说明 |
---|---|
class |
Filter
爬取任务过滤器,是爬取任务生成器的一种,嵌套在一个已有的爬取任务生成器外部,从
已有的爬取任务生成器中获取符合规则的任务
|
class |
IntervalFilter
时间间隔过滤器
|
class |
UniqueFilter
唯一性过滤器
|
class |
URLRegexFilter
正则规律过滤器
|
构造器和说明 |
---|
Filter(Generator generator)
构造一个过滤器(也是爬取任务生成器),从一个已有的爬取任务生成器中获取下一个符合规则的任务
|
IntervalFilter(Generator generator)
构造一个时间间隔过滤器
|
UniqueFilter(Generator generator)
构建一个唯一性过滤器
|
URLRegexFilter(Generator generator,
ArrayList<String> rules)
根据正则规则列表,生成正则规则过滤器
|
限定符和类型 | 类和说明 |
---|---|
class |
RedisGenerator |
限定符和类型 | 方法和说明 |
---|---|
Generator |
RedisCrawler.createGenerator() |
Copyright © 2014. All Rights Reserved.