限定符和类型 | 字段和说明 |
---|---|
CrawlDatum |
Fetcher.FetchItem.datum |
限定符和类型 | 方法和说明 |
---|---|
void |
SegmentWriter.wrtieFetch(CrawlDatum fetch)
写入一条爬取历史记录
|
void |
FSSegmentWriter.wrtieFetch(CrawlDatum fetch)
写入一条爬取历史记录
|
构造器和说明 |
---|
Fetcher.FetchItem(CrawlDatum datum) |
限定符和类型 | 方法和说明 |
---|---|
CrawlDatum |
Generator.next()
获取下一个抓取任务
|
CrawlDatum |
CollectionGenerator.next() |
CrawlDatum |
FSGenerator.next() |
限定符和类型 | 方法和说明 |
---|---|
void |
CollectionGenerator.addCrawlDatums(Collection<CrawlDatum> crawldatums) |
构造器和说明 |
---|
CollectionGenerator(Collection<CrawlDatum> crawldatums) |
限定符和类型 | 方法和说明 |
---|---|
CrawlDatum |
UniqueFilter.next()
获取下一个URL不重复的任务
|
CrawlDatum |
IntervalFilter.next()
获取下一个爬取时间间隔超过Config.interval的任务
有下面几种情况可接受:
1.爬取任务状态为UNFETCHED(未抓取)
2.如果Config.interval为-1,表示时间间隔为无穷大,只能接受爬
取任务状态为UNFETCHED(未抓取)的任务
3.如果Config.interval>=0,且任务状态为已抓取,根据任务的抓取时间(fetchTime),加
上时间间隔(Config.interval),判断是否超过当前时间,如果超过,则接受任务。
|
CrawlDatum |
URLRegexFilter.next()
获取下一个符合正则规则的爬取任务
URL符合正则规则需要满足下面条件:
1.至少能匹配一条正正则
2.不能和任何反正则匹配
|
限定符和类型 | 方法和说明 |
---|---|
Response |
HttpRequest.getResponse(CrawlDatum datum) |
Response |
Request.getResponse(CrawlDatum datum) |
限定符和类型 | 方法和说明 |
---|---|
CrawlDatum |
RedisHelper.getCrawlDatumByKey(String key) |
CrawlDatum |
RedisGenerator.next() |
限定符和类型 | 方法和说明 |
---|---|
void |
RedisHelper.addFetch(CrawlDatum datum) |
protected void |
RedisMergeFSDbupdater.addToRedis(CrawlDatum datum) |
protected void |
RedisMergeFSDbupdater.update(CrawlDatum datum) |
void |
RedisSegmentWriter.wrtieFetch(CrawlDatum fetch) |
Copyright © 2014. All Rights Reserved.