类 cn.edu.hfut.dmic.webcollector.model.CrawlDatum的使用 (WebCollector 1.30 API)

上一个
下一个

所有类

使用CrawlDatum的程序包
程序包	说明
cn.edu.hfut.dmic.webcollector.fetcher
cn.edu.hfut.dmic.webcollector.generator
cn.edu.hfut.dmic.webcollector.generator.filter
cn.edu.hfut.dmic.webcollector.net
cn.edu.hfut.dmic.webcollector.plugin.redis

cn.edu.hfut.dmic.webcollector.fetcher中CrawlDatum的使用

声明为CrawlDatum的cn.edu.hfut.dmic.webcollector.fetcher中的字段
限定符和类型	字段和说明
`CrawlDatum`	Fetcher.FetchItem.`datum`

参数类型为CrawlDatum的cn.edu.hfut.dmic.webcollector.fetcher中的方法
限定符和类型	方法和说明
`void`	SegmentWriter.`wrtieFetch(CrawlDatum fetch)` 写入一条爬取历史记录
`void`	FSSegmentWriter.`wrtieFetch(CrawlDatum fetch)` 写入一条爬取历史记录

参数类型为CrawlDatum的cn.edu.hfut.dmic.webcollector.fetcher中的构造器
构造器和说明
`Fetcher.FetchItem(CrawlDatum datum)`

cn.edu.hfut.dmic.webcollector.generator中CrawlDatum的使用

返回CrawlDatum的cn.edu.hfut.dmic.webcollector.generator中的方法
限定符和类型	方法和说明
`CrawlDatum`	Generator.`next()` 获取下一个抓取任务
`CrawlDatum`	CollectionGenerator.`next()`
`CrawlDatum`	FSGenerator.`next()`

类型变量类型为CrawlDatum的cn.edu.hfut.dmic.webcollector.generator中的方法参数
限定符和类型	方法和说明
`void`	CollectionGenerator.`addCrawlDatums(Collection<CrawlDatum> crawldatums)`

类型变量类型为CrawlDatum的cn.edu.hfut.dmic.webcollector.generator中的构造器参数
构造器和说明
`CollectionGenerator(Collection<CrawlDatum> crawldatums)`

cn.edu.hfut.dmic.webcollector.generator.filter中CrawlDatum的使用

返回CrawlDatum的cn.edu.hfut.dmic.webcollector.generator.filter中的方法
限定符和类型	方法和说明
`CrawlDatum`	UniqueFilter.`next()` 获取下一个URL不重复的任务
`CrawlDatum`	IntervalFilter.`next()` 获取下一个爬取时间间隔超过Config.interval的任务有下面几种情况可接受： 1.爬取任务状态为UNFETCHED(未抓取) 2.如果Config.interval为-1，表示时间间隔为无穷大，只能接受爬取任务状态为UNFETCHED(未抓取)的任务 3.如果Config.interval>=0,且任务状态为已抓取，根据任务的抓取时间(fetchTime),加上时间间隔(Config.interval)，判断是否超过当前时间，如果超过，则接受任务。
`CrawlDatum`	URLRegexFilter.`next()` 获取下一个符合正则规则的爬取任务 URL符合正则规则需要满足下面条件： 1.至少能匹配一条正正则 2.不能和任何反正则匹配

cn.edu.hfut.dmic.webcollector.net中CrawlDatum的使用

参数类型为CrawlDatum的cn.edu.hfut.dmic.webcollector.net中的方法
限定符和类型	方法和说明
`Response`	HttpRequest.`getResponse(CrawlDatum datum)`
`Response`	Request.`getResponse(CrawlDatum datum)`

cn.edu.hfut.dmic.webcollector.plugin.redis中CrawlDatum的使用

返回CrawlDatum的cn.edu.hfut.dmic.webcollector.plugin.redis中的方法
限定符和类型	方法和说明
`CrawlDatum`	RedisHelper.`getCrawlDatumByKey(String key)`
`CrawlDatum`	RedisGenerator.`next()`

参数类型为CrawlDatum的cn.edu.hfut.dmic.webcollector.plugin.redis中的方法
限定符和类型	方法和说明
`void`	RedisHelper.`addFetch(CrawlDatum datum)`
`protected void`	RedisMergeFSDbupdater.`addToRedis(CrawlDatum datum)`
`protected void`	RedisMergeFSDbupdater.`update(CrawlDatum datum)`
`void`	RedisSegmentWriter.`wrtieFetch(CrawlDatum fetch)`

上一个
下一个

所有类

Copyright © 2014. All Rights Reserved.