A B C D E F G H I J K L M N O P Q R S T U V W 

A

addCrawlDatums(Collection<CrawlDatum>) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.CollectionGenerator
 
addFetch(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
addFetchItem(Fetcher.FetchItem) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
addNegative(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.URLRegexFilter
添加一个反正则规则
addParse(ParseData) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
addPositive(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.URLRegexFilter
添加一个正正则规则
addRegex(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
添加一个正则过滤规则
addRule(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.URLRegexFilter
添加一个正则规则 正则规则有两种,正正则和反正则 URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配
addSeed(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
添加一个种子url
addToRedis(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
addUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.CollectionGenerator
 
addUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.UniqueFilter
添加一个URL,以后该过滤器遇到相同URL会过滤
addUrls(Collection<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.CollectionGenerator
 
append(LoggingEvent) - 类 中的方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
AvroModel - cn.edu.hfut.dmic.webcollector.model中的类
 
AvroModel() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.AvroModel
 

B

backup() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
备份爬取任务列表
BasicInjector - cn.edu.hfut.dmic.webcollector.generator中的类
 
BasicInjector() - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.BasicInjector
 
BreadthCrawler - cn.edu.hfut.dmic.webcollector.crawler中的类
基于文件系统的广度遍历爬虫
BreadthCrawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
 
BreadthCrawlerUI - cn.edu.hfut.dmic.webcollector.ui中的类
 
BreadthCrawlerUI() - 类 的构造器cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI
 
BreadthCrawlerUI.TextAreaAppender - cn.edu.hfut.dmic.webcollector.ui中的类
 
BreadthCrawlerUI.TextAreaAppender() - 类 的构造器cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 

C

changedUpdate(DocumentEvent) - 类 中的方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
CharsetDetector - cn.edu.hfut.dmic.webcollector.util中的类
字符集自动检测
CharsetDetector() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.CharsetDetector
 
clear() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
clearHistory() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
clearHistory() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
clearHistory() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.FSSegmentWriter
关闭Writer
close() - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.SegmentWriter
关闭Writer
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.DbReader
关闭该Reader
close() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.DbWriter
关闭该Writer
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
关闭该更新器
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisSegmentWriter
 
close() - 类 中的方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
cn.edu.hfut.dmic.webcollector.crawler - 程序包 cn.edu.hfut.dmic.webcollector.crawler
 
cn.edu.hfut.dmic.webcollector.fetcher - 程序包 cn.edu.hfut.dmic.webcollector.fetcher
 
cn.edu.hfut.dmic.webcollector.generator - 程序包 cn.edu.hfut.dmic.webcollector.generator
 
cn.edu.hfut.dmic.webcollector.generator.filter - 程序包 cn.edu.hfut.dmic.webcollector.generator.filter
 
cn.edu.hfut.dmic.webcollector.handler - 程序包 cn.edu.hfut.dmic.webcollector.handler
 
cn.edu.hfut.dmic.webcollector.model - 程序包 cn.edu.hfut.dmic.webcollector.model
 
cn.edu.hfut.dmic.webcollector.net - 程序包 cn.edu.hfut.dmic.webcollector.net
 
cn.edu.hfut.dmic.webcollector.output - 程序包 cn.edu.hfut.dmic.webcollector.output
 
cn.edu.hfut.dmic.webcollector.parser - 程序包 cn.edu.hfut.dmic.webcollector.parser
 
cn.edu.hfut.dmic.webcollector.plugin.redis - 程序包 cn.edu.hfut.dmic.webcollector.plugin.redis
 
cn.edu.hfut.dmic.webcollector.ui - 程序包 cn.edu.hfut.dmic.webcollector.ui
 
cn.edu.hfut.dmic.webcollector.util - 程序包 cn.edu.hfut.dmic.webcollector.util
 
CollectionGenerator - cn.edu.hfut.dmic.webcollector.generator中的类
爬取指定集合中的url列表的爬取任务生成器
CollectionGenerator() - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.CollectionGenerator
 
CollectionGenerator(Collection<CrawlDatum>) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.CollectionGenerator
 
CommonConnectionConfig - cn.edu.hfut.dmic.webcollector.util中的类
 
CommonConnectionConfig(String, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.CommonConnectionConfig
 
CommonCrawler - cn.edu.hfut.dmic.webcollector.crawler中的类
一种常用的广度遍历爬虫
CommonCrawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
 
config(HttpURLConnection) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.CommonConnectionConfig
 
Config - cn.edu.hfut.dmic.webcollector.util中的类
全局配置
Config() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.Config
 
config(HttpURLConnection) - 接口 中的方法cn.edu.hfut.dmic.webcollector.util.ConnectionConfig
 
ConnectionConfig - cn.edu.hfut.dmic.webcollector.util中的接口
 
Content - cn.edu.hfut.dmic.webcollector.model中的类
 
Content() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Content
 
copy(File, File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
CrawlDatum - cn.edu.hfut.dmic.webcollector.model中的类
存储爬取任务的类,是WebCollector的核心类,记录了一个url的爬取信息,同样也 可以作为一个爬取任务
CrawlDatum() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.CrawlDatum
 
Crawler - cn.edu.hfut.dmic.webcollector.crawler中的类
广度遍历爬虫的基类
Crawler() - 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
crawlPath - 类 中的变量cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI
 
createCommonLogger(String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.LogUtils
 
createDbUpdater() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
 
createDbUpdater() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdaterFactory
 
createDbUpdater() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
 
createDbUpdater() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeBreadthCrawler
 
createFetcher() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
 
createFetcher() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
生成Fetcher(抓取器)的方法,可以通过Override这个方法来完成自定义Fetcher
createFetcher() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeBreadthCrawler
 
createFetcherHandler() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
生成处理抓取消息的Handler,默认通过Crawler的visit方法来处理成功抓取的页面, 通过failed方法来处理失败抓取的页面
createGenerator() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
 
createGenerator() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
createGenerator() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
 
createInjector() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
 
createInjector() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
createInjector() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
 
createParser(String, String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
根据网页的url和contentType,来创建Parser(解析器),可以通过Override这个方法来自定义Parser
createParser(String, String) - 接口 中的方法cn.edu.hfut.dmic.webcollector.parser.ParserFactory
 
createRequest(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
根据url生成Request(http请求)的方法,可以通过Override这个方法来自定义Request
createRequest(String) - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.RequestFactory
 
createSegmengName() - 类 中的静态方法cn.edu.hfut.dmic.webcollector.fetcher.SegmentUtils
根据时间,为segment文件夹生成唯一的名称
current_info_path - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 

D

datum - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchItem
 
DbReader<T> - cn.edu.hfut.dmic.webcollector.generator中的类
读Avro文件的Reader
DbReader(Class<T>, File) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.DbReader
构造一个从avro文件中读取指定类型数据的Reader
DbReader(Class<T>, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.DbReader
构造一个从avro文件中读取指定类型数据的Reader
dbUpdater - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
DbUpdater - cn.edu.hfut.dmic.webcollector.generator中的接口
用于更新爬取任务列表的类
DbUpdaterFactory - cn.edu.hfut.dmic.webcollector.generator中的接口
 
DbWriter<T> - cn.edu.hfut.dmic.webcollector.generator中的类
写Avro文件的Writer
DbWriter(Class<T>, File, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.DbWriter
构造一个向avro文件中写入指定类型数据的Writer
DbWriter(Class<T>, String, boolean) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.DbWriter
构造一个向avro文件中写入指定类型数据的Writer
DbWriter(Class<T>, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.DbWriter
构造一个向avro文件中以新建方式写入指定类型数据的Writer
DbWriter(Class<T>, File) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.DbWriter
构造一个向avro文件中以新建方式写入指定类型数据的Writer
deleteDir(File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
deleteTable() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
dump() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 

E

execute(Runnable) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.WorkQueue
 

F

failed(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
爬取失败时执行的方法
FETCH_FAILED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
FETCH_SUCCESS - 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
fetchAll(Generator) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
抓取当前所有任务,会阻塞到爬取完成
Fetcher - cn.edu.hfut.dmic.webcollector.fetcher中的类
抓取器
Fetcher() - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
Fetcher.FetchItem - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
Fetcher.FetchItem(CrawlDatum) - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchItem
 
Fetcher.FetchQueue - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
Fetcher.FetchQueue() - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
Fetcher.QueueFeeder - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
Fetcher.QueueFeeder(Fetcher.FetchQueue, Generator, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
FETCHTIME_UNDEFINED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
爬取时间常量-未定义
FileSystemOutput - cn.edu.hfut.dmic.webcollector.output中的类
FileSystemOutput并不属于WebCollector内核,它只是实现一个 简单的输出,将网页根据url路径,保存到本地目录,按照网站目录 结构来存储网站内容。
FileSystemOutput(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.output.FileSystemOutput
 
FileUtils - cn.edu.hfut.dmic.webcollector.util中的类
 
FileUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.FileUtils
 
Filter - cn.edu.hfut.dmic.webcollector.generator.filter中的类
爬取任务过滤器,是爬取任务生成器的一种,嵌套在一个已有的爬取任务生成器外部,从 已有的爬取任务生成器中获取符合规则的任务
Filter(Generator) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.Filter
构造一个过滤器(也是爬取任务生成器),从一个已有的爬取任务生成器中获取下一个符合规则的任务
flush() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.DbWriter
刷新该Writer的缓冲
FSDbUpdater - cn.edu.hfut.dmic.webcollector.generator中的类
 
FSDbUpdater(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
构建一个对指定爬取信息文件夹进行更新操作的更新器
FSGenerator - cn.edu.hfut.dmic.webcollector.generator中的类
广度遍历使用的爬取任务生成器
FSGenerator(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.FSGenerator
构造一个广度遍历爬取任务生成器,从制定路径的文件夹中获取任务
FSInjector - cn.edu.hfut.dmic.webcollector.generator中的类
基于文件系统的广度遍历的种子注入器
FSInjector(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.FSInjector
构造一个向指定爬取信息文件夹中注入种子的注入器
FSSegmentWriter - cn.edu.hfut.dmic.webcollector.fetcher中的类
基于文件系统的SegmentWriter
FSSegmentWriter(String, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.FSSegmentWriter
构造一个在指定文件夹写爬取信息的Writer

G

generator - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
Generator - cn.edu.hfut.dmic.webcollector.generator中的接口
抓取任务生成器
getAll(Page) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
getAnchor() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Link
 
getCode() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getCode() - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
返回http响应码
getConconfig() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
返回http连接配置对象
getConconfig() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
返回http连接配置对象
getContent() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Content
 
getContent() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页/文件的内容
getContent() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getContent() - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
返回网页/文件的内容(byte数组)
getContentType() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Content
 
getContentType() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getContentType() - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
返回http响应中的content-type,返回的content-type会影响到爬取/解析流程中 对状态的判断
getCookie() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
返回Cookie
getCookie() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.CommonConnectionConfig
 
getCrawlDatumByKey(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
getCrawlDb() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
getCrawlPath() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
返回存储爬虫爬取信息的文件夹路径
getCrawlPath() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
getCSS(Document) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
getDbUpdater() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回CrawlDB更新器
getDoc() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页解析后的DOM树(Jsoup的Document对象)
getFetchItem() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
getFetchTime() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
获取爬取时间
getFetchTime() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回爬取时间
getHandler() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回处理抓取消息的Handler
getHeader(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getHeader(String) - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
返回指定http响应头字段的值
getHeaders() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getHeaders() - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
返回http响应头字段的Map
getHtml() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页的源码字符串
getImgs(Document) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
getIp() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
返回redis的IP
getIp() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
getIp() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
getIsContentStored() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
返回是否存储网页/文件的内容
getJedis() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
getJS(Document) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
getLastSegmentName() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
getLinks(Document) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
getLinks(Page) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
getLinks() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
getLogger() - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.LogUtils
 
getNeedUpdateDb() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回是否存储爬取信息
getParse(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.HtmlParser
对一个页面进行解析,获取解析结果
getParse(Page) - 接口 中的方法cn.edu.hfut.dmic.webcollector.parser.Parser
对指定页面进行解析,返回解析结果
getParsedata() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
getParseMap() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
getParseObj() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
getParseResult() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页解析结果
getParserFactory() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回解析器生成器
getParsetext() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
getPort() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
返回redis的端口
getPort() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
getPort() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
getProxy() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
返回代理
getProxy() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
返回代理
getRegexs() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回正则规则列表
getRequestFactory() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回请求生成器
getResponse() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回存储的http响应
getResponse(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getResponse(CrawlDatum) - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Request
 
getRetry() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回http请求失败后重试的次数
getRoot() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
已过时。
getSchema(Class) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.model.AvroModel
 
getSeeds() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回种子URL列表
getSegmentName() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
getSegmentPath() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
getSegmentWriter() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
getSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
getSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
getSize() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
getStatus() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
获取爬取任务的状态
getTableName() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
返回任务名
getTableName() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
getText() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseText
 
getThreads() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回线程数
getThreads() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回爬虫的线程数
getTitle() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Content
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
获取爬取任务的url
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Link
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
返回网页的url
getURL() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
getURL() - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Request
 
getUrl() - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
getUrl() - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseText
 
getUseragent() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
返回User-Agent
getUserAgent() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.CommonConnectionConfig
 
guessEncoding(byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.CharsetDetector
根据字节数组,猜测可能的字符集,如果检测失败,返回utf-8

H

handleMessage(Message) - 类 中的方法cn.edu.hfut.dmic.webcollector.handler.Handler
处理消息,用户可以通过Override这个方法,来自定义处理消息的方法
handler - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
Handler - cn.edu.hfut.dmic.webcollector.handler中的类
用于传递和处理消息类
Handler() - 类 的构造器cn.edu.hfut.dmic.webcollector.handler.Handler
 
HandlerUtils - cn.edu.hfut.dmic.webcollector.util中的类
 
HandlerUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.HandlerUtils
 
hasNext() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.DbReader
判断是否已读取到avro文件结尾
HtmlParser - cn.edu.hfut.dmic.webcollector.parser中的类
默认的网页解析器
HtmlParser() - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.HtmlParser
构造一个默认的网页解析器,做链接分析时没有数量上限
HtmlParser(Integer) - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.HtmlParser
构造一个默认的网页解析器,做链接分析时只保存前topN条
HttpRequest - cn.edu.hfut.dmic.webcollector.net中的类
Request的一种实现。
HttpRequest() - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
HttpResponse - cn.edu.hfut.dmic.webcollector.net中的类
Response的一种实现,WebCollector默认使用HttpResponse作为http响应
HttpResponse(URL) - 类 的构造器cn.edu.hfut.dmic.webcollector.net.HttpResponse
 

I

initSegmentWriter() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
initSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
initSegmentWriter() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
inject() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
注入
inject(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.BasicInjector
以新建的方式,注入一个种子url
inject(ArrayList<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.BasicInjector
以新建的方式,注入种子url列表
inject(String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.BasicInjector
以新建/追加的方式,注入一个种子url
inject(ArrayList<String>, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.BasicInjector
 
inject(ArrayList<String>, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSInjector
 
inject(String) - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.Injector
以新建的方式,注入一个种子url
inject(ArrayList<String>) - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.Injector
以新建的方式,注入种子url列表
inject(String, boolean) - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.Injector
以新建/追加的方式,注入一个种子url
inject(ArrayList<String>, boolean) - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.Injector
以新建/追加方式注入种子url列表
inject(String, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
inject(ArrayList<String>, boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisInjector
 
Injector - cn.edu.hfut.dmic.webcollector.generator中的接口
广度遍历的种子注入器
insertUpdate(DocumentEvent) - 类 中的方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
interval - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
相同网页爬取时间间隔(如果为-1,表示爬取时间间隔为无穷大)
IntervalFilter - cn.edu.hfut.dmic.webcollector.generator.filter中的类
时间间隔过滤器
IntervalFilter(Generator) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.IntervalFilter
构造一个时间间隔过滤器
isAlive() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.WorkQueue
 
isIsContentStored() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回是否存储网页/文件的内容
isLocked() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
isLocked() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
判断更新器是否在上锁状态
isLocked() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
isLocked() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
isParsing() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
返回是否解析网页(解析链接、文本)
isResumable() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
返回是否为断点爬取模式

J

jedis - 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 

K

killALl() - 类 中的方法cn.edu.hfut.dmic.webcollector.util.WorkQueue
 

L

layout - 类 中的变量cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
Link - cn.edu.hfut.dmic.webcollector.model中的类
保存网页链接的类
Link() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Link
 
Link(String, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Link
 
LinkUtils - cn.edu.hfut.dmic.webcollector.parser中的类
链接解析辅助类
LinkUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.LinkUtils
 
lock() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
lock() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
上锁该更新器
lock() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
lock() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
lock_path - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
LogUtils - cn.edu.hfut.dmic.webcollector.util中的类
 
LogUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.util.LogUtils
 

M

main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.generator.DbReader
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisGenerator
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeDemo
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
main(String[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI
 
maxsize - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
网页/文件爬取时大小上限(字节)
merge() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
merge() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
将爬取记录和爬取任务列表合并,更新爬取任务列表
merge() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
merge() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
Message - cn.edu.hfut.dmic.webcollector.handler中的类
消息
Message() - 类 的构造器cn.edu.hfut.dmic.webcollector.handler.Message
构造一个空的消息
Message(int, Object) - 类 的构造器cn.edu.hfut.dmic.webcollector.handler.Message
构造一个消息

N

next() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.CollectionGenerator
 
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.IntervalFilter
获取下一个爬取时间间隔超过Config.interval的任务 有下面几种情况可接受: 1.爬取任务状态为UNFETCHED(未抓取) 2.如果Config.interval为-1,表示时间间隔为无穷大,只能接受爬 取任务状态为UNFETCHED(未抓取)的任务 3.如果Config.interval>=0,且任务状态为已抓取,根据任务的抓取时间(fetchTime),加 上时间间隔(Config.interval),判断是否超过当前时间,如果超过,则接受任务。
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.UniqueFilter
获取下一个URL不重复的任务
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.URLRegexFilter
获取下一个符合正则规则的爬取任务 URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSGenerator
 
next() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.Generator
获取下一个抓取任务
next() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisGenerator
 

O

obj - 类 中的变量cn.edu.hfut.dmic.webcollector.handler.Message
消息附带的数据
old_info_path - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
output(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.output.FileSystemOutput
 

P

Page - cn.edu.hfut.dmic.webcollector.model中的类
Page是爬取过程中,内存中保存网页爬取信息的一个容器,与CrawlDatum不同,Page只在内存中存 放,用于保存一些网页信息,方便用户进行自定义网页解析之类的操作。
Page() - 类 的构造器cn.edu.hfut.dmic.webcollector.model.Page
 
ParseData - cn.edu.hfut.dmic.webcollector.parser中的类
 
ParseData() - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseData
 
ParseData(String, String, ArrayList<Link>) - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseData
 
parseDocument(byte[], String) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.ParseUtils
 
parseDocument(Page) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.ParseUtils
 
Parser - cn.edu.hfut.dmic.webcollector.parser中的接口
网页解析器接口,用户如果需要自定义网页解析器,必须实现这个接口
ParseResult - cn.edu.hfut.dmic.webcollector.parser中的类
 
ParseResult() - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
ParseResult(ParseData, ParseText) - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
parserFactory - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
ParserFactory - cn.edu.hfut.dmic.webcollector.parser中的接口
 
ParseText - cn.edu.hfut.dmic.webcollector.parser中的类
网页解析后,存储网页解析文本的类
ParseText() - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseText
 
ParseText(String, String) - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseText
 
ParseUtils - cn.edu.hfut.dmic.webcollector.parser中的类
解析辅助类
ParseUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.parser.ParseUtils
 

Q

queue - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 
queue - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 

R

readFile(File) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
readNext() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.DbReader
读取下一条数据,在文件结束时调用该方法会出错,所以在调用readNext方法前需要使 用hasNext方法来判断文件是否结束
REDIS_TIME_OUT - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
REDIS_TIME_OUT - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
RedisCrawler - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
基于Redis的广度遍历器
RedisCrawler(String, String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
构建一个基于redis的广度遍历器
RedisDbUpdater - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisDbUpdater(String, String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
RedisGenerator - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisGenerator(String, String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisGenerator
 
RedisHelper - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisHelper(String, String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
RedisInjector - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisInjector(String, String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisInjector
 
RedisMergeBreadthCrawler - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisMergeBreadthCrawler(String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeBreadthCrawler
 
RedisMergeDemo - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisMergeDemo(String, int) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeDemo
 
RedisMergeFSDbupdater - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
使用redis来进行海量URL去重的插件 如果使用该插件,请安装redis数据库并开启
RedisMergeFSDbupdater(String) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
RedisSegmentWriter - cn.edu.hfut.dmic.webcollector.plugin.redis中的类
 
RedisSegmentWriter(RedisHelper) - 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.RedisSegmentWriter
 
removeUpdate(DocumentEvent) - 类 中的方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
Request - cn.edu.hfut.dmic.webcollector.net中的接口
Http请求的接口,如果用户需要自定义实现Http请求的类,需要实现这个接口
requestFactory - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
 
RequestFactory - cn.edu.hfut.dmic.webcollector.net中的接口
 
requestMaxInterval - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
 
requiresLayout() - 类 中的方法cn.edu.hfut.dmic.webcollector.ui.BreadthCrawlerUI.TextAreaAppender
 
Response - cn.edu.hfut.dmic.webcollector.net中的接口
Http响应的接口,如果用户需要自定义http响应,需要实现这个接口
root - 类 中的变量cn.edu.hfut.dmic.webcollector.output.FileSystemOutput
 
run() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
RUNNING - 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 

S

SegmentUtils - cn.edu.hfut.dmic.webcollector.fetcher中的类
 
SegmentUtils() - 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.SegmentUtils
 
SegmentWriter - cn.edu.hfut.dmic.webcollector.fetcher中的接口
爬取过程中,写入爬取历史、网页Content、解析信息的Writer
segmentwriter_buffer_size - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
爬取时,写爬取信息的SegmentWriter的缓存,如果希望爬取信息在断电等异常中断时无 丢失,将该属性值设为1,但会造成磁盘操作频繁。
sendMessage(Message) - 类 中的方法cn.edu.hfut.dmic.webcollector.handler.Handler
发送一条消息
sendMessage(Handler, Message) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.HandlerUtils
 
sendMessage(Handler, Message, boolean) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.HandlerUtils
 
setAnchor(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Link
 
setCode(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setConconfig(ConnectionConfig) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
设置http连接配置对象
setConnectionConfig(ConnectionConfig) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
设置http连接配置对象
setContent(byte[]) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Content
 
setContent(byte[]) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setContentType(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Content
 
setCookie(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
设置http请求的cookie
setCookie(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.CommonConnectionConfig
 
setCrawlPath(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
设置存储爬虫爬取信息的文件夹路径
setCrawlPath(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
setDbUpdater(DbUpdater) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置CrawlDB更新器
setDoc(Document) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置网页解析后的DOM树(Jsoup的Document对象)
setFetchTime(long) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
设置爬取时间
setFetchTime(long) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置爬取时间
setHandler(Handler) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置处理抓取消息的Handler
setHeaders(Map<String, List<String>>) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setHeaders(Map<String, List<String>>) - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Response
设置http响应头字段的Map
setHtml(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置网页的源码字符串
setIp(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
设置redis的IP
setIp(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
setIp(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
setIsContentStored(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
设置是否存储网页/文件的内容
setIsContentStored(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置是否存储网页/文件的内容
setJedis(Jedis) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
setLinks(ArrayList<Link>) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
setLogger(Logger) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.LogUtils
 
setNeedUpdateDb(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置是否存储爬取信息
setParsedata(ParseData) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
setParseMap(HashMap<String, String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
setParseObj(Object) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
setParseResult(ParseResult) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置网页解析结果
setParserFactory(ParserFactory) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置解析器生成器
setParsetext(ParseText) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseResult
 
setParsing(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置是否解析网页(解析链接、文本)
setPort(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
设置redis的端口
setPort(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
setPort(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
setProxy(Proxy) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
设置代理
setProxy(Proxy) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
设置代理
setRegexs(ArrayList<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置正则规则列表
setRequestFactory(RequestFactory) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置请求生成器
setResponse(Response) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置http响应
setResumable(boolean) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置是否为断点爬取模式
setRetry(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置http请求失败后重试的次数
setRoot(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
已过时。
setSeeds(ArrayList<String>) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置种子URL列表
setSegmentName(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
 
setStatus(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
设置爬取任务的状态
setTableName(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisCrawler
设置任务名
setTableName(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
setText(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseText
 
setThreads(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
设置线程数
setThreads(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
设置爬虫的线程数
setTitle(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Content
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.CrawlDatum
设置爬取任务的url
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Link
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.model.Page
设置网页的url
setURL(URL) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpRequest
 
setUrl(URL) - 类 中的方法cn.edu.hfut.dmic.webcollector.net.HttpResponse
 
setURL(URL) - 接口 中的方法cn.edu.hfut.dmic.webcollector.net.Request
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseData
 
setUrl(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.parser.ParseText
 
setUseragent(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.CommonCrawler
设置User-Agent
setUserAgent(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.util.CommonConnectionConfig
 
shouldFilter(String) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSGenerator
用户自定义的过滤规则,可以通过Override这个函数,来定义自己的StandardGenerator
size - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.QueueFeeder
 
start(int) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
开始深度为depth的爬取
STATUS_DB_FETCHED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
爬取状态常量-已爬取
STATUS_DB_UNDEFINED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
爬取状态常量-未定义
STATUS_DB_UNFETCHED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.CrawlDatum
爬取状态常量-未爬取
stop() - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
停止爬取
stop() - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.Fetcher
停止爬取
STOPED - 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
suffix_crawldb - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
suffix_fetch - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
suffix_lock - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
suffix_parse - 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 

T

topN - 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.Config
每个网页解析时,保存链接的数量上限(如果为null,则链接数量无上限)
totalSize - 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.Fetcher.FetchQueue
 

U

UniqueFilter - cn.edu.hfut.dmic.webcollector.generator.filter中的类
唯一性过滤器
UniqueFilter(Generator) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.UniqueFilter
构建一个唯一性过滤器
unlock() - 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.DbUpdater
 
unlock() - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.FSDbUpdater
解锁该更新器
unlock() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisDbUpdater
 
unlock() - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisHelper
 
update(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeFSDbupdater
 
updateFetcher(Fetcher) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
 
URLRegexFilter - cn.edu.hfut.dmic.webcollector.generator.filter中的类
正则规律过滤器
URLRegexFilter(Generator, ArrayList<String>) - 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.URLRegexFilter
根据正则规则列表,生成正则规则过滤器

V

visit(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler
 
visit(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.Crawler
爬取成功时执行的方法
visit(Page) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisMergeDemo
 

W

what - 类 中的变量cn.edu.hfut.dmic.webcollector.handler.Message
消息的种类
WorkQueue - cn.edu.hfut.dmic.webcollector.util中的类
老版本使用的线程池,现已废弃
WorkQueue(int) - 类 的构造器cn.edu.hfut.dmic.webcollector.util.WorkQueue
 
write(T) - 类 中的方法cn.edu.hfut.dmic.webcollector.generator.DbWriter
写入数据
writeFile(String, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
writeFileWithParent(String, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
writeFileWithParent(File, byte[]) - 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.FileUtils
 
wrtieContent(Content) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.FSSegmentWriter
写入一条Content对象(存储网页/文件内容的对象)
wrtieContent(Content) - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.SegmentWriter
写入一条Content对象(存储网页/文件内容的对象)
wrtieContent(Content) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisSegmentWriter
 
wrtieFetch(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.FSSegmentWriter
写入一条爬取历史记录
wrtieFetch(CrawlDatum) - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.SegmentWriter
写入一条爬取历史记录
wrtieFetch(CrawlDatum) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisSegmentWriter
 
wrtieParse(ParseResult) - 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.FSSegmentWriter
写入一条网页解析结果
wrtieParse(ParseResult) - 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.SegmentWriter
写入一条网页解析结果
wrtieParse(ParseResult) - 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.RedisSegmentWriter
 
A B C D E F G H I J K L M N O P Q R S T U V W 

Copyright © 2014. All Rights Reserved.