您的浏览器已禁用 JavaScript。
概览
程序包
类
使用
树
已过时
索引
帮助
上一个
下一个
框架
无框架
所有类
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
A
addCrawlDatums(Collection<CrawlDatum>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
CollectionGenerator
addFetch(CrawlDatum)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
addFetchItem(Fetcher.FetchItem)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
addNegative(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
URLRegexFilter
添加一个反正则规则
addParse(ParseData)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
addPositive(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
URLRegexFilter
添加一个正正则规则
addRegex(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
添加一个正则过滤规则
addRule(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
URLRegexFilter
添加一个正则规则 正则规则有两种,正正则和反正则 URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配
addSeed(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
添加一个种子url
addToRedis(CrawlDatum)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
addUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
CollectionGenerator
addUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
UniqueFilter
添加一个URL,以后该过滤器遇到相同URL会过滤
addUrls(Collection<String>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
CollectionGenerator
append(LoggingEvent)
- 类 中的方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
AvroModel
-
cn.edu.hfut.dmic.webcollector.model
中的类
AvroModel()
- 类 的构造器cn.edu.hfut.dmic.webcollector.model.
AvroModel
B
backup()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
备份爬取任务列表
BasicInjector
-
cn.edu.hfut.dmic.webcollector.generator
中的类
BasicInjector()
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
BasicInjector
BreadthCrawler
-
cn.edu.hfut.dmic.webcollector.crawler
中的类
基于文件系统的广度遍历爬虫
BreadthCrawler()
- 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
BreadthCrawlerUI
-
cn.edu.hfut.dmic.webcollector.ui
中的类
BreadthCrawlerUI()
- 类 的构造器cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI
BreadthCrawlerUI.TextAreaAppender
-
cn.edu.hfut.dmic.webcollector.ui
中的类
BreadthCrawlerUI.TextAreaAppender()
- 类 的构造器cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
C
changedUpdate(DocumentEvent)
- 类 中的方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
CharsetDetector
-
cn.edu.hfut.dmic.webcollector.util
中的类
字符集自动检测
CharsetDetector()
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
CharsetDetector
clear()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
clearHistory()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
clearHistory()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
clearHistory()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
FSSegmentWriter
关闭Writer
close()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
SegmentWriter
关闭Writer
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbReader
关闭该Reader
close()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbWriter
关闭该Writer
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
关闭该更新器
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisSegmentWriter
close()
- 类 中的方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
cn.edu.hfut.dmic.webcollector.crawler
- 程序包 cn.edu.hfut.dmic.webcollector.crawler
cn.edu.hfut.dmic.webcollector.fetcher
- 程序包 cn.edu.hfut.dmic.webcollector.fetcher
cn.edu.hfut.dmic.webcollector.generator
- 程序包 cn.edu.hfut.dmic.webcollector.generator
cn.edu.hfut.dmic.webcollector.generator.filter
- 程序包 cn.edu.hfut.dmic.webcollector.generator.filter
cn.edu.hfut.dmic.webcollector.handler
- 程序包 cn.edu.hfut.dmic.webcollector.handler
cn.edu.hfut.dmic.webcollector.model
- 程序包 cn.edu.hfut.dmic.webcollector.model
cn.edu.hfut.dmic.webcollector.net
- 程序包 cn.edu.hfut.dmic.webcollector.net
cn.edu.hfut.dmic.webcollector.output
- 程序包 cn.edu.hfut.dmic.webcollector.output
cn.edu.hfut.dmic.webcollector.parser
- 程序包 cn.edu.hfut.dmic.webcollector.parser
cn.edu.hfut.dmic.webcollector.plugin.redis
- 程序包 cn.edu.hfut.dmic.webcollector.plugin.redis
cn.edu.hfut.dmic.webcollector.ui
- 程序包 cn.edu.hfut.dmic.webcollector.ui
cn.edu.hfut.dmic.webcollector.util
- 程序包 cn.edu.hfut.dmic.webcollector.util
CollectionGenerator
-
cn.edu.hfut.dmic.webcollector.generator
中的类
爬取指定集合中的url列表的爬取任务生成器
CollectionGenerator()
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
CollectionGenerator
CollectionGenerator(Collection<CrawlDatum>)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
CollectionGenerator
CommonConnectionConfig
-
cn.edu.hfut.dmic.webcollector.util
中的类
CommonConnectionConfig(String, String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
CommonConnectionConfig
CommonCrawler
-
cn.edu.hfut.dmic.webcollector.crawler
中的类
一种常用的广度遍历爬虫
CommonCrawler()
- 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
config(HttpURLConnection)
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
CommonConnectionConfig
Config
-
cn.edu.hfut.dmic.webcollector.util
中的类
全局配置
Config()
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
Config
config(HttpURLConnection)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.util.
ConnectionConfig
ConnectionConfig
-
cn.edu.hfut.dmic.webcollector.util
中的接口
Content
-
cn.edu.hfut.dmic.webcollector.model
中的类
Content()
- 类 的构造器cn.edu.hfut.dmic.webcollector.model.
Content
copy(File, File)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
FileUtils
CrawlDatum
-
cn.edu.hfut.dmic.webcollector.model
中的类
存储爬取任务的类,是WebCollector的核心类,记录了一个url的爬取信息,同样也 可以作为一个爬取任务
CrawlDatum()
- 类 的构造器cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
Crawler
-
cn.edu.hfut.dmic.webcollector.crawler
中的类
广度遍历爬虫的基类
Crawler()
- 类 的构造器cn.edu.hfut.dmic.webcollector.crawler.
Crawler
crawlPath
- 类 中的变量cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI
createCommonLogger(String)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
LogUtils
createDbUpdater()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
createDbUpdater()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdaterFactory
createDbUpdater()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
createDbUpdater()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeBreadthCrawler
createFetcher()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
createFetcher()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
生成Fetcher(抓取器)的方法,可以通过Override这个方法来完成自定义Fetcher
createFetcher()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeBreadthCrawler
createFetcherHandler()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
生成处理抓取消息的Handler,默认通过Crawler的visit方法来处理成功抓取的页面, 通过failed方法来处理失败抓取的页面
createGenerator()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
createGenerator()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
createGenerator()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
createInjector()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
createInjector()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
createInjector()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
createParser(String, String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
根据网页的url和contentType,来创建Parser(解析器),可以通过Override这个方法来自定义Parser
createParser(String, String)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParserFactory
createRequest(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
根据url生成Request(http请求)的方法,可以通过Override这个方法来自定义Request
createRequest(String)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
RequestFactory
createSegmengName()
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.fetcher.
SegmentUtils
根据时间,为segment文件夹生成唯一的名称
current_info_path
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
D
datum
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchItem
DbReader
<
T
> -
cn.edu.hfut.dmic.webcollector.generator
中的类
读Avro文件的Reader
DbReader(Class<T>, File)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
DbReader
构造一个从avro文件中读取指定类型数据的Reader
DbReader(Class<T>, String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
DbReader
构造一个从avro文件中读取指定类型数据的Reader
dbUpdater
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
DbUpdater
-
cn.edu.hfut.dmic.webcollector.generator
中的接口
用于更新爬取任务列表的类
DbUpdaterFactory
-
cn.edu.hfut.dmic.webcollector.generator
中的接口
DbWriter
<
T
> -
cn.edu.hfut.dmic.webcollector.generator
中的类
写Avro文件的Writer
DbWriter(Class<T>, File, boolean)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
DbWriter
构造一个向avro文件中写入指定类型数据的Writer
DbWriter(Class<T>, String, boolean)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
DbWriter
构造一个向avro文件中写入指定类型数据的Writer
DbWriter(Class<T>, String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
DbWriter
构造一个向avro文件中以新建方式写入指定类型数据的Writer
DbWriter(Class<T>, File)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
DbWriter
构造一个向avro文件中以新建方式写入指定类型数据的Writer
deleteDir(File)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
FileUtils
deleteTable()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
dump()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
E
execute(Runnable)
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
WorkQueue
F
failed(Page)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
爬取失败时执行的方法
FETCH_FAILED
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
FETCH_SUCCESS
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
fetchAll(Generator)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
抓取当前所有任务,会阻塞到爬取完成
Fetcher
-
cn.edu.hfut.dmic.webcollector.fetcher
中的类
抓取器
Fetcher()
- 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
Fetcher.FetchItem
-
cn.edu.hfut.dmic.webcollector.fetcher
中的类
Fetcher.FetchItem(CrawlDatum)
- 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchItem
Fetcher.FetchQueue
-
cn.edu.hfut.dmic.webcollector.fetcher
中的类
Fetcher.FetchQueue()
- 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
Fetcher.QueueFeeder
-
cn.edu.hfut.dmic.webcollector.fetcher
中的类
Fetcher.QueueFeeder(Fetcher.FetchQueue, Generator, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.QueueFeeder
FETCHTIME_UNDEFINED
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
爬取时间常量-未定义
FileSystemOutput
-
cn.edu.hfut.dmic.webcollector.output
中的类
FileSystemOutput并不属于WebCollector内核,它只是实现一个 简单的输出,将网页根据url路径,保存到本地目录,按照网站目录 结构来存储网站内容。
FileSystemOutput(String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.output.
FileSystemOutput
FileUtils
-
cn.edu.hfut.dmic.webcollector.util
中的类
FileUtils()
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
FileUtils
Filter
-
cn.edu.hfut.dmic.webcollector.generator.filter
中的类
爬取任务过滤器,是爬取任务生成器的一种,嵌套在一个已有的爬取任务生成器外部,从 已有的爬取任务生成器中获取符合规则的任务
Filter(Generator)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.
Filter
构造一个过滤器(也是爬取任务生成器),从一个已有的爬取任务生成器中获取下一个符合规则的任务
flush()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbWriter
刷新该Writer的缓冲
FSDbUpdater
-
cn.edu.hfut.dmic.webcollector.generator
中的类
FSDbUpdater(String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
构建一个对指定爬取信息文件夹进行更新操作的更新器
FSGenerator
-
cn.edu.hfut.dmic.webcollector.generator
中的类
广度遍历使用的爬取任务生成器
FSGenerator(String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
FSGenerator
构造一个广度遍历爬取任务生成器,从制定路径的文件夹中获取任务
FSInjector
-
cn.edu.hfut.dmic.webcollector.generator
中的类
基于文件系统的广度遍历的种子注入器
FSInjector(String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.
FSInjector
构造一个向指定爬取信息文件夹中注入种子的注入器
FSSegmentWriter
-
cn.edu.hfut.dmic.webcollector.fetcher
中的类
基于文件系统的SegmentWriter
FSSegmentWriter(String, String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.
FSSegmentWriter
构造一个在指定文件夹写爬取信息的Writer
G
generator
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.QueueFeeder
Generator
-
cn.edu.hfut.dmic.webcollector.generator
中的接口
抓取任务生成器
getAll(Page)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
getAnchor()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Link
getCode()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
getCode()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
返回http响应码
getConconfig()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
返回http连接配置对象
getConconfig()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
返回http连接配置对象
getContent()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Content
getContent()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回网页/文件的内容
getContent()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
getContent()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
返回网页/文件的内容(byte数组)
getContentType()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Content
getContentType()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
getContentType()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
返回http响应中的content-type,返回的content-type会影响到爬取/解析流程中 对状态的判断
getCookie()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
返回Cookie
getCookie()
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
CommonConnectionConfig
getCrawlDatumByKey(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
getCrawlDb()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
getCrawlPath()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
返回存储爬虫爬取信息的文件夹路径
getCrawlPath()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
getCSS(Document)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
getDbUpdater()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回CrawlDB更新器
getDoc()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回网页解析后的DOM树(Jsoup的Document对象)
getFetchItem()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
getFetchTime()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
获取爬取时间
getFetchTime()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回爬取时间
getHandler()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回处理抓取消息的Handler
getHeader(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
getHeader(String)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
返回指定http响应头字段的值
getHeaders()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
getHeaders()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
返回http响应头字段的Map
getHtml()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回网页的源码字符串
getImgs(Document)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
getIp()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
返回redis的IP
getIp()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
getIp()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
getIsContentStored()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
返回是否存储网页/文件的内容
getJedis()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
getJS(Document)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
getLastSegmentName()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
getLinks(Document)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
getLinks(Page)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
getLinks()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
getLogger()
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
LogUtils
getNeedUpdateDb()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回是否存储爬取信息
getParse(Page)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
HtmlParser
对一个页面进行解析,获取解析结果
getParse(Page)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.parser.
Parser
对指定页面进行解析,返回解析结果
getParsedata()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseResult
getParseMap()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
getParseObj()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseResult
getParseResult()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回网页解析结果
getParserFactory()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回解析器生成器
getParsetext()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseResult
getPort()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
返回redis的端口
getPort()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
getPort()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
getProxy()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
返回代理
getProxy()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
返回代理
getRegexs()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
返回正则规则列表
getRequestFactory()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回请求生成器
getResponse()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回存储的http响应
getResponse(CrawlDatum)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
getResponse(CrawlDatum)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Request
getRetry()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回http请求失败后重试的次数
getRoot()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
已过时。
getSchema(Class)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.model.
AvroModel
getSeeds()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
返回种子URL列表
getSegmentName()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
getSegmentPath()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
getSegmentWriter()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
getSegmentWriter()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
getSegmentWriter()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
getSize()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
getStatus()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
获取爬取任务的状态
getTableName()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
返回任务名
getTableName()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
getText()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseText
getThreads()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
返回线程数
getThreads()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回爬虫的线程数
getTitle()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Content
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
获取爬取任务的url
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Link
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
返回网页的url
getURL()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
getURL()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Request
getUrl()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
getUrl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseText
getUseragent()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
返回User-Agent
getUserAgent()
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
CommonConnectionConfig
guessEncoding(byte[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
CharsetDetector
根据字节数组,猜测可能的字符集,如果检测失败,返回utf-8
H
handleMessage(Message)
- 类 中的方法cn.edu.hfut.dmic.webcollector.handler.
Handler
处理消息,用户可以通过Override这个方法,来自定义处理消息的方法
handler
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
Handler
-
cn.edu.hfut.dmic.webcollector.handler
中的类
用于传递和处理消息类
Handler()
- 类 的构造器cn.edu.hfut.dmic.webcollector.handler.
Handler
HandlerUtils
-
cn.edu.hfut.dmic.webcollector.util
中的类
HandlerUtils()
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
HandlerUtils
hasNext()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbReader
判断是否已读取到avro文件结尾
HtmlParser
-
cn.edu.hfut.dmic.webcollector.parser
中的类
默认的网页解析器
HtmlParser()
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
HtmlParser
构造一个默认的网页解析器,做链接分析时没有数量上限
HtmlParser(Integer)
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
HtmlParser
构造一个默认的网页解析器,做链接分析时只保存前topN条
HttpRequest
-
cn.edu.hfut.dmic.webcollector.net
中的类
Request的一种实现。
HttpRequest()
- 类 的构造器cn.edu.hfut.dmic.webcollector.net.
HttpRequest
HttpResponse
-
cn.edu.hfut.dmic.webcollector.net
中的类
Response的一种实现,WebCollector默认使用HttpResponse作为http响应
HttpResponse(URL)
- 类 的构造器cn.edu.hfut.dmic.webcollector.net.
HttpResponse
I
initSegmentWriter()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
initSegmentWriter()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
initSegmentWriter()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
inject()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
注入
inject(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
BasicInjector
以新建的方式,注入一个种子url
inject(ArrayList<String>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
BasicInjector
以新建的方式,注入种子url列表
inject(String, boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
BasicInjector
以新建/追加的方式,注入一个种子url
inject(ArrayList<String>, boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
BasicInjector
inject(ArrayList<String>, boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSInjector
inject(String)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
Injector
以新建的方式,注入一个种子url
inject(ArrayList<String>)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
Injector
以新建的方式,注入种子url列表
inject(String, boolean)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
Injector
以新建/追加的方式,注入一个种子url
inject(ArrayList<String>, boolean)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
Injector
以新建/追加方式注入种子url列表
inject(String, boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
inject(ArrayList<String>, boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisInjector
Injector
-
cn.edu.hfut.dmic.webcollector.generator
中的接口
广度遍历的种子注入器
insertUpdate(DocumentEvent)
- 类 中的方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
interval
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
相同网页爬取时间间隔(如果为-1,表示爬取时间间隔为无穷大)
IntervalFilter
-
cn.edu.hfut.dmic.webcollector.generator.filter
中的类
时间间隔过滤器
IntervalFilter(Generator)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.
IntervalFilter
构造一个时间间隔过滤器
isAlive()
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
WorkQueue
isIsContentStored()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回是否存储网页/文件的内容
isLocked()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
isLocked()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
判断更新器是否在上锁状态
isLocked()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
isLocked()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
isParsing()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
返回是否解析网页(解析链接、文本)
isResumable()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
返回是否为断点爬取模式
J
jedis
- 类 中的变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
K
killALl()
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
WorkQueue
L
layout
- 类 中的变量cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
Link
-
cn.edu.hfut.dmic.webcollector.model
中的类
保存网页链接的类
Link()
- 类 的构造器cn.edu.hfut.dmic.webcollector.model.
Link
Link(String, String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.model.
Link
LinkUtils
-
cn.edu.hfut.dmic.webcollector.parser
中的类
链接解析辅助类
LinkUtils()
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
LinkUtils
lock()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
lock()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
上锁该更新器
lock()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
lock()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
lock_path
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
LogUtils
-
cn.edu.hfut.dmic.webcollector.util
中的类
LogUtils()
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
LogUtils
M
main(String[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.generator.
DbReader
main(String[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisGenerator
main(String[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeDemo
main(String[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
main(String[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI
maxsize
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
网页/文件爬取时大小上限(字节)
merge()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
merge()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
将爬取记录和爬取任务列表合并,更新爬取任务列表
merge()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
merge()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
Message
-
cn.edu.hfut.dmic.webcollector.handler
中的类
消息
Message()
- 类 的构造器cn.edu.hfut.dmic.webcollector.handler.
Message
构造一个空的消息
Message(int, Object)
- 类 的构造器cn.edu.hfut.dmic.webcollector.handler.
Message
构造一个消息
N
next()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
CollectionGenerator
next()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
IntervalFilter
获取下一个爬取时间间隔超过Config.interval的任务 有下面几种情况可接受: 1.爬取任务状态为UNFETCHED(未抓取) 2.如果Config.interval为-1,表示时间间隔为无穷大,只能接受爬 取任务状态为UNFETCHED(未抓取)的任务 3.如果Config.interval>=0,且任务状态为已抓取,根据任务的抓取时间(fetchTime),加 上时间间隔(Config.interval),判断是否超过当前时间,如果超过,则接受任务。
next()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
UniqueFilter
获取下一个URL不重复的任务
next()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.filter.
URLRegexFilter
获取下一个符合正则规则的爬取任务 URL符合正则规则需要满足下面条件: 1.至少能匹配一条正正则 2.不能和任何反正则匹配
next()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSGenerator
next()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
Generator
获取下一个抓取任务
next()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisGenerator
O
obj
- 类 中的变量cn.edu.hfut.dmic.webcollector.handler.
Message
消息附带的数据
old_info_path
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
output(Page)
- 类 中的方法cn.edu.hfut.dmic.webcollector.output.
FileSystemOutput
P
Page
-
cn.edu.hfut.dmic.webcollector.model
中的类
Page是爬取过程中,内存中保存网页爬取信息的一个容器,与CrawlDatum不同,Page只在内存中存 放,用于保存一些网页信息,方便用户进行自定义网页解析之类的操作。
Page()
- 类 的构造器cn.edu.hfut.dmic.webcollector.model.
Page
ParseData
-
cn.edu.hfut.dmic.webcollector.parser
中的类
ParseData()
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseData
ParseData(String, String, ArrayList<Link>)
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseData
parseDocument(byte[], String)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
ParseUtils
parseDocument(Page)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.parser.
ParseUtils
Parser
-
cn.edu.hfut.dmic.webcollector.parser
中的接口
网页解析器接口,用户如果需要自定义网页解析器,必须实现这个接口
ParseResult
-
cn.edu.hfut.dmic.webcollector.parser
中的类
ParseResult()
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseResult
ParseResult(ParseData, ParseText)
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseResult
parserFactory
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
ParserFactory
-
cn.edu.hfut.dmic.webcollector.parser
中的接口
ParseText
-
cn.edu.hfut.dmic.webcollector.parser
中的类
网页解析后,存储网页解析文本的类
ParseText()
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseText
ParseText(String, String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseText
ParseUtils
-
cn.edu.hfut.dmic.webcollector.parser
中的类
解析辅助类
ParseUtils()
- 类 的构造器cn.edu.hfut.dmic.webcollector.parser.
ParseUtils
Q
queue
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
queue
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.QueueFeeder
R
readFile(File)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
FileUtils
readNext()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbReader
读取下一条数据,在文件结束时调用该方法会出错,所以在调用readNext方法前需要使 用hasNext方法来判断文件是否结束
REDIS_TIME_OUT
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
REDIS_TIME_OUT
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
RedisCrawler
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
基于Redis的广度遍历器
RedisCrawler(String, String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
构建一个基于redis的广度遍历器
RedisDbUpdater
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisDbUpdater(String, String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
RedisGenerator
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisGenerator(String, String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisGenerator
RedisHelper
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisHelper(String, String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
RedisInjector
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisInjector(String, String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisInjector
RedisMergeBreadthCrawler
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisMergeBreadthCrawler(String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeBreadthCrawler
RedisMergeDemo
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisMergeDemo(String, int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeDemo
RedisMergeFSDbupdater
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
使用redis来进行海量URL去重的插件 如果使用该插件,请安装redis数据库并开启
RedisMergeFSDbupdater(String)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
RedisSegmentWriter
-
cn.edu.hfut.dmic.webcollector.plugin.redis
中的类
RedisSegmentWriter(RedisHelper)
- 类 的构造器cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisSegmentWriter
removeUpdate(DocumentEvent)
- 类 中的方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
Request
-
cn.edu.hfut.dmic.webcollector.net
中的接口
Http请求的接口,如果用户需要自定义实现Http请求的类,需要实现这个接口
requestFactory
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
RequestFactory
-
cn.edu.hfut.dmic.webcollector.net
中的接口
requestMaxInterval
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
requiresLayout()
- 类 中的方法cn.edu.hfut.dmic.webcollector.ui.
BreadthCrawlerUI.TextAreaAppender
Response
-
cn.edu.hfut.dmic.webcollector.net
中的接口
Http响应的接口,如果用户需要自定义http响应,需要实现这个接口
root
- 类 中的变量cn.edu.hfut.dmic.webcollector.output.
FileSystemOutput
run()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.QueueFeeder
RUNNING
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.
Crawler
S
SegmentUtils
-
cn.edu.hfut.dmic.webcollector.fetcher
中的类
SegmentUtils()
- 类 的构造器cn.edu.hfut.dmic.webcollector.fetcher.
SegmentUtils
SegmentWriter
-
cn.edu.hfut.dmic.webcollector.fetcher
中的接口
爬取过程中,写入爬取历史、网页Content、解析信息的Writer
segmentwriter_buffer_size
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
爬取时,写爬取信息的SegmentWriter的缓存,如果希望爬取信息在断电等异常中断时无 丢失,将该属性值设为1,但会造成磁盘操作频繁。
sendMessage(Message)
- 类 中的方法cn.edu.hfut.dmic.webcollector.handler.
Handler
发送一条消息
sendMessage(Handler, Message)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
HandlerUtils
sendMessage(Handler, Message, boolean)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
HandlerUtils
setAnchor(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Link
setCode(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
setConconfig(ConnectionConfig)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
设置http连接配置对象
setConnectionConfig(ConnectionConfig)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
设置http连接配置对象
setContent(byte[])
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Content
setContent(byte[])
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
setContentType(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Content
setCookie(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
设置http请求的cookie
setCookie(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
CommonConnectionConfig
setCrawlPath(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
设置存储爬虫爬取信息的文件夹路径
setCrawlPath(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
setDbUpdater(DbUpdater)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置CrawlDB更新器
setDoc(Document)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
设置网页解析后的DOM树(Jsoup的Document对象)
setFetchTime(long)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
设置爬取时间
setFetchTime(long)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
设置爬取时间
setHandler(Handler)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置处理抓取消息的Handler
setHeaders(Map<String, List<String>>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
setHeaders(Map<String, List<String>>)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Response
设置http响应头字段的Map
setHtml(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
设置网页的源码字符串
setIp(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
设置redis的IP
setIp(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
setIp(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
setIsContentStored(boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
设置是否存储网页/文件的内容
setIsContentStored(boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置是否存储网页/文件的内容
setJedis(Jedis)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
setLinks(ArrayList<Link>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
setLogger(Logger)
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
LogUtils
setNeedUpdateDb(boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置是否存储爬取信息
setParsedata(ParseData)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseResult
setParseMap(HashMap<String, String>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
setParseObj(Object)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseResult
setParseResult(ParseResult)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
设置网页解析结果
setParserFactory(ParserFactory)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置解析器生成器
setParsetext(ParseText)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseResult
setParsing(boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置是否解析网页(解析链接、文本)
setPort(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
设置redis的端口
setPort(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
setPort(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
setProxy(Proxy)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
设置代理
setProxy(Proxy)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
设置代理
setRegexs(ArrayList<String>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
设置正则规则列表
setRequestFactory(RequestFactory)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置请求生成器
setResponse(Response)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
设置http响应
setResumable(boolean)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
设置是否为断点爬取模式
setRetry(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置http请求失败后重试的次数
setRoot(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
已过时。
setSeeds(ArrayList<String>)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
设置种子URL列表
setSegmentName(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
setStatus(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
设置爬取任务的状态
setTableName(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisCrawler
设置任务名
setTableName(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
setText(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseText
setThreads(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
设置线程数
setThreads(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
设置爬虫的线程数
setTitle(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
setUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Content
setUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
设置爬取任务的url
setUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Link
setUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.model.
Page
设置网页的url
setURL(URL)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpRequest
setUrl(URL)
- 类 中的方法cn.edu.hfut.dmic.webcollector.net.
HttpResponse
setURL(URL)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.net.
Request
setUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseData
setUrl(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.parser.
ParseText
setUseragent(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
CommonCrawler
设置User-Agent
setUserAgent(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.util.
CommonConnectionConfig
shouldFilter(String)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSGenerator
用户自定义的过滤规则,可以通过Override这个函数,来定义自己的StandardGenerator
size
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.QueueFeeder
start(int)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
开始深度为depth的爬取
STATUS_DB_FETCHED
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
爬取状态常量-已爬取
STATUS_DB_UNDEFINED
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
爬取状态常量-未定义
STATUS_DB_UNFETCHED
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.model.
CrawlDatum
爬取状态常量-未爬取
stop()
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
停止爬取
stop()
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher
停止爬取
STOPED
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.crawler.
Crawler
suffix_crawldb
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
suffix_fetch
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
suffix_lock
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
suffix_parse
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
T
topN
- 类 中的静态变量cn.edu.hfut.dmic.webcollector.util.
Config
每个网页解析时,保存链接的数量上限(如果为null,则链接数量无上限)
totalSize
- 类 中的变量cn.edu.hfut.dmic.webcollector.fetcher.
Fetcher.FetchQueue
U
UniqueFilter
-
cn.edu.hfut.dmic.webcollector.generator.filter
中的类
唯一性过滤器
UniqueFilter(Generator)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.
UniqueFilter
构建一个唯一性过滤器
unlock()
- 接口 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbUpdater
unlock()
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
FSDbUpdater
解锁该更新器
unlock()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisDbUpdater
unlock()
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisHelper
update(CrawlDatum)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeFSDbupdater
updateFetcher(Fetcher)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
URLRegexFilter
-
cn.edu.hfut.dmic.webcollector.generator.filter
中的类
正则规律过滤器
URLRegexFilter(Generator, ArrayList<String>)
- 类 的构造器cn.edu.hfut.dmic.webcollector.generator.filter.
URLRegexFilter
根据正则规则列表,生成正则规则过滤器
V
visit(Page)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
BreadthCrawler
visit(Page)
- 类 中的方法cn.edu.hfut.dmic.webcollector.crawler.
Crawler
爬取成功时执行的方法
visit(Page)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisMergeDemo
W
what
- 类 中的变量cn.edu.hfut.dmic.webcollector.handler.
Message
消息的种类
WorkQueue
-
cn.edu.hfut.dmic.webcollector.util
中的类
老版本使用的线程池,现已废弃
WorkQueue(int)
- 类 的构造器cn.edu.hfut.dmic.webcollector.util.
WorkQueue
write(T)
- 类 中的方法cn.edu.hfut.dmic.webcollector.generator.
DbWriter
写入数据
writeFile(String, byte[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
FileUtils
writeFileWithParent(String, byte[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
FileUtils
writeFileWithParent(File, byte[])
- 类 中的静态方法cn.edu.hfut.dmic.webcollector.util.
FileUtils
wrtieContent(Content)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
FSSegmentWriter
写入一条Content对象(存储网页/文件内容的对象)
wrtieContent(Content)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
SegmentWriter
写入一条Content对象(存储网页/文件内容的对象)
wrtieContent(Content)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisSegmentWriter
wrtieFetch(CrawlDatum)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
FSSegmentWriter
写入一条爬取历史记录
wrtieFetch(CrawlDatum)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
SegmentWriter
写入一条爬取历史记录
wrtieFetch(CrawlDatum)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisSegmentWriter
wrtieParse(ParseResult)
- 类 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
FSSegmentWriter
写入一条网页解析结果
wrtieParse(ParseResult)
- 接口 中的方法cn.edu.hfut.dmic.webcollector.fetcher.
SegmentWriter
写入一条网页解析结果
wrtieParse(ParseResult)
- 类 中的方法cn.edu.hfut.dmic.webcollector.plugin.redis.
RedisSegmentWriter
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
概览
程序包
类
使用
树
已过时
索引
帮助
上一个
下一个
框架
无框架
所有类
Copyright © 2014. All Rights Reserved.