public abstract class Crawler extends Object implements RequestFactory, ParserFactory, DbUpdaterFactory
构造器和说明 |
---|
Crawler() |
限定符和类型 | 方法和说明 |
---|---|
void |
addRegex(String regex)
添加一个正则过滤规则
|
void |
addSeed(String seed)
添加一个种子url
|
abstract Fetcher |
createFetcher()
生成Fetcher(抓取器)的方法,可以通过Override这个方法来完成自定义Fetcher
|
Handler |
createFetcherHandler()
生成处理抓取消息的Handler,默认通过Crawler的visit方法来处理成功抓取的页面,
通过failed方法来处理失败抓取的页面
|
abstract Generator |
createGenerator() |
abstract Injector |
createInjector() |
void |
failed(Page page)
爬取失败时执行的方法
|
ArrayList<String> |
getRegexs()
返回正则规则列表
|
ArrayList<String> |
getSeeds()
返回种子URL列表
|
int |
getThreads()
返回线程数
|
void |
inject()
注入
|
boolean |
isResumable()
返回是否为断点爬取模式
|
void |
setRegexs(ArrayList<String> regexs)
设置正则规则列表
|
void |
setResumable(boolean resumable)
设置是否为断点爬取模式
|
void |
setSeeds(ArrayList<String> seeds)
设置种子URL列表
|
void |
setThreads(int threads)
设置线程数
|
void |
start(int depth)
开始深度为depth的爬取
|
void |
stop()
停止爬取
|
protected Fetcher |
updateFetcher(Fetcher fetcher) |
void |
visit(Page page)
爬取成功时执行的方法
|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
createRequest
createParser
createDbUpdater
public static final int RUNNING
public static final int STOPED
public abstract Injector createInjector()
public abstract Generator createGenerator()
public abstract Fetcher createFetcher()
public void visit(Page page)
page
- 成功爬取的网页/文件public void failed(Page page)
page
- 爬取失败的网页/文件public Handler createFetcherHandler()
public void addSeed(String seed)
seed
- 种子urlpublic void addRegex(String regex)
regex
- 正则过滤规则public boolean isResumable()
public void setResumable(boolean resumable)
resumable
- 是否为断点爬取模式public int getThreads()
public void setThreads(int threads)
threads
- 线程数Copyright © 2014. All Rights Reserved.