public abstract class Crawler extends Object implements RequestFactory, ParserFactory, DbUpdaterFactory
| 构造器和说明 |
|---|
Crawler() |
| 限定符和类型 | 方法和说明 |
|---|---|
void |
addRegex(String regex)
添加一个正则过滤规则
|
void |
addSeed(String seed)
添加一个种子url
|
abstract Fetcher |
createFetcher()
生成Fetcher(抓取器)的方法,可以通过Override这个方法来完成自定义Fetcher
|
Handler |
createFetcherHandler()
生成处理抓取消息的Handler,默认通过Crawler的visit方法来处理成功抓取的页面,
通过failed方法来处理失败抓取的页面
|
abstract Generator |
createGenerator() |
abstract Injector |
createInjector() |
void |
failed(Page page)
爬取失败时执行的方法
|
ArrayList<String> |
getRegexs()
返回正则规则列表
|
ArrayList<String> |
getSeeds()
返回种子URL列表
|
int |
getThreads()
返回线程数
|
void |
inject()
注入
|
boolean |
isResumable()
返回是否为断点爬取模式
|
void |
setRegexs(ArrayList<String> regexs)
设置正则规则列表
|
void |
setResumable(boolean resumable)
设置是否为断点爬取模式
|
void |
setSeeds(ArrayList<String> seeds)
设置种子URL列表
|
void |
setThreads(int threads)
设置线程数
|
void |
start(int depth)
开始深度为depth的爬取
|
void |
stop()
停止爬取
|
protected Fetcher |
updateFetcher(Fetcher fetcher) |
void |
visit(Page page)
爬取成功时执行的方法
|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, waitcreateRequestcreateParsercreateDbUpdaterpublic static final int RUNNING
public static final int STOPED
public abstract Injector createInjector()
public abstract Generator createGenerator()
public abstract Fetcher createFetcher()
public void visit(Page page)
page - 成功爬取的网页/文件public void failed(Page page)
page - 爬取失败的网页/文件public Handler createFetcherHandler()
public void addSeed(String seed)
seed - 种子urlpublic void addRegex(String regex)
regex - 正则过滤规则public boolean isResumable()
public void setResumable(boolean resumable)
resumable - 是否为断点爬取模式public int getThreads()
public void setThreads(int threads)
threads - 线程数Copyright © 2014. All Rights Reserved.