public class BreadthCrawler extends CommonCrawler
构造器和说明 |
---|
BreadthCrawler() |
限定符和类型 | 方法和说明 |
---|---|
DbUpdater |
createDbUpdater() |
Generator |
createGenerator() |
Injector |
createInjector() |
String |
getCrawlPath()
返回存储爬虫爬取信息的文件夹路径
|
String |
getRoot()
已过时。
|
void |
setCrawlPath(String crawlPath)
设置存储爬虫爬取信息的文件夹路径
|
void |
setRoot(String root)
已过时。
|
void |
visit(Page page)
爬取成功时执行的方法
|
createFetcher, createParser, createRequest, getConconfig, getCookie, getIsContentStored, getProxy, getUseragent, setConconfig, setCookie, setIsContentStored, setProxy, setUseragent
addRegex, addSeed, createFetcherHandler, failed, getRegexs, getSeeds, getThreads, inject, isResumable, setRegexs, setResumable, setSeeds, setThreads, start, stop, updateFetcher
public DbUpdater createDbUpdater()
public Injector createInjector()
createInjector
在类中 Crawler
public Generator createGenerator()
createGenerator
在类中 Crawler
public String getCrawlPath()
public void setCrawlPath(String crawlPath)
crawlPath
- 存储爬虫爬取信息的文件夹路径@Deprecated public String getRoot()
@Deprecated public void setRoot(String root)
root
- 如果使用默认的visit,存储网页文件的路径Copyright © 2014. All Rights Reserved.