Heritrix学习及部署(三)

论坛 期权论坛 脚本     
匿名技术用户   2020-12-28 04:03   11   0
----------------------抓取部署任务 start--------------------
1.选jobs-based on a profile 创建一个新的工作任务

2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com

3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:123456@qq.com

4.设置submodules
请严格按照以下方式来设置:
1). frontier
org.archive.crawler.frontier.BdbFrontier
2). scope
org.archive.crawler.scope.BroadScope
3). Prefetcher
org.archive.crawler.prefetch.Preselector
org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP
5). Extractor
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
6). Writer
可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler
(FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP