CrawlScript 教程


下载

CrawlScript在github上发布,可用下面三种方式下载:

1.进入CrawlScript的github主页,右下方的Download Zip按钮下载.

2.直接点击下载CrawlScript.

3.如果电脑装有git命令,可用git命令下载:
  git clone https://github.com/CrawlScript/CrawlScript

运行CrawlScript Shell

CrawlScript Shell是编写和运行CrawlScript最常用的方式之一,运行方式如下:

1.用命令行进入工程里的CrawlScript-bin文件夹.

2.在命令行输入java -jar crawlscript.jar即可进入crawlscript的shell.

3.开始编写CrawlScript脚本,回车运行.

例如:
1)输入doc=$("http://www.baidu.com") ,回车,可看到百度首页的所有文字。
2)继续输入doc.a() ,回车,即可看到百度首页的所有超链接中的文字.
3)继续输入write("log.txt",doc.a()); ,回车,查看CrawlScript-bin文件夹,可发现生成了log.txt文件,里面是百度首页所有超链接的文本信息.

运行CrawlScript脚本文件

运行CrawlScript脚本文件有两种方式:

1.运行CrawlScript Shell,输入命令load(文件路径).
例如:在CrawlScript-bin文件夹下新建一个脚本demo.js(点击查看内容),进入CrawlScript Shell后,输入load("demo.js")即可运行demo.js这个脚本。

2.在CrawlScript-bin目录下,运行命令: java -jar crawlscript.jar 文件路径.
例如:在CrawlScript-bin文件夹下新建一个脚本demo.js(点击查看内容),用命令行进入CrawlScript-bin目录,运行命令: java -jar crawlscript.jar demo.js