网络爬虫脚本语言 CrawlScript
网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的代码,就可以制作一个强大的网络爬虫。同时,CrawlScript由JAVA编写,可以在其他JAVA程序中被简单调用。
网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的代码,就可以制作一个强大的网络爬虫。同时,CrawlScript由JAVA编写,可以在其他JAVA程序中被简单调用。
CrawlScript是在ECMA标准的基础上设计的语言,是一种javascript,在语法上和网页开发中使用的javascript完全相同,但是并不支持网页开发中所特有的函数和对象,如document、alert()在CrawlScript中会失效。CrawlScript有自己的一套特有的函数和对象,详细请看CrawlScript API。
CrawlScript在任何有JDK环境的电脑上都可以运行,无论是windows、linux还是unix
CrawlScript完全由JAVA编写,可在JAVA程序中被方便调用。
1.CrawlScript是脚本语言,大大简化了编程,用一两行代码可以实现用几十行JAVA代码才能实现的功能。
2.CrawlScript可以直接单独作为爬虫使用,只需要JDK的环境即可,不需要复杂的配置过程。
3.CrawlScript可以嵌入任何其他JAVA程序中。