智能采集器v1.0.0版本是采用C++加wxWidgets开发的GUI图像界面,使用zengl编程语言作为采集规则的脚本语言。本采集器目前是专门针对Destoon系统v4.0 GBK或UTF8的版本。运行平台:WindowsXP ,W...
智能采集器v1.0.0版本是采用C++加wxWidgets开发的GUI图像界面,使用zengl编程语言作为采集规则的脚本语言。本采集器目前是专门针对Destoon系统v4.0 GBK或UTF8的版本。运行平台:WindowsXP ,Windows7,Windows8
采集器的下载地址为:http://pan.baidu.com/share/link?shareid=326717&uk=940392313 (此为百度盘的共享链接地址) 。进入该链接可以看到"智能采集器各个版本的可执行文件压缩包",请下载最新的版本,最新版本为v1.0.5。
采集器的使用视频教程下载地址为:http://pan.baidu.com/share/link?shareid=324246&uk=940392313 。进入该链接可以看到"智能采集器v1视频教程.rar",该压缩包中存放了exe格式的视频教程。这个视频教程有70多兆(录像时长49分钟)。
因为视频教程里已经详细介绍了使用方法,这里就不多说了,来看下本程序的目录结构,下载的压缩包解压后得到如下文件(这里以v1.0.0为例,其他的版本请查看栏目中的对应文章):
当然,你完全可以不去理会这些.zl结尾的脚本文件,直接按照视频教程输入网址,然后点开始,就可以睡觉去了。当然能理解并修改这些脚本的话,就可以自定义采集规则,否则就要等作者更新了。
"libcurl.dll"是采集器使用的抓包动态库,zlib1.dll是和压缩有关的动态库,两个PHP文件,"mydetectTitle.php"和"zengl_caiji.php"是需要上传到服务端网站根目录下的接口文件,其中"mydetectTitle.php"负责将网站的分类信息反馈给采集器,"zengl_caiji.php"则负责将采集器上传过来的数据发布到网站中。这些在视频教程中提到过。
area.xml文件里存放了391个地区数据,test.xml文件是系统获取网站分类信息时创建的临时文件。.xpm结尾的文件如checked.xpm等文件都是采集器图形界面中的小图标的特殊格式。splash.png是采集器的启动画面。debuglogs.txt文件里存放的是当zengl脚本编译出错时的信息(例如语法错误等)。正则表达式测试.txt是点击采集器工具栏里的测试按钮时会用到的文件。你可以将采集目标网站的源代码复制到该文件中,然后就可以在测试对话框中反复测试正则表达式(采集的本质就是利用正则表达式从页面中提取出有用的信息,再经过加工过滤,就得到需要的信息了),得到正则表达式后,就可以将其写入采集规则的zengl脚本文件中。mylogs.txt是采集过程中的日志文件(请勿删除)。
db目录中存放的是每个网站的分类信息和采集的数据的数据库文件,以及网站的模块数据等,这些都在视频教程里有详细介绍。
Module目录中存放的是各个模块的采集规则文件,如下图:
这些zengl脚本文件都是修改后立即生效的,因为采集器会自动编译生成对应的.zlc中间代码文件,并通过内置zengl虚拟机来运行中间代码。
下面是程序的启动画面:
机器人的启动画面可以单击画面来让其消失,或者等个几秒,它自动会消失。
至于采集的具体方法请查看视频教程,zengl脚本的语法将在后面的章节中给出,大家先有个感性的认识。
如果转载请注明来源 http://www.zengl.com , OK , 先到这里,休息,休息一下 O(∩_∩)O~