本来已经写了个视频教程,不打算再写图文教程了,但是视频教程毕竟有70多M,时长49分钟,可能有的用户带宽不好,另外视频教程也不方便修改和维护,所以这里再写个图文教程,首先请根据第一节安...

    本来已经写了个视频教程,不打算再写图文教程了,但是视频教程毕竟有70多M,时长49分钟,可能有的用户带宽不好,另外视频教程也不方便修改和维护,所以这里再写个图文教程,首先请根据第一节安装使用教程中的下载地址下载"智能采集器的发布版本130316.rar"压缩包(该压缩包只有2M多,再慢的网速也可以下载下来),解压后,将里面的两个PHP接口文件:"zengl_caiji.php""mydetectTitle.php",放到您的网站根目录中。部署好服务端接口文件后,就可以打开"智能采集器2013PC桌面版.exe"可执行文件进行采集工作了。

    先在输入网址的输入框中输入您的网址,如下图:

    www.destoongbk.qq是经过hosts文件解析过的本地测试网站的网址,输入网址后可以直接按回车,或者点击旁边的获取分类信息的按钮,然 后采集器就会自动从服务器端的接口文件中获取分类和关键词信息,在获取的过程中日志面板会有插入相关分类的输出,同时在底部也有进度条显示获取和插入数据 的进度。如下图:

    获取到分类和每个分类的关键词数据后,就可以在左侧看到该网站的分类信息:

    双击一个分类,打开该分类的关键词对话框:

    在这个对话框中可以新建,编辑,删除关键词信息,通过"本地采集的数据"按钮查看采集到本地sqlite数据库中的内容,当然,第一次获取分类信息时是没有本地采集数据的,这里主要看下"选中关键词的采集网站"的按钮,在列表中选择一个关键词比如上图的"服装供应",然后点击"选中关键词的采集网站",接着采集器会启动默认浏览器,例如IE浏览器,然后自动访问阿里巴巴的产品页面,并且自动搜索"服装供应"的关键词,如下图:

    你可以在此页面看到"服装供应"一共有多少条信息可供采集,以及该关键词对应的搜索出来的标题内容是否符合要 求,关键词的设定是本采集器的一个重要的环节,一个不好的关键词会采集到其他的你不想要的信息,虽然采集器可以在采集后对采集的内容进行处理再发布,但是 太多的不合要求的信息审核起来也麻烦,所以,请一定要为分类选择好关键词。在设定好关键词后,在左侧分类列表中勾选需要采集的分类,并在"输入每个分类的采集数量"对应的输入框中输入数字(根据自己的需求来设置),然后点击工具栏中的开始按钮,采集器就开始抓包工作了,如果你想要在数据采集到本地时,处理完采集数据再发布的话,可以勾选工具栏中的"采集到本地时提示处理"的复选框,如果没勾选则数据采集到本地后会立刻发布到网站。
    同时建议勾选工具栏的"是否开启自动过滤"的复选框,这样如果采集到不合要求的内容时,采集器会自动过滤掉,下次就不会再采集该内容了。
   采集时日志面板会输出采集的相关信息,如下图所示:

    在勾选了采集到本地时提示的复习框时,在上图中可以看到,采集器暂停,并在右下角的小图标中弹出气泡,可以看到进度条也跟着在走。此时就可以点击工具栏中的"处理本地采集结果按钮"来查看和过滤不合要求的信息,如下图:

    当然你也可以在前面的分类关键词对话框中通过"本地采集的数据"按钮来查看和处理一个分类下的所有采集的内容:

    上图就是采集到本地的数据的表格显示,在其中有个state列,该列有两个值,1表示该行的数据已经发布成功了或者被系统自动过滤掉的或者被用户在处理本 地采集数据对话框中过滤删除掉的,0表示还没发布准备发布的信息,你可以根据需要修改此列的值,比如如果有条数据被错误的过滤删除的话,可以将其 state列的值改为0,从而恢复该条数据的发布。
    另外上图中底部有个清除按钮,因为数据都是采集到本地数据库中的,所以如果采集量一多,可能数据库就会变得比较大,你可以根据需要来清除该分类,或者该分 类所属模块或本网站所有的采集数据。     处理完采集到本地的数据后,就可以点击工具栏的继续按钮(即开始按钮或运行中按钮,该按钮的名称会根据采集状态而改变),进行发布工作:

    可以在上图看到有两个发布超时了,原因是阿里巴巴里面大部分产品内容都有很多的图片,而我这的网速是共享的,烂到家了,所以有两篇供应就发布超时了,后面 三篇发布成功是因为我将工具栏的最多采集图片数设为了0,这样服务端的接口文件就会过滤掉所有的图片,只留下纯文本,这样才能应付垃圾的网速:

    采集数据是比较占带宽的,如果你不想过滤掉图片,那么最好选择凌晨几点没人跟你抢网速的时候,勾选好你要采集的分类,然后点开始,就可以睡觉去了,记得把 采集到本地的提示复选框去掉,否则,采集到本地后,系统就会暂停了! 还要注意的是你的DT网站后台必须把供应,商城等模块设置里的下载远程图片开启,否则,发布到网站内容中的图片就是远程的图片,而不是服务器本地的图片 了。
    另外系统还可以采集公司即企业会员信息:

    勾选了采集公司信息的复选框后,日志面板中会有提示:"您勾选了采集公司,则在供应,商城,团购,招商,品牌模块采集时会自动采集公司,每采集一个公司就会增加一个会员,所以请根据实际情况来定,采集过多公司会造成较多的非真实用户(因为这些用户是采集生成的,而不是别人注册的!)"
    另外采集公司需要在左侧勾选要采集到哪个公司分类中,如果没勾选,则所有公司信息都会采集到默认公司分类中,所以这里是需要特别注意的地方。
   
    最后采集和发布的规则都是写在Module目录下的zengl脚本文件中的,这个上节提到过,脚本的语法将在后面的章节中给出。

    如果转载请注明来源 http://www.zengl.com   , OK , 先到这里,休息,休息一下 O(∩_∩)O~
上下篇

下一篇: 智能采集器v1.0.2 可采集全行业上万分类

上一篇: 智能采集器v1.0.0 安装使用教程

相关文章

智能采集器 v1.2.0 公测版

zengl脚本语法 第二章流程控制篇

智能采集器v1.0.2 可采集全行业上万分类

智能采集器v1.3.0开源版

智能采集器 4月23日更新采集脚本

zengl脚本语法 第六章内建函数枚举