本教程给大家演示如何采集单个网页上的数据,?#35270;?#20110;搜集某一页的数据。仅有“打开网页”和“提取数据”两步,是最为简单的流程配置,但在所有流程均不可缺少。目的是让大家了解如何创建自定义采集任务,掌握最基础的自定义任务配置方法。


本文教程里讲到的示例网站地址为:http://www.skieer.com/guide/demo/simplemovies2.html

?

例如示例网站是一则新闻信息,我们需要提取这则新闻。


步骤1??打开网页


登陆八爪鱼7.0采集器→点击左上角的“+”图标→选择自定义采集(也可以点击主页中自定义采集下方的“立即使用?#20445;?#36827;入到任务配置页面。然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。


单网页 3

?

网页打开后,我们可以对任务名进行修?#27169;?#19981;修改则默认以网页标题命名。在运行采集前可随时修改任务名。

?单网页 2

?

步骤2??提取数据


在网页?#26657;?#30452;接选?#34892;?#35201;提取的数据即可,窗口右上角会有对应的提示。本教程中我们以提取新闻标题、日期、正文为例,请各位灵活运用,各取所需。


单网页 6

?

提取数据设置好,即可点击保存并开始运行采集。但是此时的字段名为系统自动生成的。为了更加符合自己需求,可点击右上角“流程”进入流程页面对字段名进行修改。首先选中要修改中字段名,此时下拉框中会有备选字段名,可直接选取使用。如果没自?#21512;?#35201;的,就输入新的字段名。修改好字段名后,点击“确定”进行保存。保存后即可运行采集。


?

单网页 8

?

所有版本均可运行本地采集,旗舰版及以?#20064;?#26412;可运行云采集和设置定时云采集,但运行云采集前先运行本地采集进行测试。任务运行完采集后,可选Excel、CSVHTML等格式进行导出或导入数据库。数据导出后可点击链接进入数据存放文件?#24515;?#26597;看数据,文件默认以任务名命名。

?

单网页 5