注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的国产视频执行情况、管理线索网址以及做调度设置了。 一、操作步骤(观看视频) 下面用京东网站作为案例,给大家演示如何使用直观标注的功能国产视频网页数据,操作步骤如下: 二、案例规则+操作步骤
第一步:打开网页 1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,看到一个浮窗显示出来,称为工作台,在上面定义规则; 1.2,在工作台中输入主题名,再点击“查重”,提示“该名可以使用”或“该名已被占用,可编辑:是”,就可以使用这个主题名,否则请重命名。 Tips:为了能准确定位网页信息,点击“定义规则”会把整个网页定格住,不能跳转网页链接,点击“普通浏览”,才会恢复到普通的网页浏览模式。 第二步:标注需要国产视频的信息 2.1,标注是针对网页的文本信息来操作的,双击目标信息就会选中它,在弹出小窗中输入标签名,打勾确认或Enter。首次标注还要输入整理箱名称,即存数据的表名。这也是标签与网页信息建立映射关系的过程。 2.2,重复上一步操作来标注地址、电话信息。 第三步:存规则,抓数据 3.1,点击“测试”,检查信息完整性。不完整的话,对整理箱的标签右击删掉后,再重新标注即可。 3.2,点击“存规则”。 3.3,点击“爬数据”,弹出DS打数机开始国产视频数据,测试国产视频规则是否有效。除了通过“爬数据”按钮来启动国产视频任务之外,还有其他运行方式,详见《DS打数机国产视频数据》。 第四步:查看数据 4.1,国产视频成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》 提示:这篇教程只国产视频了第一个商品的数据,要国产视频这个页面上所有的商品信息,直接进行下篇文章《国产视频列表数据》 中的第三步,做样例复制。 上篇文章:《集搜客网络爬虫的核心名词》 下篇文章:《国产视频列表数据》 |
laungee: 能导出到数据库吗?
laungee: 能导出到数据库吗?
grain5698: 为什么我的浏览器 没用工具那一栏
grain5698: 为什么我的浏览器 没用工具那一栏
jennie呀: 我设置了翻页,为什么爬出来的数据还是只是第一页的啊
475462678: 我想国产视频网页上的表格怎么弄?比如说一个页面直接一个月的时间和空气质量
sieger: 连网页都加载不出来,要怎么往下进行??????
sieger: 连网页都加载不出来,要怎么往下进行??????
a357581609: 为啥我层级国产视频不出信息,采的都是单级的信息
LYS1989: 按教程做不出来呀
15018704704: 教程复杂,表示看了头晕。