Gooseeker:少量数据抓取神器

Gooseeker,亦叫集搜客。
我少量数据抓取时的首选爬虫软件!

目前,我接触过的爬虫工具包括:火车头、Gooseeker、八爪鱼、神箭手。

少量数据采集一般用Gooseeker,大量数据采集用火车头,另外两款工具使用得比较少。

这篇文章重点结合我抓取拉钩上产品经理职位的实例,说一下Gooseeker的使用。

使用前说明

Gooseeker,一般适用少量数据的抓取。

免费版,每条规则可以采集10000条数据,并不支持iP代理,这也注定了基本上很难使用其进行大量数据的采集。

前期准备

1.注册Gooseeker账号

注册地址:https://www.gooseeker.com/register_default.html

2.下载Gooseeker软件

下载地址:
https://www.gooseeker.com/pro/product.html

3.学习Gooseeker软件知识

教程:
https://www.gooseeker.com/tuto/tutorial.html

设置一级规则

1.进入采集页,选择好要采集下的状态

2.设置名称,标记内容

3.设置好样例映射

4.设置好翻页

5.设置好下级线索

6.测试

7.保存规则

设置二级规则

这里需要注意二级规则的名称需要与一级规则设置的下级线索一致。

设置并启动爬虫

直接设置好相关内容,然后启动爬虫即可。

数据导出

这里直接导出了二级线索的数据。

数据整理

如果涉及到多个表格的合并则需要用到Excel的VLOOKUP函数。

语法为:

=VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

以上就是整个Gooseeker的使用过程,将数据整理后,可以放入BDP进行数据的分析,这里就不不展开叙述了。

PS:整个过程写得比较糟,算是记录一个整个事情,并未想写出一个教程性的文章,Gooseeker我是好几年的用户了,记录一下最近的一个操作。

-> 加入科技玩家交流群组:点击加入 注意:
1.文中二维码和链接可能带有邀请性质,请各位玩家自行抉择。
2.请勿通过链接填写qq号与密码、银行卡号与密码等个人隐私信息。
3.禁止纯拉人头,拉app注册等信息,发现必小黑屋。
4.同一种信息仅发一次,多发会被删除。
5.文章中源码或APP等,无法保证其绝对安全,需自行辨别。
6.文章关联方不想展示也可以微信站长“socutesheep”删除。
本文由 @十一 发布。如若转载,请注明出处: 科技玩家 » Gooseeker:少量数据抓取神器

给TA买糖
共{{data.count}}人
人已买糖
工具

幕布:一款优秀的思维概要整理在线工具

2018-8-1 23:53:00

工具随笔

电子书下载网站汇总,轻松找到99%的免费电子书!

2018-9-29 23:33:00

38 条回复 A文章作者 M管理员
贴心提醒
请认真对待作者付出,勿发表无意义言论,触发过滤规则的评论将无法提交,包含敏感词的评论会自动变成待审核状态哦。
  1. 道理我都懂

    不错学习学习

  2. 归来

    必须点个赞的

  3. Atlantis

    加油!!!!

  4. 玖恩

    谢谢分享,学习了

  5. YANMING

    感谢分享

  6. 小虾米

    努力学习

  7. 幸运儿

    必须点个赞的

  8. 到的大家

    谢谢大佬无私奉献

  9. 这把看我表演

    谢谢分享,学习了

  10. 丁真的小马

    学习到了,抓下试试

  11. 萝卜头

    谢谢,分享学习了

  12. ccbt

    不错不错

  13. 七年

    瞅瞅瞅瞅,mark一手

  14. jerryc

    谢谢大佬分享,谢谢!

  15. 七年

    打卡升级

  16. 七年

    辛苦大佬分享了,我先学习一下

  17. 幻念

    真棒,感谢分享!

  18. slimei

    真棒,感谢分享!

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索