Gooseeker:少量数据抓取神器

Gooseeker,亦叫集搜客。
我少量数据抓取时的首选爬虫软件!

目前,我接触过的爬虫工具包括:火车头、Gooseeker、八爪鱼、神箭手。

少量数据采集一般用Gooseeker,大量数据采集用火车头,另外两款工具使用得比较少。

这篇文章重点结合我抓取拉钩上产品经理职位的实例,说一下Gooseeker的使用。

使用前说明

Gooseeker,一般适用少量数据的抓取。

免费版,每条规则可以采集10000条数据,并不支持iP代理,这也注定了基本上很难使用其进行大量数据的采集。

前期准备

1.注册Gooseeker账号

注册地址:https://www.gooseeker.com/register_default.html

2.下载Gooseeker软件

下载地址:
https://www.gooseeker.com/pro/product.html

3.学习Gooseeker软件知识

教程:
https://www.gooseeker.com/tuto/tutorial.html

设置一级规则

1.进入采集页,选择好要采集下的状态

2.设置名称,标记内容

3.设置好样例映射

4.设置好翻页

5.设置好下级线索

6.测试

7.保存规则

设置二级规则

这里需要注意二级规则的名称需要与一级规则设置的下级线索一致。

设置并启动爬虫

直接设置好相关内容,然后启动爬虫即可。

数据导出

这里直接导出了二级线索的数据。

数据整理

如果涉及到多个表格的合并则需要用到Excel的VLOOKUP函数。

语法为:

=VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

以上就是整个Gooseeker的使用过程,将数据整理后,可以放入BDP进行数据的分析,这里就不不展开叙述了。

PS:整个过程写得比较糟,算是记录一个整个事情,并未想写出一个教程性的文章,Gooseeker我是好几年的用户了,记录一下最近的一个操作。

注意:
1.文中二维码和链接可能带有邀请性质,请各位玩家自行抉择。
2.请勿通过链接填写qq号与密码、银行卡号与密码等个人隐私信息。
3.禁止纯拉人头,拉app注册等信息,发现必小黑屋。
4.同一种信息仅发一次,多发会被删除。
5.发现违规行为请私信站长LAzySheep或进TG群举报。
本文由 @十一 发布。如若转载,请注明出处: 科技玩家 » Gooseeker:少量数据抓取神器

给TA买糖
共{{data.count}}人
人已赞赏
工具

幕布:一款优秀的思维概要整理在线工具

2018-8-1 23:53:00

工具教程跨境

Tik Tok(抖音国际版)国内手机使用方法及常见问题解答(持续更新)

2018-9-7 20:41:00

12 条回复 A文章作者 M管理员
  1. 117941

    学习一下

  2. 2013011510

    学习一下

  3. 猫冷

    学习

  4. carlyle

    学习

  5. SG029

    学习中

  6. midgod

    学习一下

  7. Flynn

    真不错

  8. 你的阿卓啊

    人生苦短,我用😁

  9. 117411

    学习一下

  10. yukiooo

    学习一下

个人中心
今日签到
有新私信 私信列表
搜索