Gooseeker:少量数据抓取神器

Gooseeker,亦叫集搜客。
我少量数据抓取时的首选爬虫软件!

目前,我接触过的爬虫工具包括:火车头、Gooseeker、八爪鱼、神箭手。

少量数据采集一般用Gooseeker,大量数据采集用火车头,另外两款工具使用得比较少。

这篇文章重点结合我抓取拉钩上产品经理职位的实例,说一下Gooseeker的使用。

使用前说明

Gooseeker,一般适用少量数据的抓取。

免费版,每条规则可以采集10000条数据,并不支持iP代理,这也注定了基本上很难使用其进行大量数据的采集。

前期准备

1.注册Gooseeker账号

注册地址:https://www.gooseeker.com/register_default.html

2.下载Gooseeker软件

下载地址:
https://www.gooseeker.com/pro/product.html

3.学习Gooseeker软件知识

教程:
https://www.gooseeker.com/tuto/tutorial.html

设置一级规则

1.进入采集页,选择好要采集下的状态

2.设置名称,标记内容

3.设置好样例映射

4.设置好翻页

5.设置好下级线索

6.测试

7.保存规则

设置二级规则

这里需要注意二级规则的名称需要与一级规则设置的下级线索一致。

设置并启动爬虫

直接设置好相关内容,然后启动爬虫即可。

数据导出

这里直接导出了二级线索的数据。

数据整理

如果涉及到多个表格的合并则需要用到Excel的VLOOKUP函数。

语法为:

=VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

以上就是整个Gooseeker的使用过程,将数据整理后,可以放入BDP进行数据的分析,这里就不不展开叙述了。

PS:整个过程写得比较糟,算是记录一个整个事情,并未想写出一个教程性的文章,Gooseeker我是好几年的用户了,记录一下最近的一个操作。

工具

幕布:一款优秀的思维概要整理在线工具

2018-8-1 23:53:00

工具教程跨境

Tik Tok(抖音国际版)国内手机使用方法及常见问题解答(持续更新)

2018-9-7 20:41:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索