作为一个 3 月经验用了 3 年的半吊子前爬虫程序员,难免有在采集数据时不想写代码的时候,毕竟轮子天天造,requests.get 都写腻了写烦了。
而且相信很多做数据分析的同学,也不会为了搞一份临时的数据,就专门去学个爬虫 。毕竟:
我就想写个爬虫,怎么要学那么多东西?
还好市面上有很多傻瓜式的数据采集器,不用写一行代码就能采集数据 ,这些数据采集器的使用体验到底如何呢?
州的先生就来给大家做一个不深不浅的测评,方便大家在不想写代码的时候,也能够顺利采集到数据。
今天是第一个选手——火车头采集器 。
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/70935f878f6e-1.png)
火车采集器是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品,并赢得众多用户的一致认可。
作为国内数据采集器的老前辈,这个自夸自擂还是有资格的。
我们首先到它的官网上下载最新的软件包:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/75dbaa5ab5ac-1-720x240.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/5b2895995736-1.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/fdd82adb5988-1-720x459.png)
不行,看看它的使用手册先。
火车采集器是一个非常专业的数据抓取和数据处理软件,对软件使用者有较高的技术要求, 使用者要有基本的HTML基础,能看得懂网页源码,网页结构。同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了解。如果您相关基础薄弱,则需要花时间学习相关知识并多看使用手册,才可以掌握程序的使用.
按照手册的介绍,学习采集器时,如有以下相关知识,将会对程序的使用起到促进作用:
html基础 了解网页的基本知识,帮助分析网页结构 http://www.w3school.com.cn/html/index.asp
正则表达式的使用 http://www.regexlab.com/zh/regref.htm
Http协议的相关知识 Http请求抓包的方法 http://www.fiddler2.com/fiddler2/
Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo数据库的使用
代理服务器,FTP服务器相关知识
常见的SQL语句
插件需要PHP或C#编程功底的支持
Apache或IIS服务器架设,网站的安装
得嘞,所需的计算机和编程知识还不少。
虽然不用写代码,但是也得会写代码呀。
再看看火车头采集器的任务新建窗口:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/87830f9cafe8-1-720x609.png)
在这里,州的先生以采集「州的先生博客」为例来演示一下:
首先,配置采集的网址:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/cabebb0c19aa-1-720x162.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/56a669bf604f-1-720x238.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/009390710e75-1-720x323.png)
输入任务名称之后,我们点击保存。程序主窗口的任务列表中就会出现我们刚刚新建的任务:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/0a74981e12b1-1.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/e1e150d6c571-1.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/3c102e52c1f2-1-720x558.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/4b7e726b0a18-1-720x171.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/0913dc5bd578-1-720x189.png)
这种难度并非说是任务运行的难度,而是程序采集下来的数据与自己需求之间不匹配的难度。
八爪鱼采集器
下面再来看看另一个选手——八爪鱼。
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/be87a4660023-1-720x473.png)
不过,和上一个火车头一样,我们用州的先生博客来进行测试。
在输入框中输入州的先生博客的域名后,出现了一个按钮,提示网址已识别,可以直接进行采集。这简直也太方便了吧,那咱们来试试。
点击后跳转到了一个 WebView 的窗口 ,打开了州的先生博客:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/1852828c8171-1-720x421.png)
等了十来分钟,还没打开。罢了,不用博客做测试了。选择一个热门模板来试试吧:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/1c8f75ca92f4-1-720x262.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/0ca83635741a-1-720x505.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/5bf72a4dfacc-1-720x326.png)
换腾讯网来试试,输入网址后,打开的网页,然后自动下拉网页:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/40237554a6aa-1-720x449.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/5e90fa0ba5c9-1-720x264.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/c748a7088cbe-1.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/4366f9bd393f-1-720x572.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/19da82a291b8-1-720x478.png)
窗口中不断打开待采集的URL,最终提示采集完成:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/a3ccce97e8b1-1-720x297.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/3bcbe23688ad-1-720x490.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/f81e5ea8bbd0-1-720x323.png)
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/5553402d4db9-1-720x588.png)
火车头采集器和八爪鱼采集器分别用州的先生博客和腾讯网进行了测试。下面简单进行一下评价吧:
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/96bed42e77e5-1.png)
而八爪鱼,看起来使用更加傻瓜化,但是完全依赖于「浏览器自动化操作」 :
![八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据) 八爪鱼和火车头哪个好用(数据采集器都可以帮你轻松爬数据)](https://www.ltw68.com/wp-content/uploads/2021/12/3fbd3f8884f4-1-720x383.png)
与其如此,不如稍微去掌握一点计算机知识,用火车头会更加好。
![](https://www.ltw68.com/wp-content/uploads/2024/02/311ca2feb320240210100235.png)