图解利用Web Scraper 抓取网站数据【百科全说】

本篇将和大家介绍利用Web Scraper 抓取网站数据，希望对大家的工作和学习有所帮助！

操作方法

01

Web Scraper插件安装和界面介绍，参考如下经验。
02

打开了 hao123 页面，并且在此页面的底部打开了开发者工具，并且定位到了 Web Scraper 标签栏，点击“Create Sitemap”，如下图所示：
03

之后输入 sitemap 名称和 start url，名称只为方便我们标记，就命名为hao123（注意，不支持中文），start url 就是hao123的网址，然后点击 create sitemap，如下图所示：
04

之后 Web Scraper 自动定位到这个 sitemap，接下来我们添加一个选择器，点击“add new selector”，如下图所示：
05

首先给这个 selector 指定一个 id，就是一个便于识别名字而已，我这里命名为 hot。因为要获取名称和链接，所以将Type 设置为 Link，这个类型就是专门为网页链接准备的，选择 Link 类型后，会自动提取名称和链接两个属性，如下图所示：
06

之后点击 select ,然后我们在网页上移动光标，会发现光标所到之处会有颜色变化，变成绿色的，表示就是我么当前选择的区域。我们将光标定位到需求里说的那一栏的某个链接处，例如第一个头条新闻，在此处单击，这个部分就会变成红色，说明已经选中了，我们的目的是要选多个，所以选中这个之后，继续选第二个，我们会发现，这一行的链接都变成了红色，没错，这就是我们要的效果。然后点击"Done selecting!"，最后别忘了勾选 Multiple ，表示要采集多条数据，如下图所示：
07

最后保存，save selector。点击Element preview 可以预览选择的区域，点击 Data preview 可以在浏览器里预览抓取的数据。后面的文本框里的内容，对于懂技术的同学来说很清楚，这就是 xpath，我们可以不通过鼠标操作，直接手写 xpath 也可以；完整操作过程，如下图所示：
08

上一步操作完，其实就可以导出了。先别急，看一下其他的操作，Sitemap hao123 下的 Selector graph，可以看出拓扑结构图，_root 是根 selector ，创建一个 sitemap 自动会有一个 _root 节点，可以看到它的子 selector，就是我们创建的 hot selector，如下图所示：
09

Scrape ，开始抓取数据。Sitemap hao123 下的 Browse ，可以通过浏览器直接查看抓取的最后结果,需要再，如下图所示：
10

最后，使用 Export data as CSV，以 CSV 格式导出，其中 hot 列是标题，hot-href 列是链接，如下图所示：

图解利用Web Scraper 抓取网站数据

操作方法

相关推荐