图解利用Web Scraper 抓取网站数据

本篇将和大家介绍利用Web Scraper 抓取网站数据,希望对大家的工作和学习有所帮助!

操作方法

  • 01

    Web Scraper插件安装和界面介绍,参考如下经验。

  • 02

    打开了 hao123 页面,并且在此页面的底部打开了开发者工具,并且定位到了 Web Scraper 标签栏,点击“Create Sitemap”,如下图所示:

  • 03

    之后输入 sitemap 名称和 start url,名称只为方便我们标记,就命名为hao123(注意,不支持中文),start url 就是hao123的网址,然后点击 create sitemap,如下图所示:

  • 04

    之后 Web Scraper 自动定位到这个 sitemap,接下来我们添加一个选择器,点击“add new selector”,如下图所示:

  • 05

    首先给这个 selector 指定一个 id,就是一个便于识别 名字而已,我这里命名为 hot。因为要获取名称和链接,所以将Type 设置为 Link,这个类型就是专门为网页链接准备的,选择 Link 类型后,会自动提取名称和链接两个属性,如下图所示:

  • 06

    之后点击 select ,然后我们在网页上移动光标,会发现光标所到之处会有颜色变化,变成绿色的,表示就是我么当前选择的区域。我们将光标定位到需求里说的那一栏的某个链接处,例如第一个头条新闻,在此处单击,这个部分就会变成红色,说明已经选中了,我们的目的是要选多个,所以选中这个之后,继续选第二个,我们会发现,这一行的链接都变成了红色,没错,这就是我们要的效果。然后点击"Done selecting!",最后别忘了勾选 Multiple ,表示要采集多条数据,如下图所示:

  • 07

    最后保存,save selector。点击Element preview 可以预览选择的区域,点击 Data preview 可以在浏览器里预览抓取的数据。 后面的文本框里的内容,对于懂技术的同学来说很清楚,这就是 xpath,我们可以不通过鼠标操作,直接手写 xpath 也可以; 完整操作过程,如下图所示:

  • 08

    上一步操作完,其实就可以导出了。先别急,看一下其他的操作,Sitemap hao123 下的 Selector graph,可以看出拓扑结构图,_root 是根 selector ,创建一个 sitemap 自动会有一个 _root 节点,可以看到它的子 selector,就是我们创建的 hot selector,如下图所示:

  • 09

    Scrape ,开始抓取数据。Sitemap hao123 下的 Browse ,可以通过浏览器直接查看抓取的最后结果,需要再,如下图所示:

  • 10

    最后,使用 Export data as CSV,以 CSV 格式导出,其中 hot 列是标题,hot-href 列是链接,如下图所示:

(0)

相关推荐

  • Excel如何抓取网站数据并设置自动更新实时数据

    网站发布的实时数据,往往是我们进行统计分析的重要信息源. 但是,每次都要 复制网站上的数据然后粘贴到Excel,这样操作会比较繁琐. 其实,我们可以通过设置,实现 让Excel自动抓取网站的实时最新数 ...

  • 造成百度蜘蛛抓取网站异常的常见原因总结

    Baiduspider爬行异常的常见原因是网站不稳定,Baiduspider在尝试连接到您网站的服务器时暂时无法连接,可能是您的网站IP地址错误,或者是百度蜘蛛被域名服务商封禁.有些网站的内容用户可以 ...

  • 造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些

           造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索 ...

  • 抓取wifi数据包和中间人攻击

    通过伪造相同名称的wifi接入点,配合发送ARP数据包,攻击连入伪造wifi的用户.一个与原有wifi相同名称的伪造接入点一旦建立,会导致用户从原有链接中断开,并连入攻击者所建立的伪造接入点中,因此所 ...

  • 一键抓取网站图片(如何抓取网页上的图片)

    企业在网站建设时,很多同时也做了手机端的网站,为了丰富网站的版面和内容,给网站添加了大量的图片做美化.网站的图片是一个网站能给用户最直观的信息表现,而对于搜索引擎而言,蜘蛛在随机抓取网站图片时候的识别 ...

  • 一键抓取网站图片(在线网页图片提取)

    爬取网页图片,怎么爬取网页图片,大家一看到爬取应该就想到python.但是为了爬取一些数据,花上几个月的时间去学习python编程技术,时间也浪费了还不一定能爬取成功.今天给大家分享一款免费的免费爬取 ...

  • 使用八爪鱼采集器抓取网页数据

    php抓取网页内容比较常用的是借助第三方类编写抓取代码,其中QueryList是一个基于phpQuery的通用列表采集类,是一个简单. 灵活.强大的采集工具,也比较常用,但是对于一些不用代码想要抓取网 ...

  • 如何用Excel从网站上抓取数据

    由于问题疫苗的出现,让广大民众对其惶惶不可终日,担心自己接种了问题疫苗,那么我们怎样知道疫苗流通到哪里了呢?程序员利用自身技术从各大网站上抓取数据分析,找到了流向.我们介绍一种简单的抓取可见数据 操作 ...

  • 吸引百度蜘蛛抓取的方法

    操作方法 01 8.内链建设 蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以帮助蜘蛛抓取到更多的页面,促进网站的收录.内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热 ...