利用node.js写一个爬取知乎妹纸图的小爬虫

 更新时间:2017年05月03日 14:22:43   作者:qianlongo   我要评论
这篇文章主要给大家介绍了利用node.js写一个爬取知乎妹纸图的小爬虫,文中给出了详细的示例代码和介绍,对大家具有一定的参考学习价值,需要的朋友可以参考学习,下面来一起看看吧。

前言

说起写node爬虫的原因,真是羞羞呀。一天,和往常一样,晚上吃过饭便刷起知乎来,首页便是推荐的你见过最漂亮的女生长什么样?,点进去各种漂亮的妹纸爆照啊!!!,看的我好想把这些好看的妹纸照片都存下来啊!一张张点击保存,就在第18张得时候,突然想起。我特么不是程序员么,这种手动草做的事,怎么能做,不行我不能丢程序员的脸了,于是便开始这次爬虫之旅。

原理

初入爬虫的坑,没有太多深奥的理论知识,要获取知乎上帖子中的一张图片,我把它归结为以下几步。

  • 准备一个url(当然是诸如你见过最漂亮的女生长什么样?😄)
  • 获取这个url的html内容,并分析其中的dom结构,遍历找到这些漂亮的妹纸图片url
  • 获取图片内容
  • 将图片内容写入本地文件

开始动手

大概知道原理之后我们就可以开干了

准备一个url

这个最简单了,去知乎随便一搜就是一大把,我们以

发一张你认为很漂亮的美女照片?

为例子,先来分析一下这个页面的dom结构,其实很简单,知乎的一个页面中会包含很多种类型的图片,有头像,用户评价上传的图片啥的。基本上在noscript种都可以找到对应的图片地址。

获取这个url的html内容,并且拿到当前页面noscript中的img链接

这一步我们需要会点简单的nodejs的知识,以及用到一个库叫cheerio,这个库具体是用来做什么的,详细请移步cheerio

简单来说就是可以在命令行中使用jQuery来搜索遍历获取相应的元素。

那么怎样才能获取这个帖子的html呢

使用nodejs的https模块

var https = require('https')
getAllHtml (url, callback) {
 let sHtml = '',
 _this = this;
 https.get(url, (res) => {
 res.on('data', (data) => {
 sHtml += data;
 });
 res.on('end', () => {
 callback.bind(_this, sHtml)();
 })
 }).on('error', (err) => {
 console.log(err);
 });
}

通过以上操作拿到网站的html之后,便是遍历出我们需要的图片地址来了

filterHtml (sHtml, filePath) {
 let $ = cheerio.load(sHtml), // 将上一步拿到的网站html传入cheerio.load,便得到类似于包装过的jQuery对象,可以像jQuey的选择器一样来选择元素
 $Imgs = $('noscript img'),
 imgData = [],
 _this = this;
 $Imgs.each((i, e) => {
 let imgUrl = $(e).attr('src'); //取出对应的url
 imgData.push(imgUrl);
 // 将url传入开始下载
 _this.downloadImg(imgUrl, _this.filePath, 
 function (err) {
 console.log(imgUrl + 'has be down');
 });
 });
 console.log(imgData);
}

有了图片的url,如何下载到本地呢?

我们需要使用request这个库,简单的调用一下api再结合node原生写文件的api。

downloadImg (imgUrl, filePath, callback) {
 let fileName = this.parseFileName(imgUrl);
 request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
 }

到这里就大功告成了,是不是很简单!!!已经将源码上传,欢迎大家下载查看。

gitHub地址:https://github.com/qianlongo/node-small-crawler

本地下载地址:http://xiazai.jb51.net/201705/yuanma/node-small-crawler(jb51.net).rar

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用node.js能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对澳门金沙网上娱乐的支持。

相关文章

  • koa-router路由参数和前端路由的结合详解

    koa-router路由参数和前端路由的结合详解

    这篇文章主要给大家介绍了关于koa-router路由参数和前端路由的结合的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用koa-router具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-05-05
  • Node.js Express安装与使用教程

    Node.js Express安装与使用教程

    Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用,这篇文章主要介绍了Node.js Express安装与使用教程,非常具有实用价值,需要的朋友可以参考下
    2018-05-05
  • NodeJS 文件夹拷贝以及删除功能

    NodeJS 文件夹拷贝以及删除功能

    这篇文章主要介绍了NodeJS 文件夹拷贝以及删除功能,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • 使用Node.js实现一个简单的FastCGI服务器实例

    使用Node.js实现一个简单的FastCGI服务器实例

    这篇文章主要介绍了使用Node.js实现一个简单的FastCGI服务器实例,也可以作为一个比较详细的Node.js服务器创建教程,需要的朋友可以参考下
    2014-06-06
  • 详解nodejs爬虫程序解决utf-8等中文编码问题

    详解nodejs爬虫程序解决utf-8等中文编码问题

    本篇文章主要介绍了nodejs爬虫程序解决utf-8等中文编码问题,解决了网页的编码与nodejs默认编码不一致造成的乱码问题,有兴趣的可以了解一下
    2017-04-04
  • node中使用es6/7/8(支持性与性能)

    node中使用es6/7/8(支持性与性能)

    这篇文章主要介绍了node中使用es6/7/8(支持性与性能),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-03-03
  • 从零开始学习Node.js系列教程六:EventEmitter发送和接收事件的方法示例

    从零开始学习Node.js系列教程六:EventEmitter发送和接收事件的方

    这篇文章主要介绍了Node.js EventEmitter发送和接收事件的方法,结合实例形式分析了EventEmitter发送和接收事件的原理、实现方法与相关操作技巧,需要的朋友可以参考下
    2017-04-04
  • nodejs实现聊天机器人功能

    nodejs实现聊天机器人功能

    这篇文章主要介绍了nodejs实现聊天机器人功能,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • Node.js返回JSONP详解

    Node.js返回JSONP详解

    下面小编就为大家带来一篇Node.js返回JSONP详解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-05-05
  • node.js程序作为服务并在windows下开机自启动(用forever)

    node.js程序作为服务并在windows下开机自启动(用forever)

    这篇文章主要介绍了node.js程序作为服务并在windows下开机自启动的相关资料,因为实现的功能比较简单,没有选择功能比较强大的pm2,文中选择利用了forever,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-03-03

最新评论