Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

概要
这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取（1.抓取数据）

http://blog.csdn.net/jokerkon/article/details/50868880

后进行的第二部分，请各位读者在看这篇博客之前先浏览上一篇，因为这里面有部分代码会沿用到上一部分的抓取结果。
好，现在开始正式的抓取图片的讲解
首先，我们先来看看代码：

var page =require('webpage').create();

var address='http://product.pconline.com.cn/notebook/series/417764.html';

var fs = require('fs');

var mypath='version/Server/server.txt';

var stream = null;

var steams = null;

var files = null;

var K=1;

var line ='';

var cate ='';

var url = '';

var dragPath='version/Server/server_img.txt';

phantom.outputEncoding="gbk";

page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";

function start(url){

  page.open(url,function(status){

    setTimeout(function(){

    if(status == 'success'){

    console.log('open success!');

    console.log('==========begin work!=============');

    stream = page.evaluate(function(){

      var title = document.querySelector('.pro-info').innerText;

      // title = title.replace('图片','');

        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;

        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;

        var href = document.querySelector('.pics>li>a');

          return title+'：'+cont+'：'+href+'\r\n';

    });

    console.log(stream);

    try{

      fs.write(dragPath, stream, 'a');

    }catch(e){

      console.log(e);

      fs.write(dragPath, null, 'a');

    }

  }else{

    console.log('page open fail!');

  }

    before();

            }, 100);

  });

}

function readFile(status){

    streams = fs.open(mypath,'r');

    before();

}

function before(){

  console.log('=========work in befor==========='+K);

  K++;

  if(!streams.atEnd()){

    console.log('=========work in befor get Next Line===========');

        line = streams.readLine();

        cate = line.split(',');

    var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');

    var imgs = imgUrl.split('/');

    var imgsUrl = imgs[1].split('.');

    imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';

    console.log(imgsUrl);

        start(imgsUrl);

    }else{

    console.log('end!!!!!!!!!!!!');

    phantom.exit();

    }

}

page.open(address,function(status){

  readFile(status);

})

这部分代码的结构和前面的都很相似，下面我们继续进行代码剖析

page.open(address,function(status){

  readFile(status);

})

与前面相似，这里是我们代码的入口，程序启动的入口。

然后会调用readFile函数

function readFile(status){

    streams = fs.open(mypath,'r');

    before();

}

这里使用phantomjs里面的fs请求，主要就是用来解决文件读取的问题

var fs = require('fs');

再读取到文件之后，我们将进行数据处理：

function before(){

  console.log('=========work in befor==========='+K);

  K++;

  if(!streams.atEnd()){

    console.log('=========work in befor get Next Line===========');

        line = streams.readLine();

        cate = line.split(',');

    var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');

    var imgs = imgUrl.split('/');

    var imgsUrl = imgs[1].split('.');

    imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';

    console.log(imgsUrl);

        start(imgsUrl);

    }else{

    console.log('end!!!!!!!!!!!!');

    phantom.exit();

    }

}

我们可以先来看看原本数据是什么样的：

联想ThinkServer TS130 S1225/2G/500O       价格:￥5417,http://product.pconline.com.cn/server/lenovo/514943.html

上面是我们从文件中读取到的数据，这一段数据都属于这个品牌电脑的数据。在读取完之后，我们对url进行拼接。

http://product.pconline.com.cn/pdlib/514943_picture.html

这个是我们要获取到的目的url，读者可以自己研究有什么规律，我这里的拼接方法有点挫。你们可以自己改进。

function start(url){

  page.open(url,function(status){

    setTimeout(function(){

    if(status == 'success'){

    console.log('open success!');

    console.log('==========begin work!=============');

    stream = page.evaluate(function(){

      var title = document.querySelector('.pro-info').innerText;

      // title = title.replace('图片','');

        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;

        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;

        var href = document.querySelector('.pics>li>a');

          return title+'：'+cont+'：'+href+'\r\n';

    });

    console.log(stream);

    try{

      fs.write(dragPath, stream, 'a');

    }catch(e){

      console.log(e);

      fs.write(dragPath, null, 'a');

    }

  }else{

    console.log('page open fail!');

  }

    before();

            }, 100);

  });

}

最后调用数据抓取的函数，

var title = document.querySelector('.pro-info').innerText;

      // title = title.replace('图片','');

        var cont = document.querySelectorAll('.pics>li>a>img')[1].src;

        // var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;

        var href = document.querySelector('.pics>li>a');

          return title+'：'+cont+'：'+href+'\r\n';

这里面的就是我们要抓数据的处理，分别获取到的是标题，小图的绝对地址，已经大图的url。

联想ThinkServer TS130 S1225/2G/500O图片：http://img.pconline.com.cn/images/product/5149/514938/TS130-b_sn8.jpg：http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html

这部分数据就是其中一条我们抓取到的数据。再抓完之后会进行写入操作，然后再重新调用before（）方法，进行循环调用，直至读取玩文件的所有内容。

以上就是我们进行图片抓取的全部过程，原本还有一份代码是用来抓取大图的，但是由于与本文的内容相似度极高，所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。

NodeJs 图片下载
接下来我在讲一下如何对我们刚刚抓下来的图片绝对地址进行文件下载。

先上代码：

var request = require('request');

var lineReader = require('line-reader');

var fs = require('fs');

var i=0;

lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last) {

  var cate = line.split('：');

  var url1 = cate[1];

  var tt = cate[0].replace(/\//g,',');

  i++;

  console.log(tt+'==============>'+i);

  if(!(url1 == 'null')){

    tt = tt.replace(/\s/g,'');

    tt = tt.replace(/[^a-z\d]/ig,"");

    var filename1 = 'images/router_large/'+tt+'bPic.jpg'

    request(url1).pipe(fs.createWriteStream(filename1));

  }

});

没错代码就那么短，我们来一段一段的分析：

lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last)

这里是我们下载文件的入口，使用到了nodejs里面的

var lineReader = require('line-reader');

这段代码的用处就是逐行读取文件。

  tt = tt.replace(/\s/g,'');

    tt = tt.replace(/[^a-z\d]/ig,"");

这里面我主要是处理一下文件名，除去了一些特殊符号已经中文名，便于存入数据库。

request(url1).pipe(fs.createWriteStream(filename1));

最后调用这部分代码进行文件下载。

以上就是抓取图片的全部内容，谢谢观看。

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）的更多相关文章

Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
测试开发Python培训：抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
网站爬取-案例三：今日头条抓取(ajax抓取JS数据)
今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们 ...
PHP登入网站抓取并且抓取数据
有时候需要登入网站,然后去抓取一些有用的信息,人工做的话,太累了.有的人可以很快的做到登入,但是需要在登入后再去访问其他页面始终都访问不了,因为他们没有带Cookie进去而被当做是两次会话.下面看看代 ...
C#使用Selenium实现QQ空间数据抓取说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据继续登录空间后的操作登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
nodejs mysql 数据查询例子
1.安装nodejs 2.安装mysql npm包地址:https://github.com/felixge/node-mysql npm install mysql 3.相应API查看及调用: ...
Mysql 数据分组取某字段值所有最大的记录行
需求: 表中同一个uid(用户)拥有多条游戏等级记录,现需要取所有用户最高等级(level)的那一条数据,且时间(time)越早排越前.这是典型的排名表 +------+-------+------- ...
Python3.6爬虫+Djiago2.0+Mysql --数据爬取
1.下载对应版本的python mysql 模块我的是:pymssql-2.2.0.dev0-cp36-cp36m-win_amd64.whl 2.手动创建table create table gr ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...

随机推荐

wepack+sass+vue 入门教程（一）
一.安装node.js node.js是基础,必须先安装.而且最新版的node.js,已经集成了npm. 下载地址 node安装,一路按默认即可. 二.全局安装webpack npm install ...
ASP.NET Core的路由[3]：Router的创建者——RouteBuilder
在<注册URL模式与HttpHandler的映射关系>演示的实例中,我们总是利用一个RouteBuilder对象来为RouterMiddleware中间件创建所需的Router对象,接下来 ...
了不起的 nodejs-TwitterWeb 案例 bug 解决
了不起的nodejs算是一本不错的入门书,不过书中个别案例存在bug,按照书中源码无法做出和书中相同效果,原本兴奋的心情掺杂着些许失落. 现在我们看一下第七章HTTP,一个Twitter Web客户端 ...
.Net 大型分布式基础服务架构横向演变概述
一. 业务背景构建具备高可用,高扩展性,高性能,能承载高并发,大流量的分布式电子商务平台,支持用户,订单,采购,物流,配送,财务等多个项目的协作,便于后续运营报表,分析,便于运维及监控. 二. 基础 ...
git克隆项目到本地&&全局安装依赖项目&&安装依赖包&&启动服务
一.安装本地开发环境 1.安装本项目在需要保存到本地的项目的文件夹,进入到文件夹里点击右键,bash here,出现下图: 2.安装依赖项目 3.安装依赖包(进入到命令行) # 安装依赖包 $ ...
windows环境redis主从安装部署
准备工作下载windows环境redis,我下载的是2.4.5,解压,拷贝一主(master)两从(slaveof).主机端口使用6379,两从的端口分别为6380和6381, 我本地索性用6379 ...
cesium核心类Viewer简介
1.简单描述Viewer Viewer类是cesium的核心类,是地图可视化展示的主窗口,cesium程序应用的切入口,扮演必不可少的核心角色. 官网的英文解析如下: A base widget fo ...
嵌入式&iOS：回调函数（C）与block（OC）传参/函数对比
C的回调函数: callBack.h 1).声明一个doSomeThingCount函数,参数为一个(无返回值,1个int参数的)函数. void DSTCount(void(*CallBack)(i ...
服务治理要先于SOA
讲在前面的话: 若企业缺乏对服务变更的控制和规则,那么一个服务在经过几个项目之后,就很有可能被随意更改成多个版本,将来变成什么样更是无法预测.久而久之,降低了服务重用的可能性,提高了服务利用的成本 ...
DevOps对于企业IT的价值
其实从敏捷延展开的 DevOps 概念很早就已经被提出,不过由于配套的技术成熟度水平层次不齐, DevOps 的价值一直没有有效地发挥出来.现如今,随着容器技术的发展, DevOps 在企业中的实践难 ...

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）的更多相关文章

随机推荐

热门专题