Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）

概要：
这篇博文主要讲一下如何使用Phantomjs进行数据抓取，这里面抓的网站是太平洋电脑网估价的内容。主要是对电脑笔记本以及他们的属性进行抓取，然后在使用nodejs进行下载图片和插入数据库操作。

先进行所有页面的内容进行抓取

var page =require('webpage').create();

var address='http://product.pconline.com.cn/server/';

var fs = require('fs');

var mypath = 'version/server/server.txt';

var count = 2;

var pageSize=0;

  phantom.outputEncoding="gbk";

  page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";

function loadController(status){

  loadComputerList(address);

}

function loadComputerList(url){

  console.log('loading '+url);

  page.onLoadFinished = function loadListsucc(status){

    console.log("loadlistSucc ["+url+"] =======================Status:"+status);

  };

  page.open(url,function(status){

    setTimeout(function(){

      console.log(status);

      var content='';

      content = page.evaluate(function(){

      var cont='';

      var listComputer = document.querySelectorAll('div.item-title>h3>a');

      var listPrice =document.querySelectorAll('div.price');

      for(var j=0;jvar computer = listComputer[j].innerText;

          var price = listPrice[j].innerText;

          var url = listComputer[j];

          cont += computer+'\t\t价格:'+price+','+url+'\r\n';

      }

      return cont;

    });

    console.log(content);

    console.log('========== write to file !============');

    try{

      fs.write(mypath, content, 'a');

    }catch(e){

      console.log(e);

    }

    console.log('========== begin loading next page!============');

    var nextUrl = page.evaluate(function(){

          var url = '';

          var next =  document.querySelectorAll('div.pager a[class=page-next]');

          var cont = '';

          url = next[0];

          cont += url;

          return cont;

                });

        console.log(nextUrl);

    if(count else{

        console.log(count);

    phantom.exit();

    }

    }, 100);

  });

}

page.open(address,function(status){

  // page.onLoadFinished = loadController;

  page.render('computer.jpeg');

  pageSize = page.evaluate(function(){

    var cont='';

    var size =document.querySelector('div.pager>em>i').innerText;

    cont += size;

    return cont;

  });

  console.log(pageSize);

  loadController(status);

});

上面部分代码可以直接抓取到

http://product.pconline.com.cn/server/

这个页面中所有分页的信息

下面进行代码分析：

page.open(address,function(status){

  // page.onLoadFinished = loadController;

  page.render('computer.jpeg');

  pageSize = page.evaluate(function(){

    var cont='';

    var size =document.querySelector('div.pager>em>i').innerText;

    cont += size;

    return cont;

  });

  console.log(pageSize);

  loadController(status);

});

这部分代码是Phantomjs的入口，也是我们进行数据抓取的开始部分。

 var size =document.querySelector('div.pager>em>i').innerText;

这里抓到的信息是所有页面的页数，用来作为循环判断的次数依据

然后观察代码就可以发现从入口结束之后就跳转到了LoadContriller函数中去，然后再调用loadComputerList这个函数，然后就可以进行数据抓取了

我们再看一下

 var listComputer = document.querySelectorAll('div.item-title>h3>a');

 var listPrice =document.querySelectorAll('div.price');

这两段代码，就是我们要抓取的电脑URL以及价格的信息。
再抓到我们想要的信息之后，我们再对其进行拼接

for(var j=0;jlistComputer.length;j++){

          var computer = listComputer[j].innerText;

          var price = listPrice[j].innerText;

          var url = listComputer[j];

          cont += computer+'\t\t价格:'+price+','+url+'\r\n';

      }

然后获得一行具有基本信息的电脑属性。
然后接下来的工作就是要把这些信息进行存储，我们这里因为不能直接存入数据库，所以要先存入文本中，代码如下：

var fs = require('fs');

try{

      fs.write(mypath, content, 'a');

    }catch(e){

      console.log(e);

    }

再PhantomJS中有API种有相应的读写文件讲解，这里就不多说了，上述代码就是在请求获得之后，将我们拼接好的内容写入文件中，采用的方式是’a’是添加的意思

经过上述过程，我们已经能够将第一个页面中的所有基本信息抓下来了，接下来的问题就是我们该如何跳转到下一个页面中，去抓取接下来的内容

代码如下：

var nextUrl = page.evaluate(function(){

          var url = '';

          var next =  document.querySelectorAll('div.pager a[class=page-next]');

          var cont = '';

          url = next[0];

          cont += url;

          return cont;

                });

        console.log(nextUrl);

    if(count console.log(nextUrl);

      count++;

      console.log(count);

      loadComputerList(nextUrl);

    }else{

        console.log(count);

    phantom.exit();

    }

这里面获取下一个页面Url用到的js语句是：

var next =  document.querySelectorAll('div.pager a[class=page-next]');

朋友们可以使用开发者工具去该网站中看一下点击下一页按钮对应的dom节点是什么，然后就明白这段代码的含义了

再这里面，我们获取了下一页的按钮之后，还需要进行判断现在的循环次数，由于下一页的按钮是一直存在的，我们并不能通过判断是否为空来结束任务，所以我这里用了一个比较蠢得办法来解决这个问题。

抓取所有页面的内容就基本上完成了，这段脚本代码比较简单，如果需要抓同一个网站，只需要修改两部分就可以了，一个是address这个入口，还有就是写文件的路径。

抓取详细信息

再上面我们已经抓到了一些基本信息了，但是页面中并没有为我们提供比如电脑cpu,内存，显卡这些内容，所以我们的抓取工作并没有完成。那么接下来的工作就是要通过我们刚才有抓到的url进入到电脑商品的详细信息页面中去，然后再抓下我们所需要的详细信息。
代码如下：

var page =require('webpage').create();

var address='http://product.pconline.com.cn/server/';

var fs = require('fs');

var mypath='version/Server/server_page.txt';

var stream = null;

var steams = null;

var K=1;

var line ='';

var cate ='';

var url = '';

var dragPath='version/Server/server_detail.txt';

phantom.outputEncoding="gbk";

page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";

function start(url){

  console.log(url);

  page.open(url,function(status){

    setTimeout(function(){

    if(status == 'success'){

    console.log('open success!');

    console.log('==========begin work!=============');

    stream = page.evaluate(function(){

        var name = document.querySelector('.pro-tit>h1').innerText;

        name = name.replace('参数','');

        var listComputer = document.querySelectorAll('div.pannel>ul .title');

        var listParameter = document.querySelectorAll('[itemid]');

        var price = document.querySelector('.r-price').innerText;

        price = price.replace(/\n/g,'');

        var cont= name+'|&|'+price+'|&|产品特性：';

        for(var j=0;jvar computer = listComputer[j].innerText;

            computer = computer.replace(' ','');

            cont += computer+' ';

          }

        for( var j = 0;jvar parameter = listParameter[j].innerText;

          parameter = parameter.replace(/\n/g,'');

          parameter = parameter.replace('\t',' ');

          if(j1){

              cont += parameter+"|&|";

            }else{

              cont += parameter+'';

            }

          }

          return cont+'\r\n';

    });

    try{

      fs.write(dragPath, stream, 'a');

    }catch(e){

      console.log(e);

    }

    console.log(stream);

  }else{

    console.log('page open fail!');

  }

    before();

            }, 100);

  });

}

function readFile(status){

    streams = fs.open(mypath,'r');

    before();

}

function before(){

  console.log('=========work in befor==========='+K);

  K++;

  if(!streams.atEnd()){

    console.log('=========work in befor get Next Line===========');

        line = streams.readLine();

        cate = line.split(',');

    console.log(cate[1]);

    var pcUrl = cate[1].replace('.html','_detail.html');

    console.log(pcUrl);

        start(pcUrl);

    }else{

    console.log('end!!!!!!!!!!!!');

    phantom.exit();

    }

}

page.open(address,function(status){

  readFile(status);

})

我们继续来分析下代码，Phantomjs的开始入口我们就不讲了，每次启动phantomjs都是由这个入口开始，然后再到我们想要的操作中去。

function readFile(status){

    streams = fs.open(mypath,'r');

    before();

}

这里我们成功打开文件，并且把文件中的内容缓存到了streams中去，这里设置的是全局变量，所以直接跳到before这个函数中去

function before(){

  console.log('=========work in befor==========='+K);

  K++;

  if(!streams.atEnd()){

    console.log('=========work in befor get Next Line===========');

        line = streams.readLine();

        cate = line.split(',');

    console.log(cate[1]);

    var pcUrl = cate[1].replace('.html','_detail.html');

    console.log(pcUrl);

        start(pcUrl);

    }else{

    console.log('end!!!!!!!!!!!!');

    phantom.exit();

    }

}

这里面进行的操作主要是在抓文件前，我们需要对我们刚才读进来的内容进行分析，比如：

line = streams.readLine();

cate = line.split(',');

var pcUrl = cate[1].replace('.html','_detail.html');

这三部分，首先就是实现了逐行读取的功能，将每一行的内容读出来，然后通过分隔符获得Url，这里由于我们获得的url并不是我们要的详细信息url，所以我们要进行拼接。

http://product.pconline.com.cn/server/lenovo/514943.html

http://product.pconline.com.cn/server/lenovo/514943_detail.html

这里提供两段实例，读者可以进去看一下，就明白我们为什么要这么拼接url了

stream = page.evaluate(function(){

        var name = document.querySelector('.pro-tit>h1').innerText;

        name = name.replace('参数','');

        var listComputer = document.querySelectorAll('div.pannel>ul .title');

        var listParameter = document.querySelectorAll('[itemid]');

        var price = document.querySelector('.r-price').innerText;

        price = price.replace(/\n/g,'');

        var cont= name+'|&|'+price+'|&|产品特性：';

        for(var j=0;jvar computer = listComputer[j].innerText;

            computer = computer.replace(' ','');

这部分代码就是我们要获取详细信息的代码了，读者可以研究一下，其实原理就是找到节点，然后取出来，进行拼接，最后获得一个详细的信息，实例：

联想ThinkServer TS130 S1225/2G/500O|&|￥5417|&|产品特性：产品型号 TS130 S1225/2G/500O|&|产品类型 塔式|&|产品结构 4U|&|CPU系列 至强处理器E3系列,Intel|&|CPU核心 四核|&|总线规格 DMI 5GT/s|&|CPU型号 E3-1225|&|CPU主频 3.1GHz|&|三级缓存 6M|&|标配CPU数目 1个|&|主板插槽 1×PCIE 2.0 x161×PCIE 2.0 x12×PCI 32/33|&|内存类型 DDR3|&|标配内存 2G|&|最大内存容量 32G|&|硬盘接口类型 SATAⅢ|&|标配硬盘 500G|&|最大硬盘容量 4TB|&|硬盘转速 7200转|&|硬盘阵列 Raid 0,Raid 1|&|光驱 DVD-ROM光驱|&|显示芯片 集成显卡|&|网卡 双端口千兆网卡|&|工作环境 工作温度：10℃-35℃，工作湿度：10%-80%|&|存储环境 储存温度：-40℃-70℃，储存湿度：10%-90%|&|电源 1个80PLUS单电源|&|最大功率 280W|&|操作系统 Windows 2003 R2 SP2简体中文标准版(32位/64位) Windows 2003 R2 SP2简体中文企业版(32位/64位)Windows Server 2008 简体中文基础版(64位) Windows Server 2008 简体中文标准版(32位/64位)Windows Server 2008 简体中文企业版(32位/64位)Windows Server 2008 R2 简体中文基础版(64位)Windows Server 2008 R2 简体中文标准版(64位) Windows Server 2008 R2 简体中文企业版(64位) Windows Small Business Server 2011 Essential Windows XP 简体中文专业版,SP2Windows Vista Business 简体中文商业版Windows 7简体中文专业版(32位/64位)Windows 7简体中文旗舰版(32位/64位)|&|尺寸 406×377×174mm

上面这部分就是我们获取到的详细的电脑信息内容，然后再拼接完信息之后，我们要做的就是写入文件中去，这里和上面是相似的，我就不重复了。

Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）的更多相关文章

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
[原创.数据可视化系列之十二]使用 nodejs通过async await建立同步数据抓取
做数据分析和可视化工作,最重要的一点就是数据抓取工作,之前使用Java和python都做过简单的数据抓取,感觉用的很不顺手. 后来用nodejs发现非常不错,通过js就可以进行数据抓取工作,类似jqu ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
使用NodeJS+AngularJS+MongoDB实现一个Web数据扒取-分析-展示的系统
说到Web爬虫,Python占了半壁江山.但是Web页面不是Python的强项了,如果需要扒取Web数据,再Mashup出来一个自己的系统,全端JS是个不错的解决方案(其实不用Python扒数据是因为 ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
数据抓取的艺术（三）：抓取Google数据之心得
本来是想把这部分内容放到前一篇<数据抓取的艺术(二):数据抓取程序优化>之中.但是随着任务的完成,我越来越感觉到其中深深的趣味,现总结如下: (1)时间时间是一个与抓取规模相形而 ...
Charles 如何抓取https数据包
Charles可以正常抓取http数据包,但是如果没有经过进一步设置的话,无法正常抓取https的数据包,通常会出现乱码.举个例子,如果没有做更多设置,Charles抓取https://www.bai ...
手把手教你用python打造网易公开课视频下载软件3-对抓取的数据进行处理
上篇讲到抓取的数据保存到rawhtml变量中,然后通过编码最终保存到html变量当中,那么html变量还会有什么问题吗?当然会有了,例如可能html变量中的保存的抓取的页面源代码可能有些标签没有关闭标 ...

随机推荐

一百元的智能家居——Asp.Net Mvc Api+讯飞语音+Android+Arduino
大半夜的,先说些废话提提神如今智能家居已经不再停留在概念阶段,高大上的科技公司都已经推出了自己的部分或全套的智能家居解决方案,不过就目前的现状而言,大多还停留在展厅阶段,还没有广泛的推广起来,有人说 ...
Javascript面向对象类文章目录
1.javaScript的原型继承与多态性 2.JavaScript的继承实现方式 3.JS中 call() 与apply 方法
[APUE]文件和目录(上)
一.文件权限 1. 各种ID 我在读这一章时遇到了各种ID,根据名字完全不清楚什么意思,幸好看到了这篇文章,http://blog.csdn.net/ccjjnn19890720/article/de ...
ASP.NET Core框架揭秘（持续更新中…）
之前写了一系列关于.NET Core/ASP.NET Core的文章,但是大都是针对RC版本.到了正式的RTM,很多地方都发生了改变,所以我会将之前发布的文章针对正式版本的.NET Core 1.0进 ...
苹果强制使用HTTPS传输了怎么办？——关于HTTPS，APP开发者必须知道的事
WeTest 导读 2017年1月1日起,苹果公司将强制使用HTTPS协议传输.本文通过对HTTPS基础原理和通信过程内容的讲解,介绍APP开发者在这个背景下的应对办法. 几周前,我们在<htt ...
[C#] C# 知识回顾 - 表达式树 Expression Trees
C# 知识回顾 - 表达式树 Expression Trees 目录简介 Lambda 表达式创建表达式树 API 创建表达式树解析表达式树表达式树的永久性编译表达式树执行表达式树修改表达 ...
SharpMap简析
1.背景因为项目需求,需要基于开源项目来对SHP进行相关操作.涉及到的主要功能就是加载SHP读取其中的属性信息和几何信息.于是选择了Sharpmap来进行,在使用中对其相关功能做了初步了解,做个总结 ...
IdentityServer4 使用OpenID Connect添加用户身份验证
使用IdentityServer4 实现OpenID Connect服务端,添加用户身份验证.客户端调用,实现授权. IdentityServer4 目前已更新至1.0 版,在之前的文章中有所介绍.I ...
微信小程序开发日记——高仿知乎日报（上）
本人对知乎日报是情有独钟,看我的博客和github就知道了,写了几个不同技术类型的知乎日报APP 要做微信小程序首先要对html,css,js有一定的基础,还有对微信小程序的API也要非常熟悉我将该 ...
Android中Activity的四大启动模式实验简述
作为Android四大组件之一,Activity可以说是最基本也是最常见的组件,它提供了一个显示界面,从而实现与用户的交互,作为初学者,必须熟练掌握.今天我们就来通过实验演示,来帮助大家理解Activ ...

Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）

抓取详细信息

Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）的更多相关文章

随机推荐

热门专题