Phantomjs+Nodejs+Mysql数据抓取(2.抓取图片)
概要
这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据)
后进行的第二部分,请各位读者在看这篇博客之前先浏览上一篇,因为这里面有部分代码会沿用到上一部分的抓取结果。
好,现在开始正式的抓取图片的讲解
首先,我们先来看看代码:
var page =require('webpage').create();
var address='http://product.pconline.com.cn/notebook/series/417764.html';
var fs = require('fs');
var mypath='version/Server/server.txt';
var stream = null;
var steams = null;
var files = null;
var K=1;
var line ='';
var cate ='';
var url = '';
var dragPath='version/Server/server_img.txt';
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function start(url){
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var title = document.querySelector('.pro-info').innerText;
// title = title.replace('图片','');
var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
// var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
var href = document.querySelector('.pics>li>a');
return title+':'+cont+':'+href+'\r\n';
});
console.log(stream);
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
fs.write(dragPath, null, 'a');
}
}else{
console.log('page open fail!');
}
before();
}, 100);
});
}
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');
var imgs = imgUrl.split('/');
var imgsUrl = imgs[1].split('.');
imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';
console.log(imgsUrl);
start(imgsUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
page.open(address,function(status){
readFile(status);
})
这部分代码的结构和前面的都很相似,下面我们继续进行代码剖析
page.open(address,function(status){
readFile(status);
})
与前面相似,这里是我们代码的入口,程序启动的入口。
然后会调用readFile函数
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
这里使用phantomjs里面的fs请求,主要就是用来解决文件读取的问题
var fs = require('fs');
再读取到文件之后,我们将进行数据处理:
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');
var imgs = imgUrl.split('/');
var imgsUrl = imgs[1].split('.');
imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';
console.log(imgsUrl);
start(imgsUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
我们可以先来看看原本数据是什么样的:
联想ThinkServer TS130 S1225/2G/500O 价格:¥5417,http://product.pconline.com.cn/server/lenovo/514943.html
上面是我们从文件中读取到的数据,这一段数据都属于这个品牌电脑的数据。在读取完之后,我们对url进行拼接。
http://product.pconline.com.cn/pdlib/514943_picture.html
这个是我们要获取到的目的url,读者可以自己研究有什么规律,我这里的拼接方法有点挫。你们可以自己改进。
function start(url){
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var title = document.querySelector('.pro-info').innerText;
// title = title.replace('图片','');
var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
// var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
var href = document.querySelector('.pics>li>a');
return title+':'+cont+':'+href+'\r\n';
});
console.log(stream);
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
fs.write(dragPath, null, 'a');
}
}else{
console.log('page open fail!');
}
before();
}, 100);
});
}
最后调用数据抓取的函数,
var title = document.querySelector('.pro-info').innerText;
// title = title.replace('图片','');
var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
// var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
var href = document.querySelector('.pics>li>a');
return title+':'+cont+':'+href+'\r\n';
这里面的就是我们要抓数据的处理,分别获取到的是标题,小图的绝对地址,已经大图的url。
联想ThinkServer TS130 S1225/2G/500O图片:http://img.pconline.com.cn/images/product/5149/514938/TS130-b_sn8.jpg:http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html
这部分数据就是其中一条我们抓取到的数据。再抓完之后会进行写入操作,然后再重新调用before()方法,进行循环调用,直至读取玩文件的所有内容。
以上就是我们进行图片抓取的全部过程,原本还有一份代码是用来抓取大图的,但是由于与本文的内容相似度极高,所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。
NodeJs 图片下载
接下来我在讲一下如何对我们刚刚抓下来的图片绝对地址进行文件下载。
先上代码:
var request = require('request');
var lineReader = require('line-reader');
var fs = require('fs');
var i=0;
lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last) {
var cate = line.split(':');
var url1 = cate[1];
var tt = cate[0].replace(/\//g,',');
i++;
console.log(tt+'==============>'+i);
if(!(url1 == 'null')){
tt = tt.replace(/\s/g,'');
tt = tt.replace(/[^a-z\d]/ig,"");
var filename1 = 'images/router_large/'+tt+'bPic.jpg'
request(url1).pipe(fs.createWriteStream(filename1));
}
});
没错代码就那么短,我们来一段一段的分析:
lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last)
这里是我们下载文件的入口,使用到了nodejs里面的
var lineReader = require('line-reader');
这段代码的用处就是逐行读取文件。
tt = tt.replace(/\s/g,'');
tt = tt.replace(/[^a-z\d]/ig,"");
这里面我主要是处理一下文件名,除去了一些特殊符号已经中文名,便于存入数据库。
request(url1).pipe(fs.createWriteStream(filename1));
最后调用这部分代码进行文件下载。
以上就是抓取图片的全部内容,谢谢观看。
Phantomjs+Nodejs+Mysql数据抓取(2.抓取图片)的更多相关文章
- Phantomjs+Nodejs+Mysql数据抓取(1.数据抓取)
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
- 测试开发Python培训:抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
- 网站爬取-案例三:今日头条抓取(ajax抓取JS数据)
今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们 ...
- PHP登入网站抓取并且抓取数据
有时候需要登入网站,然后去抓取一些有用的信息,人工做的话,太累了.有的人可以很快的做到登入,但是需要在登入后再去访问其他页面始终都访问不了,因为他们没有带Cookie进去而被当做是两次会话.下面看看代 ...
- C#使用Selenium实现QQ空间数据抓取 说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据 继续登录空间后的操作 登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
- nodejs mysql 数据查询例子
1.安装nodejs 2.安装mysql npm包 地址:https://github.com/felixge/node-mysql npm install mysql 3.相应API查看及调用: ...
- Mysql 数据分组取某字段值所有最大的记录行
需求: 表中同一个uid(用户)拥有多条游戏等级记录,现需要取所有用户最高等级(level)的那一条数据,且时间(time)越早排越前.这是典型的排名表 +------+-------+------- ...
- Python3.6爬虫+Djiago2.0+Mysql --数据爬取
1.下载对应版本的python mysql 模块 我的是:pymssql-2.2.0.dev0-cp36-cp36m-win_amd64.whl 2.手动创建table create table gr ...
- Golang分布式爬虫:抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...
随机推荐
- [虾扯蛋] android界面框架-Window
从纯sdk及framwork的角度看,android中界面框架相关的类型有:Window,WindowManager,View等.下面就以这几个类为出发点来概览下安卓开发的"界面架构&quo ...
- div实现自适应高度的textarea,实现angular双向绑定
相信不少同学模拟过腾讯的QQ做一个聊天应用,至少我是其中一个. 过程中我遇到的一个问题就是QQ输入框,自适应高度,最高高度为3row. 如果你也像我一样打算使用textarea,那么很抱歉,你一开始就 ...
- 获取Canvas当前坐标系矩阵
前言 在我的另一篇博文 Canvas坐标系转换 中,我们知道了所有的平移缩放旋转操作都会影响到画布坐标系.那在我们对画布进行了一系列操作之后,怎么再知道当前矩阵数据状态呢. 具体代码 首先请看下面的一 ...
- [C#][算法] 用菜鸟的思维学习算法 -- 马桶排序、冒泡排序和快速排序
用菜鸟的思维学习算法 -- 马桶排序.冒泡排序和快速排序 [博主]反骨仔 [来源]http://www.cnblogs.com/liqingwen/p/4994261.html 目录 马桶排序(令人 ...
- 对Thoughtworks的有趣笔试题实践
记得2014年在网上看到Thoughtworks的一道笔试题,当时觉得挺有意思,但是没动手去写.这几天又在网上看到了,于是我抽了一点时间写了下,我把程序运行的结果跟网上的答案对了一下,应该是对的,但是 ...
- 解决Android Studio 无法显示Layout视图问题
在Android Studio 当中,如果你选择的SDK的版本 与你所显示的视图版本不一致时,会出现这个错误 Exception raised during rendering:com/android ...
- js参数arguments的理解
原文地址:js参数arguments的理解 对于函数的参数而言,如下例子 function say(name, msg){ alert(name + 'say' + msg); } say('xiao ...
- ASP.NET MVC学习之母版页和自定义控件的使用
一.母板页_Layout.cshtml类似于传统WebForm中的.master文件,起到页面整体框架重用的目地1.母板页代码预览 <!DOCTYPE html> <html> ...
- windows10安装mysql5.7.17是这样安装的吗?
操作 全允许
- redis大幅性能提升之使用管道(PipeLine)和批量(Batch)操作
前段时间在做用户画像的时候,遇到了这样的一个问题,记录某一个商品的用户购买群,刚好这种需求就可以用到Redis中的Set,key作为productID,value 就是具体的customerid集合, ...