Phantomjs+Nodejs+Mysql数据抓取(2.抓取图片)
概要
这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据)
后进行的第二部分,请各位读者在看这篇博客之前先浏览上一篇,因为这里面有部分代码会沿用到上一部分的抓取结果。
好,现在开始正式的抓取图片的讲解
首先,我们先来看看代码:
var page =require('webpage').create();
var address='http://product.pconline.com.cn/notebook/series/417764.html';
var fs = require('fs');
var mypath='version/Server/server.txt';
var stream = null;
var steams = null;
var files = null;
var K=1;
var line ='';
var cate ='';
var url = '';
var dragPath='version/Server/server_img.txt';
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"; function start(url){
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var title = document.querySelector('.pro-info').innerText;
// title = title.replace('图片','');
var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
// var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
var href = document.querySelector('.pics>li>a');
return title+':'+cont+':'+href+'\r\n';
});
console.log(stream);
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
fs.write(dragPath, null, 'a');
}
}else{
console.log('page open fail!');
}
before();
}, 100);
}); } function readFile(status){
streams = fs.open(mypath,'r');
before();
} function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');
var imgs = imgUrl.split('/');
var imgsUrl = imgs[1].split('.');
imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';
console.log(imgsUrl);
start(imgsUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
} } page.open(address,function(status){ readFile(status); })
这部分代码的结构和前面的都很相似,下面我们继续进行代码剖析
page.open(address,function(status){ readFile(status); })
与前面相似,这里是我们代码的入口,程序启动的入口。
然后会调用readFile函数
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
这里使用phantomjs里面的fs请求,主要就是用来解决文件读取的问题
var fs = require('fs');
再读取到文件之后,我们将进行数据处理:
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
var imgUrl = cate[1].replace('http://product.pconline.com.cn/server/','');
var imgs = imgUrl.split('/');
var imgsUrl = imgs[1].split('.');
imgsUrl = 'http://product.pconline.com.cn/pdlib/'+imgsUrl[0]+'_picture.html';
console.log(imgsUrl);
start(imgsUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
} }
我们可以先来看看原本数据是什么样的:
联想ThinkServer TS130 S1225/2G/500O 价格:¥5417,http://product.pconline.com.cn/server/lenovo/514943.html
上面是我们从文件中读取到的数据,这一段数据都属于这个品牌电脑的数据。在读取完之后,我们对url进行拼接。
http://product.pconline.com.cn/pdlib/514943_picture.html
这个是我们要获取到的目的url,读者可以自己研究有什么规律,我这里的拼接方法有点挫。你们可以自己改进。
function start(url){
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var title = document.querySelector('.pro-info').innerText;
// title = title.replace('图片','');
var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
// var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
var href = document.querySelector('.pics>li>a');
return title+':'+cont+':'+href+'\r\n';
});
console.log(stream);
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
fs.write(dragPath, null, 'a');
}
}else{
console.log('page open fail!');
}
before();
}, 100);
}); }
最后调用数据抓取的函数,
var title = document.querySelector('.pro-info').innerText;
// title = title.replace('图片','');
var cont = document.querySelectorAll('.pics>li>a>img')[1].src;
// var imgUrls = document.querySelectorAll('.pics>li>a>img')[0].src;
var href = document.querySelector('.pics>li>a');
return title+':'+cont+':'+href+'\r\n';
这里面的就是我们要抓数据的处理,分别获取到的是标题,小图的绝对地址,已经大图的url。
联想ThinkServer TS130 S1225/2G/500O图片:http://img.pconline.com.cn/images/product/5149/514938/TS130-b_sn8.jpg:http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html
这部分数据就是其中一条我们抓取到的数据。再抓完之后会进行写入操作,然后再重新调用before()方法,进行循环调用,直至读取玩文件的所有内容。
以上就是我们进行图片抓取的全部过程,原本还有一份代码是用来抓取大图的,但是由于与本文的内容相似度极高,所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。
NodeJs 图片下载
接下来我在讲一下如何对我们刚刚抓下来的图片绝对地址进行文件下载。
先上代码:
var request = require('request');
var lineReader = require('line-reader');
var fs = require('fs');
var i=0; lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last) { var cate = line.split(':');
var url1 = cate[1]; var tt = cate[0].replace(/\//g,',');
i++;
console.log(tt+'==============>'+i);
if(!(url1 == 'null')){
tt = tt.replace(/\s/g,'');
tt = tt.replace(/[^a-z\d]/ig,""); var filename1 = 'images/router_large/'+tt+'bPic.jpg'
request(url1).pipe(fs.createWriteStream(filename1)); }
});
没错代码就那么短,我们来一段一段的分析:
lineReader.eachLine('imgs.txt', {encoding: 'utf8'},function(line, last)
这里是我们下载文件的入口,使用到了nodejs里面的
var lineReader = require('line-reader');
这段代码的用处就是逐行读取文件。
tt = tt.replace(/\s/g,'');
tt = tt.replace(/[^a-z\d]/ig,"");
这里面我主要是处理一下文件名,除去了一些特殊符号已经中文名,便于存入数据库。
request(url1).pipe(fs.createWriteStream(filename1));
最后调用这部分代码进行文件下载。
以上就是抓取图片的全部内容,谢谢观看。
Phantomjs+Nodejs+Mysql数据抓取(2.抓取图片)的更多相关文章
- Phantomjs+Nodejs+Mysql数据抓取(1.数据抓取)
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
- 测试开发Python培训:抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的se ...
- 网站爬取-案例三:今日头条抓取(ajax抓取JS数据)
今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们 ...
- PHP登入网站抓取并且抓取数据
有时候需要登入网站,然后去抓取一些有用的信息,人工做的话,太累了.有的人可以很快的做到登入,但是需要在登入后再去访问其他页面始终都访问不了,因为他们没有带Cookie进去而被当做是两次会话.下面看看代 ...
- C#使用Selenium实现QQ空间数据抓取 说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据 继续登录空间后的操作 登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
- nodejs mysql 数据查询例子
1.安装nodejs 2.安装mysql npm包 地址:https://github.com/felixge/node-mysql npm install mysql 3.相应API查看及调用: ...
- Mysql 数据分组取某字段值所有最大的记录行
需求: 表中同一个uid(用户)拥有多条游戏等级记录,现需要取所有用户最高等级(level)的那一条数据,且时间(time)越早排越前.这是典型的排名表 +------+-------+------- ...
- Python3.6爬虫+Djiago2.0+Mysql --数据爬取
1.下载对应版本的python mysql 模块 我的是:pymssql-2.2.0.dev0-cp36-cp36m-win_amd64.whl 2.手动创建table create table gr ...
- Golang分布式爬虫:抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...
随机推荐
- C语言 · 最大值与最小值计算
输入11个整数,计算它们的最大值和最小值. 样例输入 0 1 2 3 4 5 6 7 8 9 10 样例输出 10 0 #include<stdio.h> int main(){ ]; ...
- HTTPS简介
一.简单总结 1.HTTPS概念总结 HTTPS 就是对HTTP进行了TLS或SSL加密. 应用层的HTTP协议通过传输层的TCP协议来传输,HTTPS 在 HTTP和 TCP中间加了一层TLS/SS ...
- 【Web动画】SVG 实现复杂线条动画
在上一篇文章中,我们初步实现了一些利用基本图形就能完成的线条动画: [Web动画]SVG 线条动画入门 当然,事物都是朝着熵增焓减的方向发展的,复杂线条也肯定比有序线条要多. 很多时候,我们无法人工去 ...
- 微信网页开发之获取用户unionID的两种方法--基于微信的多点登录用户识别
假设网站A有以下功能需求:1,pc端微信扫码登录:2,微信浏览器中的静默登录功能需求,这两种需求就需要用到用户的unionID,这样才能在多个登录点(终端)识别用户.那么这两种需求下用户的unionI ...
- 编写高质量代码:改善Java程序的151个建议(第8章:多线程和并发___建议126~128)
建议126:适时选择不同的线程池来实现 Java的线程池实现从根本上来说只有两个:ThreadPoolExecutor类和ScheduledThreadPoolExecutor类,这两个类还是父子关系 ...
- linux拷贝命令,移动命令
http://blog.sina.com.cn/s/blog_7479f7990101089d.html
- 茂名石化BPM应用实践 ——业务协同及服务共享平台建设和应用
一.茂名石化简介 茂名石化隶属于中国石油化工集团公司,创建于1955年,是国家"一五"期间156项重点项目之一.经过50多年的发展,茂名石化已成为我国生产规模最大的炼油化工企业之一 ...
- Android—基于微信开放平台v3SDK,开发微信支付填坑。
接触微信支付之前听说过这是一个坑,,,心里已经有了准备...我以为我没准跳坑出不来了,没有想到我填上了,调用成功之后我感觉公司所有的同事都是漂亮的,隔着北京的大雾霾我仿佛看见了太阳~~~好了,装逼结束 ...
- Leetcode 笔记 100 - Same Tree
题目链接:Same Tree | LeetCode OJ Given two binary trees, write a function to check if they are equal or ...
- CSharpGL(25)一个用raycast实现体渲染VolumeRender的例子
CSharpGL(25)一个用raycast实现体渲染VolumeRender的例子 本文涉及的VolumeRendering相关的C#代码是从(https://github.com/toolchai ...