nodejs抓取数据二(列表解析)

这里做得比较暴力,没有分页取出数据解析,O(∩_∩)O哈哈~,居然没有被挂机.不过解析的坑特别多...不过大部分我想要的数据都拿到了.

//解析列表数据

var http = require("http"),

    cheerio = require("cheerio"),

    mongoose = require('mongoose'),

    db = mongoose.createConnection('mongodb://127.0.0.1:27017/crawl58');

db.on('error', function (error) {

    console.log('mongodb连接错误: ' + error);

});

//列表页面数据

var mongooseSchema = new mongoose.Schema({

    url: {type: String},//抓取地址

    type: {type: String},//类型

    content: {type: String},//抓取地址

    updateTime: {type: Date, default: Date.now},//数据抓取时间

    flag: {type: String, default: 0} //用于判断是否抓取过 0表示详情没有抓取过.

});

// model

var mongooseModel = db.model('pageList', mongooseSchema);//代理记账

//存储数据

var parseListSchema = new mongoose.Schema({

    url: {type: String},//抓取地址

    detailUrl: {type: String},//详情地址

    type: {type: String},//类型

    title: {type: String},//标题

    company: {type: String},//公司名称

    contact: {type: String},//联系人

    score: {type: String},//评分

    phone: {type: String},//电话

    updateTime: {type: Date, default: Date.now},//数据解析时间

    flag: {type: String, default: 0} //用于判断是否抓取过 0表示详情没有抓取过.

});

// model

var parseListModel = db.model('parseList', parseListSchema);//代理记账

var pageNo = 0;

var data;//保存取出的数据

function queryList() {

    var condition = {

        url: 'http://cd.58.com/yanzi/pn16/?PGTID=139112794188694845657499716&ClickID=1'

    }

    mongooseModel.find(condition, function (error, result) {

        if (error) {

            console.log(error);

        } else {

            //解析数据

            data = result;

            console.log('开始解析...');

            parseList();

        }

    });//.skip(0).limit(100);//分页解析

};

//解析

function parseList() {

    //解析数据并存入数据库

    if (!data[pageNo]) {

        console.log('解析完成. 页码: ' + pageNo);

        //更新数据库,修改解析标志位  暂时不处理.

        return false;

    }

    var listItem = data[pageNo];

    var listContent = listItem.content;

    if (!listContent) {

        pageNo = pageNo + 1;

        parseList();

        return false;

    }

    var $ = cheerio.load(listContent);

    //解析页面

    var trElements = $('.small-tbimg>tr');

    var docArray = [];

    trElements.each(function (index, ele) {

        if ($(ele).find('td.dev').length > 0) {

            //已经没有这个类型的数据了.

            return false;

        }

        var contact = $(ele).find('div.tdiv .f14').first().text();

        if (contact) {

            contact = contact.replace(':', '');

        }

        var title = $(ele).find('div.tdiv>a').first().text();

        var company = $(ele).find('a.u').first().text();

        if (!company) {

            var companyBox = $(ele).find('div.tdiv');

            companyBox.find('b,a,span,i').remove();

            company = decodeUtf8(companyBox.html());

            if (company && company.indexOf('<br>') > 0) {

                company = company.replace('company', '').replace('%uA0', '');

                company = company.split('<br>')[2];

            }

        }

        var score = $(ele).find('.star00').first().attr('title');

        var detailUrl = $(ele).find('div.pjdiv a').first().attr('href');

        if (!detailUrl) {

            detailUrl = $(ele).find('div.tdiv a').first().attr('href');

            if (!detailUrl) {

                detailUrl = $(ele).find('a.t').first().attr('href');

            }

        } else {

            detailUrl = detailUrl.replace('showtype=yuyue&', '');

        }

        var phone = $(ele).find('.jumpDiv_tel').first().text();

        if (phone) {

            phone = getNumber(phone);

        }

        var item = {

            contact: contact,

            type: listItem.type,

            title: title,

            url: listItem.url,

            detailUrl: detailUrl,

            company: company,

            score: score,

            phone: phone

        };

        docArray.push(item);

    });

    //存入数据库

    parseListModel.create(docArray, function (error) {

        if (error) {

            console.log(error);

        } else {

            console.log('保存成功  页码: ' + pageNo + '  条数: ' + docArray.length);

            pageNo = pageNo + 1;

            parseList();

        }

    });

};

//解码utf-8

function decodeUtf8(str) {

    return unescape(str.replace(/&#x/g, '%u').replace(/;/g, ''))

};

//提取电话号码

function getNumber(str) {

    var reg = /[0-9][0-9]*/g;

    return str.match(reg).join('-');//带区号的电话号码

};

//这里为整个解析的开始 -- 特么这么烂的代码自己都看不下去了,唯一看得过去的是,能用  .O(∩_∩)O.

//调用...1.取出数据;2 解析数据并存入数据库

queryList();

nodejs抓取数据二(列表解析)的更多相关文章

nodejs抓取数据一(列表抓取)
纯属初学...有很多需要改进的地方,请多多指点... 目标是抓取58同城这个大分类下的列表数据: http://cd.58.com/caishui/?PGTID=14397169455980.924 ...
PHP获取cookie、Token、模拟登录、抓取数据、解析生成json
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie ...
C# 微信生活助手空气质量天气预报等效果展示数据抓取（二）
此文主要是中国天气网和中国环境监测总站的数据抓取打算开放全部数据抓取源代码已在服务器上稳定运行半个月 webapi http://api.xuzhiheng.cn/ 常量 /// <su ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
nodejs--实现跨域抓取数据
最近公司安排给我一个任务,抓取页面数据:http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1 ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
web scraper 抓取数据并做简单数据分析
其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同.这也是好多同学总是遇到问题的原因.因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标 ...

随机推荐

java 对象的上转型对象(父类)
Example5_10.java class 类人猿 { void crySpeak(String s) { System.out.println(s); } } class People exten ...
Linux学习 -- Shell基础 -- Bash变量
变量默认是字符串型,数值型需要显示指定等号两侧都不能有空格单引号:原始字符串双引号:保留转义命令结果作为值:反引号或 $() 环境变量一般用大写自定义变量变量定义 name=& ...
Struts2, jquery, select二级联动
1. 下载jquery.js文件放在webroot下js文件夹里 2. 配置struts.xml: <package name="default" namespace=&qu ...
opencv-jni -调试出错taking address of temporary [-fpermissive]
今天在进行代码往安卓平台移植时,IplImage *qImg=&(IplImage)dst1;报错taking address of temporary [-fpermissive] 百度了一 ...
Scroll View 深入
转载自:http://mobile.51cto.com/hot-430409.htm 可能你很难相信,UIScrollView和一个标准的UIView差异并不大,scroll view确实会多一些方法 ...
cmd 3389
1.2000系统简要说一下如何进行DNS溢出攻击.我用的溢出利用程序是dns.exe,在CMD下运行它可以看到它的使用参数等信息.执行"dns -s IP"命令检测目标IP是否存 ...
php示例代码
11111<?php $var = 'ABCDEFGH:/MNRPQR/'; echo "Original: $var<hr />\n"; /* 这两个例子使用 ...
Extjs4---Cannot read property 'addCls' of null - heirenheiren的专栏 - 博客频道 - CSDN.NET
body { font-family: 微软雅黑,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLi ...
Unity3d之剥离alpha通道
unity中, 将图集的 alpha 通道剥离出来可减少包体大小和内存使用大小. 方法是将原来的一张 rgba 图分成一张 rgb 和一张 alpha 图,android上rgb和alpha图均采用e ...
JS中判定问题
今天项目遇到一个很奇怪的问题,具体问题不好说明简化下,有如下一个方法: function editStu(index, rowData) { if (index == "") { ...

nodejs抓取数据二(列表解析)

nodejs抓取数据二(列表解析)的更多相关文章

随机推荐

热门专题