nodejs抓取数据二(列表解析)

这里做得比较暴力,没有分页取出数据解析,O(∩_∩)O哈哈~,居然没有被挂机.不过解析的坑特别多...不过大部分我想要的数据都拿到了.

//解析列表数据

var http = require("http"),

    cheerio = require("cheerio"),

    mongoose = require('mongoose'),

    db = mongoose.createConnection('mongodb://127.0.0.1:27017/crawl58');

db.on('error', function (error) {

    console.log('mongodb连接错误: ' + error);

});

//列表页面数据

var mongooseSchema = new mongoose.Schema({

    url: {type: String},//抓取地址

    type: {type: String},//类型

    content: {type: String},//抓取地址

    updateTime: {type: Date, default: Date.now},//数据抓取时间

    flag: {type: String, default: 0} //用于判断是否抓取过 0表示详情没有抓取过.

});

// model

var mongooseModel = db.model('pageList', mongooseSchema);//代理记账

//存储数据

var parseListSchema = new mongoose.Schema({

    url: {type: String},//抓取地址

    detailUrl: {type: String},//详情地址

    type: {type: String},//类型

    title: {type: String},//标题

    company: {type: String},//公司名称

    contact: {type: String},//联系人

    score: {type: String},//评分

    phone: {type: String},//电话

    updateTime: {type: Date, default: Date.now},//数据解析时间

    flag: {type: String, default: 0} //用于判断是否抓取过 0表示详情没有抓取过.

});

// model

var parseListModel = db.model('parseList', parseListSchema);//代理记账

var pageNo = 0;

var data;//保存取出的数据

function queryList() {

    var condition = {

        url: 'http://cd.58.com/yanzi/pn16/?PGTID=139112794188694845657499716&ClickID=1'

    }

    mongooseModel.find(condition, function (error, result) {

        if (error) {

            console.log(error);

        } else {

            //解析数据

            data = result;

            console.log('开始解析...');

            parseList();

        }

    });//.skip(0).limit(100);//分页解析

};

//解析

function parseList() {

    //解析数据并存入数据库

    if (!data[pageNo]) {

        console.log('解析完成. 页码: ' + pageNo);

        //更新数据库,修改解析标志位  暂时不处理.

        return false;

    }

    var listItem = data[pageNo];

    var listContent = listItem.content;

    if (!listContent) {

        pageNo = pageNo + 1;

        parseList();

        return false;

    }

    var $ = cheerio.load(listContent);

    //解析页面

    var trElements = $('.small-tbimg>tr');

    var docArray = [];

    trElements.each(function (index, ele) {

        if ($(ele).find('td.dev').length > 0) {

            //已经没有这个类型的数据了.

            return false;

        }

        var contact = $(ele).find('div.tdiv .f14').first().text();

        if (contact) {

            contact = contact.replace(':', '');

        }

        var title = $(ele).find('div.tdiv>a').first().text();

        var company = $(ele).find('a.u').first().text();

        if (!company) {

            var companyBox = $(ele).find('div.tdiv');

            companyBox.find('b,a,span,i').remove();

            company = decodeUtf8(companyBox.html());

            if (company && company.indexOf('<br>') > 0) {

                company = company.replace('company', '').replace('%uA0', '');

                company = company.split('<br>')[2];

            }

        }

        var score = $(ele).find('.star00').first().attr('title');

        var detailUrl = $(ele).find('div.pjdiv a').first().attr('href');

        if (!detailUrl) {

            detailUrl = $(ele).find('div.tdiv a').first().attr('href');

            if (!detailUrl) {

                detailUrl = $(ele).find('a.t').first().attr('href');

            }

        } else {

            detailUrl = detailUrl.replace('showtype=yuyue&', '');

        }

        var phone = $(ele).find('.jumpDiv_tel').first().text();

        if (phone) {

            phone = getNumber(phone);

        }

        var item = {

            contact: contact,

            type: listItem.type,

            title: title,

            url: listItem.url,

            detailUrl: detailUrl,

            company: company,

            score: score,

            phone: phone

        };

        docArray.push(item);

    });

    //存入数据库

    parseListModel.create(docArray, function (error) {

        if (error) {

            console.log(error);

        } else {

            console.log('保存成功  页码: ' + pageNo + '  条数: ' + docArray.length);

            pageNo = pageNo + 1;

            parseList();

        }

    });

};

//解码utf-8

function decodeUtf8(str) {

    return unescape(str.replace(/&#x/g, '%u').replace(/;/g, ''))

};

//提取电话号码

function getNumber(str) {

    var reg = /[0-9][0-9]*/g;

    return str.match(reg).join('-');//带区号的电话号码

};

//这里为整个解析的开始 -- 特么这么烂的代码自己都看不下去了,唯一看得过去的是,能用  .O(∩_∩)O.

//调用...1.取出数据;2 解析数据并存入数据库

queryList();

nodejs抓取数据二(列表解析)的更多相关文章

nodejs抓取数据一(列表抓取)
纯属初学...有很多需要改进的地方,请多多指点... 目标是抓取58同城这个大分类下的列表数据: http://cd.58.com/caishui/?PGTID=14397169455980.924 ...
PHP获取cookie、Token、模拟登录、抓取数据、解析生成json
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie ...
C# 微信生活助手空气质量天气预报等效果展示数据抓取（二）
此文主要是中国天气网和中国环境监测总站的数据抓取打算开放全部数据抓取源代码已在服务器上稳定运行半个月 webapi http://api.xuzhiheng.cn/ 常量 /// <su ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
nodejs--实现跨域抓取数据
最近公司安排给我一个任务,抓取页面数据:http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1 ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
web scraper 抓取数据并做简单数据分析
其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同.这也是好多同学总是遇到问题的原因.因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标 ...

随机推荐

AutoTile 自动拼接（六大结局）学习与实践
昨天在网上找了一些资源图片,这回就不用担心背景资源不多的问题了,现在我一边制作,一边发布文章. 各种各样,500多个,这里还是特别感谢 ,万恶的资本主义,不设密码就给我分享. 在制作前,大家看下这 ...
IE6下绝对定位元素和浮动元素并列绝对定位元素消失
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
学习笔记——享元模式Flyweight
Flyweight模式提供对象的复用. FlyweightFactory类似工厂模式中的工厂,生成对象并提供. 区别在于,享元的工厂会记录生成的对象,当第二次请求到相同的对象时,享元不会再生成一个新对 ...
转：LoadRunner检查点使用小结
LR中检查点有两种:图片和文字. 常用检查点函数如下: 1)web_find()函数用于从 HTML 页中搜索指定的文本字符串: 2)web_reg_find()函数注册一个请求,以在下一个操作函数( ...
偶然发现www.ghostdogtattoo.com/ 出现的inner.html转换现象
<script language="javascript">window["\x65\x76\x61\x6c"](function(sqhiu1,v ...
Chapter 1 First Sight——10
Instead, I was ivory-skinned, without even the excuse of blue eyes or red hair, despite the constant ...
Mysql命令-以NULL做where条件过滤时应该写 IS NULL;
以NULL做where条件过滤时应该写 IS NULL;SELECT * FROM pet WHERE death IS NULL; SELECT * FROM pet WHERE death IS ...
使用命令将logcat中的内容输出到文本文件中
网上搜集的方法,自己只是试了一下第一种,很好用,如果是/mylogcat.txt 直接保存在了d盘,我猜是直接保存在了sdk所在的盘的根目录下,希望对大家有帮助使用如下命令可以将logcat中的内容 ...
android脚步--Relativelayout设置
引自http://blog.csdn.net/lamp_zy/article/details/8035161 http://my.oschina.net/honeyming/blog/130761 以 ...
DW常用
Dreamweaver代码基本结构标签: <HTML>,表示该文件为HTML文件 <HEAD>,包含文件的标题,使用的脚本,样式定义等 <TITLE>---< ...

nodejs抓取数据二(列表解析)

nodejs抓取数据二(列表解析)的更多相关文章

随机推荐

热门专题