node爬虫gbk中文乱码问题

刚入坑node 写第二个node爬虫时，遇到了这个坑，记录一下。

主要步骤：

1.安装iconv-lite 输入npm install iconv-lite

2.将接收到的网页源码以二进制的方式存储下来，处理二进制数据流使用Buffer全局对象。

3. 然后对这些二进制的数据调用对应的解码程序。iconv-lite模块用于解码。

全部代码：

var http=require('https');

var fs=require('fs');

var cheerio=require('cheerio');

var iconv=require('iconv-lite');//iconv-lite模块用于解码

var request=require('request');

var url='https://search.51job.com/list/030200,000000,0000,00,9,99,web%25E5%2589%258D%25E7%25AB%25AF,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=';

function goStart(url){

    http.get(url,function(res){

        var htmlData=[];//用于接收获取到的网页

        var htmlDataLength=0;

        //res.setEncoding('utf-8');

        res.on('data',function(chunk){

            htmlData.push(chunk);

            htmlDataLength+=chunk.length;

        })

        res.on('end',function(){

            //数据获取完毕后，开始解码

            var bufferHtmlData=Buffer.concat(htmlData,htmlDataLength);

            var decodeHtmlData=iconv.decode(bufferHtmlData,'gbk');

            var $=cheerio.load(decodeHtmlData,{decodeEntities: false});

            $('#resultList .el').each(function(index,item){

                if(index!=0){

                    var name=$(this).children().eq(1).children().eq(0).text();

                    console.log(name);

                }

            })

        })

    })

}

goStart(url);

运行结果（屏幕有点小，图截的不全）

教程参考地址：https://blog.csdn.net/javajiawei/article/details/65935338?utm_source=tuicool&utm_medium=referral

node爬虫gbk中文乱码问题的更多相关文章

解决node里面的中文乱码
今天咋学习node的时候,跟着视频里在撸代码,但是却出现了中文乱码的情况,视频中的谷歌浏览器可能和我的版本不一致,先看代码吧: 'use strict'; const http = require(& ...
node爬虫爬取中文时乱码问题 | nodejs gb2312、GBK中文乱码解决方法
iconv需要依赖native库,这样一来,在一些不支持native模块安装的虚拟主机和windows平台上,我们还是无法安心处理GBK编码. 老外写了一个通过纯Javascript转换编码的模块 i ...
utf8 文件错误保存为gbk 中文乱码解决方法
用zend studio 将utf-8 格式的文件保存为 gbk 了,之后无论怎么装换中文都是乱码用 beyond compare(文件比较工具对编码支持的比较强大) 打开,改下编码,中文就 ...
sublime解决gbk中文乱码包括Package Control: Install Package 无法使用
最近喜欢上了sublime,打算抛弃notepad,但是发现sublime居然不支持gbk编码,再上网查找资料之后,总结了一套解决方法,目前为止是行之有效的. 日期:2019年3月14日第一步:到G ...
Python的经典问题——中文乱码
关键字:Python UTF-8 GBK 中文乱码估计入门时都会遇到的.我是在windows下用的Python25自带的IDLE编辑运行的,发现运行脚本得出的结果有一些中文显示是乱码,但有一些是正 ...
node爬虫之gbk网页中文乱码解决方案
之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决,今天整理下备忘.(PS:网上一些解决方案都已经不行了) 中文乱码具体是指用 node 请求 gbk 编码的网页,无法正确获取网页中的中文(需 ...
node.js 爬虫中文乱码处理
爬虫中文乱码可做如下处理 import request from 'superagent'; import cheerio from 'cheerio';//类似jquery写法 const Icon ...
python爬虫中文乱码解决方法
python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
node转发请求 .csv格式文件下载中文乱码问题 + 文件上传笔记
用户无法直接访问后台接口需要node端转发请求并将数据以.csv文件格式生成以供客户端下载. 很不幸出现了中文乱码的问题挖了各种坟帖,下了各种依赖包,csv.json2csv.bufferHel ...

随机推荐

07-css的继承性和层叠性
css有两大特性:继承性和层叠性继承性面向对象语言都会存在继承的概念,在面向对象语言中,继承的特点:继承了父类的属性和方法.那么我们现在主要研究css,css就是在设置属性的.不会牵扯到方法的层面 ...
Python 之自动获取公网IP
Python 之自动获取公网IP 2017年9月30日文档下载:https://wenku.baidu.com/view/ff40aef7f021dd36a32d7375a417866fb84ac0 ...
python advanced programming ( II )
面向对象编程简称OOP,是一种程序设计思想.OOP把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数.数据封装.继承和多态是面向对象的三大特点. 在Python中,所有数据类型都可以视为对 ...
spring处理线程并发
http://www.open-open.com/bbs/view/1320130410702
SRM470
250pt 给定1个最多16颜色的字符串(颜色可以重复),甲在最左边,乙在最右边.轮流操作,每次可以消除一种颜色. 给定一个k,问谁能最先消除完到位置k之间的障碍. 思路: 每个人肯定优先取对方没有的 ...
AngularJS 承诺 Promise
一.概念解释全称是未来与承诺,Futures and promises,是一种编程模式,不是AngularJS首创.javascript里有个流行库Q,而AngularJS是$q,其就是从Q引入的: ...
两台linux之间建立信任关系，实现免密码ssh远程登录或scp数据上传
两台linux之间建立信任关系,实现免密码远程登录或数据上传 1.执行ssh-keygen命令,生成建立安全信任关系的证书: linux1上:执行命令 ssh-keygen -t rsa 在程序提 ...
C# 动态创建SQL数据库（二）
使用Entity Framework 创建数据库与表前面文章有说到使用SQL语句动态创建数据库与数据表,这次直接使用Entriy Framwork 的ORM对象关系映射来创建数据库与表一新建项 ...
linux的cd命令
面试时被问到了一个命令是什么意思 cd - 还真是一脸懵逼.... 回来试了下发现真的是一个神奇的命令~ 会跳到之前目录下并输出, 比如
spring cloud学习(六) 配置中心-自动更新
上一篇学习了spring cloud config的基本使用,但发现有个问题,就是每次更改配置后,都需要重启服务才能更新配置,这样肯定是不行的.在上网查资料了解后,spring cloud支持通过AM ...

node爬虫gbk中文乱码问题

node爬虫gbk中文乱码问题的更多相关文章

随机推荐

热门专题