node爬取html乱码

var http = require('http'),

    iconv = require('iconv-lite');

http.get("http://website.com/", function(res) {

  var body = '';

  res.on('data', function(chunk) {

    body += chunk;

  });

  res.on('end', function() {

    var decodedBody = iconv.decode(body, 'win1252'); // 或者gbk/gb2312等

    console.log(decodedBody);

  });

});

在使用iconv.decode()解码之前，最初的资源已经通过body += chunk解码了，发生了什么：

res.on('data', function(chunkBuffer) {

    body += chunkBuffer.toString('utf8');

  });

如果你设置了res.setEncoding(‘utf8’);。那么和上面的转化是一样的。

对于最开始的问题，使用了两次解码（无论一次还是两次），都是错误的结果。几乎是不可能地回复最初的字节因为utf8转换是有损耗的（lossy）。所以即使是iconv.decode(new Buffer(body, 'utf8'), 'win1252')也无济于事。

注意： theoretically, if you use ‘binary’ encoding to first decode to strings, then feed them to decode, you get the correct results. This is a bad practice because it’s slower, it’s mixing concepts and ‘binary’ encoding is deprecated.
这段不是很懂什么意思，反正使用’binary’编码是不赞成的。（二进制编码？）

解决方案

保持开始的buffer并且使用iconv.decode，如果有必要，可以使用Buffer.concat()。

首先需要知道的是，在data事件的时候，所有的js字符串都是经过解码（utf8）的，我们就不需要手动解码了。

http.get("http://website.com/", function(res) {

  var chunks = [];

  res.on('data', function(chunk) {

    chunks.push(chunk);

  });

  res.on('end', function() {

    var decodedBody = iconv.decode(Buffer.concat(chunks), 'win1252');

    console.log(decodedBody);

  });

});

// Or, with iconv-lite@0.4 and Node v0.10+, you can use streaming support with `collect` helper

http.get("http://website.com/", function(res) {

  res.pipe(iconv.decodeStream('win1252')).collect(function(err, decodedBody) {

    console.log(decodedBody);

  });

});

如果想要忽略警告：
iconv.skipDecodeWarning = true;

转自https://blog.csdn.net/real_bird/article/details/53309512

iconv.skipDecodeWarning = true;

Node.js npm iconv-lite - 司马懿的西山居

3635

译自 https://www.npmjs.com/package/iconv-lite Convert character encodings in pure javascript. 使用纯 ja... 来自：司马懿的西山居

Node.js转化GBK编码 - iconv-lite - zgljl2012的专栏

8379

node当使用node获取GBK编码的数据时，nodejs只支持utf-8，node没有提供转换编码的原生支持，有倒是有一个模块iconv能干这个事，但需要本地方法，VC++库的支持。国外有个大牛写了... 来自： zgljl2012的专栏

【Node.js】使用iconv-lite解决中文乱码 (GB2312) - Sodino的专栏

1.3万

By Sodino 作为新手，碰到问题了就google了一下，网上已经有teary:window下nodejs爬取gb2312网页出现乱码的解决方案出来了。本文和上面的作法几乎相同，只是自己不想引用b... 来自： Sodino的专栏

iconv-lite - haliofwu的专栏

1743

node当使用node获取GBK编码的数据时，nodejs只支持utf-8，node没有提供转换编码的原生支持，有倒是有一个模块iconv能干这个事，但需要本地方法，VC++库的支持。国外有个大牛写了... 来自： haliofwu的专栏

iconv转码问题出现乱码问题 - 乐杨俊浅谈LAMP

2490

iconv转码问题 iconv("UTF-8","GB2312//IGNORE",$data) 来自：乐杨俊浅谈LAMP

关于iconv容易忽略的参数IGNORE - leehq的专栏

2588

解决iconv因为无法处理某个字符而导致转换中断的问题。来自： leehq的专栏

下载

nodejs iconv-lite模块 - newandlife

09-22

nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高效的转码 nodejs中用于各种字符集间高

Error: Cannot find module 'iconv-lite' - cyssxt的博客

263

E:\workspace_20180125\travel-app\travel-app&gt;npm start&gt; travel-app@1.0.0 start E:\works... 来自： cyssxt的博客

no suited ad found

iconv字符编码转换全攻略 - 月落满楼

1.8万

iconv（http://www.gnu.org/software/libiconv/）是一个开源的字符编码转换库，可以“方便”的完成几乎所有的编码转换工作。说简单是因为，它常用的接口就三个，icon... 来自：月落满楼

ioS开发－－Warning警告处理 - zzzzzdddddxxxxx的专栏

5349

去除警告的方法： #pragma clang diagnostic push #pragma clang diagnostic ignored"-Wunused-function" local vo... 来自： zzzzzdddddxxxxx的专栏

逍遥子_

关注 310篇文章

Hensen_

关注 182篇文章

后海hh

关注 109篇文章