Node 抓取非utf-8编码页面

代码示例 Nodejs抓取非utf8字符编码的页面 -- Ruby's Louvre

var http = require('http');

var iconv = require('iconv-lite');

var url=require('url');

var html = "";

var getURL = url.parse('http://bj.soufun.com/');

var req =http.get(getURL, function (res) {

    res.setEncoding('binary');//or hex

    res.on('data',function (data) {//加载数据,一般会执行多次

        html += data;

    }).on('end', function () {

            var buf=new Buffer(html,'binary');//这一步不可省略

            var str=iconv.decode(buf, 'GBK');//将GBK编码的字符转换成utf8的

            console.log(str);

        })

}).on('error', function(err) {

        console.log("http get error:",err);

    });

UTF8与GBK进行转换，可以把Unicode作为中间编码。

UTF8编解Unicode规则简单，参见 UTF8

GBK编解Unicode无特定规则，一般可通过查表方式

GBK兼容ascii码，ascii字符用一字节编码，最高位为0，其它字符用两位编码，高字节从0x81。编解码时通过此规律对单字节和双字节字符加以区分。

由此可见，GBK是单字节、双字节变长编码。

理解了上面几点后，编解码GBK文件其实只需要一个GBK–>Unicode的码表就够了。

GBK编码时，通过Unicdoe–>GBK，生成相应的GBK字节流；

GBK解码时，通过GBK–>Unicode，生成UCS2字节流，再通过buffer.toString(‘UCS2’)即可转换成string对象。

// npm install iconv-lite

var iconv = require('iconv-lite');

var str = iconv.decode(buf, 'GBK'); //return unicode string from GBK encoded bytes

var buf = iconv.encode(str, 'GBK');//return GBK encoded bytes from unicode string

Node 抓取非utf-8编码页面的更多相关文章

网页调试技巧：抓取马上跳转的页面POST信息或者页面内容
http://www.qs5.org/Post/625.html 网页调试技巧:抓取马上跳转的页面POST信息或者页面内容 2016/02/02 | 心得分享 | 0 Replies 有时候调试网页或 ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
nodejs抓取网络图片转换为base64编码的图片
抓取网络图片需要加载http模块 //假定这是index.js文件 var http = require('http'); var url = 'http://p0.meituan.net/tuanp ...
经验分享 | Burpsuite抓取非HTTP流量
使用Burp对安卓应用进行渗透测试的过程中,有时候会遇到某些流量无法拦截的情况,这些流量可能不是HTTP协议的,或者是“比较特殊”的HTTP协议(以下统称非HTTP流量).遇到这种情况,大多数人会选择 ...
web scraper 抓取分页数据和二级页面内容
如果是刚接触 web scraper 的,可以看第一篇文章. web scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据. ...
[Python爬虫] 之十二：Selenium +phantomjs抓取中的url编码问题
最近在抓取活动树网站 (http://www.huodongshu.com/html/find.html) 上数据时发现,在用搜索框输入中文后,点击搜索,phantomjs抓取数据怎么也抓取不到,但是 ...
Selenium来抓取动态加载的页面
一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务. 但是有些页面是通过js以及a ...
使用Selenium来抓取动态加载的页面
原文:http://my.oschina.net/flashsword/blog/147334?p=1 一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取.在我写 ...
如何用phantomjs去抓取js渲染后的页面
1.安装phantomjs 网上有很多. 2.执行官网上的示例代码 // Read the Phantom webpage '#intro' element text using jQuery and ...

随机推荐

STS，MyEclipse中Maven配置
本文以STS的环境做讲解,MyEclipse环境和STS差别不大,配置过程相似. STS是解压版的,启动后,可以看到已经有了Maven插件,, 但是,STS也同时给你了一个Maven,但是通常不建议使 ...
python-运算、分支、深浅拷贝
算术表达式: + - * / 除法Python3中是默认向浮点数靠拢 //取整运算结果的最小整数靠拢向下 5 // 2 = 2(向下取整) %取余运算 5 % 2 = 1 **幂值运算 ...
[CF911F]Tree Destruction
题意翻译给你一棵树,每次挑选这棵树的两个叶子,加上他们之间的边数(距离),然后将其中一个点去掉,问你边数(距离)之和最大可以是多少. 首先我们知道,到一个点距离最远的点是直径的端点.考虑贪心,如果我 ...
caffe平台快速搭建：caffe+window7+vs2013
caffe平台快速搭建:caffe+window7+vs2013 1.caffe-master下载采用微软提供Windows工具包(caffe-master),下载地址:https://github ...
一键安装 zabbix 3.0 版本脚本
原文地址: http://blog.csdn.net/u012449196/article/details/53859068 本文修改了原文中的部分错误,此脚本适用于zabbix 2.0 或 3.0 ...
intellij idea rearrange code
reformat code的时候,无法将filed放在method前边,很恶心. 那么先去
Java循环跳转语句之 break
生活中,我们经常会因为某些原因中断既定的任务安排.如在参加 10000 米长跑时,才跑了 500 米就由于体力不支,需要退出比赛.在 Java 中,我们可以使用 break 语句退出指定的循环,直接执 ...
嵌入式 Web workers
前言虽然worker可以将复杂的运算放入单独线程去运算,不阻塞UI线程,但是,由于worker()的构造函数的参数不能读取本地的文件,只能来自网络,所以当在一个项目里想使用本地的模块函数,是一个很麻 ...
数据库建表char(10)和VARCHAR(10)
1．CHAR的长度是固定的,而VARCHAR2的长度是可以变化的, 比如,存储字符串“abc",对于CHAR (10),表示你存储的字符将占10个字节(包括7个空字符),而同样的VARCHA ...
值得推荐的10本PHP书籍（转）
值得推荐的10本PHP书籍(转) 一.总结一句话总结: 二.值得推荐的10本PHP书籍本篇文章的目的是想较全面地推荐10本PHP书籍,暂不讨论Linux/NGINX/Mysql等其他丛书. 前言 ...

Node 抓取非utf-8编码页面

代码示例 Nodejs抓取非utf8字符编码的页面 -- Ruby's Louvre

Node 抓取非utf-8编码页面的更多相关文章

随机推荐

热门专题