【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)

前言

　　今天在测试爬虫项目时，发现了一个很严肃的问题，当爬取的网页编码格式为gb2312时，按照一般的办法转化为utf-8编码时总是乱码，PS:爬取的所有网页无论何种编码格式，都转化为utf-8格式进行存储。

一、问题出现

　　使用这篇文章里面的方法可以直接爬取页面信息并保存至本地使用Httpclient实现网页的爬取并保存至本地，当爬取这个网页时http://stock.10jqka.com.cn/zhuanti/hlw_list/，发现使用之前（未知编码 -> utf-8编码）的转化方式总是乱码。于是乎查阅了不少资料，发现都不是太适用。最后自己摸索出了一个解决办法，也特此记录。

二、解决方案

　　1. 将gb2312格式转化为gbk格式

　　2. 将gbk格式转化为utf-8格式

　　这里的转化需要使用gbk作为一个中间格式，作为转化桥梁。

三、具体思路

　　1. 当打开http://stock.10jqka.com.cn/zhuanti/hlw_list/这个链接，我们查看源码会发现编码格式为gb2312，如下图所示

　　2. 由于本项目之前就已经使用了转化方案，但是此转化方案对网页为gb2312格式无效，本项目之前的转化方案的核心源代码为：　

public void getContent(String url) {

        this.get = new HttpGet(url);

        HttpResponse response = client.execute(this.get);

        HttpEntity entity = response.getEntity();

        byte[] bytes = EntityUtils.toByteArray(entity);

        String content = new String(bytes);

        // 默认为utf-8编码

        String charset = "utf-8";

        // 匹配<head></head>之间，出现在<meta>标签中的字符编码

        Pattern pattern = Pattern.compile("<head>([\\s\\S]*?)<meta([\\s\\S]*?)charset\\s*=(\")?(.*?)\"");

        Matcher matcher = pattern.matcher(content.toLowerCase());

        if (matcher.find()) {

            charset = matcher.group(4);

        }

        // 将目标字符编码转化为utf-8编码

        String temp = new String(bytes, charset);

        byte[] contentData = temp.getBytes("utf-8");

        return contentData;

    }

　　这种方案对gb2312转化后还是乱码，之后的解决方案核心源代码为：　　

public void getContent(String url) {

        this.get = new HttpGet(url);

        HttpResponse response = client.execute(this.get);

        HttpEntity entity = response.getEntity();

        byte[] bytes = EntityUtils.toByteArray(entity);

        String content = new String(bytes);

        // 默认为utf-8编码

        String charset = "utf-8";

        // 匹配<head></head>之间，出现在<meta>标签中的字符编码

        Pattern pattern = Pattern.compile("<head>([\\s\\S]*?)<meta([\\s\\S]*?)charset\\s*=(\")?(.*?)\"");

        Matcher matcher = pattern.matcher(content.toLowerCase());

        if (matcher.find()) {

            charset = matcher.group(4);

            if (charset.equals("gb2312")) {

                byte[] gbkBytes = new String(bytes, "gbk").getBytes();

                return new String(gbkBytes, "utf-8").getBytes();

            }

        }

        // 将目标字符编码转化为utf-8编码

        String temp = new String(bytes, charset);

        byte[] contentData = temp.getBytes("utf-8");

        return contentData;

    }

　　通过这种方式我们就可以解决gb2312编码转化为utf-8编码时出现的乱码问题。

四、总结

　　多思考，多动脑，这里只是给出了一个工程解决方案，并没有深入到其中的原理，由此问题可以引申出很多有意思的问题，如，utf-8、gbk、gb2312的编码方式怎样的？为什么这样转化就可以解决问题？这些问题值得我们去深入研究。由于本篇文章主要是讲工程解决方案，感兴趣的读者可以去深入了解。谢谢各位园友观看~

　　附送一篇关于爬虫乱码问题解决的很好的文章，网络爬虫的乱码处理，讲得很不错，有做爬虫的园友遇到这一部分的问题时可以好好参考参考。

【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)的更多相关文章

html乱码原因与网页乱码解决方法
造成html网页乱码原因主要是html源代码内中文字内容与html编码不同造成.但无论是哪种情况造成乱码在网页开始时候都需要设置网页编码. charset编码设置 html网页乱码效果截图一.乱码造 ...
Python使用request包请求网页乱码解决方法
使用requests请求网页时,返回的页面信息有时是乱码,如下代码 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) App ...
python积累二：中文乱码解决方法
根据网上提供的解决方法:添加#coding=utf-8或# -*- coding: utf-8 -*- #coding=utf-8 print "还不行?" 执行结果:还是乱码!: ...
QT编写的网页浏览器网页乱码解决方法
1.如果是本地网页,可以将网页编码改为GB2312 <meta http-equiv="Content-Type" content="text/html; char ...
php mysql 中文乱码解决方法
本文章向码农们介绍php mysql 中文乱码解决方法,对码农们非常实用,需要的码农可以参考一下. 从MySQL 4.1开始引入多语言的支持,但是用PHP插入的中文会出现乱码.无论用什么编码也不行解 ...
MySql数据库乱码解决方法
MySql数据库乱码解决方法解决乱码问题一个原则:存取系统使用一致的编码规则. 多使用mysql的原生命令行,这样才能做更多的事情. 第一步: 确认应用系统需要使用的编码 java的默认编码是跟 ...
gvim的菜单乱码解决方法
gvim的菜单乱码解决方法: (乱码是由于系统内码不兼容导致,系统内码包括gb2312 gb18030 utf-8 utf-16[unicode]等) 生成文件 ~/.gvimrc 并添加如下语句:s ...
jquery的ajax()函数传值中文乱码解决方法介绍
jquery的ajax()函数传值中文乱码解决方法介绍,需要的朋友可以参考下代码如下: $.ajax({ dataType : ‘json', type : ‘POST', url : ‘http: ...
ueditor的工具栏显示乱码解决方法小问题.. 是你的页面编码与语言包js编码不符所导致的
ueditor的工具栏显示乱码解决方法小问题.. 是你的页面编码与语言包js编码不符所导致的解决方法:用记事本将ueditor\..\lang\zh-cn\zh-cn.js打开,然后保存为ANSI ...

随机推荐

老猪带你玩转android自定义控件一——打造最简单viewpagerindicator
viewpagerindicator,既使用viewpager翻页时候,标题的指示条随着改变的控件,是常用android控件之一,几乎所有的新闻类APP中都有使用.如下图所示: 今天,我们将从0到1实 ...
ASP.NET 5系列教程 (一)：领读新特性
近期微软发布了ASP.NET 5.0,本次发布的新特性需求源于大量用户的反馈和需求,例如灵活的跨平台运行时和自主部署能力使ASP.NET应用不再受限于IIS.Cloud-ready环境配置降低了云端部 ...
将EnyimMemcached从.NET Core RC1升级至RC2
.NET Core RC1时project.json中的配置如下: { "version": "3.2.4", "summary": &qu ...
dojo/dom-style样式操作学习笔记
基础总结一个元素的样式信息由三个来源根据层叠规则确定.三个来源分别是: 由DOM元素style特性设置的内联样式由style元素中嵌入的样式规则由link元素引入的外部样式表元素的样式任何支 ...
系统空闲时间判断&命名验证
一.系统空闲时间判断需要一个自动登录注销的功能,当鼠标移动和或者键盘输入的时候认为当前用户在线,否则过了设置时间就自动退出.好在前辈们留下了这样的一个类: MouseKeyBoardOperate: ...
(文摘)彻底理解webservice SOAP WSDL
WebServices特点介绍 WebServices 提供一个建立分布式应用的平台,使得运行在不同操作系统和不同设备上的软件,或者是用不同的程序语言和不同厂商的软件开发工具开发的软件,所有可能的已开 ...
HTML目录生成工具
目录内容简介工具代码使用方法工具改进内容简介园子里面很多博主都会为自己的博文创建目录,方便大家浏览.我很好奇大家是怎么做的,是不是有自动生成目录的工具可以推荐一下(我知道word可以,但是 ...
Java提高篇（三三）-----Map总结
在前面LZ详细介绍了HashMap.HashTable.TreeMap的实现方法,从数据结构.实现原理.源码分析三个方面进行阐述,对这个三个类应该有了比较清晰的了解,下面LZ就Map做一个简单的总结. ...
使用后缀数组寻找最长公共子字符串JavaScript版
后缀数组很久很久以前就出现了,具体的概念读者自行搜索,小菜仅略知一二,不便讨论. 本文通过寻找两个字符串的最长公共子字符串,演示了后缀数组的经典应用. 首先需要说明,小菜实现的这个后缀数组算法,并非标 ...
AWS系列之二使用EC2
在本文中我们有三个任务. 第一:使用Amazon management console创建一个EC2实例. 第二:使用本地的命令行工具远程登陆到该EC2实例. 第三:在该EC2实例上创建一个web服务 ...

【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)

【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)的更多相关文章

随机推荐

热门专题