java网络爬虫，乱码问题终于完美解决

第一次写爬虫，被乱码问题困扰两天，试了很多方法都不可以，今天随便一试，居然好了。

在获取网页时创建了一个缓冲字节输入流，问题就在这个流上，添加标红代码即可

BufferedReader in = null;

in = new BufferedReader(new InputStreamReader(
connection.getInputStream(),"utf-8"));

附上代码，以供参考。

 public String sendGet(String url) {

         Writer write = null;

         // 定义一个字符串用来存储网页内容

         String result = null;

         // 定义一个缓冲字符输入流

         BufferedReader in = null;

         try {

             // 将string转成url对象

             URL realUrl = new URL(url);

             // 初始化一个链接到那个url的连接

             URLConnection connection = realUrl.openConnection();

             // 开始实际的连接

             connection.connect();

             // 初始化 BufferedReader输入流来读取URL的响应

             in = new BufferedReader(new InputStreamReader(

                     connection.getInputStream(),"utf-8"));

             // 用来临时存储抓取到的每一行的数据

             String line;

             File file = new File(saveEssayUrl, fileName);

             File file2 = new File(saveEssayUrl);

             if (file2.isDirectory() == false) {

                 file2.mkdirs();

                 try {

                     file.createNewFile();

                     System.out.println("********************");

                     System.out.println("创建" + fileName + "文件成功！！");

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             } else {

                 try {

                     file.createNewFile();

                     System.out.println("********************");

                     System.out.println("创建" + fileName + "文件成功！！");

                 } catch (IOException e) {

                     e.printStackTrace();

                 }

             }

             Writer w = new FileWriter(file);

             while ((line = in.readLine()) != null) {

                 // 遍历抓取到的每一行并将其存储到result里面

 //                line = new String(line.getBytes("utf-8"),"gbk");

                 w.write(line);

                 w.write("\r\n");

                 result += line;

             }

             w.close();

         } catch (Exception e) {

             System.out.println("发送GET请求出现异常！" + e);

             e.printStackTrace();

         }

         // 使用finally来关闭输入流

         finally {

             try {

                 if (in != null) {

                     in.close();

                 }

             } catch (Exception e2) {

                 e2.printStackTrace();

             }

         }

         return result;

     }

java网络爬虫，乱码问题终于完美解决的更多相关文章

java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...
hadoop中实现java网络爬虫
这一篇网络爬虫的实现就要联系上大数据了.在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上,这一次是要完整的做一次数据的收集.数据上传.数据分析.数据结果读取.数据可视化. 需要用到 ...
java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
Java网络爬虫 HttpClient
简介 : HttpClient是Apache Jakarta Common下的子项目,用于提供高效的,功能丰富的支持HTTP协议的客户编程工具包,其主要功能如下: 实现了所有HTTP的方法 : GET ...

随机推荐

ELINK编程器典型场景之远程镜像
当不想直接提供Hex/Bin等二进制程序文件给用户时,通过生成远程镜像功能将程序文件加密后,再提供给用户自行脱机下载来达到远程更新的目的. 远程镜像生成的一般步骤为由客户端提供SN码,本地依据SN码加 ...
IE的BHO通过IHTMLDocument2接口获得网页源代码
参考了凤之焚的专栏:http://blog.csdn.net/lion_wing/article/details/769742 但是他的源码有些问题,即IHTMLElementCollection接口 ...
oracle延迟块清除
oracle在执行一些DML操作时,会在block上有活动事务的标志,如果一个事务commit后,由于某些block在commit之前已经写回datafile, 或者事务影响到的block数过多,则c ...
LINQ学习笔记（三）
下面对各子句解释 from子句:查询表达式的开始子句,查询表达式必须以from子句开头. 格式:from u in source 其中u表示范围变量,它表示源序列中的每个后续元素,source为数据源 ...
Tobject 类解析
TObject = class //创建 constructor Create; //释放 procedure Free; //初始化实列 class functi ...
解决SpringBoot多模块发布时99%的问题？SpringBoot发布的8个原则和4个问题的解决方案
如果使用 SpringBoot 多模块发布到外部 Tomcat,可能会遇到各种各样的问题.本文归纳了以下 8 个原则和发布时经常出现的 4 个问题的解决方案,掌握了这些原则和解决方案,几乎可以解决绝大 ...
Z Order（Copy From WIN32.HLP）
The Z order of a window indicates the window's position in a stack of overlapping windows. This wind ...
Realm_King 之 .NET 打包详细教程(B)
上篇(Realm_King 之 .NET 打包详细教程(A))给大家讲述了打包基本的操作,接下来帮助大家如何覆盖安装,希望大家仔细阅读... (一)看到你的解决方案,选中你的安装程序,点击F4会弹出改 ...
ZooKeeper学习第一期---Zookeeper简单介绍（转）
转载来源:https://www.cnblogs.com/sunddenly/p/4033574.html 一.分布式协调技术在给大家介绍ZooKeeper之前先来给大家介绍一种技术--分布式协调技 ...
多进程界面开发-Qt试玩儿
目录一.概述二.效果展示三.使用方法 1.启动外部进程 2.创建Qt窗口 3.加入到主进程布局四.嵌入NotePad 五.调用Ping命令六.嵌入其他QWidget窗体七.相关文章一.概 ...

java网络爬虫，乱码问题终于完美解决

java网络爬虫，乱码问题终于完美解决的更多相关文章

随机推荐

热门专题