用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题

最近在学习用java来做爬虫但是发现不管用那种方式都是爬取的代码比网页的源码少了很多
在网上查了很多都说是inputStream的缓冲区太小而爬取的网页太大导致读取出来的网页代码不完整，但是后面发现并不是这个问
这个是用HttoClient所作的
public static String getHtml2(String url) {

          try {

                HttpGet httpRequest = new HttpGet(url);

                HttpClient httpclient = new DefaultHttpClient();

                HttpResponse httpResponse = httpclient.execute(httpRequest);

                if (httpResponse.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

                    InputStream input = httpResponse.getEntity().getContent();

                    byte[] b = new byte[1024];

                    int len = 0;

                    StringBuffer buff = new StringBuffer();

                    while ((len = input.read(b)) != -1) {

                        buff.append(new String(b));

                    }

                    return buff.toString();

                    // 使用如下代码只返回40K

                    // return EntityUtils.toString(httpResponse.getEntity(),"UTF-8");

                }

            }catch (Exception e) {

            // TODO Auto-generated catch block

                e.printStackTrace();

            }

          return null;

    }
这个使用HttpURLConnection做的

//使用HttpURLConnection获取网页内容

	public static String getHtml(String url) {//获取网页内容

		StringBuffer html=new StringBuffer();

		if(!url.startsWith("http")) {

			url="https://"+url;

		}

		InputStreamReader inReader=null;

		BufferedReader bReader=null;

		HttpURLConnection htcon=null;

		try {

			URL u=new URL(url);

			//设置请求头为获取与源码一样的代码

			htcon=(HttpURLConnection)u.openConnection();

			htcon.setRequestProperty("User-Agent",

					"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

			htcon.setReadTimeout(2000);//设置读取超时

			htcon.setRequestMethod("POST");//设置请求方式

			htcon.setConnectTimeout(2000);//设置连接超时

			if(htcon.getResponseCode() == 200) {//如果页面响应的话

				inReader=new InputStreamReader(htcon.getInputStream(),"utf-8");//获得页面的输入流

				bReader=new BufferedReader(inReader);

				String line="";

				while((line=bReader.readLine())!=null) {

					html.append(line);

					html.append("\n");

				}

			}

		} catch (Exception e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}finally {

				try {

					if(inReader!=null) {

						inReader.close();

					}

					if(bReader!=null) {

						bReader.close();

					}

				} catch (IOException e) {

					// TODO Auto-generated catch block

					e.printStackTrace();

				}

		}

		return html.toString();

	}

在线等解决方法，或等更新

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题的更多相关文章

scrapy-redis实现爬虫分布式爬取分析与实现
本文链接:http://blog.csdn.net/u012150179/article/details/38091411 一 scrapy-redis实现分布式爬取分析所谓的scrapy-redi ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

sql server 的Maintenance Plans(维护计划)详解
下面说下我遇到的场景,就是我通过数据库自身的维护计划建立了数据库收缩自动计划,却发现数据库并没有实际性收缩. 前奏自动化配置流程数据库--管理---维护计划--双击(维护计划向导)--下一步--名称 ...
ubuntu 安装FoxitReader福昕阅读器(转载）
虽然不怎么用Ubuntu来看文档,但是偶尔还是需要看一下的.而Ubuntu自带的打开PDF的软件真的看着很难受,装一个跨平台的福昕好了. 首先,下载.可以官网下载:福昕官网不过晚上不知道网络抽风还是 ...
ABAP 7.40, SP08 中的 Open SQL 新特性
1,使用 data_source~*指定列在7.40, SP08中,可以在SELECT语句中使用data_source~*来指定选取不同的数据库表.视图的全部列来作为结果集.它也可以和单独指定的列c ...
inline-block，一个奇怪的问题：中间div掉下来
先上代码: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <tit ...
python 列表元祖
# # 1,写代码,有如下列列表,按照要求实现每⼀一个功能li = ["alex", "WuSir", "ritian", "ba ...
开放标准-http://www.open-std.org/
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/qianguozheng/article/details/37654877 http://www.op ...
Unicode与UTF-8关系
Unicode字符集合 Unicode 也称为 UCS(Universal Coded Character Set:国际编码字符集合) 是一个字符集合. 对世界上大部分的文字系统进行了整理,编码,使电 ...
机器学习算法总结(二)——决策树（ID3, C4.5, CART）
决策树是既可以作为分类算法,又可以作为回归算法,而且在经常被用作为集成算法中的基学习器.决策树是一种很古老的算法,也是很好理解的一种算法,构建决策树的过程本质上是一个递归的过程,采用if-then的规 ...
转://Linux Multipath多路径配置与使用案例
在Linux平台一部分存储产品使用操作系统自带的多路径软件,包括最常见的HP和IBM的部分存储产品,在Linux自带的多路径软件叫做multipath,这篇文章以HP EVA系列存储在Linux平台的 ...
linux 应用和发展
课程大纲  UNIX/Linux发展历史  自由软件  Linux应用领域  Linux学习方法 UNIX 发展历史 (1 )1965年,美国麻省理工学院(MIT). 通用电气公司(G ...

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题的更多相关文章

随机推荐

热门专题