用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题

最近在学习用java来做爬虫但是发现不管用那种方式都是爬取的代码比网页的源码少了很多
在网上查了很多都说是inputStream的缓冲区太小而爬取的网页太大导致读取出来的网页代码不完整，但是后面发现并不是这个问
这个是用HttoClient所作的
public static String getHtml2(String url) {

          try {

                HttpGet httpRequest = new HttpGet(url);

                HttpClient httpclient = new DefaultHttpClient();

                HttpResponse httpResponse = httpclient.execute(httpRequest);

                if (httpResponse.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

                    InputStream input = httpResponse.getEntity().getContent();

                    byte[] b = new byte[1024];

                    int len = 0;

                    StringBuffer buff = new StringBuffer();

                    while ((len = input.read(b)) != -1) {

                        buff.append(new String(b));

                    }

                    return buff.toString();

                    // 使用如下代码只返回40K

                    // return EntityUtils.toString(httpResponse.getEntity(),"UTF-8");

                }

            }catch (Exception e) {

            // TODO Auto-generated catch block

                e.printStackTrace();

            }

          return null;

    }
这个使用HttpURLConnection做的

//使用HttpURLConnection获取网页内容

	public static String getHtml(String url) {//获取网页内容

		StringBuffer html=new StringBuffer();

		if(!url.startsWith("http")) {

			url="https://"+url;

		}

		InputStreamReader inReader=null;

		BufferedReader bReader=null;

		HttpURLConnection htcon=null;

		try {

			URL u=new URL(url);

			//设置请求头为获取与源码一样的代码

			htcon=(HttpURLConnection)u.openConnection();

			htcon.setRequestProperty("User-Agent",

					"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

			htcon.setReadTimeout(2000);//设置读取超时

			htcon.setRequestMethod("POST");//设置请求方式

			htcon.setConnectTimeout(2000);//设置连接超时

			if(htcon.getResponseCode() == 200) {//如果页面响应的话

				inReader=new InputStreamReader(htcon.getInputStream(),"utf-8");//获得页面的输入流

				bReader=new BufferedReader(inReader);

				String line="";

				while((line=bReader.readLine())!=null) {

					html.append(line);

					html.append("\n");

				}

			}

		} catch (Exception e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}finally {

				try {

					if(inReader!=null) {

						inReader.close();

					}

					if(bReader!=null) {

						bReader.close();

					}

				} catch (IOException e) {

					// TODO Auto-generated catch block

					e.printStackTrace();

				}

		}

		return html.toString();

	}

在线等解决方法，或等更新

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题的更多相关文章

scrapy-redis实现爬虫分布式爬取分析与实现
本文链接:http://blog.csdn.net/u012150179/article/details/38091411 一 scrapy-redis实现分布式爬取分析所谓的scrapy-redi ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
python 爬虫之爬取大街网（思路）
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定爬虫基础 crawl ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

IL范围不正确
一.昨晚在改过一个bug之后在本机测试没问题,于是提交代码在测试服务器上发布之后测试的也没问题. 既然测试的都没问题,那就要往正式环境中发布咯,然而,发布到正式环境中就报错:IL范围不正确,这个错是打 ...
Python：遍历
======================遍历列表========================# 直接遍历list: for elem in list: pass # 通过索引获取 for i ...
强大而灵活的字体图标替代库iconfont
前言概述在开发网页制作过程中通常需要一些网页小图标,前端需要PS切图,将单个小图标icon组合成CSS雪碧图过程中,需要一些时间和精力; 如果网页制作中需要的小图标icon有一套css框架库集 ...
【消息队列】RabbitMQ+PHP实现
本文链接:http://www.cnblogs.com/aiweixiao/p/7374249.html 文档提纲: 扫描关注微信公众号 1.[下载和安装] 1)gitHub下载地址: https:/ ...
【Teradata】tdlocaledef修改默认日期配置
如下所有操作需要使用root登录到TD数据库节点操作 1.获取数据库当前默认配置 //使用root登录TD数据库节点 cd /opt/teradata/tdat/tdbms/xx.xx.xx.xx/b ...
Kafka consumer group位移0ffset重设
本文阐述如何使用Kafka自带的kafka-consumer-groups.sh脚本随意设置消费者组(consumer group)的位移.需要特别强调的是, 这是0.11.0.0版本提供的新功能且只 ...
Go搭建后台服务学习记录
资料: 1. go基础 https://juejin.im/entry/58329f84da2f600063074382 https://www.w3cschool.cn/go/ 2.go的一个orm ...
Python学习之装饰器进阶
函数知识回顾: 函数的参数分为:实参和形参. 实参:调用函数的时候传入的参数: 形参:分为3种(位置参数.默认参数.动态传参) 位置参数:必须传值 def aaa(a,b): print(a,b) a ...
UVA11694-Gokigen Naname（DFS进阶）
Problem UVA11694-Gokigen Naname Accept: 76 Submit: 586Time Limit: 10000 mSec Problem Description I ...
python入门学习：4.if语句
python入门学习:4.if语句关键点:判断 4.1 一个简单的测试4.2 条件测试4.3 if语句 4.1 一个简单的测试 if语句基本格式如下,注意不要漏了冒号 1if 条件 :2 ...

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题的更多相关文章

随机推荐

热门专题