HttpClient抓取网页内容简单介绍

版本HttpClient3.1

1、GET方式

第一步、创建一个客户端，类似于你用浏览器打开一个网页

HttpClient httpClient = new HttpClient();

第二步、创建一个GET方法，用来获取到你需要抓取的网页URL

GetMethod getMethod = new GetMethod("http://www.baidu.com");

第三步、获得网址的响应状态码，200表示请求成功

int statusCode = httpClient.executeMethod(getMethod);

第四步、获取网页的源码

byte[] responseBody = getMethod.getResponseBody();

主要就这四步，当然还有其他很多东西，比如网页编码的问题

 public static String spiderHtml() throws Exception {

         //URL url = new URL("http://top.baidu.com/buzz?b=1");

         HttpClient client = new HttpClient();

         GetMethod method = new GetMethod("http://top.baidu.com/buzz?b=1");        

         int statusCode = client.executeMethod(method);

         if(statusCode != HttpStatus.SC_OK) {

             System.err.println("Method failed: "  + method.getStatusLine());

         }

         byte[] body = method.getResponseBody();

         String html = new String(body,"gbk");


2、Post方式

1 HttpClient httpClient = new HttpClient();

        PostMethod postMethod = new PostMethod(UrlPath);

        postMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());

        NameValuePair[] postData = new NameValuePair[2];

        postData[0] = new NameValuePair("username", "xkey");

        postData[1] = new NameValuePair("userpass", "********");

        postMethod.setRequestBody(postData);

        try {

            int statusCode = httpClient.executeMethod(postMethod);

            if (statusCode == HttpStatus.SC_OK) {

                byte[] responseBody = postMethod.getResponseBody();

                String html = new String(responseBody);

                System.out.println(html);

            }

        } catch (Exception e) {  
            System.err.println("页面无法访问");

        }finally{

         postMethod.releaseConnection();

     } 

相关链接：http://blog.csdn.net/acceptedxukai/article/details/7030700

http://www.cnblogs.com/modou/articles/1325569.html

HttpClient抓取网页内容简单介绍的更多相关文章

HTTPCLIENT抓取网页内容
通过httpclient抓取网页信息. public class SnippetHtml{ /** * 通过url获取网站html * @param url 网站url */ public Strin ...
PHP抓取采集类snoopy介绍
PHP抓取采集类snoopy介绍一个PHP的抓取方案在 2011年07月04日那天写的已经有 10270 次阅读了感谢参考或原文服务器君一共花费了14.288 ms进行了2次 ...
ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
java爬取网页内容简单例子（2）——附jsoup的select用法详解
[背景] 在上一篇博文java爬取网页内容简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表 ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...

随机推荐

poj 2446 二分图最大匹配
思路:由(i+j)为偶数的点向(i+j)为奇数的点建边.求一次最大匹配,若正好为空格数(不包含洞)的一半,即输出YES. #include<iostream> #include<cs ...
iOS开发者如何提高自己的水平(转)
阅读. 把一大堆的知识塞进脑子里.随着时间流逝,终归有一些会留在脑海里.我觉得有些东西读起来还挺有意思,那么也能算作一种愉快的消遣. 分析. 多去熟悉并了解一些工具,从高层的到底层的,不要害怕去使用他 ...
.NET 认识
JS中的嵌套作用域
在JS中仅仅区分全局变量和局部变量还不够,实际上,变量作用域可以有任意层级(嵌套).其他函数内部定义的函数可以调用父函数的局部变量,而内部函数里定义的函数则不仅可以调用父函数的局部变量,还可以调用祖父 ...
Linux 命令 - df: 报告磁盘空间的占用情况
df 命令列出指定的文件名所在的文件系统上可用磁盘空间的数量. 如果没有指定文件名,则显示当前所有使用中的文件系统.默认情况下,磁盘空间以 1K 为一块显示,如果设置了环境变量 POSIXLY_COR ...
百练 2973 Skew数解题报告
思路: 计算出每一个skew数的不同位数表示的权值,然后用该位与权值相乘.用int数组来装权值,用char数组来装skew数. 代码: #include<stdio.h> #include ...
Android Wi-Fi基本操作
从用户角度看,Android Wi-Fi模块自下向上可以看为5层:硬件驱动程序,wpa_suppplicant,JNI,WiFi API,WifiSettings应用程序. 1.wpa_supplic ...
Intent的属性介绍
在Android系统的设计中有四大组件:Activity,Service,BroadcastReceiver,ContentProvider.Intent可以被应用于ContentProvider之外 ...
C# 网页信息采集(数据访问)
windows nt/xp/2003 or above .net Framework 1.1 SqlServer 2000 开发环境 VS 2003 目的学习了网络编程,总要做点什么东西才好. 于是 ...
【转】C#实现二叉查找树
原文URL: http://www.cnblogs.com/CareySon/archive/2012/04/19/ImpleBinaryTreeWithCSharp.html 简介树是一种非线 ...

HttpClient抓取网页内容简单介绍

HttpClient抓取网页内容简单介绍的更多相关文章

随机推荐

热门专题