使用HttpClient抓取网站首页

HttpClient是Apache开发的第三方Java库，可以用来进行网络爬虫的开发，相关API的可以在http://hc.apache.org/httpcomponents-client-ga/httpclient/apidocs/查看。

import java.io.BufferedReader;

import java.io.InputStreamReader;

import org.apache.http.client.methods.*;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

public class pachong {

    public static void main(String[] args) throws Exception {

        String url = "http://www.baidu.com";

        CloseableHttpClient client = HttpClients.createDefault();

        HttpGet request = new HttpGet(url);

        CloseableHttpResponse response = client.execute(request);

        System.out.println("Response Code: " +

        response.getStatusLine().getStatusCode());

        BufferedReader rd = new BufferedReader(

            new InputStreamReader(response.getEntity().getContent()));

        String line = "";

        while((line = rd.readLine()) != null) {

            System.out.println(line);

        }

        response.close();

        client.close();

    }

}

使用HttpClient抓取网站首页的更多相关文章

使用PHP抓取网站ico图标
网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...
HTTPCLIENT抓取网页内容
通过httpclient抓取网页信息. public class SnippetHtml{ /** * 通过url获取网站html * @param url 网站url */ public Strin ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
搜索会抓取网站域名的whoise信息吗
http://www.wocaoseo.com/thread-309-1-1.html 网站是否在信产部备案,这是不是会成为影响网站收录和排名的一个因素?百度是否会抓取域名注册人的相关whois信息吗 ...
HttpClient（一）HttpClient抓取网页基本信息
一.HttpClient简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包, 并且它支 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...

随机推荐

C#winfrom控件命名规范
※用红字标记的部分表示有重复出现,括号内为替代表示方案 1.标准控件序号控件类型简写控件类型 1 btn Button 2 chk CheckBox 3 ckl CheckedListBox ...
PHP文件操作之读取目录信息
//定义一个函数读取目录信息的函数 function dirInfo($dirName) { //判断目录是否存在 if (!file_exists($dirName)) { die('目录不存在! ...
javascript：void(0)与#整理
window.location.href="/signup/devicelogin.shtml"; 指跳转到引号的url地址 #包含了一个位置信息,默认的锚点#是top,网页的顶端 ...
stage划分
整个stage的划分会根据最后触发的action进行倒推,如果碰到宽依赖就将当前范围内的rdd划分为一个stage,直到所有的RDD遍历完为止.
ubuntu下安装与卸载qt的方法
http://blog.csdn.net/huyisu/article/details/24014407 ubuntu下安装与卸载qt的方法分类: linux 2014-04-18 14:20 18 ...
移动web开发--meta 之 viewport
常用的 viewport meta 如下: 1 <meta name="viewport" content="width=device-width,initial- ...
js合计
Js合计行: 可以先循环行,然后按行获取这行带有你定义的class的td,取得这些td的 text后相加,最终赋值到这行的“合计”单元格就行了 var trslength = $("#dat ...
设计模式：建造者模式（Builder）
定义:将一个复杂对象的构建与它的表示分离,使得同一构建过程可以创建不同的表示. 结构图: 产品类: class Product { //部件集合 List<string> parts ...
HTML文件基本结构
固定结构: <html> <head>...</head> <body>...</body> </html>1,<html ...
如何使用批处理解决批量telnet命令的输入
用telnet命令做不了自动,因为如果成功telnet了,telnet就控制输入了.其实,不用那么麻烦,您下载一个微软官方的扫描器叫portqry,用一句for读取您文件里的ip和port,执行就行了 ...

使用HttpClient抓取网站首页

使用HttpClient抓取网站首页的更多相关文章

随机推荐

热门专题