超简单的java爬虫

最简单的爬虫，不需要设定代理服务器，不需要设定cookie，不需要http连接池，使用httpget方法，只是为了获取html代码...

好吧，满足这个要求的爬虫应该是最基本的爬虫了。当然这也是做复杂的爬虫的基础。

使用的是httpclient4的相关API。不要跟我讲网上好多都是httpclient3的代码该怎么兼容的问题，它们差不太多，但是我们应该选择新的能用的接口！

当然，还是有很多细节可以去关注一下，比如编码问题（我一般都是强制用UTF-8的）

放码过来：

import java.io.ByteArrayOutputStream;

import java.io.IOException;

import java.io.InputStream;

import org.apache.http.HttpEntity;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

public class Easy {

    //输入流转为String类型

    public static String inputStream2String(InputStream is)throws IOException{

        ByteArrayOutputStream baos=new ByteArrayOutputStream();

        int i=-1;

        while((i=is.read())!=-1){

            baos.write(i);

        }

        return baos.toString();

    }

    //抓取网页的核心函数

    public static void doGrab() throws Exception {

        //httpclient可以认为是模拟的浏览器

        CloseableHttpClient httpclient = HttpClients.createDefault();

        try {

            //要访问的目标页面url

            String targetUrl="http://chriszz.sinaapp.com";

            //使用get方式请求页面。复杂一点也可以换成post方式的

            HttpGet httpGet = new HttpGet(targetUrl);

            CloseableHttpResponse response1 = httpclient.execute(httpGet);

            try {

                String status=response1.getStatusLine().toString();

                //通过状态码来判断访问是否正常。200表示抓取成功

                if(!status.equals("HTTP/1.1 200 OK")){

                    System.out.println("此页面可以正常获取！");

                }else{

                    response1 = httpclient.execute(httpGet);

                    System.out.println(status);

                }

                //System.out.println(response1.getStatusLine());

                HttpEntity entity1 = response1.getEntity();

                // do something useful with the response body

                // and ensure it is fully consumed

                InputStream input=entity1.getContent();

                String rawHtml=inputStream2String(input);

                System.out.println(rawHtml);

                //有时候会有中文乱码问题，这取决于你的eclipse java工程设定的编码格式、当前java文件的编码格式，以及抓取的网页的编码格式

                //比如，你可以用String的getBytes()转换编码

                //String html = new String(rawHtml.getBytes("ISO-8859-1"),"UTF-8");//转换后的结果

                EntityUtils.consume(entity1);

            } finally {

                response1.close();//记得要关闭

            }

        } finally {

            httpclient.close();//这个也要关闭哦！

        }

    }

    /*

     * 最简单的java爬虫--抓取百度首页

     * memo：

     * 0.抓取的是百度的首页，对应一个html页面。

     *         (至于为啥我们访问的是http://www.baidu.com而不是http://www.baidu.com/xxx.html，这个是百度那边设定的，总之我们会访问到那个包含html的页面)

     * 1.使用http协议的get方法就可以了(以后复杂了可以用post方法，设定cookie，甚至设定http连接池；或者抓取json格式的数据、抓取图片等，也是类似的)

     * 2.通过httpclient的相关包（httpclient4版本）编写，需要下载并添加相应的jar包到build path中

     * 3.代码主要参考了httpclient(http://hc.apache.org/)包里面的tutorial的pdf文件。

     */

    public static void main(String[] args) throws Exception{

        Easy.doGrab();//为了简答这里把doGrab()方法定义为静态方法了所以直接Easy.doGrab()就好了

    }

}

超简单的java爬虫的更多相关文章

一个简单的java爬虫
直接上代码: package com.jeecg.util; import java.io.BufferedReader; import java.io.IOException; import jav ...
简单的Java网络爬虫（获取一个网页中的邮箱）
import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.FileReader; impo ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
WebService 超简单入门教程(Java)
写在前面的话: 当两个人碰面后,产生了好感,如果需要得到双方的信息,那么双方的交流是必不可少的!应用程序也如此, 各个应用程序之间的交流就需要WebService来作为相互交流的桥梁! 项目目的: 程 ...
学校实训作业：Java爬虫（WebMagic框架）的简单操作
项目名称:java爬虫项目技术选型:Java.Maven.Mysql.WebMagic.Jsp.Servlet 项目实施方式:以认知java爬虫框架WebMagic开发为主,用所学java知识完成指 ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
超简单的JNI——NDK开发教程
不好意思各位,我按照网上一些教程进行JNI开发,折腾了半天也没成功,最后自己瞎搞搞定了,其实超简单的,网上的教程应该过时了,最新版的AS就包含了NDK编译的功能,完全不用手动javah,各种包名路径的 ...
jsp学习---使用jsp和JavaBean实现超简单网页计算器
一.需求如题,用jsp实现一个超简单的网页计算器. 二.实现 1.效果图 1)初始界面: 2)随便输入两个数进行相乘: 3)当除数为零时提示报错: 2.代码 Calculator.java pack ...
ssh框架整合---- spring 4.0 + struts 2.3.16 + maven ss整合超简单实例
一 . 需求学了这么久的ssh,一直都是别人整合好的框架去写代码,自己实际动手时才发现框架配置真是很坑爹,一不小心就踏错,真是纸上得来终觉浅! 本文将记录整合struts + spring的过程 , ...

随机推荐

java程序实现鼠标绘图
import java.awt.*; import javax.swing.*; class Gstudy extends JFrame{ private int x1,y1,x2,y2; priva ...
Python 类编码风格
1.命名类名:(1)单词首字母均大写 (2)不使用下划线实例名+模块名:(1)小写格式 (2)下划线分隔单词 2.文档字符串三引号:“““ ””” 每个类定义后面需要包含一个文档字符串,描述类的 ...
python 中的os模块
python os模块 Python os 模块提供了一个统一的操作系统接口函数一.对于系统的操作 1.os.name 当前使用平台其中 ‘nt’ 是 windows,’posix’ 是lin ...
python---Django中模型类中Meta元对象了解
Django中模型类中Meta元对象了解 1.使用python manage.py shell 进入编辑命令行模式,可以直接进入项目(为我们配置好了环境) python manage.py shell ...
JAVA-JSP隐式对象
JSP隐式对象在本章中,我们将讨论和学习JSP中的隐式对象.这些对象是JSP容器为每个页面中的开发人员提供的Java对象,开发人员可以直接调用它们而不用显式地声明它们再调用. JSP隐式对象也称为预 ...
bzoj千题计划133：bzoj3130: [Sdoi2013]费用流
http://www.lydsy.com/JudgeOnline/problem.php?id=3130 第一问就是个最大流第二问: Bob希望总费用尽量大,那肯定是把所有的花费加到流量最大的那一条 ...
Codeforces 877 C. Slava and tanks
http://codeforces.com/problemset/problem/877/C C. Slava and tanks time limit per test 2 seconds me ...
Git之代码合并及分支管理
环境说明: 对于一个git项目而言,公司在gitlab上有对应的三个分支,以kazihuo项目为例说明,分别是development.master.testing,运维首先在gitlab上创建一个gr ...
Tomcat开启Debug模式
在bin/catalina.sh中添加如下行,将tomcat重启即可. 注:以下标红的7002需将其改成对象的tomcat端口即可! JAVA_OPTS=,server=y,suspend=n -Df ...
Nginx模块Lua-Nginx-Module学习笔记（二）Lua指令详解(Directives)
源码地址:https://github.com/Tinywan/Lua-Nginx-Redis Nginx与Lua编写脚本的基本构建块是指令. 指令用于指定何时运行用户Lua代码以及如何使用结果. 下 ...

超简单的java爬虫

超简单的java爬虫的更多相关文章

随机推荐

热门专题