HttpClient&Jsoup爬虫的简单应用

　　详细的介绍已经有很多前辈总结，引用一下该篇文章:https://blog.csdn.net/zhuwukai/article/details/78644484

　　下面是一个代码的示例：

package com.http.client;

import java.io.IOException;

import org.apache.http.HttpHost;

import org.apache.http.HttpResponse;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.HttpClient;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.conn.params.ConnRouteParams;

import org.apache.http.impl.client.DefaultHttpClient;

import org.apache.http.params.CoreConnectionPNames;

import org.apache.http.util.EntityUtils;

import org.apache.log4j.Logger;

/**

 *

 * @author oo

 * @date 2018-04-04

 */

public class MyHttpClient {

    private static Logger logger = Logger.getLogger(MyHttpClient.class);

    /**

     * 需求：使用httpclient 爬取 网站数据

     *

     * @param args

     */

    public static void main(String[] args) {

        // 创建ＨttpClient 对象

        HttpClient hclient = new DefaultHttpClient();

        // 设置响应时间 传输源码时间 代理服务器（设置代理服务器的目的是：防止爬数据被封ip）

        hclient.getParams().setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 20000)

                .setParameter(CoreConnectionPNames.SO_TIMEOUT, 20000)

                .setParameter(ConnRouteParams.DEFAULT_PROXY, new HttpHost("111.155.116.237", 8123));

        HttpGet hGet = new HttpGet("http://www.itcast.cn/");

        String content = "";

        try {

            // 向网站发送请求，获取网页源码

            HttpResponse execute = hclient.execute(hGet);

            // EntityUtils工具类把网页实体转换成字符串

            content = EntityUtils.toString(execute.getEntity(), "utf-8");

        } catch (ClientProtocolException e) {

            e.printStackTrace();

            logger.error("********ClientProtocolException" + e);

        } catch (IOException e) {

            e.printStackTrace();

            logger.error("********IOException" + e);

        }

        System.out.println(content);

    }

}

　　使用Jsoup进行请求：

package com.http.client;

import java.io.IOException;

import org.apache.log4j.Logger;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class ＭyJsoup {

    private static Logger logger = Logger.getLogger(ＭyJsoup.class);

    public static void main(String[] args) {

        try {

            // 使用jsoup 发送请求

            Document document = Jsoup.connect("http://www.itcast.cn").get();

//            System.out.println(document);

            Elements elements = document.getElementsByTag("a");

            String val = elements.text();

            System.out.println(val);

            for (Element element : elements) {

                System.out.println(element.text()+":"+element.attr("href"));

            }

        } catch (IOException e) {

            e.printStackTrace();

            logger.error("***********IOException:　连接失败" + e);

        }

    }

}

　　HttpClient 结合Jsoup：

 package com.http.client;

 import java.io.IOException;

 import org.apache.http.HttpResponse;

 import org.apache.http.client.ClientProtocolException;

 import org.apache.http.client.HttpClient;

 import org.apache.http.client.methods.HttpGet;

 import org.apache.http.impl.client.DefaultHttpClient;

 import org.apache.http.util.EntityUtils;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 public class HttpCLientAndJsoup {

     public static void main(String[] args) throws ClientProtocolException, IOException {

         // 创建HttpClient对象

         HttpClient hClient = new DefaultHttpClient();

         // 爬虫URL大部分都是get请求，创建get请求对象

         HttpGet hget = new HttpGet("http://www.itcast.cn/");

         // 向网站发送请求，获取网页源码

         HttpResponse response = hClient.execute(hget);

         // EntityUtils工具类把网页实体转换成字符串

         String content = EntityUtils.toString(response.getEntity(), "utf-8");

         // Jsoup负责解析网页

         Document doc = Jsoup.parse(content);

         // 使用元素选择器选择网页内容

         Elements elements = doc.select("div.salary_con li");

         // System.out.println(elements.text());

         for (Element element : elements) {

             String text = element.text();

             System.out.println(text);

         }

     }

 }

HttpClient&Jsoup爬虫的简单应用的更多相关文章

【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo
简单记录 - Jsoup爬虫入门实战数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网 ...
jsoup爬虫简书首页数据做个小Demo
代码地址如下:http://www.demodashi.com/demo/11643.html 昨天LZ去面试,遇到一个大牛,被血虐一番,发现自己基础还是很薄弱,对java一些原理掌握的还是不够稳固, ...
httpclient+Jsoup总结
Jsoup.parse解析HTML字符串,如Jsoup.parse("<html><head><title>Firstparse</title> ...
php面试题7（1、unset变量是删除栈变量，并不删除堆变量）（2、php爬虫特别简单：可以file_get_contents和直接fopen）
php面试题7(1.unset变量是删除栈变量,并不删除堆变量)(2.php爬虫特别简单: 可以file_get_contents和直接fopen) 一.总结 1.unset变量是删除栈变量,并不删除 ...
初学Python之爬虫的简单入门
初学Python之爬虫的简单入门一.什么是爬虫? 1.简单介绍爬虫爬虫的全称为网络爬虫,简称爬虫,别名有网络机器人,网络蜘蛛等等. 网络爬虫是一种自动获取网页内容的程序,为搜索引擎提供了重要的 ...
（java）Jsoup爬虫学习--获取智联招聘（老网站）的全国java职位信息，爬取10页
Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ...
（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息
Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ...
Python爬虫的简单入门(一)
Python爬虫的简单入门(一) 简介这一系列教学是基于Python的爬虫教学在此之前请确保你的电脑已经成功安装了Python(本教程使用的是Python3).爬虫想要学的精通是有点难度的,尤其是遇 ...
python爬虫:爬虫的简单介绍及requests模块的简单使用
python爬虫:爬虫的简单介绍及requests模块的简单使用一点点的建议: (学习爬虫前建议先去了解一下前端的知识,不要求很熟悉,差不多入门即可学习爬虫,如果有不了解的,我也会补充个一些小知识. ...

随机推荐

ERP系统架构
分布式.服务化的ERP系统架构设计 ERP之痛曾几何时,我混迹于电商.珠宝行业4年多,为这两个行业开发过两套大型业务系统(ERP).作为一个ERP系统,系统主要功能模块无非是订单管理.商品管理.生产 ...
Spring 整合Hibernate 示例
虽然Spring整合Hibernate早就会了,但经常在创建项目整合这两个框架的时候出一些低级错误.所以在这里写一个示例,以后再遇到错误时,再把遇到的错误或异常添加上. 一.创建一个动态WEB工程,添 ...
Yii 不完全解决方案（一）
此文意在记录 Yii 开发过程中的小问题解决方案 1. Yii 中 Js 和 Css 文件的引入. 我们就从最简单的问题开始吧,说起来也不是问题,只是语法罢了.假设我们的 js 文件都放在和 prot ...
【[USACO09DEC]牛收费路径Cow Toll Paths】
很妙的一道题,我之前一直是用一个非常暴力的做法就是枚举点权跑堆优化dijkstra 但是询问次数太多了于是一直只有50分今天终于抄做了这道题,不贴代码了,只说一下对这道题的理解首先点权和边权不 ...
SVN工具使用总结
SVN是Subversion的简称,是一个开放源代码的版本控制系统,相较于RCS.CVS,它采用了分支管理系统,它的设计目标就是取代CVS.互联网上很多版本控制服务已从CVS迁移到Subversion ...
C#强大的编程功能
下面列出一些C#重要的功能 1.布尔条件 2.自动垃圾回收 3.标准库 4.组件版本 5.属性和事件 6.委托和事件管理 7.易于使用的泛型 8.索引器 9.条件编译 10.简单的多线程 11.LIN ...
Oracle12C创建用户遇到ora-6509
引用自:http://blog.itpub.net/29357786/viewspace-1995055/ ORACLE 12C创建用户之ORA-65096 2016年2月25日,一北京北方人瑞教育咨 ...
使用 jTessBoxEditor 生成 tesseract-orc 的字典
本文使用图片方式记录使用 jTessBoxEditor 一站式生成自动文件的方式首先感谢 Tesseract OCR 讨论群 389402579 的管理员[创世倾城 QQ:457606663] 的帮 ...
MySQL学习之流程结构
流程结构流程结构:代码的执行顺序. if分支根据要求选择合适的执行部分. 基本语法 if在MySQL中有两种基本用法 1.用在select查询当中,当作一种条件来进行判断. 基本语法:if(条件, ...
LogViewer超大文本浏览工具
官方下载 LogViewer 是一款简单好用的log日志文件查看工具.您想要查看log日志吗?那么不妨来看看这款LogViewer .该款工具可以在短短数秒内打开上G的LOG文件,支持高亮某行文字(例 ...

HttpClient&Jsoup爬虫的简单应用

HttpClient&Jsoup爬虫的简单应用的更多相关文章

随机推荐

热门专题