HttpClient（二）-- 模拟浏览器抓取网页

一、设置请求头消息 User-Agent模拟浏览器

　　1.当使用第一节的代码来访问推酷的时候，会返回给我们如下信息：

网页内容：<!DOCTYPE html>

<html>

    <head>

          <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

    </head>

    <body>

        <p>系统检测亲不是真人行为，因系统资源限制，我们只能拒绝你的请求。如果你有疑问，可以通过微博 http://weibo.com/tuicool2012/ 联系我们。</p>

    </body>

</html>

　　这是因为网站做了限制，限制别人爬。解决方式可以设置请求头消息 User-Agent模拟浏览器。代码如下：

/**

     * 抓取网页信息使用 get请求

     * @param args

     * @throws IOException

     * @throws ClientProtocolException

     */

    public static void main(String[] args) throws ClientProtocolException, IOException {

        // 创建httpClient实例

        CloseableHttpClient httpClient = HttpClients.createDefault();

        // 创建httpGet实例

        HttpGet httpGet = new HttpGet("http://www.tuicool.com");

        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");

        CloseableHttpResponse response = httpClient.execute(httpGet);

        if(response != null){

            HttpEntity entity = response.getEntity();   // 获取网页内容

            String result = EntityUtils.toString(entity, "UTF-8");

            System.out.println("网页内容：" + result);

        }

        if(response != null){

            response.close();

        }

        if(httpClient != null){

            httpClient.close();

        }

    }

　　给HttpGet方法设置头消息，即可模拟浏览器访问。

二、获取响应内容Content-Type　　

　　使用 entity.getContentType().getValue() 来获取Content-Type，代码如下：

public static void main(String[] args) throws ClientProtocolException, IOException {

        // 创建httpClient实例

        CloseableHttpClient httpClient = HttpClients.createDefault();

        // 创建httpGet实例

        HttpGet httpGet = new HttpGet("http://www.tuicool.com");

        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");

        CloseableHttpResponse response = httpClient.execute(httpGet);

        if(response != null){

            HttpEntity entity = response.getEntity();   // 获取网页内容

            System.out.println("Content-Type:" + entity.getContentType().getValue());   // 获取Content-Type

        }

        if(response != null){

            response.close();

        }

        if(httpClient != null){

            httpClient.close();

        }

    }

三、获取响应状态

　　200 -- 正常

　　403 -- 拒绝

　　500 -- 服务器报错

　　400 -- 未找到页面

　　使用 response.getStatusLine().getStatusCode() 获取响应状态，代码如下：

public static void main(String[] args) throws ClientProtocolException, IOException {

        // 创建httpClient实例

        CloseableHttpClient httpClient = HttpClients.createDefault();

        // 创建httpGet实例

        HttpGet httpGet = new HttpGet("http://www.tuicool.com");

        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");

        CloseableHttpResponse response = httpClient.execute(httpGet);

        if(response != null){

            int state = response.getStatusLine().getStatusCode();

            System.out.println("响应状态：" + state);

        }

        if(response != null){

            response.close();

        }

        if(httpClient != null){

            httpClient.close();

        }

    }

四、HttpClient学习地址

　　开源博客系统-HttpClient

HttpClient（二）-- 模拟浏览器抓取网页的更多相关文章

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python爬虫学习==>第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
使用Selenium模拟浏览器抓取淘宝商品美食信息
代码: import re from selenium import webdriver from selenium.webdriver.common.by import By from seleni ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...
linux中使用wget模拟爬虫抓取网页
如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的这两个系统总是找不到相应的工具,这时wget出来帮助你啦!!!wget本身是拿来下载 ...
使用Selenium模拟浏览器抓取斗鱼直播间信息
获取斗鱼直播间每个房间的名称.观看人数.tag.主播名字代码: import time from multiprocessing import Pool from selenium import w ...

随机推荐

SQL Server 2012 books
SQL Server 2012 Introducing Microsoft SQL Server 2012 Microsoft SQL Server 2012 High-Performance T-S ...
2、TestNG+Maven+IDEA环境搭建
前言: 主要进行TestNG测试环境的搭建所需环境: 1.IDEA UItimate 2.JDK 3.Maven 一.创建工程 File –>new –>Project–>next ...
iOS项目的目录结构（Cocoa China）
目录结构 AppDelegate Models Macro General Helpers Vendors Sections Resources 一个合理的目录结构首先应该是清晰的,让人一眼看上去 ...
获取select 的 val 和 text [转引]
(原文地址:http://apps.hi.baidu.com/share/detail/6152780) jQuery获取Select选择的Text和Value:语法解释:1. $("#se ...
SpringBoot系列一：SpringBoot的产生
声明:本文来源于MLDN培训视频的课堂笔记,写在这里只是为了方便查阅. 长期以来 Java 的开发一直让人所诟病: ·Java 项目开发复杂度极其高: · Java 项目的维护非常困难: · 在云时代 ...
Python——hmac
该模块在Python中实现 RFC 2104 中规范的 HMAC 算法. 目录一.HMAC 对象 1. HMAC.update() 2. HMAC.digest() 3. HMAC.hexdiges ...
linux下nginx配置ssl证书(https)
nginx配置ssl很简单,首先需要两个文件,一个是crt文件,另一个是key文件,如下所示: xxx.crt; #(证书公钥)xxx.key; #(证书私钥) 把这两个文件放到nginx的conf ...
正则表达式awk
以冒号: 为分隔符打印出来:打印第一段$1: -F 分隔符 [root@localhost awk]# awk -F ':' '{print $1}' test.txt root bin daemo ...
Android带进度条的文件上传，使用AsyncTask异步任务
最近项目中要做一个带进度条的上传文件的功能,学习了AsyncTask,使用起来比较方便,将几个方法实现就行,另外做了一个很简单的demo,希望能对大家有帮助,在程序中设好文件路径和服务器IP即可. A ...
jQuery:jQuery性能优化28条建议
http://www.xue5.com/WebDev/jQuery/671700.html 直在寻找有关jQuery性能优化方面的小窍门,能让我那臃肿的动态网页应用变得轻便些.找了很多文章后,我决定将 ...

HttpClient（二）-- 模拟浏览器抓取网页

一、设置请求头消息 User-Agent模拟浏览器

二、获取响应内容Content-Type

三、获取响应状态

四、HttpClient学习地址

HttpClient（二）-- 模拟浏览器抓取网页的更多相关文章

随机推荐

热门专题

二、获取响应内容Content-Type