1 package com.lw.httpclient.test;

 2 import org.apache.http.client.methods.CloseableHttpResponse;

 3 import org.apache.http.client.methods.HttpGet;

 4 import org.apache.http.impl.client.CloseableHttpClient;

 5 import org.apache.http.impl.client.HttpClients;

 6 import org.apache.http.util.EntityUtils;

 7

 8 public class HttpClientTest {

 9     public static void main(String[] args) throws Exception {

10         // TODO Auto-generated method stub

11         get1();

12         get2();

13     }

14     /**

15      * 获取指定链接的网页的内容【初级版】

16      * @throws Exception

17      */

18     public static void get1()throws Exception{

19         //HttpClient hc=new DefaultHttpClient();

20         String url="http://www.budejie.com";

21         url="http://www.btba.com.cn";//网站限制爬，这种方式不再实用。

22         CloseableHttpClient chc=HttpClients.createDefault();

23         HttpGet hg=new HttpGet(url);

24         CloseableHttpResponse chp=chc.execute(hg);

25         System.out.println(EntityUtils.toString(chp.getEntity(),"UTF-8"));

26     }

27     /**

28      * 通过模拟浏览器获取指定链接的页面

29      * @throws Exception

30      */

31     public static void get2()throws Exception{

32         CloseableHttpClient closeableHttpClient=HttpClients.createDefault();

33         String url="http://www.btba.com.cn";

34         HttpGet httpGet=new HttpGet(url);

35         //设置请求头，模拟浏览器访问

36         httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0");

37         CloseableHttpResponse chr=closeableHttpClient.execute(httpGet);

38         System.out.println(EntityUtils.toString(chr.getEntity(),"UTF-8"));

39     }

40 }

未完待续

将会添加如何解析获取到的内容，得到自己想要的部分。。

【apache】使用HttpClient，进行简单网页抓取的更多相关文章

Java实现简单网页抓取
需求说明:使用Java抓取网页信息,并以字符串的形式返回. 使用Java代码实现: package net.ibuluo.spider.util; import java.io.IOException ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Java开源网页抓取工具httpClient以及jsoup
网上看到不错的Java网页抓取工具和库先记录一下使用java开源工具httpClient及jsoup抓取解析网页数据
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
实现织梦dedecms百度主动推送(实时)网页抓取
做百度推广的时候,如何让百度快速收录呢,下面提供了三种方式,今天我们主要讲的是第一种. 如何选择链接提交方式 1.主动推送:最为快速的提交方式,推荐您将站点当天新产出链接立即通过此方式推送给百度,以保 ...
Web Scraping（网页抓取）基本原理 - 白话篇
本文主要介绍 Web Scraping 的基本原理,基于Python语言,大白话,面向可爱的小白(^-^). 易混淆的名称: 很多时候,大家会把,在网上获取Data的代码,统称为"爬虫&qu ...

随机推荐

HDU_5414 CRB and String 【字符串】
一.题目 CRB and String 二.分析对于这题,读懂题意非常重要. 题目的意思是在$s$的基础上,按题目中所描述的步骤,即在$s$中任意选择一个字符$c$,在这个字符后面添加一个不等于$c ...
从零学脚手架(六)---production和development拆分
development.production拆分根据文件拆分 webpack打包时分为开发模式(development)和发布模式(production),在前面使用命令参数做了简单区分. 但这种方 ...
Jmeter(三十八) - 从入门到精通进阶篇 - 命令行运行JMeter详解（详解教程）
1.简介前边一篇文章介绍了如何生成测试报告,细心地小伙伴或者同学们可以看到宏哥启动Jmeter生成测试报告不是在gui页面操作的,而是在gui页面设置好保存以后,用命令行来生成测试报告的.这一篇宏哥 ...
PTA 统计二叉树结点个数
6-1 统计二叉树结点个数 (10 分) 本题要求实现一个函数,可统计二叉树的结点个数. 函数接口定义: int NodeCount ( BiTree T); T是二叉树树根指针,函数NodeCo ...
PTA 求链表的倒数第m个元素
6-7 求链表的倒数第m个元素 (20 分) 请设计时间和空间上都尽可能高效的算法,在不改变链表的前提下,求链式存储的线性表的倒数第m(>)个元素. 函数接口定义: ElementType ...
[换根DP][倍增]luogu P5666 树的重心
题面 https://www.luogu.com.cn/problem/P5666 分析对于一棵以i为根的树来说,它的重心必然在其size大于等于sumsize/2的子树中. 那么断掉一条边e(u, ...
Java类集框架详细汇总-底层分析
前言: Java的类集框架比较多,也十分重要,在这里给出图解,可以理解为相应的继承关系,也可以当作重要知识点回顾: Collection集合接口继承自:Iterable public interfa ...
走进springboot
SpringBoot基础核心思想---自动装配---约定大于配置开发环境:jdk1.8.maven.springboot.idea 一.快速构建一个springboot项目 1.1.进入sprin ...
全网最详细的Linux命令系列-cat命令
cat命令的用途是连接文件或标准输入并打印.这个命令常用来显示文件内容,或者将几个文件连接起来显示,或者从标准输入读取内容并显示,它常与重定向符号配合使用. 命令格式: cat [选项] [文件].. ...
2-fabric网络搭建流程
目录一.示例网络下面开始一步步的搭建和叙述上述过程二.创建网络三.添加网络管理员四.定义联盟五.为联盟创建通道六.节点和账本七.应用程序和智能合约链码八.完成网络简化视觉词汇表九 ...

【apache】使用HttpClient，进行简单网页抓取

未完待续

将会添加如何解析获取到的内容，得到自己想要的部分。。

【apache】使用HttpClient，进行简单网页抓取的更多相关文章

随机推荐

热门专题