距离上一次写爬虫还是几年前了,那时候一直使用的是httpclient。

由于最近的项目又需要使用到爬虫,因此又重新查询了一些爬虫相关的框架,其中最合适的是WebMagic

官方文档:https://github.com/code4craft/webmagic

官方教程:http://webmagic.io/docs/zh/

WebMagic里面也是封装了httpclient来进行请求。因此不论是否直接使用WebMagic框架, 都是使用到了httpclient。

PS:httpclient3和4版本区别较大,下面代码均是在httpclient4的基础上进行测试开发。

HttpClient

1.创建HttpClient

HttpClients.createDefault()
HttpClients.createSystem()
HttpClients.createMinimal()
HttpClients.createMinimal(HttpClientConnectionManager)

2.post请求

2.1创建一个post请求

String uri = "";
HttpPost post = new HttpPost(uri);

2.2添加请求头

post.setHeader("Connection", "keep-alive");
post.setHeader("Accept-Encoding", "gzip, deflate");
......

2.3添加请求参数

List<NameValuePair> list = new ArrayList<>();
list.add(new BasicNameValuePair("username", "test"));
list.add(new BasicNameValuePair("password", ""));
post.setEntity(new UrlEncodedFormEntity(list, "UTF-8"));

2.4发起请求

HttpResponse response = httpClient.execute(post);

3.get请求

3.1创建一个get请求

String uri = "";
URIBuilder uriBuilder = new URIBuilder(uri);
HttpGet get = new HttpGet(uriBuilder.build());

3.2添加请求头

get.setHeader("Connection", "keep-alive");
get.setHeader("Accept-Encoding", "gzip, deflate");
......

3.3添加请求参数

uriBuilder.setParameter("param1", "");
uriBuilder.setParameter("param2", "");
......

3.4发起请求

HttpResponse response = httpClient.execute(get);

4.响应信息

发起请求后都会获得一个响应对象HttpResponse。

响应中主要包含了响应头、状态码、响应信息。

状态码一般是200和302,302表示请求重定向,可以从它的响应头中获取重定向的新路径,再次发起请求,如下

int statusCode = response.getStatusLine().getStatusCode();
if (statusCode == ) {
String location = response.getFirstHeader("location").getValue();
System.out.println("302 new uri : " + location);

如果发起成功,可以读取里面的响应信息。

响应信息分为多种,如html、照片、文件、json等等。具体情况需要根据实际区分。

html、json

String content = EntityUtils.toString(response.getEntity());

照片、文件

HttpEntity entity = response.getEntity();
OutputStream os = null;
os = new FileOutputStream(pdfPath + filenames.get());
InputStream is = entity.getContent();
while (true) {//这个循环读取网络数据,写入本地文件
byte[] bytes = new byte[ * ]; //1M
int k = is.read(bytes);
if (k >= ) {
os.write(bytes, , k);
os.flush();
} else break;
}
os.close();
is.close();

Processor

Java爬虫的实现的更多相关文章

  1. webmagic的设计机制及原理-如何开发一个Java爬虫

    之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...

  2. JAVA爬虫挖取CSDN博客文章

    开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...

  3. 爬虫6:多页面增量Java爬虫-sina主页

    之前写过很多单页面python爬虫,感觉python还是很好用的,这里用java总结一个多页面的爬虫,迭代爬取种子页面的所有链接的页面,全部保存在tmp路径下. 1 序言 实现这个爬虫需要两个数据结构 ...

  4. 推荐几个优秀的java爬虫项目

    java爬虫项目   大型的: Nutch apache/nutch · GitHub 适合做搜索引擎,分布式爬虫是其中一个功能. Heritrix internetarchive/heritrix3 ...

  5. Java爬虫搜索原理实现

    permike 原文 Java爬虫搜索原理实现 没事做,又研究了一下爬虫搜索,两三天时间总算是把原理闹的差不多了,基本实现了爬虫搜索的原理,本次实现还是俩程序,分别是按广度优先和深度优先完成的,广度优 ...

  6. JAVA爬虫 WebCollector

    JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...

  7. Java爬虫

    作为一位Java爬虫的初学者,分享一下自己的心得.所用到的jar包 org.codehaus.jettison.jar jsoup-1.7.3.jar个人认为爬虫的实现机制:获取Docume对象-&g ...

  8. 爬虫入门 手写一个Java爬虫

    本文内容 涞源于  罗刚 老师的 书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的?  2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...

  9. JAVA爬虫实践(实践三:爬虫框架webMagic和csdnBlog爬虫)

    WebMagic WebMagic是一个简单灵活的Java爬虫框架.基于WebMagic,你可以快速开发出一个高效.易维护的爬虫. 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来 ...

  10. MinerUtil.java 爬虫工具类

    MinerUtil.java 爬虫工具类 package com.iteye.injavawetrust.miner; import java.io.File; import java.io.File ...

随机推荐

  1. 20.multi_case07

    # coding:utf-8 import re import ssl import csv import json import time import random import asyncio ...

  2. <Python基础>字符串的基本操作

    s = 'abCDeFg aBcDea' print(s.find('b')) #通过元素查找索引,找不到返回-1 print(s.index('b')) #通过元素查找索引,找不到报错(会报错,基本 ...

  3. TKmybatis的框架介绍和原理分析及Mybatis新特性演示

    tkmybatis是在mybatis框架的基础上提供了很多工具,让开发更加高效,下面来看看这个框架的基本使用,后面会对相关源码进行分析,感兴趣的同学可以看一下,挺不错的一个工具 实现对员工表的增删改查 ...

  4. Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

    关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml 关于ResourceManager高可靠需要配置的文件有yarn-site.xml 逻辑结构: Nam ...

  5. nginx i.com.conf

    server { listen 9090; server_name i.com; root /Users/chong/Documents/www; # Load configuration files ...

  6. javascript特效源码(2、图像特效)

    1.不停闪烁的图像 不停闪烁的图片[修改显示的图片及链接地址后根据说明进行共1步] 1.以下代码放在一个新建页面的HTML的<body></body> 区即可:[页面上必须什么 ...

  7. Luogu P4246 [SHOI2008]堵塞的交通(线段树+模拟)

    P4246 [SHOI2008]堵塞的交通 题意 题目描述 有一天,由于某种穿越现象作用,你来到了传说中的小人国.小人国的布局非常奇特,整个国家的交通系统可以被看成是一个\(2\)行\(C\)列的矩形 ...

  8. 安卓中 使用html来使文字变色Html.fromHtml

    在这里  我是用的html使文字的个别颜色变红 String textStr = " 本课程为<font color=\"#FF0000\">" + ...

  9. where方法的用法是ThinkPHP查询语言的精髓

    where方法的用法是ThinkPHP查询语言的精髓,也是ThinkPHP ORM的重要组成部分和亮点所在,可以完成包括普通查询.表达式查询.快捷查询.区间查询.组合查询在内的查询操作.where方法 ...

  10. 二分图——多重匹配模板hdu1669

    好像多重匹配一般是用网络流来做的.. 这是匈牙利算法的模板:lim是每个组的上界 思路是每个组都可以匹配lim个点,那么当点x遇到的组匹配的点数还没有超过lim时,直接匹配即可 如果已经等于了lim, ...