【java】使用URL和CookieManager爬取页面的验证码和cookie并保存

使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地。

然后可以把获取的cookie保存下来，做进一步处理。比如通过识别验证码，进一步使用验证码和用户名，密码，保存下来的cookie提交表单验证。使用java模拟登录功能

 package com.carl.carlapp.test;

 import java.io.FileOutputStream;

 import java.io.InputStream;

 import java.net.CookieHandler;

 import java.net.CookieManager;

 import java.net.CookieStore;

 import java.net.HttpCookie;

 import java.net.HttpURLConnection;

 import java.net.URL;

 import java.net.URLConnection;

 import java.util.Date;

 import java.util.List;

 /**

  * @author 作者 Carl Zhang. E-mail: carlzhangweiwen@sina.com

  * @version 创建时间：2016年3月2日 下午10:39:52

  * 类说明

  */

 public class CookieTest {

      public static void main(String args[]) throws Exception {

 //            String urlString = "http://58.215.195.18:10010/login_person.jsp";

              String urlString = "http://58.215.195.18:10010/jcaptcha?date="+ new Date().getTime();         

             CookieManager manager = new CookieManager();

             CookieHandler.setDefault(manager);

             URL url = new URL(urlString);

             HttpURLConnection httpConn = (HttpURLConnection) url.openConnection(); 

             //将得到的验证码保存下来

             saveFile(httpConn, "E:\\tset33.jpg");

 //            Object content = httpConn.getContent();

 //            String contentType = httpConn.getContentType();

 //            System.out.println(contentType);//MIME type:text/html

             //因为http已经做了请求，所以会得到cookie

             CookieStore cookieJar = manager.getCookieStore();

             List<HttpCookie> cookies = cookieJar.getCookies();

             for (HttpCookie cookie : cookies) {

               System.out.println(cookie);

             }

           }

      public static void saveFile(URLConnection conn,String fullPath){

          saveFile(conn, fullPath, 8);

      }

      /**

       * 讲文件保存下来

       * @param conn URLConnection连接

       * @param fullPath 文件路径及文件名

       * @param length 每次读文件字节数

       */

      public static void saveFile(URLConnection conn, String fullPath, int length){

             try {

                 if(conn == null){

                     throw new Exception("Can't get URLConnection.");

                 }

                 InputStream is = conn.getInputStream();

                 FileOutputStream fos = new FileOutputStream(fullPath);

                 byte[] b = new byte[length];

                 int len = 0;

                 while((len = is.read(b)) != -1){

                     fos.write(b,0,len);

                 }

                 fos.flush();

                 fos.close();

                 is.close();

             } catch (Exception e) {

                 e.printStackTrace();

             }

         }

 }

打印结果：

BIGipServerweb_server=202025152.36895.0000
JSESSIONID=1D61F297617400C594B3F75E3C76D27F

【java】使用URL和CookieManager爬取页面的验证码和cookie并保存的更多相关文章

MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
java 使用htmlunit模拟登录爬取新浪微博页面
mport java.io.IOException;import java.net.MalformedURLException;import com.gargoylesoftware.htmlunit ...
python 爬虫之requests爬取页面图片的url，并将图片下载到本地
大家好我叫hardy 需求:爬取某个页面,并把该页面的图片下载到本地思考: img标签一个有多少种类型的src值?四种:1.以http开头的网络链接.2.以“//”开头网络地址.3.以“/”开头绝对 ...
Java爬虫_资源网站爬取实战
对 http://bestcbooks.com/ 这个网站的书籍进行爬取 (爬取资源分享在结尾) 下面是通过一个URL获得其对应网页源码的方法传入一个 url 返回其源码 (获得源码后,对源码进 ...
java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
1. 目标使用webmagic爬取动作电影列表信息爬取电影<海王>详细信息[电影名称.电影迅雷下载地址列表] 2. 爬取最新动作片列表获取电影列表页面数据来源地址访问http:// ...
Java中url传递中文参数取值乱码的解决方法
java中URL参数中有中文值,传到服务端,在用request.getParameter()方法,得到的常常会是乱码,这将涉及到字符解码操作. 方法一: http://xxx.do?ptname=’我 ...

随机推荐

Webservice 或者HttpRequest请求的时候提示 “指定的注册表项不存在”错误解决方案
今天又遇到神奇的事情,在使用WebService的时候居然提示“指定的注册表不存在.” The specified registry key does not exist. Google后发现,原来是 ...
Lucene.net 搜索引擎的中文资料
以下是我找到的网上一些关于Lucene.net 搜索引擎的介绍资料 https://code.i-harness.com/zh-CN/tagged/lucene?page=5 http://jingp ...
5. Python大法之告别脚本小子--各类URL采集器编写
在i春秋上面,有很多不错的脚本: https://bbs.ichunqiu.com/forum.php?mod=collection&action=view&ctid=137 http ...
AQS(AbstractQueuedSynchronizer)介绍-01
1.概述 AQS( AbstractQueuedSynchronizer ) 是一个用于构建锁和同步器的框架,许多同步器都可以通过AQS很容易并且高效地构造出来.如: ReentrantLock 和 ...
C# EventHandler委托事件小结--百度
最近遇到一个委托的问题,+=这个符号 this.Activated += new EventHandler(Form1_Activated);//Form1_Activated为方法名12 这个语句拆 ...
前端中的事件循环eventloop机制
我们知道 js 是单线程执行的,那么异步的代码 js 是怎么处理的呢?例如下面的代码是如何进行输出的: console.log(1); setTimeout(function() { console. ...
SAS笔记(7) PROC SQL
参考资料:<Longitudinal Data and SAS: A Programmer's Guide>
前端三部曲之Css-- 1（常见的居中方式）
下面来介绍一下web端页面最常见的居中方式页面的基本结构:一个简单的div <!DOCTYPE html> <html lang="en"> <he ...
LCA 【bzoj1787】[Ahoi2008]Meet 紧急集合
LCA [bzoj1787][Ahoi2008]Meet 紧急集合题目链接:https://www.lydsy.com/JudgeOnline/problem.php?id=1787 注意到边权为一 ...
POJ1048 Follow My Logic
题目来源:http://poj.org/problem?id=1048 题目大意: 给定一个逻辑电路,求其逻辑输出.电路含一个或多个输入,以及一些双输入的与门/或门组成.电路图以下面形式的ASCII码 ...

【java】使用URL和CookieManager爬取页面的验证码和cookie并保存

【java】使用URL和CookieManager爬取页面的验证码和cookie并保存的更多相关文章

随机推荐

热门专题