java抓取网页数据，登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序。主要关于信贷方面，收集的一些黑名单网站，从该网站上抓取到自己系统中。

也找了一些资料，觉得没有一个很好的，全面的例子。因此在这里做个笔记提醒自己。

首先需要一个jsoup的jar包，我用的1.6.0。。下载地址为：http://pan.baidu.com/s/1mgqOuHa

1，获取网页内容（核心代码，技术有限没封装）。

2，登录之后抓取网页数据（如何在请求中携带cookie）。

3，获取网站的ajax请求方法（返回json）。

以上这三点我就用一个类全部包含（比较糙望见谅，直接copy代码过去，应该就可以用）

一，这个类分别有这上面的1,2,3三中方法，直接main方法可以进行测试

package com.minxinloan.black.web.utils;

import java.io.BufferedReader;

import java.io.ByteArrayOutputStream;

import java.io.DataInputStream;

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStream;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

import java.net.URLEncoder;

import java.nio.charset.Charset;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Map.Entry;

import java.util.StringTokenizer;

import net.sf.json.JSONArray;

import net.sf.json.JSONObject;

import org.jsoup.Connection;

import org.jsoup.Connection.Method;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class CookieUtil {

    public final static String CONTENT_TYPE = "Content-Type";

    public static void main(String[] args) {

        //String loginURL = "http://www.p2peye.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=Lsc66&username=puqiuxiaomao&password=a1234567";

        String listURL = "http://www.p2peye.com/blacklist.php?p=2";

        String logURL = "http://www.p2peye.com/member.php";

        //********************************需要登录的*************************************************

        try {

                Connection.Response  res =

                        Jsoup.connect(logURL)

                            .data("mod","logging"

                                    ,"action","login"

                                    ,"loginsubmit","yes"

                                    ,"loginhash","Lsc66"

                                    ,"username","puqiuxiaomao"

                                    ,"password","a1234567")

                            .method(Method.POST)

                            .execute();

                //这儿的SESSIONID需要根据要登录的目标网站设置的session Cookie名字而定

                Connection con=Jsoup.connect(listURL);

                //设置访问形式（电脑访问，手机访问）：直接百度都参数设置

                con.header("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

                //把登录信息的cookies保存如map对象里面

                Map <String,String>  map=res.cookies();

                Iterator<Entry<String,String>> it =map.entrySet().iterator();

                while(it.hasNext()){

                    Entry<String,String> en= it.next();

                    //把登录的信息放入请求里面

                    con =con.cookie(en.getKey(), en.getValue());

                }

                //再次获取Document对象。

                Document objectDoc = con.get();

                Elements elements = objectDoc.getAllElements();//获取这个连接返回页面的源码内容（不是源码跟源码差不多）

                for (Element element : elements) {

                    //element是迭代出来的标签：如：<div><span></span></div>

                    Elements elements2= element.getAllElements();//

                     for (Element element2 : elements2) {

                         element2.text();

                         element2.attr("href");//获取标签属性。element2代表a标签：href代表属性

                         element2.text();//获取标签文本

                    }

                }

                //********************************不需要登录的*************************************************

                String URL = "http://www.p2peye.com/blacklist.php?p=2";

                Document conTemp = Jsoup.connect(URL).get();

                Elements elementsTemps = conTemp.getAllElements();

                 for (Element elementsTemp : elementsTemps) {

                     elementsTemp.text();

                     elementsTemp.attr("href");//获取标签属性。element2代表a标签：href代表属性

                     elementsTemp.text();//获取标签文本

                }

                //********************************ajax方法获取内容。。。*************************************************。

                 HttpURLConnection connection = null;

                    BufferedReader reader = null;

                    try {

                        StringBuffer sb = new StringBuffer();

                        URL getUrl = new URL(URL);

                        connection = (HttpURLConnection)getUrl.openConnection();

                        reader = new BufferedReader(new InputStreamReader(

                                connection.getInputStream(),"utf-8"));

                        String lines;

                        while ((lines = reader.readLine()) != null) {

                            sb.append(lines);

                        };

                        List<Map<String, Object>> list = parseJSON2List(sb.toString());//json转换成list

                    } catch (Exception e) {

                    } finally{

                        if(reader!=null)

                            try {

                                reader.close();

                            } catch (IOException e) {

                            }

                        // 断开连接

                        connection.disconnect();

                    }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    public static Map<String, Object> parseJSON2Map(String jsonStr){

        Map<String, Object> map = new HashMap<String, Object>();

        //最外层解析

        JSONObject json = JSONObject.fromObject(jsonStr);

        for(Object k : json.keySet()){

            Object v = json.get(k);

            //如果内层还是数组的话，继续解析

            if(v instanceof JSONArray){

                List<Map<String, Object>> list = new ArrayList<Map<String,Object>>();

                Iterator<JSONObject> it = ((JSONArray)v).iterator();

                while(it.hasNext()){

                    JSONObject json2 = it.next();

                    list.add(parseJSON2Map(json2.toString()));

                }

                map.put(k.toString(), list);

            } else {

                map.put(k.toString(), v);

            }

        }

        return map;

    }  

    public static List<Map<String, Object>> parseJSON2List(String jsonStr){

        JSONArray jsonArr = JSONArray.fromObject(jsonStr);

        List<Map<String, Object>> list = new ArrayList<Map<String,Object>>();

        Iterator<JSONObject> it = jsonArr.iterator();

        while(it.hasNext()){

            JSONObject json2 = it.next();

            list.add(parseJSON2Map(json2.toString()));

        }

        return list;

    }  

}

二，这个是获取验证码的类，可以研究下。（但你要要分析出网站的验证码的请求地址）

package com.minxinloan.black.web.utils;

import java.io.BufferedReader;

import java.io.DataInputStream;

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

import java.nio.charset.Charset;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.StringTokenizer;

public class Utils {//解析验证码的

    public static Content getRandom(String method, String sUrl,// 要解析的url

            Map<String, String> paramMap, // 存放用户名和密码的map

            Map<String, String> requestHeaderMap,// 存放COOKIE的map

            boolean isOnlyReturnHeader, String path) {

        Content content = null;

        HttpURLConnection httpUrlConnection = null;

        InputStream in = null;

        try {

            URL url = new URL(sUrl);

            boolean isPost = "POST".equals(method);

            if (method == null

                    || (!"GET".equalsIgnoreCase(method) && !"POST"

                            .equalsIgnoreCase(method))) {

                method = "POST";

            }

            URL resolvedURL = url;

            URLConnection urlConnection = resolvedURL.openConnection();

            httpUrlConnection = (HttpURLConnection) urlConnection;

            httpUrlConnection.setRequestMethod(method);

            httpUrlConnection.setRequestProperty("Accept-Language",

                    "zh-cn,zh;q=0.5");

            // Do not follow redirects, We will handle redirects ourself

            httpUrlConnection.setInstanceFollowRedirects(false);

            httpUrlConnection.setDoOutput(true);

            httpUrlConnection.setDoInput(true);

            httpUrlConnection.setConnectTimeout(5000);

            httpUrlConnection.setReadTimeout(5000);

            httpUrlConnection.setUseCaches(false);

            httpUrlConnection.setDefaultUseCaches(false);

            httpUrlConnection.connect();

            int responseCode = httpUrlConnection.getResponseCode();

            if (responseCode == HttpURLConnection.HTTP_OK

                    || responseCode == HttpURLConnection.HTTP_CREATED) {

                byte[] bytes = new byte[0];

                if (!isOnlyReturnHeader) {

                    DataInputStream ins = new DataInputStream(

                            httpUrlConnection.getInputStream());

                    // 验证码的位置

                    DataOutputStream out = new DataOutputStream(

                            new FileOutputStream(path + "/code.bmp"));

                    byte[] buffer = new byte[4096];

                    int count = 0;

                    while ((count = ins.read(buffer)) > 0) {

                        out.write(buffer, 0, count);

                    }

                    out.close();

                    ins.close();

                }

                String encoding = null;

                if (encoding == null) {

                    encoding = getEncodingFromContentType(httpUrlConnection

                            .getHeaderField(""));

                }

                content = new Content(sUrl, new String(bytes, encoding),

                        httpUrlConnection.getHeaderFields());

            }

        } catch (Exception e) {

            return null;

        } finally {

            if (httpUrlConnection != null) {

                httpUrlConnection.disconnect();

            }

        }

        return content;

    }

    public static String getEncodingFromContentType(String contentType) {

        String encoding = null;

        if (contentType == null) {

            return null;

        }

        StringTokenizer tok = new StringTokenizer(contentType, ";");

        if (tok.hasMoreTokens()) {

            tok.nextToken();

            while (tok.hasMoreTokens()) {

                String assignment = tok.nextToken().trim();

                int eqIdx = assignment.indexOf('=');

                if (eqIdx != -1) {

                    String varName = assignment.substring(0, eqIdx).trim();

                    if ("charset".equalsIgnoreCase(varName)) {

                        String varValue = assignment.substring(eqIdx + 1)

                                .trim();

                        if (varValue.startsWith("\"")

                                && varValue.endsWith("\"")) {

                            // substring works on indices

                            varValue = varValue.substring(1,

                                    varValue.length() - 1);

                        }

                        if (Charset.isSupported(varValue)) {

                            encoding = varValue;

                        }

                    }

                }

            }

        }

        if (encoding == null) {

            return "UTF-8";

        }

        return encoding;

    }

    // 这个是输出

    public static boolean inFile(String content, String path) {

        PrintWriter out = null;

        File file = new File(path);

        try {

            if (!file.exists()) {

                file.createNewFile();

            }

            out = new PrintWriter(new FileWriter(file));

            out.write(content);

            out.flush();

            return true;

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            out.close();

        }

        return false;

    }

    public static String getHtmlReadLine(String httpurl) {

        String CurrentLine = "";

        String TotalString = "";

        InputStream urlStream;

        String content = "";

        try {

            URL url = new URL(httpurl);

            HttpURLConnection connection = (HttpURLConnection) url

                    .openConnection();

            connection.connect();

            System.out.println(connection.getResponseCode());

            urlStream = connection.getInputStream();

            BufferedReader reader = new BufferedReader(

            new InputStreamReader(urlStream, "utf-8"));

            while ((CurrentLine = reader.readLine()) != null) {

                TotalString += CurrentLine + "\n";

            }

            content = TotalString;

        } catch (Exception e) {

        }

        return content;

    }

}

class Content {

    private String url;

    private String body;

    private Map<String, List<String>> m_mHeaders = new HashMap<String, List<String>>();

    public Content(String url, String body, Map<String, List<String>> headers) {

        this.url = url;

        this.body = body;

        this.m_mHeaders = headers;

    }

    public String getUrl() {

        return url;

    }

    public String getBody() {

        return body;

    }

    public Map<String, List<String>> getHeaders() {

        return m_mHeaders;

    }

}

java抓取网页数据，登录之后抓取数据。的更多相关文章

python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
使用HttpClient 4.3.4 自动登录并抓取中国联通用户基本信息和账单数据,GET/POST/Cookie
一.什么是HttpClient? HTTP 协议可能是现在 Internet 上使用得最多.最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源.虽然在 JDK 的 ...
python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
Java抓取网页数据（原网页+Javascript返回数据）
有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数 ...
Java抓取网页数据（原来的页面+Javascript返回数据）
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
使用JAVA抓取网页数据
一.使用 HttpClient 抓取网页数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...
java通过url抓取网页数据-----正则表达式
原文地址https://www.cnblogs.com/xiaoMzjm/p/3894805.html [本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西 ...
Jsoup一个简短的引论——采用Java抓取网页数据
转载请注明出处:http://blog.csdn.net/allen315410/article/details/40115479 概述 jsoup 是一款Java 的HTML解析器,可直接解析某个U ...

随机推荐

linux下的磁盘和文件系统管理
一.硬盘分区知识 1.分区类型硬盘分区一共有3种:主分区.扩展分区和逻辑分区.扩展分区只不过是逻辑分区的“容器”,实际上只有主分区和逻辑分区进行数据存储.在一块硬盘上最多只能有4个主分区,可以另外建 ...
初识selenium
今天尝试了一些selenium,感觉并没有想象中那么难.整理一篇笔记出来. 笔者使用的是Python+selenium.以下内容均是基于Windows系统和Python3.5.2. 首先是下载sele ...
JavaScript笔记杂谈篇(啥都有)
二维码缩放比例以43PX的倍数缩放最为标准. NuGet相关管理http://www.cnblogs.com/dudu/archive/2011/07/15/nuget.html 学习笔记: http ...
JAVA 多线程和并发学习笔记（一）
一.进程与线程 1. 进程当一个程序进入内存运行时,即变成一个进程.进程是处于运行过程中的程序.进程是操作系统进行资源分配和调度的一个独立单位.进程的三个特征: 独立性独立存在的实体,每个进程都有 ...
linux文件权限表示及用户权限管理
UNIX/Linux下关于文件执行权限的表示和查看想必是最熟悉不过的,然而你是否真正了解用户文件的权限标识和用户的权限呢? 实际上文件权限标识不仅仅只有U, G, O 11 10 9 8 7 6 5 ...
使用View为Data Source的Form开发要点
(Data Source为View) 要点一:创建View的SQL语法 View的SQL里必须指定Form里唯一一个对其新增.修改.删除的基本表及其主键,其它表为辅助信息表,其字段仅用来在Form里显 ...
centos6.x下手工安装二进制Docker v1.1x
Docker在 centos 6.x 下面默认最新的版本是1.7, 然而这个并不符合我的实际需求, 尤其我需要 docker-compose 来作为编配工具部署swarm, 所以只有使用二进制的安装包 ...
jquery表格增加删除后改变序号
有个小bug,懒得修了. 目的:增加一行的时候,td第一列排序. 删除一行的时候,td第一列排序 <!DOCTYPE HTML> <html> <head> < ...
CLR VIA C#事件
事件是类型的一个成员,用来在事情发生的时候通知注册了该事件的成员. 事件和观察者模式十分的相似,所以事件应该提供如下几种能力 1.能让对象的方法登记对他的关注 2.能让对象的方法取消对他的关注 3.能 ...
C#去掉list集合中的重复数据
List<string> conList= new List<string>(); List<string> listII = new List<string ...

java抓取网页数据，登录之后抓取数据。

java抓取网页数据，登录之后抓取数据。的更多相关文章

随机推荐

热门专题