java抓取网页数据，登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序。主要关于信贷方面，收集的一些黑名单网站，从该网站上抓取到自己系统中。

也找了一些资料，觉得没有一个很好的，全面的例子。因此在这里做个笔记提醒自己。

首先需要一个jsoup的jar包，我用的1.6.0。。下载地址为：http://pan.baidu.com/s/1mgqOuHa

1，获取网页内容（核心代码，技术有限没封装）。

2，登录之后抓取网页数据（如何在请求中携带cookie）。

3，获取网站的ajax请求方法（返回json）。

以上这三点我就用一个类全部包含（比较糙望见谅，直接copy代码过去，应该就可以用）

一，这个类分别有这上面的1,2,3三中方法，直接main方法可以进行测试

package com.minxinloan.black.web.utils;

import java.io.BufferedReader;

import java.io.ByteArrayOutputStream;

import java.io.DataInputStream;

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStream;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

import java.net.URLEncoder;

import java.nio.charset.Charset;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Map.Entry;

import java.util.StringTokenizer;

import net.sf.json.JSONArray;

import net.sf.json.JSONObject;

import org.jsoup.Connection;

import org.jsoup.Connection.Method;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class CookieUtil {

    public final static String CONTENT_TYPE = "Content-Type";

    public static void main(String[] args) {

        //String loginURL = "http://www.p2peye.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=Lsc66&username=puqiuxiaomao&password=a1234567";

        String listURL = "http://www.p2peye.com/blacklist.php?p=2";

        String logURL = "http://www.p2peye.com/member.php";

        //********************************需要登录的*************************************************

        try {

                Connection.Response  res =

                        Jsoup.connect(logURL)

                            .data("mod","logging"

                                    ,"action","login"

                                    ,"loginsubmit","yes"

                                    ,"loginhash","Lsc66"

                                    ,"username","puqiuxiaomao"

                                    ,"password","a1234567")

                            .method(Method.POST)

                            .execute();

                //这儿的SESSIONID需要根据要登录的目标网站设置的session Cookie名字而定

                Connection con=Jsoup.connect(listURL);

                //设置访问形式（电脑访问，手机访问）：直接百度都参数设置

                con.header("User-Agent", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)");

                //把登录信息的cookies保存如map对象里面

                Map <String,String>  map=res.cookies();

                Iterator<Entry<String,String>> it =map.entrySet().iterator();

                while(it.hasNext()){

                    Entry<String,String> en= it.next();

                    //把登录的信息放入请求里面

                    con =con.cookie(en.getKey(), en.getValue());

                }

                //再次获取Document对象。

                Document objectDoc = con.get();

                Elements elements = objectDoc.getAllElements();//获取这个连接返回页面的源码内容（不是源码跟源码差不多）

                for (Element element : elements) {

                    //element是迭代出来的标签：如：<div><span></span></div>

                    Elements elements2= element.getAllElements();//

                     for (Element element2 : elements2) {

                         element2.text();

                         element2.attr("href");//获取标签属性。element2代表a标签：href代表属性

                         element2.text();//获取标签文本

                    }

                }

                //********************************不需要登录的*************************************************

                String URL = "http://www.p2peye.com/blacklist.php?p=2";

                Document conTemp = Jsoup.connect(URL).get();

                Elements elementsTemps = conTemp.getAllElements();

                 for (Element elementsTemp : elementsTemps) {

                     elementsTemp.text();

                     elementsTemp.attr("href");//获取标签属性。element2代表a标签：href代表属性

                     elementsTemp.text();//获取标签文本

                }

                //********************************ajax方法获取内容。。。*************************************************。

                 HttpURLConnection connection = null;

                    BufferedReader reader = null;

                    try {

                        StringBuffer sb = new StringBuffer();

                        URL getUrl = new URL(URL);

                        connection = (HttpURLConnection)getUrl.openConnection();

                        reader = new BufferedReader(new InputStreamReader(

                                connection.getInputStream(),"utf-8"));

                        String lines;

                        while ((lines = reader.readLine()) != null) {

                            sb.append(lines);

                        };

                        List<Map<String, Object>> list = parseJSON2List(sb.toString());//json转换成list

                    } catch (Exception e) {

                    } finally{

                        if(reader!=null)

                            try {

                                reader.close();

                            } catch (IOException e) {

                            }

                        // 断开连接

                        connection.disconnect();

                    }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    public static Map<String, Object> parseJSON2Map(String jsonStr){

        Map<String, Object> map = new HashMap<String, Object>();

        //最外层解析

        JSONObject json = JSONObject.fromObject(jsonStr);

        for(Object k : json.keySet()){

            Object v = json.get(k);

            //如果内层还是数组的话，继续解析

            if(v instanceof JSONArray){

                List<Map<String, Object>> list = new ArrayList<Map<String,Object>>();

                Iterator<JSONObject> it = ((JSONArray)v).iterator();

                while(it.hasNext()){

                    JSONObject json2 = it.next();

                    list.add(parseJSON2Map(json2.toString()));

                }

                map.put(k.toString(), list);

            } else {

                map.put(k.toString(), v);

            }

        }

        return map;

    }  

    public static List<Map<String, Object>> parseJSON2List(String jsonStr){

        JSONArray jsonArr = JSONArray.fromObject(jsonStr);

        List<Map<String, Object>> list = new ArrayList<Map<String,Object>>();

        Iterator<JSONObject> it = jsonArr.iterator();

        while(it.hasNext()){

            JSONObject json2 = it.next();

            list.add(parseJSON2Map(json2.toString()));

        }

        return list;

    }  

}

二，这个是获取验证码的类，可以研究下。（但你要要分析出网站的验证码的请求地址）

package com.minxinloan.black.web.utils;

import java.io.BufferedReader;

import java.io.DataInputStream;

import java.io.DataOutputStream;

import java.io.File;

import java.io.FileOutputStream;

import java.io.FileWriter;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLConnection;

import java.nio.charset.Charset;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.StringTokenizer;

public class Utils {//解析验证码的

    public static Content getRandom(String method, String sUrl,// 要解析的url

            Map<String, String> paramMap, // 存放用户名和密码的map

            Map<String, String> requestHeaderMap,// 存放COOKIE的map

            boolean isOnlyReturnHeader, String path) {

        Content content = null;

        HttpURLConnection httpUrlConnection = null;

        InputStream in = null;

        try {

            URL url = new URL(sUrl);

            boolean isPost = "POST".equals(method);

            if (method == null

                    || (!"GET".equalsIgnoreCase(method) && !"POST"

                            .equalsIgnoreCase(method))) {

                method = "POST";

            }

            URL resolvedURL = url;

            URLConnection urlConnection = resolvedURL.openConnection();

            httpUrlConnection = (HttpURLConnection) urlConnection;

            httpUrlConnection.setRequestMethod(method);

            httpUrlConnection.setRequestProperty("Accept-Language",

                    "zh-cn,zh;q=0.5");

            // Do not follow redirects, We will handle redirects ourself

            httpUrlConnection.setInstanceFollowRedirects(false);

            httpUrlConnection.setDoOutput(true);

            httpUrlConnection.setDoInput(true);

            httpUrlConnection.setConnectTimeout(5000);

            httpUrlConnection.setReadTimeout(5000);

            httpUrlConnection.setUseCaches(false);

            httpUrlConnection.setDefaultUseCaches(false);

            httpUrlConnection.connect();

            int responseCode = httpUrlConnection.getResponseCode();

            if (responseCode == HttpURLConnection.HTTP_OK

                    || responseCode == HttpURLConnection.HTTP_CREATED) {

                byte[] bytes = new byte[0];

                if (!isOnlyReturnHeader) {

                    DataInputStream ins = new DataInputStream(

                            httpUrlConnection.getInputStream());

                    // 验证码的位置

                    DataOutputStream out = new DataOutputStream(

                            new FileOutputStream(path + "/code.bmp"));

                    byte[] buffer = new byte[4096];

                    int count = 0;

                    while ((count = ins.read(buffer)) > 0) {

                        out.write(buffer, 0, count);

                    }

                    out.close();

                    ins.close();

                }

                String encoding = null;

                if (encoding == null) {

                    encoding = getEncodingFromContentType(httpUrlConnection

                            .getHeaderField(""));

                }

                content = new Content(sUrl, new String(bytes, encoding),

                        httpUrlConnection.getHeaderFields());

            }

        } catch (Exception e) {

            return null;

        } finally {

            if (httpUrlConnection != null) {

                httpUrlConnection.disconnect();

            }

        }

        return content;

    }

    public static String getEncodingFromContentType(String contentType) {

        String encoding = null;

        if (contentType == null) {

            return null;

        }

        StringTokenizer tok = new StringTokenizer(contentType, ";");

        if (tok.hasMoreTokens()) {

            tok.nextToken();

            while (tok.hasMoreTokens()) {

                String assignment = tok.nextToken().trim();

                int eqIdx = assignment.indexOf('=');

                if (eqIdx != -1) {

                    String varName = assignment.substring(0, eqIdx).trim();

                    if ("charset".equalsIgnoreCase(varName)) {

                        String varValue = assignment.substring(eqIdx + 1)

                                .trim();

                        if (varValue.startsWith("\"")

                                && varValue.endsWith("\"")) {

                            // substring works on indices

                            varValue = varValue.substring(1,

                                    varValue.length() - 1);

                        }

                        if (Charset.isSupported(varValue)) {

                            encoding = varValue;

                        }

                    }

                }

            }

        }

        if (encoding == null) {

            return "UTF-8";

        }

        return encoding;

    }

    // 这个是输出

    public static boolean inFile(String content, String path) {

        PrintWriter out = null;

        File file = new File(path);

        try {

            if (!file.exists()) {

                file.createNewFile();

            }

            out = new PrintWriter(new FileWriter(file));

            out.write(content);

            out.flush();

            return true;

        } catch (Exception e) {

            e.printStackTrace();

        } finally {

            out.close();

        }

        return false;

    }

    public static String getHtmlReadLine(String httpurl) {

        String CurrentLine = "";

        String TotalString = "";

        InputStream urlStream;

        String content = "";

        try {

            URL url = new URL(httpurl);

            HttpURLConnection connection = (HttpURLConnection) url

                    .openConnection();

            connection.connect();

            System.out.println(connection.getResponseCode());

            urlStream = connection.getInputStream();

            BufferedReader reader = new BufferedReader(

            new InputStreamReader(urlStream, "utf-8"));

            while ((CurrentLine = reader.readLine()) != null) {

                TotalString += CurrentLine + "\n";

            }

            content = TotalString;

        } catch (Exception e) {

        }

        return content;

    }

}

class Content {

    private String url;

    private String body;

    private Map<String, List<String>> m_mHeaders = new HashMap<String, List<String>>();

    public Content(String url, String body, Map<String, List<String>> headers) {

        this.url = url;

        this.body = body;

        this.m_mHeaders = headers;

    }

    public String getUrl() {

        return url;

    }

    public String getBody() {

        return body;

    }

    public Map<String, List<String>> getHeaders() {

        return m_mHeaders;

    }

}

java抓取网页数据，登录之后抓取数据。的更多相关文章

python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
使用HttpClient 4.3.4 自动登录并抓取中国联通用户基本信息和账单数据,GET/POST/Cookie
一.什么是HttpClient? HTTP 协议可能是现在 Internet 上使用得最多.最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源.虽然在 JDK 的 ...
python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
Java抓取网页数据（原网页+Javascript返回数据）
有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数 ...
Java抓取网页数据（原来的页面+Javascript返回数据）
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
使用JAVA抓取网页数据
一.使用 HttpClient 抓取网页数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...
java通过url抓取网页数据-----正则表达式
原文地址https://www.cnblogs.com/xiaoMzjm/p/3894805.html [本文介绍] 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西 ...
Jsoup一个简短的引论——采用Java抓取网页数据
转载请注明出处:http://blog.csdn.net/allen315410/article/details/40115479 概述 jsoup 是一款Java 的HTML解析器,可直接解析某个U ...

随机推荐

HDU2047
http://acm.hdu.edu.cn/showproblem.php?pid=2047 对于这道题,我就从后面向前面考虑. 当第n个是o的话,那么n-1 只可以取e或者f,如果n是e或者f的话, ...
JS和CSS关于大小写的区分
方法: document.getElementById("xx").style.xxx中的所有属性是什么盒子标签和属性对照 CSS语法(不区分大小写) JavaScript语法( ...
vs2010 编译boost库
下载boost_1_49_0 打开vs2010工具dos, 再进入E:\boost_1_49_0 运行: bootstrap.bat 然后再运行: bjam stage --toolset=msvc- ...
Linux kill 杀死指定进程
一杀死指定进程现知道有一个php线程正在运行,需要杀死 root 26278 1 0 2015 ? 00:00:31 /usr/local/php/bin/php /var/www/html/r ...
Egret和Http请求 (Ajax、XMLHttpRequest、Post、Get)
一 Http请求二 AJax和XMLHttpRequest 三一个Ajax例子四 Egret中的egret.HttpRequest 五 Post和Get区别一 Http请求 Http深入 ...
linux shell学习笔记
一变量声明变量: my_var='ddd'使用变量: ${my_var}设置为只读变量: readonly my_var删除变量: unset my_var 注意只读变量不能被删除变量类型:( ...
json 拼接多个对象
var json = {}; var json1 = {a:1,b:1}; var json2 = {c:1,d:1}; json = eval('('+(JSON.stringify(json1)+ ...
HeartBeat的一些介绍和功能上的一些总结
HeartBeat的作用: 通过HeartBeat,可以将资源(IP以及程序服务等资源)从一台已经故障的计算机快速转移到另一台正常运转的机器上继续提供服务,一般称之为高可用的服务.在实际的生产应用场景 ...
SQL Server - select语句练习
创建表和输入数据 CREATE TABLE STUDENT(SNO VARCHAR(3) NOT NULL, SNAME VARCHAR(4) NOT NULL, SSEX VARCHAR(2 ...
APP都有哪些类型？
Web App的优势:(线上应用) 1.开发成本低 2.适配多种移动设备成本低 3.跨平台和终端 4.迭代更新容易 5.无需安装成本 Web App的劣势: 1.浏览的体验短期内还无法超越原生应用 2 ...

java抓取网页数据，登录之后抓取数据。

java抓取网页数据，登录之后抓取数据。的更多相关文章

随机推荐

热门专题