使用Post方法模拟登陆爬取网页

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：



import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.HashMap;

public class test {

    //post请求地址

    private static final String POST_URL = "";

    //模拟谷歌浏览器请求

    private static final String USER_AGENT = "";

    //用账号登录某网站后 请求POST_URL链接获取cookie

    private static final String COOKIE = "";

    //用账号登录某网站后 请求POST_URL链接获取数据包

    private static final String REQUEST_DATA =  "";

    public static void main(String[] args) throws Exception {

        HashMap<String, String> map = postCapture(REQUEST_DATA);

        String responseCode = map.get("responseCode");

        String value = map.get("value");

        while(!responseCode.equals("200")){

            map =  postCapture(REQUEST_DATA);

            responseCode = map.get("responseCode");

            value = map.get("value");

        }

        //打印爬取结果

        System.out.println(value);

    }

    private static HashMap<String, String> postCapture(String requestData) throws Exception{

        HashMap<String, String> map = new HashMap<>();

        URL url = new URL(POST_URL);

        HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();

        httpConn.setDoInput(true); // 设置输入流采用字节流

        httpConn.setDoOutput(true); // 设置输出流采用字节流

        httpConn.setUseCaches(false); //设置缓存

        httpConn.setRequestMethod("POST");//POST请求

        httpConn.setRequestProperty("User-Agent", USER_AGENT);

        httpConn.setRequestProperty("Cookie", COOKIE);

        PrintWriter out = new PrintWriter(new OutputStreamWriter(httpConn.getOutputStream(), "UTF-8"));

        out.println(requestData);

        out.close();

        int responseCode = httpConn.getResponseCode();

        StringBuffer buffer = new StringBuffer();

        if (responseCode == 200) {

            BufferedReader reader = new BufferedReader(new InputStreamReader(httpConn.getInputStream(), "UTF-8"));

            String line = null;

            while ((line = reader.readLine()) != null) {

                buffer.append(line);

            }

            reader.close();

            httpConn.disconnect();

        }

        map.put("responseCode", new Integer(responseCode).toString());

        map.put("value", buffer.toString());

        return map;

    }

}

原文地址：
http://wangxin123.com/2016/12/19/%E4%BD%BF%E7%94%A8Post%E6%96%B9%E6%B3%95%E6%A8%A1%E6%8B%9F%E7%99%BB%E9%99%86%E7%88%AC%E5%8F%96%E7%BD%91%E9%A1%B5/

使用Post方法模拟登陆爬取网页(转)的更多相关文章

使用Post方法模拟登陆爬取网页
最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStre ...
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...
使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据
1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
PHP爬取网页的主要方法，你掌握了吗
这篇文章讲的是PHP爬取网页的主要方法,主要流程就是获取整个网页,然后正则匹配(关键的). PHP抓取页面的主要方法,有几种方法是网上前辈的经验,现在还没有用到的,先存下来以后试试. file()函数 ...
python（27）requests 爬取网页乱码，解决方法
最近遇到爬取网页乱码的情况,找了好久找到了种解决的办法: html = requests.get(url,headers = head) html.apparent_encoding html.enc ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

随机推荐

Linux修改ssh端口，减少暴力破解
版本centos7 注意:操作时请勿断开当前的ssh连接,以免发生情况登陆不了. 1.修改的是 /etc/ssh/sshd_config 文件打开文件之后会发现Port是注释掉的,默认为22 ...
BotFramework学习-02
1.请求的Message格式 { "type": "Message", "id": "fd89606f8014453ca5587e ...
[6818开发板]八核开发板|4G开发板|GPS开发板|嵌入式开发平台
IMX6开发板(基本型):960元 IMX6开发板(豪华型):1460元 S5P4418 核心板可以无缝支持核心系统S5P6818,并保持底板设计不变,将兼顾更高端的应用领域,为项目和产品提供更好的 ...
bat运行当前路径下程序
批处理中获取当前路径的方法可能有好几种,具体有几种我没有研究过,本文只是对其中的两种之间的差别进行简单说明本文涉及的两个当前路径标示为:%cd%.%~dp0 注:我的系统是win7旗舰版,其它系统没 ...
CAD参数绘制圆弧（网页版）
在CAD设计时,需要绘制圆弧,用户可以在图面点圆弧起点,圆弧上的一点和圆弧的终点,这样就绘制出圆弧. 主要用到函数说明: _DMxDrawX::DrawArc2 由圆弧上的三点绘制一个圆弧.详细说明如 ...
intellij idea集成github
IDEA配置github并上传项目 http://www.cnblogs.com/jinjiyese153/p/6796668.html github ssl验证 https://www.cnblog ...
centos6 磁盘与文件系统管理
一.磁盘管理磁盘构成 1.圆形磁盘 2.磁盘读取头 3.机械手臂 4.主轴马达运作原理数据存储在具有磁性物质的圆形磁盘上,读写操作主要是通过机械手臂上的磁盘读取头来达成,实际运作时,主轴马达让磁 ...
Python之turtle库-小猪佩奇
Python之turtle库-小猪佩奇 #!/usr/bin/env python # coding: utf-8 # Python turtle库官方文档:https://docs.python.o ...
Matlab学习笔记（三）
二.MATLAB基础知识 (四)数组 MATLAB总是把数组看作存储和运算的基本单位,标量数据也被看作是(1×1)的数组一维数组的创建创建一维数组的几种方法:(e_two_14.m) 直接输入法: ...
洛谷 3106 [USACO14OPEN]GPS的决斗Dueling GPS's 3720 [AHOI2017初中组]guide
[题解] 这两道题是完全一样的. 思路其实很简单,对于两种边权分别建反向图跑dijkstra. 如果某条边在某一种边权的图中不是最短路上的边,就把它的cnt加上1.(这样每条边的cnt是0或1或2,代 ...

使用Post方法模拟登陆爬取网页(转)

使用Post方法模拟登陆爬取网页

使用Post方法模拟登陆爬取网页(转)的更多相关文章

随机推荐

热门专题