使用Post方法模拟登陆爬取网页

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：



import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.HashMap;

public class test {

    //post请求地址

    private static final String POST_URL = "";

    //模拟谷歌浏览器请求

    private static final String USER_AGENT = "";

    //用账号登录某网站后 请求POST_URL链接获取cookie

    private static final String COOKIE = "";

    //用账号登录某网站后 请求POST_URL链接获取数据包

    private static final String REQUEST_DATA =  "";

    public static void main(String[] args) throws Exception {

        HashMap<String, String> map = postCapture(REQUEST_DATA);

        String responseCode = map.get("responseCode");

        String value = map.get("value");

        while(!responseCode.equals("200")){

            map =  postCapture(REQUEST_DATA);

            responseCode = map.get("responseCode");

            value = map.get("value");

        }

        //打印爬取结果

        System.out.println(value);

    }

    private static HashMap<String, String> postCapture(String requestData) throws Exception{

        HashMap<String, String> map = new HashMap<>();

        URL url = new URL(POST_URL);

        HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();

        httpConn.setDoInput(true); // 设置输入流采用字节流

        httpConn.setDoOutput(true); // 设置输出流采用字节流

        httpConn.setUseCaches(false); //设置缓存

        httpConn.setRequestMethod("POST");//POST请求

        httpConn.setRequestProperty("User-Agent", USER_AGENT);

        httpConn.setRequestProperty("Cookie", COOKIE);

        PrintWriter out = new PrintWriter(new OutputStreamWriter(httpConn.getOutputStream(), "UTF-8"));

        out.println(requestData);

        out.close();

        int responseCode = httpConn.getResponseCode();

        StringBuffer buffer = new StringBuffer();

        if (responseCode == 200) {

            BufferedReader reader = new BufferedReader(new InputStreamReader(httpConn.getInputStream(), "UTF-8"));

            String line = null;

            while ((line = reader.readLine()) != null) {

                buffer.append(line);

            }

            reader.close();

            httpConn.disconnect();

        }

        map.put("responseCode", new Integer(responseCode).toString());

        map.put("value", buffer.toString());

        return map;

    }

}

原文地址：
http://wangxin123.com/2016/12/19/%E4%BD%BF%E7%94%A8Post%E6%96%B9%E6%B3%95%E6%A8%A1%E6%8B%9F%E7%99%BB%E9%99%86%E7%88%AC%E5%8F%96%E7%BD%91%E9%A1%B5/

使用Post方法模拟登陆爬取网页(转)的更多相关文章

使用Post方法模拟登陆爬取网页
最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStre ...
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...
使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据
1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
PHP爬取网页的主要方法，你掌握了吗
这篇文章讲的是PHP爬取网页的主要方法,主要流程就是获取整个网页,然后正则匹配(关键的). PHP抓取页面的主要方法,有几种方法是网上前辈的经验,现在还没有用到的,先存下来以后试试. file()函数 ...
python（27）requests 爬取网页乱码，解决方法
最近遇到爬取网页乱码的情况,找了好久找到了种解决的办法: html = requests.get(url,headers = head) html.apparent_encoding html.enc ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

随机推荐

R in action读书笔记（10）-第八章：回归-- 异常观测值改进措施
8.4 异常观测值 8.4.1 离群点 car包也提供了一种离群点的统计检验方法.outlierTest()函数可以求得最大标准化残差绝对值Bonferroni调整后的p值: > library ...
was--创建概要文件（典型）
1.第一步 2 .创建 3.创建 4 .典型 5 下一步 6 下一步 7.下一步 8.输入用户和密码,下一步 9.下一步 10.下一步 11.下一步 12.下一步 13.下一步 14.创建 ...
用16G内存在Java
用16G内存在Java Map中处理30亿对象在一个下雨的夜晚,我在思考Java中内存管理的问题,以及Java集合对内存使用的效率情况.我做了一个简单的实验,测试在16G内存条件下,Java的Map ...
ORM-PetaPoco
PetaPoco有以下特色:--------------------------20170715姜彦微小,没有依赖项……单个的C#文件可以方便的添加到任何项目中. 工作于严格的没有装饰的Poco类, ...
关于mapState和mapMutations和mapGetters 和mapActions辅助函数的用法及作用（二）-----mapMutations
在组件中提交Mutations: import { mapState, mapMutations } from 'vuex' export default { data() { return { ms ...
数据库系统概论(1)——Chap. 1 Introduction
数据库系统概论--Introduction 一.数据库的4个基本概念数据(data):数据是数据库中存储的基本单位.我们把描述事物的符号记录称为数据.数据和关于数据的解释是不可分的,数据的含义称为数 ...
异步编程when.js
when.js很小,压缩后只有数kb,gzip后的大小几乎可以忽略.在Node和浏览器环境里都可以使用when.js 首先,我们看一小段代码: var getData = function(callb ...
mysql 添加记录或者删除记录
insert into tableName (prod1,pord2,... ) values (v1,v2,...) [,(v1,v2,...),(v1,v2,...)] 程度从强到弱 1.drop ...
JAVA基础——IO流字符流
字符流字节流提供了处理任何类型输入/输出操作的功能(因为对于计算机而言,一切都是0和1,只需把数据以字节形式表示就够了),但它们不可以直接操作Unicode字符,因为上一篇文章写了,一个Unicod ...
iOS 导航栏风格
IOS-导航栏风格导航控制器可以用几种不同的风格来显示自身.默认风格就是标准的灰色外观.目前支持三种不同的风格. 风格描述 UIBarStyleDefault 默认风格:灰色背景, ...

使用Post方法模拟登陆爬取网页(转)

使用Post方法模拟登陆爬取网页

使用Post方法模拟登陆爬取网页(转)的更多相关文章

随机推荐

热门专题