使用Post方法模拟登陆爬取网页

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：



import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.HashMap;

public class test {

	//post请求地址

	private static final String POST_URL = "";

	//模拟谷歌浏览器请求

	private static final String USER_AGENT = "";

	//用账号登录某网站后 请求POST_URL链接获取cookie

	private static final String COOKIE = "";

	//用账号登录某网站后 请求POST_URL链接获取数据包

	private static final String REQUEST_DATA =  "";

	public static void main(String[] args) throws Exception {

		HashMap<String, String> map = postCapture(REQUEST_DATA);

		String responseCode = map.get("responseCode");

		String value = map.get("value");

		while(!responseCode.equals("200")){

			map =  postCapture(REQUEST_DATA);

			responseCode = map.get("responseCode");

			value = map.get("value");

		}

		//打印爬取结果

		System.out.println(value);

	}

	private static HashMap<String, String> postCapture(String requestData) throws Exception{

		HashMap<String, String> map = new HashMap<>();

		URL url = new URL(POST_URL);

		HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();

		httpConn.setDoInput(true); // 设置输入流采用字节流

		httpConn.setDoOutput(true); // 设置输出流采用字节流

		httpConn.setUseCaches(false); //设置缓存

		httpConn.setRequestMethod("POST");//POST请求

		httpConn.setRequestProperty("User-Agent", USER_AGENT);

		httpConn.setRequestProperty("Cookie", COOKIE);

		PrintWriter out = new PrintWriter(new OutputStreamWriter(httpConn.getOutputStream(), "UTF-8"));

		out.println(requestData);

		out.close();

		int responseCode = httpConn.getResponseCode();

		StringBuffer buffer = new StringBuffer();

		if (responseCode == 200) {

			BufferedReader reader = new BufferedReader(new InputStreamReader(httpConn.getInputStream(), "UTF-8"));

			String line = null;

			while ((line = reader.readLine()) != null) {

				buffer.append(line);

			}

			reader.close();

			httpConn.disconnect();

		}

		map.put("responseCode", new Integer(responseCode).toString());

		map.put("value", buffer.toString());

		return map;

	}

}

原文地址：

http://wangxin123.com/2016/12/19/使用Post方法模拟登陆爬取网页/

使用Post方法模拟登陆爬取网页的更多相关文章

使用Post方法模拟登陆爬取网页(转)
使用Post方法模拟登陆爬取网页最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; impor ...
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制 ...
使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据
1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
PHP爬取网页的主要方法，你掌握了吗
这篇文章讲的是PHP爬取网页的主要方法,主要流程就是获取整个网页,然后正则匹配(关键的). PHP抓取页面的主要方法,有几种方法是网上前辈的经验,现在还没有用到的,先存下来以后试试. file()函数 ...
python（27）requests 爬取网页乱码，解决方法
最近遇到爬取网页乱码的情况,找了好久找到了种解决的办法: html = requests.get(url,headers = head) html.apparent_encoding html.enc ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

随机推荐

06 Theory of Generalization
若H的断点为k,即k个数据点不能被H给shatter,那么k+1个数据点也不能被H给shatter,即k+1也是H的断点. 如果给定的样本数N是大于等于k的,易得mH(N)<2N,且随着N的增大 ...
你说你精通CSS，真的吗？
以前做项目的时候,学习了HTML和CSS,感觉这两个比较简单,在W3school里学习了一下之后,就觉得自己已经没问题了.可是,真正要做一个好看的页面,我还是要写好久.其实,对于CSS,我并没有像我以 ...
android布局中画线的方法
1.自定义View画线 http://fariytale.iteye.com/blog/1264225 下面介绍几种简单的方法 2.textView和View画直线 <TextView andr ...
Html 经典布局（一）
经典布局案例(一): <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...
使用JS控制伪元素的几种方法
一. 缘由: 本文源于在OSC社区中,有人提问如何用jq获取伪元素.我第一想法是强大的CSS Query应该可以获取伪元素吧. 然而事实上,CSS Query并不能.即我们不能通过$(":b ...
ubuntu 下安装Angular2-cli脚手架
一.首先需要安装node,npm. 请到nodejs官网进行下载并跟据提示进行安装版本号中间偶数为稳定版本建议下载 https://nodejs.org/en/ node相关操作 https://n ...
onmouseover事件
根据教学视频写了个onmouseover事件: <!DOCTYPE html> <html> <head> <meta charset="UTF-8 ...
java写文件读写操作（IO流，字符流）
package copyfile; import java.io.*; public class copy { public static void main(String[] args) throw ...
[ SharePoint ADFS 开发部署系列（一）]
前言本文完全原创,转载请说明出处,希望对大家有用. 随着企业信息化建设逐渐成熟,基于微软体系的企业内部系统架构在众多企业中得到应用,随之而来的用户统一身份认证(SSO)问题成为企业IT部门急需解决的 ...
spring学习总结一----控制反转与依赖注入
spring作为java EE中使用最为广泛的框架,它的设计体现了很多设计模式中经典的原则和思想,所以,该框架的各种实现方法非常值得我们去研究,下面先对spring中最为重要的思想之一----控制反转 ...

使用Post方法模拟登陆爬取网页

使用Post方法模拟登陆爬取网页的更多相关文章

随机推荐

热门专题