python爬虫学习(3)

1.登陆超星慕课,chrome抓包，模拟header，提取表单隐藏元素构成params。

　　主要是验证码图片地址，在js中发现由js->new Date().getTime()时间戳动态生成url，python对应time.time(),生成验证码图片url，图片下载在本地，手动输入。代码如下：

#coding=utf-8

import requests

import time

from bs4 import BeautifulSoup

header={

         'Referer':'http://aust.fanya.chaoxing.com/portal',

         'Upgrade-Insecure-Requests':'1',

         'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36        (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'

}

name=raw_input("input name:")

password=raw_input("input password:")

num=int(time.time()) #时间戳，取整

code_url='http://passport2.chaoxing.com/num/code/?'+str(num) #图片url

session=requests.Session()

r=session.get(code_url)

image=r.content

with open('/home/zhanyunwu/code.jpg','wb') as f:

    f.write(image)

numcode=raw_input("input code:")

#post的参数

params={

    'refer_0x001':'http%3A%2F%2Fi.mooc.chaoxing.com%2Fspace%2Findex.shtml',

    'pid':'1',

    'pidName':'',

    'fid':'12007',

    'fidName':'安徽理工大学',

    'allowJoin':'0',

    'isCheckNumCode':'1',

    'f':'0',

    'uname':name,

    'password':password,

    'numcode':numcode

}

url='http://passport2.chaoxing.com/login' #form提交的url

req=session.post(url,params,headers=header)

courses=session.get('http://mooc12.chaoxing.com/visit/courses',cookies=req.cookies,headers=header) #通过成功登陆的cookie访问其他页面

　2.浏览器已成功登陆，通过保存的cookie登陆豆瓣

#coding=utf-8

import requests

session=requests.Session()

cookie={}

allcookie='ll="118190"; bid=c3kC6ui9q28; _pk_id.100001.8cb4=4c5ed6a80ede35ed.1471684466.1.1471684546.1471684466.; _pk_ses.100001.8cb4=*; __utma=30149280.794301906.1471684473.1471684473.1471684473.1; __utmb=30149280.2.9.1471684473; __utmc=30149280; __utmz=30149280.1471684473.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; dbcl2="140658732:f1Vx65Uloqc"; ck=FGYf; push_noty_num=0; push_doumail_num=0; _vwo_uuid_v2=0B4AF16F37C54670B861F7D7A7C5B679|5b7205084917bf0bf6bd9380a8224a9d'

for c in allcookie.split(";"):

    key,value=c.split("=",1)

    cookie[key]=value

s=session.get('http://www.douban.com/people/140658732/',cookies=cookie)

print s.content

text=s.content

with open("/home/zhanyunwu/test.html","wb") as f1:

   f1.write(text)

python爬虫学习(3)_模拟登陆的更多相关文章

Python爬虫学习笔记之模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程,需要探究后台的登陆请求是怎样发送的,登陆之后又有怎样的处理过程. 如果已经 ...
Python爬虫教程：requests模拟登陆github
1. Cookie 介绍 HTTP 协议是无状态的.因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信.Cookie 就是「其他手段」之一. Cookie 一个典型的应用场景,就是 ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

随机推荐

HTML知识点纲要（1）
什么是 HTML?HTML,全称是Hyper Text Markup Language,即超文本标记语言.是用来描述网页的一种标记语言. HTML 标签HTML标签是由尖括号包围的关键词,通常成对出现 ...
ubuntu server 安装
http://tigerlchen.iteye.com/blog/1765765 解决CDROM找不到的bug
easy ui tree 取复选框打勾的值
var nodes = $('#basetree').tree('getChecked'); var cnode = ''; for ( var i = 0; i < nodes.length; ...
"position:relative"在IE中的Bug
当子元素过高导致父元素出现滚动条时,它并不会像预期的那样呆在父元素里,而是浮在父元素之上,并且位置不随滚动条的移动而改变.根源就是子元素的"position:relative".目 ...
全面理解.htaccess语法中RewriteCond和RewriteRule意义
RewriteCond的语法 RewriteCond TestString CondPattern [Flags]其中的TestString是指一个文本格式的条件,例子中用的是环境变量名HTTP_HO ...
Windows使用Apache2配置Git服务器
Windows使用Apache2配置Git服务器本文地址:http://www.cnblogs.com/cnscoo/p/3373095.html Git下载: 网站:https://code.go ...
JDBC 基础知识总结
1. 何谓JDBC --- Java Database Connectivity. 由Sun 公司提供的访问数据库的一组java类和接口,用来对数据库进行链接.发送SQL语句.处理返回结果,为开发 ...
What does it mean for an algorithm to be fair
What does it mean for an algorithm to be fair In 2014 the White House commissioned a 90-day study th ...
3G 2G GPRS 1G的概念
3G, 第三代移动通信技术(3rd-generation,3G),是指支持高速数据传输的蜂窝移动通讯技术.3G服务能够同时传送声音及数据信息,速率一般在几百kbps以上.3G标准:它们分别是WCDM ...
QLGame 2D Engine编写环境搭建
QLGame 2D Engine编写 (win7环境搭建) 广州麒麟网络工作室,计划制作一款2d game engine,基于opengl(es)平台,暂时支持android,以后考虑支持linux, ...

python爬虫学习(3)_模拟登陆

python爬虫学习(3)_模拟登陆的更多相关文章

随机推荐

热门专题