Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化

代码如下：

 # coding:utf-8

 from selenium import webdriver

 import requests

 import sys

 import time

 from lxml import etree

 import cPickle

 import os

 # reload(sys)

 # sys.setdefaultencoding('utf-8')

 class Zhihu:

     def __init__(self,homeurl):

         self.homeurl = homeurl

     def save_session(self,session): #保存session，下次可直接使用，避免再次登录

         with open('session.txt','wb') as f:

             cPickle.dump(session, f)

             print "Cookies have been writed."

     def load_session(self):     #加载session

         with open('session.txt', 'rb') as f:

             s = cPickle.load(f)

         return s

     def GetCookies(self):       #初次登录用selenium模拟，并获得cookies

         browser = webdriver.Chrome()

         browser.get("https://www.zhihu.com/signin")

         browser.find_element_by_xpath("//main//div[2]/div[1]/form/div[1]/div[2]/div[1]/input").send_keys("")

         browser.find_element_by_xpath("//main//div[2]/div[1]/form/div[2]/div/div[1]/input").send_keys("xxxxxx")

         browser.find_element_by_xpath("//main//div[2]/div[1]/form/button").click()

         time.sleep(10)

         cookies = browser.get_cookies()

         browser.quit()

         return cookies

     def get_session(self):  #获取session

         s = requests.Session()

         if not os.path.exists('session.txt'):   #如果没有session，则创建一个，并且保存到文件中

             s.headers.clear()

             for cookie in self.GetCookies():

                 s.cookies.set(cookie['name'], cookie['value'])

             self.save_session(s)

         else:                                   #如果已存在session，则直接加载使用

             s = self.load_session()

         return s

     def Crawl(self):    #开始爬取

         s = self.get_session()

         html = s.get(self.homeurl).text

         html_tree = etree.HTML(html)

         items = html_tree.xpath('//main//div[1]/div[2]//div[@class="ContentItem AnswerItem"]/@data-zop')

         for item in items:

             content = eval(item)

             authorName = content['authorName']

             title = content['title']

             print authorName + "回答了：" + title

 zhihu = Zhihu('https://www.zhihu.com/')

 zhihu.Crawl()

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化的更多相关文章

selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
python爬虫知乎问答
python爬虫知乎问答 import cookielibimport base64import reimport hashlibimport jsonimport rsaimport binasci ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
python selenium模拟登陆163邮箱。
selenium是可以模拟浏览器操作. 有些爬虫是异步加载的,通过爬取网页源码是得不到需要的内容.所以可以模拟浏览器去登陆该网站进行爬取操作. 需要安装selenium通过pip install xx ...
使用selenium模拟登陆淘宝、新浪和知乎
如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...
Python爬虫初学（三）—— 模拟登录知乎
模拟登录知乎这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过 ...
使用python - selenium模拟登陆b站
思路输入用户名密码点击登陆获取验证码的原始图片与有缺口的图片找出两张图片的缺口起始处拖动碎片功能代码段 # 使用到的库 from selenium import webdriver from ...

随机推荐

overlay和overlay2的区别
docker作为一个容器平台,它有一套自己的存储系统.它支持的driver有overlay,overlay2, aufs等等. 这篇文章主要分析overlay和overlay2的区别. overlay ...
Git相关命令教程
一.在GitHub上创建新项目 (1)在GitHub首页 “New repository”,创建新版本库“test” (2)在本地使用GitBash,将repository clone到本地 git ...
js中推断浏览器类型
在实际看发展.有时候会遇到在IOS和Android中要用不同的方法处理网页.须要让网页返回当前浏览器的类型. /** * 推断浏览器类型 */ var Browse = function () { / ...
MQTT---HiveMQ源代码具体解释(十四)Persistence-LocalPersistence
源博客地址:http://blog.csdn.net/pipinet123 MQTT交流群:221405150 简单介绍 HiveMQ的Persistence提供配置包含File和Memory,以解决 ...
iOS 自己定义页面的切换动画与交互动画 By Swift
在iOS7之前,开发人员为了寻求自己定义Navigation Controller的Push/Pop动画,仅仅能受限于子类化一个UINavigationController,或是用自己定义的动画去覆盖 ...
SAS连接MYSQL的步骤及引用数据表
1.建立逻辑库 libname dz ’物理路径'; 2.逻辑库做为桥梁连接SAS与MYSQL libname dz MYSQL USER=***** PASSWORD=**** DATABA ...
Linux 网络概述
OSI參考模型与TCP/IP參考模型如上图所看到的. OSI的应用层.表示层.会话层相应TCP/IP的应用层:OSI的传输层相应TCP/IP的传输层.OSI的网络层相应TCP/IP的网络层:OIS的 ...
26:IPMaskCheck识别有效的ip地址和掩码并分类统计
题目描述请解析IP地址和对应的掩码,进行分类识别.要求按照A/B/C/D/E类地址归类,不合法的地址和掩码单独归类. 所有的IP地址划分为 A,B,C,D,E五类 A类地址1.0.0.0~126.2 ...
Java 加载器
类的加载是由类加载器完成的,类加载器包括: 根加载器( BootStrap ).扩展加载器( Extension ).系统加载器( System )和用户自定义类加载器( java.lang.Clas ...
elementary OS安装搜狗输入法
© 版权声明:本文为博主原创文章,转载请注明出处 1.添加搜狗输入法的软件源 sudo add-apt-repository ppa:fcitx-team/nightly 1.1 可能遇到的问题: s ...

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化

Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化的更多相关文章

随机推荐

热门专题