爬虫2.3-scrapy框架-post、shell、验证码

scrapy框架-post请求和shell

scrapy框架-post请求和shell

1. post请求

scrapy框架在开始时，会直接调用start_requests(self) 函数，所以需要重写start_requests方法，并且不调用start_urls里面的url，之后再使用回调函数进入真正的数据解析函数

class RenrenSpider(scrapy.Spider):

    name = 'renren'

    allowed_domains = ['renren.com']

    start_urls = ['http://renren.com/']

    def start_requests(self):

        url = "http://www.renren.com/PLogin.do"

        data = { 'email': '970138074@qq.com', 'password':'pythonspider', }

        requese = scrapy.FormRequest(url, formdata=data, callback=self.parse_page)

        # post方法请求页面，最好使用FormRequest函数

        yield requese

    def parse_page(self, response):

        with open('renren.html', 'w', encoding='utf-8') as fp:

            fp.write(response.text)

		# 将页面写成html文件，用浏览器打开即可证明post请求成功。

2. scrapy shell

当我们想测试xpath语法得到的结果时，不停启动整个项目实际上是很笨重的，所以scrapy shell可以帮助我们测试数据解析语句效果

cmd

>> cd [projectname]

>> scrapy shell url

>> 返回一堆可以使用的对象，这里没有深入研究，只使用了response

>> title = response.xpath(r"//h[@class='ph']/text()").get()

>> title

>> 数据。。

>> contents = response.xpath(r"//td[@id='article_content']//text()").getall()  # 获取td标签下所有的文本，所以使用getall() 获取，返回一个列表

>> content = ''.join(contents).strip()  # 将contens列表中的所有本文去除换行和空格送入

>> content

>> 显示一堆数据

3. 验证码识别

思路：

找到登陆的url，username，password表单格式，以及验证码url，然后将验证码下载到本地，此时有两种识别方法

1 将验证码展示在屏幕上，人工识别，手动输入

2 阿里云验证码识别服务，将图片下载后按照阿里云验证码识别的要求将数据发送给它，等待结果，处理json数据，提取验证码。

爬虫2.3-scrapy框架-post、shell、验证码的更多相关文章

第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
第三百三十二节，web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
第三百三十二节,web爬虫讲解2—Scrapy框架爬虫—Scrapy使用 xpath表达式 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签 /x 表示向下查找一层指定的标签 ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
5、爬虫系列之scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...
十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip2.安装,wheel(建议网络安装) pip install wheel ...
爬虫系列之Scrapy框架
一 scrapy框架简介 1 介绍 (1) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能 ...

随机推荐

C语言的谜题
本篇文章<C语言的谜题>展示了14个C语言的迷题以及答案,代码应该是足够清楚的,而且我也相信有相当的一些例子可能是我们日常工作可能会见得到的.通过这些迷题,希望你能更了解C语言.如果你不看 ...
C语言入门编程思维引导
编程思维引导: C语言中 include<stdio.h> 称之为导包,导入写好的函数库,多个则依次写 #define N 3 意思是将N这个字母定义为数字3 当使用的时候就直接用 i ...
statsvn,代码统计
#! /bin/bash # 计算有效变更代码量的脚本 #./svnCount -thttps://192.168.1.1/xxx -s1000 -e2000 -uxxx -pxxx version( ...
webStorm安装以及集成git使用！
一:安装webstorm 百度网盘地址:https://pan.baidu.com/s/1K96mg7WYHc6X3odtk7_f2g 密码:2cgd 二:破解webstorm 1:选择liste ...
PhpStorm中无法用post提交的解决方案
这是一个简单的计算器,html页面: <!DOCTYPE html> <html lang="en"> <head> <meta char ...
Shellinabox on centos6.9
介绍一款实用的web linux终端, 并且保证操作安全性(屏蔽root用户) 下面以centos6.9为例安装首先安装epel仓库,再安装shellinabox yum -y install ...
Kafka解惑之时间轮 (TimingWheel)
Kafka中存在大量的延迟操作,比如延迟生产.延迟拉取以及延迟删除等.Kafka并没有使用JDK自带的Timer或者DelayQueue来实现延迟的功能,而是基于时间轮自定义了一个用于实现延迟功能的定 ...
A1038
用一串数拼接成一个数,输出最小的. 思路:使用string和相关的函数. #include<iostream> #include<cstdio> #include<str ...
# 20155236 2016-2017-2 《Java程序设计》第二周学习总结
20155236 2016-2017-2 <Java程序设计>第二周学习总结教材学习内容总结对于类型.变量.运算符.流程控制等等的学习.在其中包含着基本的语法元素,还有基本的逻辑语句. ...
20155308&20155316 2017-2018-1 《信息安全系统设计基础》实验一
20155308&20155316 2017-2018-1 <信息安全系统设计基础>实验一此次实验我和黄月同学一起做了1.2.3.5项,第4项在实验课上做完了,但是没有按时提交. ...