Python-S9-Day125-Web微信&爬虫框架之scrapy
01 今日内容概要
02 内容回顾:爬虫
03 内容回顾:网络和并发编程
04 Web微信之获取联系人列表
05 Web微信之发送消息
06 为什么request.POST拿不到数据
07 到底使用json还是data?
08 Web微信之接收消息
09 上述内容总结
10 scrapy安装
11 scrapy基本命令
12 scrapy示例:获取抽屉新闻
13 scrapy创建下载任务
14 今日作业
01 今日内容概要
1.1 Web微信;
1.1.1 获取联系人列表;
1.1.2 发送消息;
1.2 爬虫框架之scrapy(用的多,神箭手工具);
12.1 大而全的Web框架;类比于Django或Flask;
02 内容回顾:爬虫
2.1 第一部分:爬虫
2.1.1 requests和bs4基础
2.1.2 web知识
- 请求和请求
- 携带常见请求头——User-Agent\referer\host\content-type\cookie
- csrf_token——两个tab打开的同时,其中一个tab诱导我们对另外一个tab提交数据;
2.1.3 分析http请求——Chrome浏览器、FireFox浏览器;
2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信;
- XML-数据交换;配置文件;
03 内容回顾:网络和并发编程
3.1 OSI七层模型
3.2 三次握手和四次挥手
3.3 TCP和UDP的区别
3.4 路由器和交换机的区别
3.5 ARP协议
3.6 DNS解析
3.7 HTTP和HTTPS
3.8 进程、线程和携程
3.9 GIL锁
3.10 进程如何进程共享
04 Web微信之获取联系人列表
05 Web微信之发送消息
06 为什么request.POST拿不到数据
07 到底使用json还是data?
08 Web微信之接收消息
09 上述内容总结
9.1 Goal:锻炼分析HTTP请求的能力;
10 scrapy安装

10.1 在爬虫领域,是一个“大而全”的爬虫组件,涵盖了requests、bs4等组件的功能;
10.2 scrapy框架的安装
- windows——下载Twisted文件;pip3 install pywin32 ; pip3 install wheel
- Linux|Unix下的安装pip3 install scrapy;
11 scrapy基本命令
11.1 Django创建Django项目
- 创建项目django-admin startproject HelloDjango
- cd HelloDjango
- 创建应用python manage.py startapp app01
- python manage.py startapp app02
- 启动项目python manage.py runserver
11.2 Scrapy的基本命令;
- 创建项目 scrapy startproject HelloScrapy
- cd HelloScrapy
- scrapy genspider baidu baidu.com
- scrapy genspider jd jd.com
- scrapy crawl baidu
11.3 Scrapy的目录结构;
- scrapy.cfg#主配置文件;
- 项目名称HelloSrapy
- __init__.py
- items.py#定义爬取的数据结构
- middlewares.py#定义爬取时候的中间件
- pipelines.py#定义数据管道
- settings.py#配置文件;
- spiders目录#存放spiders的文件夹;
- __init__.py
12 scrapy示例:获取抽屉新闻
13 scrapy创建下载任务
14 今日作业
14.1 小结;
- HTML解析:xpath
- 再次发起请求:yield Request对象;
Python-S9-Day125-Web微信&爬虫框架之scrapy的更多相关文章
- 06 爬虫框架:scrapy
爬虫框架:scrapy 一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
- 九、爬虫框架之Scrapy
爬虫框架之Scrapy 一.介绍 二.安装 三.命令行工具 四.项目结构以及爬虫应用简介 五.Spiders 六.Selectors 七.Items 八.Item Pipelin 九. Dowload ...
- 洗礼灵魂,修炼python(72)--爬虫篇—爬虫框架:Scrapy
题外话: 前面学了那么多,相信你已经对python很了解了,对爬虫也很有见解了,然后本来的计划是这样的:(请忽略编号和日期,这个是不定数,我在更博会随时改的) 上面截图的是我的草稿 然后当我开始写博文 ...
- 爬虫框架之Scrapy
一.介绍 二.安装 三.命令行工具 四.项目结构以及爬虫应用简介 五.Spiders 六.Selectors 七.Items 八.Item Pipelin 九. Dowloader Middeware ...
- 基于Python + requests 的web接口自动化测试框架
之前采用JMeter进行接口测试,每次给带新人进行培训比较麻烦,干脆用python实现,将代码和用例分离,易于维护. 项目背景 公司的软件采用B/S架构,进行数据存储.分析.管理 工具选择 pytho ...
- 爬虫框架:scrapy
一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
- 爬虫框架之Scrapy(一)
scrapy简介 scrapy是一个用python实现为了爬取网站数据,提取结构性数据而编写的应用框架,功能非常的强大. scrapy常应用在包括数据挖掘,信息处理或者储存历史数据的一系列程序中. s ...
- 爬虫框架之Scrapy(四 ImagePipeline)
ImagePipeline 使用scrapy框架我们除了要下载文本,还有可能需要下载图片,scrapy提供了ImagePipeline来进行图片的下载. ImagePipeline还支持以下特别的功能 ...
- 爬虫框架之Scrapy(三 CrawlSpider)
如何爬取一个网站的全站数据? 可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法) 还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现 简介 ...
随机推荐
- JavaScript基础:(加号,数值转换,布尔转换)
JavaScript中加号运算符"+" 运算过程理解 1) 如果其中一个操作数是对象,则对象会遵循对象到原始值的转换规则转换为原始值.日期对象通过toString()方法执行转换, ...
- ubuntu常见错误
ubuntu常见错误--Could not get lock /var/lib/dpkg/lock解决 ubuntu常见错误--Could not get lock /var/lib/dpkg/loc ...
- 【BZOJ1925】 [SDOI2010] 地精部落(带有一堆性质的动态规划)
点此看题面 大致题意: 问你有多少长度为\(n\)的数列,它当中每个数字要么比旁边两个数字都小,要么比旁边两个数字都大. 性质 这题应该比较显然是一道动态规划题,但刚看到这题时我却无从下手. 其实,了 ...
- Optional int parameter 'fundID' is present but cannot be translated into a null value due to being declared as a primitive type
错误的意思是: "可选的int参数'fundID'存在但由于被声明为基本类型而无法转换为空值" 意思是fundID被申明为int的基本数据类型, 不能转换为字符串的null值. 难 ...
- Ubuntu下安装pip3和Python的第三方库
一.Ubuntu原有环境说明 无论是在服务器上面还是在我们自己的电脑上面,当我们成功安装了Ubuntu系统之后,系统一般情况下会自带Python2.x和Python3.x环境.比如我在自己的阿里云服务 ...
- Java代码工具箱之链接Oracle
1. 需要oracle的 odbc jar包 2. 代码 3. 注意:ps对象和statement对象最好用完立即释放,尤其是读写数据库代码出现在 for 循环语句中时. 否则会出现游标不够的情况, ...
- 跟我一起从零开始学WCF系列课程
http://www.microsoft.com/china/msdn/events/webcasts/shared/webcast/Series/WCF_Begin.aspx 服务和协定 服务协定使 ...
- css代码
#footr { background: #3e434a } #header #blogTitle { background: url("http://images.cnblogs.com/ ...
- eclipse 导出Runnable JAR file ,双击无法执行原因与解决 双击后闪退的原因 批处理java打包文件 @echo off start javaw -jar *.jar
eclipse 导出Runnable JAR file 导出后如果系统没有JRE,双击无法运行,需要用命令方法 安装后解决,如图 双击后闪退的原因,通过执行 java -jar TingGe.jar ...
- 【转】C++ 值传递、指针传递、引用传递详解
而关于值传递,指针传递,引用传递这几个方面还会存在误区, 所有我觉的有必要在这里也说明一下~ 下文会通过例子详细说明哦 值传递: 形参是实参的拷贝,改变形参的值并不会影响外部实参的值.从被调用函数的角 ...