01 今日内容概要
02 内容回顾：爬虫
03 内容回顾：网络和并发编程
04 Web微信之获取联系人列表
05 Web微信之发送消息
06 为什么request.POST拿不到数据
07 到底使用json还是data？
08 Web微信之接收消息
09 上述内容总结
10 scrapy安装
11 scrapy基本命令
12 scrapy示例：获取抽屉新闻
13 scrapy创建下载任务
14 今日作业

01 今日内容概要

1.1 Web微信；

　　1.1.1 获取联系人列表；

　　1.1.2 发送消息；

1.2 爬虫框架之scrapy（用的多，神箭手工具）；

　　12.1 大而全的Web框架；类比于Django或Flask；

02 内容回顾：爬虫

2.1 第一部分：爬虫

　　2.1.1 requests和bs4基础

　　2.1.2 web知识

请求和请求
携带常见请求头——User-Agent\referer\host\content-type\cookie
csrf_token——两个tab打开的同时，其中一个tab诱导我们对另外一个tab提交数据；

　　2.1.3 分析http请求——Chrome浏览器、FireFox浏览器；

　　2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信；

XML-数据交换；配置文件；

03 内容回顾：网络和并发编程

3.1 OSI七层模型

3.2 三次握手和四次挥手

3.3 TCP和UDP的区别

3.4 路由器和交换机的区别

3.5 ARP协议

3.6 DNS解析

3.7 HTTP和HTTPS

3.8 进程、线程和携程

3.9 GIL锁

3.10 进程如何进程共享

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data？

08 Web微信之接收消息

09 上述内容总结

9.1 Goal:锻炼分析HTTP请求的能力；

10 scrapy安装

10.1 在爬虫领域，是一个“大而全”的爬虫组件，涵盖了requests、bs4等组件的功能；

10.2 scrapy框架的安装

windows——下载Twisted文件；pip3 install pywin32 ; pip3 install wheel
Linux|Unix下的安装pip3 install scrapy;

11 scrapy基本命令

11.1 Django创建Django项目

创建项目django-admin startproject HelloDjango
cd HelloDjango
创建应用python manage.py startapp app01
python manage.py startapp app02
启动项目python manage.py runserver

11.2 Scrapy的基本命令；

创建项目 scrapy startproject HelloScrapy
cd HelloScrapy
scrapy genspider baidu baidu.com
scrapy genspider jd jd.com
scrapy crawl baidu

11.3 Scrapy的目录结构；

scrapy.cfg#主配置文件；
项目名称HelloSrapy
__init__.py
items.py#定义爬取的数据结构
middlewares.py#定义爬取时候的中间件
pipelines.py#定义数据管道
settings.py#配置文件；
spiders目录#存放spiders的文件夹；
__init__.py

12 scrapy示例：获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

14.1 小结；

HTML解析：xpath
再次发起请求：yield Request对象；

Python-S9-Day125-Web微信&爬虫框架之scrapy的更多相关文章

06 爬虫框架：scrapy
爬虫框架:scrapy 一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
九、爬虫框架之Scrapy
爬虫框架之Scrapy 一.介绍二.安装三.命令行工具四.项目结构以及爬虫应用简介五.Spiders 六.Selectors 七.Items 八.Item Pipelin 九. Dowload ...
洗礼灵魂，修炼python（72）--爬虫篇—爬虫框架：Scrapy
题外话: 前面学了那么多,相信你已经对python很了解了,对爬虫也很有见解了,然后本来的计划是这样的:(请忽略编号和日期,这个是不定数,我在更博会随时改的) 上面截图的是我的草稿然后当我开始写博文 ...
爬虫框架之Scrapy
一.介绍二.安装三.命令行工具四.项目结构以及爬虫应用简介五.Spiders 六.Selectors 七.Items 八.Item Pipelin 九. Dowloader Middeware ...
基于Python + requests 的web接口自动化测试框架
之前采用JMeter进行接口测试,每次给带新人进行培训比较麻烦,干脆用python实现,将代码和用例分离,易于维护. 项目背景公司的软件采用B/S架构,进行数据存储.分析.管理工具选择 pytho ...
爬虫框架：scrapy
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
爬虫框架之Scrapy(一)
scrapy简介 scrapy是一个用python实现为了爬取网站数据,提取结构性数据而编写的应用框架,功能非常的强大. scrapy常应用在包括数据挖掘,信息处理或者储存历史数据的一系列程序中. s ...
爬虫框架之Scrapy（四 ImagePipeline）
ImagePipeline 使用scrapy框架我们除了要下载文本,还有可能需要下载图片,scrapy提供了ImagePipeline来进行图片的下载. ImagePipeline还支持以下特别的功能 ...
爬虫框架之Scrapy（三 CrawlSpider）
如何爬取一个网站的全站数据? 可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法) 还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现简介 ...

随机推荐

IP地址与数字地址相互转换
/// <summary> /// IP地址转换成数字 /// </summary> /// <param name="addr">IP地址&l ...
HDU1664 BFS + 数论 + 剪枝
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1664 , 一道比较蛋疼的搜索题. 这道题有很多坑点,一点处理不好就要TLE. 题意很简单,就是找到一个 ...
如何查看CRM WebUI，C4C和Hybris里的页面技术信息
CRM 在WebClient UI页面上按F2,就能看到页面的技术信息, 可以找到当前页面是哪一个BSP component实现的: C4C 在浏览器url里添加debugMode=true,然后按住 ...
python_41_with语句
#为了避免打开文件后忘记关闭,可以通过管理上下文,即:with open('log','r') as f: # 如此方式,当with代码块执行完毕时,内部会自动关闭并释放文件资源. with open ...
js数据结构处理--------扁平化数组处理为树结构数据
将扁平化的数组处理为树结构数据,我们可以利用对象来处理,对象的复制是浅拷贝,指向相同的内存地址: var arr = [ { id: 0, pid: -1, name: 'sadas' }, { id ...
Cobbler自动安装的Linux系统ssh无法进入
Linux ssh登陆老提示“permission denied,please try again” ,但是iptables已经关掉了修改/etc/ssh/sshd_config文件.找如下的一句 ...
JQuery的checkbox全选与全不选操作
最主要是:子选择框要与总选择框的状态一致,即当选择总选择框时,向子选择框添加属性,使用jquery中的attr属性例: html中的代码 <input type="checkbox& ...
1043: [HAOI2008]下落的圆盘
Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 1725 Solved: 743[Submit][Status][Discuss] Descripti ...
Uva 长城守卫——1335 - Beijing Guards
二分查找+一定的技巧 #include<iostream> using namespace std; +; int n,r[maxn],Left[maxn],Right[maxn];//因 ...
HTTP 配置与编译安装
目录 HTTP 配置与编译安装 HTTP 相关配置 DSO 定义'Main' Server 的文档页面路径定义站点主页面站点访问控制常见机制基于源地址实现访问控制日志设定设定默认字符集定义 ...

Python-S9-Day125-Web微信&爬虫框架之scrapy

01 今日内容概要

02 内容回顾：爬虫

03 内容回顾：网络和并发编程

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data？

08 Web微信之接收消息

09 上述内容总结

10 scrapy安装

11 scrapy基本命令

12 scrapy示例：获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

01 今日内容概要

1.1 Web微信；

1.2 爬虫框架之scrapy（用的多，神箭手工具）；

02 内容回顾：爬虫

2.1 第一部分：爬虫

2.1.1 requests和bs4基础

2.1.2 web知识

2.1.3 分析http请求——Chrome浏览器、FireFox浏览器；

2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信；

03 内容回顾：网络和并发编程

3.1 OSI七层模型

3.2 三次握手和四次挥手

3.3 TCP和UDP的区别

3.4 路由器和交换机的区别

3.5 ARP协议

3.6 DNS解析

3.7 HTTP和HTTPS

3.8 进程、线程和携程

3.9 GIL锁

3.10 进程如何进程共享

04 Web微信之获取联系人列表

05 Web微信之发送消息

06 为什么request.POST拿不到数据

07 到底使用json还是data？

08 Web微信之接收消息

09 上述内容总结

9.1 Goal:锻炼分析HTTP请求的能力；

10 scrapy安装

10.1 在爬虫领域，是一个“大而全”的爬虫组件，涵盖了requests、bs4等组件的功能；

10.2 scrapy框架的安装

11.1 Django创建Django项目

11.2 Scrapy的基本命令；

11.3 Scrapy的目录结构；

12 scrapy示例：获取抽屉新闻

13 scrapy创建下载任务

14 今日作业

14.1 小结；

Python-S9-Day125-Web微信&爬虫框架之scrapy的更多相关文章

随机推荐

热门专题

　　2.1.1 requests和bs4基础

　　2.1.2 web知识

　　2.1.3 分析http请求——Chrome浏览器、FireFox浏览器；

　　2.1.4 爬虫的套路-汽车之家、抽屉、抽屉登录、github、拉钩、Web微信；