爬虫（scrapy第一篇）

------------------------------------------------------------------------------------------------------------------------------

scrapy shell http://bj.ganji.com/fang1/chaoyang/ 打开shell交互模式

In [1]: response
Out[1]: <200 http://bj.ganji.com/fang1/chaoyang/>

In [2]: view(response)
Out[2]: True

In [26]: response.xpath('''//*[@class="f-list-item "]/dl/dd[5]/div[1]/span[1]/text()''').extract() 利用xpath筛选需要的信息

------------------------------------------------------------------------------------------------------------------------------

参考（视频）：http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001#/learn/content?type=detail&id=1002703036&cid=1003120599

参考：https://zhuanlan.zhihu.com/p/24669128?group_id=834424262096994304

1、Scrapy 爬虫框架----结构简介：

　　实现爬虫功能的一个软件结构和功能组件的集合，整个框架是一个半成品

　　　　1.1、通过数据流动来理解：

　　　　　　路径1：

　　　　　　　　①：Engine从Spider处获取爬取请求（Request）
　　　　　　　　②：Engine将爬取请求转发给Scheduler，用于调度

　　　　　路径2：

　　　　　　　　③：Engine从Scheduler获取下一个要爬取的请求
　　　　　　　　④：Engine将爬取请求通过中间件发送给Downloader

　　　　　　　　⑤爬取网页后，Downloader形成响应（Response）通过中间件发送给Engine

　　　　　　　　⑥Engine收到响应后，通过中间件发送给Spider处理

　　　　　路径3：

　　　　　　　　⑦Spider处理响应请求后产生爬取项（scraped Item）和新的爬取请求（Request）给Engine

　　　　　　　　⑧Engine将爬取项发送给Item Pipeline（框架出口）

　　　　　　　　⑨Engine将爬取请求发送给Scheduler

爬虫（scrapy第一篇）的更多相关文章

(python3爬虫实战-第一篇）利用requests+正则抓取猫眼电影热映口碑榜
今天是个值得纪念了日子,我终于在博客园上发表自己的第一篇博文了.作为一名刚刚开始学习python网络爬虫的爱好者,后期本人会定期发布自己学习过程中的经验与心得,希望各位技术大佬批评指正.以下是我自己做 ...
python爬虫入门---第一篇：获取某一网页所有超链接
这是一个通过使用requests和BeautifulSoup库,简单爬取网站的所有超链接的小爬虫.有任何问题欢迎留言讨论. import requests from bs4 import Beauti ...
python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...

随机推荐

拼接SQL语句缺少“break”
1.错误描述 [ERROR:]2015-07-20 16:42:21,734 [插入失败] org.hibernate.exception.SQLGrammarException: error exe ...
Jqurey 得到url参数 getUrlParam
Jqurey 得到url参数 getUrlParam <script type="text/javascript"> (function ($) { //扩展方法获取u ...
（二十三）mongodb中group的问题
今天的工作中我需要从mongodb数据库中查出一定的数据,并排序后返回给前台,数据库表中包含了ruleID,processingID,userID,updateTime等字段. 同一个ruleI ...
JavaScript解决select下拉框中的内容太长显示不全的问题
JavaScript解决select下拉框中的内容太长显示不全的问题 1.说明有些情况下,select下拉框的内容过长,导致部分看不见: 现在通过鼠标事件,让下拉框中的内容显示完全 2.实现源码 & ...
MyEclipse保存出现错误
1.错误描述 Errors occurred during the build. Errors running builder 'JavaScript Validator' on project 'S ...
javaWeb之eclipse创建Servlet模板快捷键设置
没有模板创建Servlet 出现的是除了doPOST 和doGet方法还有许多方法和一些注释,页面不够清晰创建模板的步骤是: 1.点击window下的preference 选项 2在表单框里填写 ...
IO网络模型
多路处理模型MPM MPM是Apache2引入的一个概念,就是将结构模块化.把核心任务处理作为一个可插拔的模块,使其能针对不同的环境进行优化在这个情况下,就诞生出了处理模式的概念 Prefork 实 ...
NCBI下载sra数据（新）
今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Tool ...
each遍历的用法
C#迭代语句、跳转语句--C#基础
1.foreach每执行一次内含的代码时,循环变量就会一次读取集合中的一个元素,不需要个数.循环变量只是一个只读的局部变量,这个值是不能修改的.char后的word是 foreach语句的迭代变量,它 ...

爬虫（scrapy第一篇）

爬虫（scrapy第一篇）的更多相关文章

随机推荐

热门专题