scrapy处理需要跟进的url

在做scrapy爬虫的时候经常会遇到需要跟进url的情况，网站a有许多url，但是我们需要跟进这些url，进一步获取这些url中的详细内容。

简单的说就是要先解析出所有需要的url，然后跟进这些url

那么现在来说说怎么做

scrapy中有个Request专门处理跟进的url

from scrapy.http import Request

在处理函数parse中进行跟进

    def parse(self, response):

        hxs = Selector(response)

        urls = hxs.xpath('//div[@class="li-info"]//h3//a/@href').extract()

        for url in urls:

            yield Request(url, callback=self.get_community)

callback中的函数才是重点，对跟进的url再次发送请求，

    def get_community(self, response):

        hxs = Selector(response)

        item = CommunityItem()

        yield item

这个函数用来进行对跟进的url进行解析，以便得到我们想要的数据

这里只是跟进了一次url，如果需要跟进多次url，可以多次使用Request，多个回调函数处理。

scrapy处理需要跟进的url的更多相关文章

scrapy 采集网页出现丢失url的问题
url_list = ["http://www.icoat.cc/news/list_18_3.html", "http://www.icoat.cc/news/list ...
scrapy::Max retries exceeded with url
运行scrapy时出错这个错误:Max retries exceeded with url解决方法: img1=requests.get(url=aa,headers=header1,timeout= ...
scrapy中自动补全url
url = "https:" + url 或者url = response.urljoin(url) #这里代表的是自动补全url
scrapy获取重定向之前的url
通过 response.request.meta['redirect_urls'] 来获取跳转之前的链接
Scrapy开发指南
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. Scrapy基于事件驱动网络框架 Twis ...
【Python实战】Scrapy豌豆荚应用市场爬虫
对于给定的大量APP,如何爬取与之对应的(应用市场)分类.描述的信息?且看下面分解. 1. 页面分析当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wan ...
scrapy爬虫框架入门实例（一）
流程分析抓取内容(百度贴吧:网络爬虫吧) 页面: http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=ut ...
python爬虫框架scrapy初识(一)
Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.所谓网络爬虫,就是一个在网上到处或定向抓取数据的 ...
python网络爬虫之scrapy 工程创建以及原理介绍
执行scrapy startproject XXXX的命令,就会在对应的目录下生成工程在pycharm中打开此工程目录:并在Run中选择Edit Configuration 点击+创建一个Pytho ...

随机推荐

MySQL中的内连接、外连接、交叉连接
内连接(INNER JOIN): 分为三种等值连接.自然连接.不等连接外连接(OUTER JOIN): 左外连接(LEFT OUTER JOIN或LEFT JOIN) 右 ...
android studio 入门比较好的书籍
http://blog.csdn.NET/aqi00/article/details/50012511 http://blog.csdn.net/aqi00/article/details/73065 ...
section
@RenderSection("Header") @section Header { <div class="view"> @foreach ( ...
关于xargs cp中，如何确定拷贝的源和目的
来源: http://bbs.chinaunix.net/thread-1022095-1-1.html Seker: find . -name "*" |xargs cp ??? ...
【剑指offer】（第 2 版）Java 题解
[剑指offer](第 2 版)Java 题解第一章面试的流程略... 第二章面试需要的基础知识面试题 1. 赋值运算符函数面试题 2. 实现 Singleton 模式 Solution ...
PAT L3-005. 垃圾箱分布
最短路. 枚举垃圾箱放哪里,然后算最短路. #include<map> #include<set> #include<ctime> #include<cmat ...
STM32通用定时器实现LED灯闪烁
刚才看了一下STM32通用定时器的教程,其实和51的定时器使用差不多.只是因为32的时钟更复杂,可操控的寄存器更多,所以写的时候可能更复杂. 使用通用定时器中断的一般步骤:1.使能定时器时钟这个需要 ...
一个菜鸟正在用SSH写一个论坛（1）
嗯..搞定了注册和登录,说明我的SSH整合已经没有问题了,那么我就继续折腾了. 我的目的是用SSH框架写一个论坛(当然是功能最简单的那种),搞定了整合之后我打算先做出一些基本的功能,于是我就先简单的设 ...
杭电oj 1001
#include<iostream> using namespace std; int main() { , sum; while (cin>>n) { sum = ; // ...
POJ2234 Matches Game 尼姆博弈博弈论
http://poj.org/problem?id=2234 尼姆博弈(Nimm's Game) 指的是这样一个博弈游戏:有任意堆物品,每堆物品的个数是任意的,双方轮流从中取物品,每一次只能从一堆物品 ...

scrapy处理需要跟进的url

scrapy处理需要跟进的url的更多相关文章

随机推荐

热门专题