scrapy爬取网址，进而爬取详情页问题

1、最容易出现的问题是爬取到的url大多为相对路径，如果直接将爬取到的url进行二次爬取就会出现以下报错：

　　raise ValueError('Missing scheme in request url: %s' % self._url)，该错误的意思是request的url为无效链接。

解决方法：将相对路径转换为绝对路径

 # -*- coding: utf-8 -*-

 import scrapy

 from pyquery import PyQuery

 from ..items import City10Item

 from scrapy.http import Request

 from scrapy.utils.response import get_base_url

 from urllib.parse import urljoin

 class CitySpiderTest1Spider(scrapy.Spider):

     name = 'city_spider_test1'

     allowed_domains = ['58.com']

     start_urls = ['https://cq.58.com/chuzu/']

     def parse(self, response):

         jpy=PyQuery(response.text)

         li=jpy('body > div.mainbox > div > div.content > div.listBox > ul > li').items()

         for i in li:

             item=City10Item()

             item['name']=i('div.des > h2 > a').text()

             item['url']=i('div.des > h2 > a').attr('href') #爬取url，此时为相对路径

             item['price']=i('div.listliright > div.money > b').text()

             base_url = get_base_url(response) #获取相对路径前级地址

             abs_url=urljoin(base_url,item['url']) #转换为绝对路径

             if item['url']:

                 yield Request(abs_url,

                               callback=self.detail_parse, #回调详情页函数

                               meta={'item':item}, #将参数传递给meta

                               priority=10,

                               dont_filter=True #强制不过滤

                 )

     def detail_parse(self,response):

         jpy = PyQuery(response.text)

         item = response.meta['item']   #接收item

         item['introduce_item'] = jpy('body > div.main-wrap > div.house-detail-desc > div.main-detail-info.fl > div.house-word-introduce.f16.c_555 > ul > li:nth-child(1) > span.a2').text()   #提取房屋亮点

         item['address'] = jpy('body > div.main-wrap > div.house-basic-info > div.house-basic-right.fr > div.house-basic-desc > div.house-desc-item.fl.c_333 > ul > li:nth-child(6) > span.dz').text()   #房屋详情地址

         item['phone_number'] = jpy('body > div.main-wrap > div.house-basic-info > div.house-basic-right.fr > div.house-fraud-tip > div.house-chat-phone > span').text()   #电话号码

         yield item

scrapy爬取网址，进而爬取详情页问题的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接
放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着 ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
七月在线爬虫班学习笔记（五）——scrapy spider的几种爬取方式
第五课主要内容有: Scrapy框架结构,组件及工作方式单页爬取-julyedu.com 拼URL爬取-博客园循环下页方式爬取-toscrape.com Scrapy项目相关命令-QQ新闻 1.S ...
python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码
用到了requests.BeautifulSoup.urllib等,具体代码如下. # -*- coding: utf-8 -*- """ Created on Sat ...
多线程爬虫爬取详情页HTML
注意:如果想爬取详情页的信息请按须添加方法 import requests import os import re import threading from lxml import etree #爬 ...
scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析 *代码实现* daomu.py ``` import sc ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...

随机推荐

JMeter学习（十）参数化User Defined Variables与User Parameters（转载）
转载自 http://www.cnblogs.com/yangxia-test 偶然发现JMeter中有两个元件(User Defined Variables与User Parameters)很相近, ...
Android Studio 中的FindBugs插件使用，轻松帮你发现Bug (转)
在日常开发过程中难免会因为一时疏忽而留下一些Bug,这些Bug就是埋在程序里的定时炸弹,如果不能及时铲除就会导致程序的不稳定,异常或闪退的现象,从而导致用户的体验的下降.那么怎么才能找出这些埋在程序里 ...
pytest 学习笔记二：兼容unittest、执行方式、生成报告
1.官方文档上说pytest兼容unittest时,不支持setUpModule 和 tearDownModule,但实际验证是可以的. 验证的场景是py文件中,只有一个测试类, 经验证有多个测试类, ...
web前端开发浏览器兼容性处理大全
1.居中问题 div里的内容,IE默认为居中,而FF默认为左对齐,可以尝试增加代码margin: 0 auto; 2.高度问题两上下排列或嵌套的div,上面的div设置高度(height),如果di ...
jenkins权限控制
一.插件安装插件:Role-based Authorization Strategy版本:2.3.2 二.全局安全配置进入Jenkins后点击系统管理进入全局安全配置当插件安装好的时候,授权策略 ...
Vue之常用语法
变量的定义: var定义的变量:只有全局作用域和函数作用域.有变量提升,先打印后定义变量不会报错,打印结果为undefined let定义的变量:没有变量提升 ——>有局 ...
TOJ 3151: H1N1's Problem(欧拉降幂)
传送门:http://acm.tzc.edu.cn/acmhome/problemdetail.do?&method=showdetail&id=3151 时间限制(普通/Java): ...
18. 4Sum (通用算法 nSum)
Given an array S of n integers, are there elements a, b, c, and d in S such that a + b + c + d = tar ...
Angular之特性模块 ( Feature Module )
项目结构一创建特性模块,及其包含的组件.服务. ng g module art ng g component art/music ng g component art/dance ng g ser ...
vue 父组件使用子组件中的data或methods
1.调用子组件的时候定义一个ref 2.在父组件里面通过 this.$refs.verify.属性 this.$refs.verify.方法

scrapy爬取网址，进而爬取详情页问题

scrapy爬取网址，进而爬取详情页问题的更多相关文章

随机推荐

热门专题