scrapy爬取中关村在线手机频道

 # -*- coding: utf-8 -*-

 import scrapy

 from pyquery import PyQuery as pq

 from zolphone.items import ZolphoneItem

 class PhoneSpider(scrapy.Spider):

     name = "phone"

     # allowed_domains = ["www.zol.com.cn"]

     # start_url = 'http://detail.zol.com.cn/cell_phone_index/subcate57_0_list_1_0_1_1_0_1.html'

     start_url = 'http://detail.zol.com.cn/cell_phone_index/subcate57_0_list_1_0_1_1_0_'

     def start_requests(self):

         for page in range(1, 209):

             url = self.start_url + str(page) + '.html'

             yield scrapy.Request(url,callback=self.parse_index)

     def parse_index(self, response):

         base_url = 'http://detail.zol.com.cn'

         doc = pq(response.text)

         lis = doc('.list-box .list-item').items()

         for result in lis:

             detail_url = base_url + result.find('.pro-intro h3 a').attr('href')

             yield scrapy.Request(url=detail_url, callback=self.parse_detail)

     def parse_detail(self,response):

         doc = pq(response.text)

         title1 = response.css('.page-title h1::text').extract_first()

         title2 = doc('.page-title h2').text()

         price = doc('.product-price .price-type').text()

         release_time = doc('.section div h3 .showdate').text()

         print(title1, title2, price, release_time)

         item = ZolphoneItem()

         item['title1'] = title1

         item['title2'] = title2

         item['price'] = price

         item['release_time'] = release_time

         yield item

 import scrapy

 class ZolphoneItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     title1 = scrapy.Field()

     title2 = scrapy.Field()

     price = scrapy.Field()

     release_time = scrapy.Field()

scrapy爬取中关村在线手机频道的更多相关文章

爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Scrapy爬取伯乐在线的所有文章
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境用mkvirtualen ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
使用scrapy爬取海外网学习频道
一:创建项目文件 1:首先在终端使用命令scrapy startproject huaerjieribao 创建项目 2:创建spider 首先cd进去刚刚创建的项目文件overseas 然后执行ge ...
Scrapy爬取伯乐在线文章
首先搭建虚拟环境,创建工程 scrapy startproject ArticleSpider cd ArticleSpider scrapy genspider jobbole blog.jobbo ...
scrapy爬取伯乐在线文章数据
创建项目切换到ArticleSpider目录下创建爬虫文件设置settings.py爬虫协议为False 编写启动爬虫文件main.py
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...

随机推荐

java基础学习系列二
循环语句 1,for(){} 2,while(){} 3,do{}while() continue和break用法 break是结束循环 continue结束本次循环
简述Java三大特性
1.面向对象有三大特性,分别是:封装.继承和多态.2.封装:面向对象的封装就是把描述一个对象的属性和行为的代码封装在一个类中,有些属性是不希望公开的,或者说被其他对象访问的,所以我们使用private ...
http,socks4,socks5代理的区别
HTTP代理能够代理客户机的HTTP访问,主要是代理浏览器访问网页,它的端口一般为80.8080.3128等: SOCKS代理 SOCKS代理与其他类型的代理不同,它只是简单地传递数据包,而并不关心 ...
Redis分布式锁---完美实现
这几天在做项目缓存时候,因为是分布式的所以需要加锁,就用到了Redis锁,正好从网上发现两篇非常棒的文章,来和大家分享一下. 第一篇是简单完美的实现,第二篇是用到的Redisson. Redis分布式 ...
oracle、导出、导入
一.数据库导入: No1.查询所有表中那些是空表. select table_name from user_tables where NUM_ROWS=0; No2.拼接字符串生成SQL执行语句. s ...
Java创建线程的三种方式
一.继承Thread类创建线程类 (1)定义Thread类的子类,并重写该类的run方法,该run方法的方法体就代表了线程要完成的任务.因此把run()方法称为执行体. (2)创建Thread子类的实 ...
[学习笔记] 模拟退火 (Simulated Annealing)
真没想到这东西真的在考场上用到了...顺便水篇blog以示诈尸好了(逃模拟退火算法模拟退火是一种随机化算法, 用于求函数的极值qwq 比如给出一个问题, 我们要求最优解的值, 但是可能的方案数量极 ...
C作业--初步
第一周: 知识点:第一个c程序练习:printf 第二周: 知识点:常量变量,数据类型和运算符练习:数学公式的求解:比如重力加速度,华氏温度与摄氏温度的转换,汇率等. 第三周: 知识点:print ...
Alpha第十天
Alpha第十天听说 031502543 周龙荣(队长) 031502615 李家鹏 031502632 伍晨薇 031502637 张柽 031502639 郑秦 1.前言任务分配是VV.ZQ. ...
C语言嵌套循环作业
一.PTA实验作业题目1:7-4 换硬币 1. 本题PTA提交列表 2. 设计思路 1.定义fen5:5分硬币数量, fen2:2分硬币数量, fen1:1分硬币数量, total:硬币总数量,co ...

scrapy爬取中关村在线手机频道

scrapy爬取中关村在线手机频道的更多相关文章

随机推荐

热门专题