python3----scrapy(笔记)

 import scrapy

 import sys

 # import io

 # sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18303')

 from scrapy.selector import Selector, HtmlXPathSelector

 class ChoutiSpider(scrapy.Spider):

     name = 'chouti'

     # allowed_domains = ['chouti.com']

     start_urls = ['http://dig.chouti.com/']

     def parse(self, response):

         # print(response.text)

         # content = str(response.body, encoding='utf-8')

         # print(content)

         # hxs = Selector(response=response).xpath('//a').extract()

         # for i in hxs:

         #     print(i)

         # hxs = Selector(response=response).xpath('//div[@id="content-list"]/div[@class="item"]').extract()

         # for i in hxs:

         #     print(i)

         hxs = Selector(response=response).xpath('//div[@id="content-list"]/div[@class="item"]')   # 标签对像列表

         for obj in hxs:

             a = obj.xpath('.//a[@class="show-content color-chag"]/text()').extract_first()

             print(a.strip())

 '''

 //   表示子孙中

 .//  当前对像的子孙中

 /    儿子

 /div 儿子中的div标签

 /div[@id="i1"  儿子中的div标签且id=i1

 obj.extract()    列表中的每一个对象转换成字符串 =>[]

 obj.extract_first() 列表中的每一个对象转换成字符串=>列表第一个元素

 //div/text()   获取某个标签的文本

python3----scrapy(笔记)的更多相关文章

Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面
摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/, ...
Learning Scrapy笔记（零） - 前言
我已经使用了scrapy有半年之多,但是却一直都感觉没有入门,网上关于scrapy的文章简直少得可怜,而官网上的文档(http://doc.scrapy.org/en/1.0/index.html)对 ...
Python3学习笔记 - 准备环境
前言最近乘着项目不忙想赶一波时髦学习一下Python3.由于正好学习了Docker,并深深迷上了Docker,所以必须趁热打铁的用它来创建我们的Python3的开发测试环境.Python3的中文教程 ...
python3 scrapy+Crontab部署过程
背景最近有时间想学习下python3+scrapy,于是决定写一个小程序来练练手. 开发环境:MacOS High Sierra(10.13.1)+python3+scrapy. 开发工具:PyCh ...
python3学习笔记(7)_listComprehensions-列表生成式
#python3 学习笔记17/07/11 # !/usr/bin/env python3 # -*- conding:utf-8 -*- #通过列表生成式可以生成格式各样的list,这种list 一 ...
python3学习笔记(6)_iteration
#python3 学习笔记17/07/10 # !/usr/bin/env python3 # -*- coding:utf-8 -*- #类似其他语言的for循环,但是比for抽象程度更高 # f ...
python3学习笔记(5)_slice
#python3 学习笔记17/07/10 # !/usr/bin/env python3 # -*- coding:utf-8 -*- #切片slice 大大简化对于指定索引的操作 fruits ...
Python3 Scrapy 安装方法
Python3 Scrapy 安装方法 (一脸辛酸泪) 写在前面最近在学习爬虫,在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试. 没想到啊,这坑太深了... 看了看相关 ...
转 Scrapy笔记（5）- Item详解
Item是保存结构数据的地方,Scrapy可以将解析结果以字典形式返回,但是Python中字典缺少结构,在大型爬虫系统中很不方便. Item提供了类字典的API,并且可以很方便的声明字段,很多Scra ...

随机推荐

用记事本编写一个Servlet项目
第一步:建立目录新建一个文件夹FirstServlet,然后在FirstServlet目录下面再建两个文件夹,分别为:WEB-INF和src.最后在WEB-INF下面建一个classes文件夹第二 ...
php实现二维数组排序array_multisort($ages, SORT_DESC, $home)函数
1.sql查询排序参数是order by,那么php进行排序呢可以参考array_multisrot函数 //php进行二维数组排序 -xzz1009 foreach($home as $home) ...
【微信开发】JS和PHP分别判断当前浏览器是否微信浏览器
1.PHP端 //判断是否微信浏览器 -xzz1125 function is_weixin() { if (strpos($_SERVER['HTTP_USER_AGENT'], 'MicroMes ...
xtrabackup备份方式搭建一个mysql slave
以前mysql搭建新备库都是在现在业务较小的备库上停止同步或停止数据库,然后拷贝数据库到新备库,配置好新备库后,再开启同步或数据库.然而,这次没有空闲备库用来搭新备库.需要从一个业务繁忙的数据库中搭建 ...
JS 校验，检测，验证，判断函数集合
http://jc-dreaming.iteye.com/blog/754690 /** *判断对象是否为空 *Check whether string s is empty. */ funct ...
ssh(安全外壳协议)
SSH 为 Secure Shell 的缩写,由 IETF 的网络工作小组(Network Working Group)所制定:SSH 为建立在应用层和传输层基础上的安全协议.SSH 是目前较可靠,专 ...
MySQL学习总结（二）数据库以及表的基本操作
上一节中详细的介绍了关于MySQL数据库的安装过程,接下来我们就该对数据库以及表进行一些基本的操作了. 1.数据类型 MySQL数据库中提供了整数类型.浮点数类型.定点数类型.日期和时间类型.字符串类 ...
storm trident merger
import java.util.List; import backtype.storm.Config; import backtype.storm.LocalCluster; import back ...
实战DeviceIoControl系列之四：获取硬盘的详细信息
Q 用IOCTL_DISK_GET_DRIVE_GEOMETRY IOCTL_STORAGE_GET_MEDIA_TYPES_EX只能得到很少的磁盘参数,我想获得包括硬盘序列号在内的更加详细的信息,有 ...
C# BackgroundWorker的Bug？？？
废话不多说,上代码: public partial class Form1 : Form { BackgroundWorker _bgWorker; int count; public Form1() ...

python3----scrapy(笔记)

python3----scrapy(笔记)的更多相关文章

随机推荐

热门专题