PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)

scrapy 常用命令

startproject 创建一个新的工程 scrapy startproject <name>[dir]

genspider 创建一个爬虫 scrapy genspider [options]<name><domain>

settings 　　获得爬虫的配置信息scrapy settings [options]

crawl 运行一个爬虫　　　 scrapy crawl <spider>

list 　　　　列出工程中所有爬虫 scrapy list

shell 启动URL调试命令行 scrapy shell[url]

一个工程是一个最大的单元，一个project 中，可以有多可 spider模块

命令行逻辑

修改后的spider

# -*- coding: utf-8 -*-
import scrapy

# 这里有继承关系,scrapy.Spider

class DemoSpider(scrapy.Spider):
    name = "demo"
    #allowed_domains = ["python123.io"]
　　
    start_urls = ['http://python123.io/ws/demo.html']
    #面向对象中类所属方法的标记
    def parse(self, response):
        fname=response.url.split('/')[-1]
        with open(fname,"wb") as f:
            f.write(response.body)
        self.log("Saved file %s."%fname)

def parse 中是解析网站内容的解析方法

url_strat 启动的时候初始的页面

start_requests(self):

　　这个作为一个生成器，对他的调用每次返回一个url连接

爬虫的使用步骤

1.创建一个工程与spider 模板

2. 编写Spider

3.编写Item Pipeline

4.优化配置策略

基本类

Request 表示一个Request // 一个http请求

由spider 生成由download 执行

有几个属性或方法

.url

.method GET POST

.headers 字典类型的请求头

.body 请求内容的啊主题

.meta 用户添加的信息为，再scrapy内部中使用

.copy() 复制该请求

Response

.url 返回信息关联的url

.statys 表示返回状态吗

.header response 对应的头部信息

.body response 对应的内容信息

.flags 对应的标记

.request 对应的request 方法

.copy() 复制该响应

Item

由Spider 生成，由

类字典类型，可以按照字典类型使用

风转正字典键值对

支持多种HTML 提取方法

Beatutiful Soup

lxml

XPath Seletor

css Seletor

<HTML>.css("a::attr(hred)").extract()

　　　　标签名称标签属性

PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)的更多相关文章

PYTHON网络爬虫与信息提取[正则表达式的使用](单元七)
正则表达式由字符和操作符构成 . 表示任何单个字符 []字符集,对单个字符给出取值范围 [abc]或者关系 [a-z]表示 [^abc]表示非这里面的东西非字符集 * 表示星号之前的字符出现0次或 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
【python 网络爬虫】之scrapy系列
网络爬虫之scripy系列 [scrapy网络爬虫]之0 爬虫与反扒 [scrapy网络爬虫]之一 scrapy框架简介和基础应用 [scrapy网络爬虫]之二持久化操作 [scrapy网络爬虫]之 ...
学习推荐《精通Python网络爬虫：核心技术、框架与项目实战》中文PDF+源代码
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来.对特定的数据进 ...
Python网络爬虫与信息提取笔记
直接复制粘贴笔记发现有问题文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...
【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)
学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime Text集成ide:Pychar ...

随机推荐

[UVA12235] Help Bubu 思维题+状态定义+Dp
Online Judge:UVA12235 Label:思维题,状态定义,状压Dp 题面: 题目描述有一个书架,上面放了n本书,从左往右的第i本书的高度为h[i].定义书架的混乱度为连续等高段的个数 ...
Windows API 第12篇 MoveFile
MoveFile可以移动文件,更名文件,移动目录(包括目录下的所有文件以及子目录).函数定义:BOOL MoveFile( LPCTSTR lpExistingFileName, // file n ...
[转]C#中的委托和事件(续)
源码下载:http://www.tracefact.net/SourceCode/MoreDelegate.rar C#中的委托和事件(续) 引言如果你看过了 C#中的委托和事件一文,我想你对委托 ...
nginx配置虚拟主机的两种方式
一. 通过端口区分不同的虚拟主机二. 通过域名区分不同的虚拟主机备注: 1)hosts文件路径:
centos7 盘符变动绑定槽位
服务器下的硬盘主有机械硬盘.固态硬盘以及raid阵列,通常内核分配盘符的顺序是/dev/sda./dev/sdb… ….在系统启动过程中,内核会按照扫描到硬盘的顺序分配盘符(先分配直通的,再分配阵列) ...
JEECMS自定义标签
查看JEECMS的源代码发现开发者版本还没有类似现成的统计标签,一种解决的办法是使用现有的JEECMS标签,像这样Struts( [@cms_content_list channel=id]${tag ...
Jmeter分布式测试笔记
在性能测试过程中,如果要求并发数较大时(例如1000+),单机配置cpu与内存等无法支持,则需要使用Jmeter的分布式测试方法. 一.一般什么情况下需要分布式 1.前辈经验:比如机器i5双核的cpu ...
进一步封装poco下的mysql操作
为方便程序对mysql操作,我对poco的mysql进行了再次封装,主要是针对自己应用需要的部分. 开发工具:netbean 系统环境:centos7 poco版本: poco-1.9.0-all 主 ...
前端算法题：找出数组中第k大的数字出现多少次
题目:给定一个一维数组,如[1,2,4,4,3,5],找出数组中第k大的数字出现多少次. 例如:第2大的数是4,出现2次,最后输出 4,2 function getNum(arr, k){ // 数组 ...
c++ 链接mysql：error LNK2019: 无法解析的外部符号
使用VS2012编译项目报错如下: error LNK2019: 无法解析的外部符号 _mysql_real_connect@32,该符号在函数 _main 中被引用 error LNK2019: 无 ...

PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)

PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)的更多相关文章

随机推荐

热门专题