scrapy常用命令

终端命令

创建一个项目: scrapy startproject name

利用蜘蛛名创建一个py文件: scrapy genspider name domain.name

在终端运行：scrapy shell url 得到response

利用蜘蛛名进行相对应的运行: scrapy crawl name

利用py文件进行运行: scrapy

将爬区下来的数据存储到csv文件: scrapy crawl name -o file.csv

将爬区下来的数据存储到JSON lines文件：scrapy crawl name -o file.jl

将爬区下来的数据存储到JSON文件：scrapy crawl name -o file.json

编写过程

先创建一个爬虫项目

将要爬去的目标在items.py文件中先定义好

然后在去spider中的py文件进行编写成程序

然后在去pipelines.py文件中进行数据的存储

要使用管道，那么就要开启管道，到settings.py文件中开始管道

在setting.py中设置为False就是不遵循robots.txt协议:ROBOTSTXT_OBEY = False

运行爬虫程序

提取数据

extract() : 获取选择器对象中的文本内容

response.xpath('...') 得到选择器对象(节点所有内容) [<selector ...,data='<h1>...</h1>']

response.xpath('.../text()') 得到选择器对象(节点文本) [<selector ...,data='文本内容'>]

extract() : 把选择器对象中的文本取出来 ['文本内容']

如何将scrapy爬取到的数据存储到数据库

mongo 启动mongoDB服务

mongo 进入mongoDB shell

先到settings.py文件中的ITEM_PIPELINES下面设置MONGODB_HOST,MONGODB_PORT,
MONGODB_DBNAME, MONGODB_SHEETNAME.

然后在传入一个USER_AGENT

模拟登录

headers 可以直接写在里面

formdata 里面存放要登录的信息

scrapy常用命令的更多相关文章

Scrapy常用命令行工具
查看所有命令 scrapy -h 查看帮助信息 scapy --help 查看版本信息 (venv)ql@ql:~$ scrapy version Scrapy 1.1.2 (venv)ql@ql:~ ...
scrapy常用命令（持续） | Commonly used Scrapy command list (con't)
以下命令都是在CMD中运行,首先把路径定位到项目文件夹 ------------------------------------------------------------------------ ...
Scrapy爬虫框架与常用命令
07.08自我总结一.Scrapy爬虫框架大体框架 2个桥梁二.常用命令全局命令 startproject 语法:scrapy startproject <project_name> ...
Scrapy 常用的shell执行命令
1.在任意系统下,可以使用 pip 安装 Scrapy pip install scrapy/ 确认安装成功 >>> import scrapy >>> scrap ...
scrapy的命令行
scrapy --help 列出帮助信息以及常用命令scrapy version 列出scrapy版本scrapy version -v 列出详细的scrapy版本以及各组件信息 scrapy sta ...
Linux 常用命令（持续补充）
常用命令: command &:将进程放在后台执行 ctrl + z:暂停当前进程并放入后台 jobs:查看当前后台任务 bg( %id):将任务转为后台执行 fg( %id):将任务调回前 ...
LVM基本介绍与常用命令
一.LVM介绍LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制LVM - 优点:LVM通常用于装备大量磁盘的系统,但它同样适 ...
Linux学习笔记（一）：常用命令
经过统计Linux中能够识别的命令超过3000种,当然常用的命令就远远没有这么多了,按照我的习惯,我把已经学过的Linux常用命令做了以下几个方面的分割: 1.文件处理命令 2.文件搜索命令 3.帮助 ...
git常用命令（持续更新中）
git常用命令(持续更新中) 本地仓库操作git int 初始化本地仓库git add . ...

随机推荐

Jackson 工具类使用及配置指南
目录前言 Jackson使用工具类 Jackson配置属性 Jackson解析JSON数据 Jackson序列化Java对象前言 Json数据格式这两年发展的很快,其声称相对XML格式有很对好处: ...
Theano笔记
scan函数 theano.scan(fn, sequences=None, outputs_info=None,non_sequences=None, n_steps=None, truncate_ ...
ASCII编码、Unicode编码、UTF-8
一.区别 ASCII.Unicode 是“字符集” UTF-8 .UTF-16.UTF-32 是“编码规则” 其中: 字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code ...
Daily record-August
August11. A guide dog can guide a blind person. 导盲犬能给盲人引路.2. A guide dog is a dog especially trained ...
Vue + Element UI 实现权限管理系统（搭建开发环境）
技术基础开发之前,请先熟悉下面的4个文档 vue.js2.0中文, 优秀的JS框架 vue-router, vue.js 配套路由 vuex,vue.js 应用状态管理库 Element,饿了么提供 ...
关于java Collections.sort 排序
public static void main(String[] args) { int[] dd = {12,34,46,123,23,2,35,13,543231,65,5645,57}; Arr ...
asp.netmvc 三层搭建一个完整的项目
接下来用 asp.net mvc 三层搭建一个完整的项目: 架构图: 使用的数据库: 一张公司的员工信息表,测试数据解决方案项目设计: 1.新建一个空白解决方案名称为Company 2.在该解决方案 ...
DBProxy 项目全解
转载自:https://github.com/Meituan-Dianping/DBProxy/blob/master/doc/USER_GUIDE.md#2 1 总体信息 1.1 关于 ...
《Python》并发编程
手工操作 —— 穿孔卡片 1946年第一台计算机诞生--20世纪50年代中期,计算机工作还在采用手工操作方式.此时还没有操作系统的概念. 程序员将对应于程序和数据的已穿孔的纸带(或卡片)装入输 ...

scrapy常用命令

终端命令

编写过程

提取数据

如何将scrapy爬取到的数据存储到数据库

模拟登录

scrapy常用命令的更多相关文章

随机推荐

热门专题