终端命令

  1. 创建一个项目: scrapy startproject name
  2. 利用蜘蛛名创建一个py文件: scrapy genspider name domain.name
  3. 在终端运行:scrapy shell url 得到response
  4. 利用蜘蛛名进行相对应的运行: scrapy crawl name
  5. 利用py文件进行运行: scrapy
  6. 将爬区下来的数据存储到csv文件: scrapy crawl name -o file.csv
  7. 将爬区下来的数据存储到JSON lines文件:scrapy crawl name -o file.jl
  8. 将爬区下来的数据存储到JSON文件:scrapy crawl name -o file.json

编写过程

  1. 先创建一个爬虫项目
  2. 将要爬去的目标在items.py文件中先定义好
  3. 然后在去spider中的py文件进行编写成程序
  4. 然后在去pipelines.py文件中进行数据的存储
  5. 要使用管道,那么就要开启管道,到settings.py文件中开始管道
  6. 在setting.py中设置为False就是不遵循robots.txt协议:ROBOTSTXT_OBEY = False
  7. 运行爬虫程序

提取数据

extract() : 获取选择器对象中的文本内容

  1. response.xpath('...') 得到选择器对象(节点所有内容) [<selector ...,data='<h1>...</h1>']
  2. response.xpath('.../text()') 得到选择器对象(节点文本) [<selector ...,data='文本内容'>]
  3. extract() : 把选择器对象中的文本取出来 ['文本内容']

如何将scrapy爬取到的数据存储到数据库

  1. mongo 启动mongoDB服务
  2. mongo 进入mongoDB shell
  3. 先到settings.py文件中的ITEM_PIPELINES下面设置MONGODB_HOST,MONGODB_PORT,
    MONGODB_DBNAME, MONGODB_SHEETNAME.
  4. 然后在传入一个USER_AGENT

模拟登录

  1. headers 可以直接写在里面
  2. formdata 里面存放要登录的信息

scrapy常用命令的更多相关文章

  1. Scrapy常用命令行工具

    查看所有命令 scrapy -h 查看帮助信息 scapy --help 查看版本信息 (venv)ql@ql:~$ scrapy version Scrapy 1.1.2 (venv)ql@ql:~ ...

  2. scrapy常用命令(持续) | Commonly used Scrapy command list (con't)

    以下命令都是在CMD中运行,首先把路径定位到项目文件夹 ------------------------------------------------------------------------ ...

  3. Scrapy爬虫框架与常用命令

    07.08自我总结 一.Scrapy爬虫框架 大体框架 2个桥梁 二.常用命令 全局命令 startproject 语法:scrapy startproject <project_name> ...

  4. Scrapy 常用的shell执行命令

    1.在任意系统下,可以使用 pip 安装 Scrapy pip install scrapy/ 确认安装成功 >>> import scrapy >>> scrap ...

  5. scrapy的命令行

    scrapy --help 列出帮助信息以及常用命令scrapy version 列出scrapy版本scrapy version -v 列出详细的scrapy版本以及各组件信息 scrapy sta ...

  6. Linux 常用命令(持续补充)

    常用命令: command &:将进程放在后台执行 ctrl + z:暂停当前进程 并放入后台 jobs:查看当前后台任务 bg( %id):将任务转为后台执行 fg( %id):将任务调回前 ...

  7. LVM基本介绍与常用命令

    一.LVM介绍LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制LVM - 优点:LVM通常用于装备大量磁盘的系统,但它同样适 ...

  8. Linux学习笔记(一):常用命令

    经过统计Linux中能够识别的命令超过3000种,当然常用的命令就远远没有这么多了,按照我的习惯,我把已经学过的Linux常用命令做了以下几个方面的分割: 1.文件处理命令 2.文件搜索命令 3.帮助 ...

  9. git常用命令(持续更新中)

    git常用命令(持续更新中) 本地仓库操作git int                                 初始化本地仓库git add .                       ...

随机推荐

  1. Linux用户创建/磁盘挂载相关命令

    命令 作用 常用参数说明 groupadd 增加用户组 -g指定组id groupmod 修饰用户组 参数和groupadd类似 groupdel 删除用户组 直接组名没参数 useradd 增加用户 ...

  2. --save-dev 与 --save区别

    npm install 在安装 npm 包时,有两种命令参数可以把它们的信息写入 package.json 文件,一个是npm install --save另一个是 npm install --sav ...

  3. SpringBoot添加webapp目录

    一.文章简述 使用IDEA工具创建的SpringBoot项目本身是没有webapp目录的.如果我们想要添加webapp目录的话,可以手动添加. 二.操作步骤 1)点击IDEA右上角的Project S ...

  4. python 学习 模块

    在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就越来越长,越来越不容易 维护, 为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少,很 ...

  5. EF-一对一关系

    针对关系型数据库来说,需要明了每个对象之间的关系. 它们之间的关系有: 1.一对一(1:1):一个学生只能拥有一张身份证,一张身份证只能属于一个学生: 2.一对多(1:N):一个学生可以拥有几本书,而 ...

  6. gitblit系列七:使用Jenkins配置自动化持续集成构建

    1.安装 方法一: 下载jenkin.exe安装文件 下载地址:https://jenkins.io/content/thank-you-downloading-windows-installer/ ...

  7. angular4-常用指令

    ngIf 指令(它与 AngularJS 1.x 中的 ng-if 指令的功能是等价) <div *ngIf="condition">...</div> n ...

  8. [Leetcode 104]求二叉树的深度Depth of BinaryTree

    [题目] Given a binary tree, find its maximum depth. The maximum depth is the number of nodes along the ...

  9. div 自适应高度

    自适应高度 ,设置最小高度:通常情况下,没有设置高度,div默认自适应高度且无最低高度 1 div{ _height:200px; /* css 注解: 仅IE6设别此属性,假定最低高度是200px ...

  10. python笔记7-if中的is ;in ;not搭配用法

    names="111 222 333" print("111" in names)#返回的是True,用in返回的是布尔值in在里面 print("1 ...