终端命令

  1. 创建一个项目: scrapy startproject name
  2. 利用蜘蛛名创建一个py文件: scrapy genspider name domain.name
  3. 在终端运行:scrapy shell url 得到response
  4. 利用蜘蛛名进行相对应的运行: scrapy crawl name
  5. 利用py文件进行运行: scrapy
  6. 将爬区下来的数据存储到csv文件: scrapy crawl name -o file.csv
  7. 将爬区下来的数据存储到JSON lines文件:scrapy crawl name -o file.jl
  8. 将爬区下来的数据存储到JSON文件:scrapy crawl name -o file.json

编写过程

  1. 先创建一个爬虫项目
  2. 将要爬去的目标在items.py文件中先定义好
  3. 然后在去spider中的py文件进行编写成程序
  4. 然后在去pipelines.py文件中进行数据的存储
  5. 要使用管道,那么就要开启管道,到settings.py文件中开始管道
  6. 在setting.py中设置为False就是不遵循robots.txt协议:ROBOTSTXT_OBEY = False
  7. 运行爬虫程序

提取数据

extract() : 获取选择器对象中的文本内容

  1. response.xpath('...') 得到选择器对象(节点所有内容) [<selector ...,data='<h1>...</h1>']
  2. response.xpath('.../text()') 得到选择器对象(节点文本) [<selector ...,data='文本内容'>]
  3. extract() : 把选择器对象中的文本取出来 ['文本内容']

如何将scrapy爬取到的数据存储到数据库

  1. mongo 启动mongoDB服务
  2. mongo 进入mongoDB shell
  3. 先到settings.py文件中的ITEM_PIPELINES下面设置MONGODB_HOST,MONGODB_PORT,
    MONGODB_DBNAME, MONGODB_SHEETNAME.
  4. 然后在传入一个USER_AGENT

模拟登录

  1. headers 可以直接写在里面
  2. formdata 里面存放要登录的信息

scrapy常用命令的更多相关文章

  1. Scrapy常用命令行工具

    查看所有命令 scrapy -h 查看帮助信息 scapy --help 查看版本信息 (venv)ql@ql:~$ scrapy version Scrapy 1.1.2 (venv)ql@ql:~ ...

  2. scrapy常用命令(持续) | Commonly used Scrapy command list (con't)

    以下命令都是在CMD中运行,首先把路径定位到项目文件夹 ------------------------------------------------------------------------ ...

  3. Scrapy爬虫框架与常用命令

    07.08自我总结 一.Scrapy爬虫框架 大体框架 2个桥梁 二.常用命令 全局命令 startproject 语法:scrapy startproject <project_name> ...

  4. Scrapy 常用的shell执行命令

    1.在任意系统下,可以使用 pip 安装 Scrapy pip install scrapy/ 确认安装成功 >>> import scrapy >>> scrap ...

  5. scrapy的命令行

    scrapy --help 列出帮助信息以及常用命令scrapy version 列出scrapy版本scrapy version -v 列出详细的scrapy版本以及各组件信息 scrapy sta ...

  6. Linux 常用命令(持续补充)

    常用命令: command &:将进程放在后台执行 ctrl + z:暂停当前进程 并放入后台 jobs:查看当前后台任务 bg( %id):将任务转为后台执行 fg( %id):将任务调回前 ...

  7. LVM基本介绍与常用命令

    一.LVM介绍LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制LVM - 优点:LVM通常用于装备大量磁盘的系统,但它同样适 ...

  8. Linux学习笔记(一):常用命令

    经过统计Linux中能够识别的命令超过3000种,当然常用的命令就远远没有这么多了,按照我的习惯,我把已经学过的Linux常用命令做了以下几个方面的分割: 1.文件处理命令 2.文件搜索命令 3.帮助 ...

  9. git常用命令(持续更新中)

    git常用命令(持续更新中) 本地仓库操作git int                                 初始化本地仓库git add .                       ...

随机推荐

  1. Windows服务手动关闭教程

    Windows上关闭软件自启动,经常使用360等软件的开机加速功能去优化. 但有时候有些服务开机是启动的但在360中并没有找到那如何手动关闭这些服务的自启动呢? 下边以Autodesk Applica ...

  2. URL to load resources from the classpath in Java

    In Java, you can load all kinds of resources using the same API but with different URL protocols: fi ...

  3. Java并发机制及锁的实现原理

    同步的基本思想 为了保证共享数据在同一时刻只被一个线程使用,我们有一种很简单的实现思想,就是 在共享数据里保存一个锁 ,当没有线程访问时,锁是空的. 当有第一个线程访问时,就 在锁里保存这个线程的标识 ...

  4. echarts ajax数据加载方法

    一: <!-- 引入 echarts.js --> <script type="text/javascript" src="echarts.min.js ...

  5. learning ddr Electrical Characteristics and AC Timing

    reference: JEDS79-3F.pdf , page:181

  6. learning at command AT+CSQ

    AT command AT+CSQ [Purpose]        Learning how to get mobile module single quality report   [Eeviro ...

  7. Standalone的更改方式

    1.更改Game视图中的Standalone分辨率 2.在unity中菜单栏中 File---->Build Settings(Ctrl+Shift+B)---->Player Setti ...

  8. 【原创】QT 打印输出

    list类 qDebug 的两种用法 #include <QDebug> int main(int argc,char *argv[]) { QList<int> list; ...

  9. 锤子科技 Smartisan M1L 咖啡金 真皮背面 高配版 5.7

    http://www.smartisan.com/m1/#/os    快人一步的OS http://www.smartisan.com/shop/#/buyphone?c=coffee&v= ...

  10. Top k问题的讨论(三种方法的java实现及适用范围)

    在很多的笔试和面试中,喜欢考察Top K.下面从自身的经验给出三种实现方式及实用范围. 合并法 这种方法适用于几个数组有序的情况,来求Top k.时间复杂度为O(k*m).(m:为数组的个数).具体实 ...