Scrapy爬虫day2——简单运行爬虫

设置setting.py

修改机器人协议

ROBOTSTXT_OBEY = False

设置User-Agent

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3294.99 Safari/537.36'

}

添加start.py

为了能在IDE中使用，方便爬虫运行在爬虫组件同目录下创建start.py文件

from scrapy import cmdline

cmdline.execute("scrapy crawl wx_spider".split())

目录树

E:.

│  scrapy.cfg

│

│

└─BookSpider

    │  items.py

    │  middlewares.py

    │  pipelines.py

    │  settings.py

    │  start.py

    │  __init__.py

    │

    ├─spiders

    │  │  biqubao_spider.py

    │  │  __init__.py

    │  │

    │  └─__pycache__

    │          biqubao_spider.cpython-36.pyc

    │          __init__.cpython-36.pyc

    │

    └─__pycache__

            settings.cpython-36.pyc

            __init__.cpython-36.pyc

在爬虫下添加以下代码,打印出页面信息

#biqubao_spider.py

def parse(self, response):

        print("*"*50)

        print(response.text)

        print("*" * 50)

Scrapy爬虫day2——简单运行爬虫的更多相关文章

Scrapy：用cmdline运行爬虫后导致主程序也结束——CrawlerProcesser
学习自: Scrapy官方文档--CrawlerRunner相关解决django或者其他线程中调用scrapy报ReactorNotRestartable的错误 - liuxianglong - 博 ...
Python网络爬虫 - 一个简单的爬虫例子
下面我们创建一个真正的爬虫例子爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen f ...
Java网络爬虫 - 一个简单的爬虫例子
WikiScraper.java package master.haku.scrape; import org.jsoup.Jsoup; import org.jsoup.nodes.Document ...
Scrapy安装和简单使用
模块安装 Windows 安装scrapy 需要安装依赖环境twisted,twisted又需要安装C++的依赖环境 pip install scrapy 时如果出现twisted错误在http ...
scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...
scrapy 之自定义命令运行所有爬虫文件
1.在spider文件夹同级目录创建commands python包 2.在包下创建command.py文件 3.从scrapy.commands包下引入ScrapyCommand 4.创建一个类,继 ...
Scrapy：运行爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...
Scrapy实战：使用IDE工具运行爬虫
一般我们运行爬虫程序都是使用命令行,比如:scrapy crwal sobook.不过这多少有些不方便,可以使用下面的方法使用IDE的方式运行爬虫我这边使用的是pycharm软件,在pycharm里 ...
（一）scrapy 安装及新建爬虫项目并运行
> 参考:https://www.cnblogs.com/hy123456/p/9847570.html 在 pycharm 中并没有创建 scrapy 工程的选项,需要手动创建. 这里就有两种 ...

随机推荐

js 验证数据类型的4中方法
1.typeof 可以检验基本数据类型但是引用数据类型(复杂数据类型)无用: 总结 : typeof 无法识别引用数据类型包括 bull; 2.instanceof是一个二元运算符,左操作数 ...
MYSQL SQL语句之 select
select语句在数据库操作中是操作频率最高的语句,使用方式也是多种多样,它的基本功能是:从表中选取数据,结果存储在一个结果集中.可以联合where,and,or,Order By,distinct, ...
python编程基础之二十九
栈和队列: 栈:先进后出,其他没多少特别之处了,一般可以用列表模拟栈,也可以用双端队列,封死一端. 队列:先进先出,也可以用列表模拟,但是一般用库函数,需要导collections 包:主要是为了解决 ...
TP框架配合jquery进行3种方式的多图片上传
用的TP5.1框架+jquery 一使用form表单方式进行多图片上传 html代码: <form action="../admin/admin/cs" enctype=& ...
[ERROR ImagePull]: failed to pull image [k8s.gcr.io/kube-apiserver-amd64:v1.11.1]: exit status 1
问题描述 [root@localhost ~]# kubeadm init --kubernetes-version=v1.11.1 --pod-network-cidr=10.244.0.0/16 ...
超实用的mysql分库分表策略，轻松解决亿级数据问题
一.分库分表的背景在数据爆炸的年代,单表数据达到千万级别,甚至过亿的量,都是很常见的情景.这时候再对数据库进行操作就是非常吃力的事情了,select个半天都出不来数据,这时候业务已经难以维系.不得已 ...
AWD攻防工具脚本汇总(二)
情景五:批量修改ssh密码拿到官方靶机第一件事改自己机器的ssh密码,当然也可以改别人的密码~ import paramiko import sys ssh_clients = [] timeout ...
Redis Getshell总结
Redis默认端口是6379,可以通过zoomeye或者shodan来查找开放6379的端口,能收到很多对外开放6379端口的ip,而且绝大部门是未授权访问的,因为默认redis是未授权访问.但是还有 ...
PHP代码审计辅助脚本
#!/usr/bin/env python import sys import os def main(): print ''' -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=- ...
CF401D Roman and Numbers 状压DP
CF401D 题意翻译将n(n<=10^18)的各位数字重新排列(不允许有前导零) 求可以构造几个mod m等于0的数字题目描述 Roman is a young mathematicia ...

Scrapy爬虫day2——简单运行爬虫

设置setting.py

添加start.py

Scrapy爬虫day2——简单运行爬虫的更多相关文章

随机推荐

热门专题