文件名

把spider中的类名改成和文件名相同，好像不碍事。

代理

settings.py中找到

DOWNLOADER_MIDDLEWARES = {

 'douban.middlewares.ProxyMiddleware': 543,

}

并打开注释；

pipelines.py找到

class ProxyMiddleware(object):

 def process_request(self, request, spider):

     # curl https://m.douban.com/book/subje 大专栏  豆瓣爬虫Scrapy“抄袭”改写ct/26628811/ -x http://127.0.0.1:8081

     request.meta['proxy'] = 'http://127.0.0.1:5010'

     # request.meta['proxy'] = 'http://10.0.0.164:1080'

并将端口号改为5010.

这里的改动主要是因为我比较熟悉jhao104搭建的代理池并且稳定性还不错。

其他的好像只字未改。

目前这样做的好处是我可以自由调用我自己配置好的数据库，并且如果想要重新放入docker中仍然可以这样做。

仍然存在的几点疑问

如果通过start_url获取到更多的URL。
代理究竟是如何工作的？pipelines中的代码好像仅仅是返回了一个地址而已。
数据库的异步存储如何进一步改写。

豆瓣爬虫Scrapy“抄袭”改写的更多相关文章

安装python爬虫scrapy踩过的那些坑和编程外的思考
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时 ...
网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
WebMagic的设计参考了业界最优秀的爬虫Scrapy
http://webmagic.io/docs/zh/posts/ch1-overview/thinking.html https://github.com/psvehla/liferay-sprin ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
自己动手实现爬虫scrapy框架思路汇总
这里先简要温习下爬虫实际操作: cd ~/Desktop/spider scrapy startproject lastspider # 创建爬虫工程 cd lastspider/ # 进入工程 sc ...
爬虫 scrapy 笔记
scrapy 基础 1. 创建一个spider项目 a) Scrapy startproject project_name [project_dir] b) Cd p ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...

随机推荐

《新标准C++程序设计》3.8（C++学习笔记10）
友元友元分为友元函数和友元类两种. 一.友元函数在定义一个类的时候,可以把一些函数(包括全局函数和其它类的成员函数)声明为“友元”,这样那些函数就成为该类的友元函数,在友元函数内部就可以访问该类对 ...
ACM-Checker Challenge
题目描述:Checker Challenge 1000(ms) 10000(kb) 20 / 90 Examine the 6x6 checkerboard below and note tha ...
python---生成式
1.[(x,y) for x in [1,2,3] for y in [4,2,3] if x == y] (x,y):输出表达式,产生最终列表的元素 for x in [1,2,3] for y i ...
POJ 1320：Street Numbers
Street Numbers Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 2753 Accepted: 1530 De ...
Vulkan SDK 之 Device
Enumerate Physical Devices Vulkan instance创建完成之后,vulkan loader是知道你有几个物理设备(显卡),但是程序不知道,需要通过相关接口获取设备 ...
linux提交代码到github
1.首先你得注册个github账户 .... 2.新建项目(可以选择私有或者公开的) 3.上述github代码仓库建立好了 ,就回到自己的linux服务器 3.1 在自己的项目目录里 qi 3.1. ...
java类加载及new对象的过程
/* SubClass sub = new SubClass(); 这句话到底做了什么事情呢? 1.javac编译.java源文件形成.class字节码文件; 2.new SubClass()对象时, ...
tensorflow中的神经网络笔记
1.NN----神经网络 2.CNN卷积神经网络 CNN网络一共有5个层级结构: 输入层卷积层激活层池化层全连接FC层一.输入层与传统神经网络/机器学习一样,模型需要输入的进行预处理操作, ...
POJ - 2385 Apple Catching （dp）
题意:有两棵树,标号为1和2,在Tmin内,每分钟都会有一个苹果从其中一棵树上落下,问最多移动M次的情况下(该人可瞬间移动),最多能吃到多少苹果.假设该人一开始在标号为1的树下. 分析: 1.dp[x ...
工程日记之HelloSlide(2) ： UITextView中如何根据给定的长宽，计算最合适的字体大小
需求描述一般的需求是将UITextview的大小自适应文本高度,会做出随文本内容增加,文字框不断增大的效果: 本文反其道而行之,在给定文字框大小的情况下:字数越多,字体越小: 需求来源: 考虑将文字 ...

豆瓣爬虫Scrapy“抄袭”改写

文件名

代理

其他的好像只字未改。

仍然存在的几点疑问

豆瓣爬虫Scrapy“抄袭”改写的更多相关文章

随机推荐

热门专题