【python爬虫】scrapy入门1--环境搭建

Scrapy Day01

（1）

进入主目录，右键打开终端，创建项目

scrapy startproject xicidailiSpyder

进入项目目录

cd xicidailiSpyder/

创建爬虫文件（文件名不能与项目名相同）

scrapy genspider xicidaili www.xicidaili.com

（2）

Settings.py

取消注释：ROBOTSTXT_OBEY = False

取消注释：ITEM_PIPELINES

取消注释：DEFAULT_REQUEST_HEADERS，添加'User-Agent’:用户代理

设置输出编码（csv中文乱码特效药）：FEED_EXPORT_ENCODING = 'utf-8-sig'

（3）

爬虫文件名.py

修改：start_urls = ['http://www.xicidaili.com/nt/6']

修改：

def parse(self, response):

# pass

selectors=response.xpath('//tr')

for selector in selectors:

ip=selector.xpath('./td[2]/text()').get()

port=selector.xpath('./td[3]/text()').get()

# print(ip,port)

items ={

'ip':ip,

'port':port

}

# yield:跟字典

yield items

next_page=response.xpath("//a[@class='next_page']/@href").get()

if next_page:

print(next_page)

next_url=response.urljoin(next_page)

# 发出请求 Request，callback 回调函数将请求得到的响应交给自己处理

yield scrapy.Request(next_url,callback=self.parse)

（4）

开始爬虫

scrapy crawl xicidaili

导出数据格式

scrapy crawl xicidaili -o ip.json

scrapy crawl xicidaili -o ip.csv

注意这3个命令都是项目相关的，只能用于已存在的项目。

其他：

1、谷歌插件：XPath Helper

2、pip install scrapy，依赖包twisted错误，第三方库离线下载whl（搜索twisted）：https://pypi.org/search/?q=twisted&o=

3、硬件测试命令：scrapy bench，错误需要安装：pip install pywin32

【python爬虫】scrapy入门1--环境搭建的更多相关文章

python从零开始基础入门——开发环境搭建：Visual Studio Code
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:山海皆可平z PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
python从零开始基础入门——开发环境搭建
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:山海皆可平z PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
【个人笔记】003-PHP基础-01-PHP快速入门-03-PHP环境搭建
003-PHP基础-01-PHP快速入门 03-PHP环境搭建 1.客户端(浏览器) IE FireFox CHROME Opera Safari 2.服务器是运行网站的基本是放置程序代码的地方 ...
Android入门之环境搭建
欢迎访问我的新博客:http://www.milkcu.com/blog/ 原文地址:http://www.milkcu.com/blog/archives/1376935560.html 原创:An ...
scala 入门Eclipse环境搭建
scala 入门Eclipse环境搭建及第一个入门经典程序HelloWorld IDE选择并下载: scala for eclipse 下载: http://scala-ide.org/downloa ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...

随机推荐

Vue 结合 echarts 原生 html5 实现拖拽排版报表系统
前言不知道各位 coder 有没有碰到过许多重复的业务需求,比如排版相类似的报表,只不过是顺序稍微换了一下,就是一个新的页面,虽然基于模板思想来写的话也能减少不少代码,但是相对的不那么方便,笔者最近 ...
Azkaban3.81.x部署+坑
一.前提安装 1.1 Java1.8环境搭建 1) 下载jdk1.8并解压: # tar -zxvf jdk-8u201-linux-i586.tar.gz -C /usr/local 2) 添加Ja ...
老师，你确定Java注释不会被执行吗？
之前在博客上分享过一篇文章,涉及到 Java 中的注释,就信誓旦旦地写了一句话:"注释是不会被执行的!"结果,有小伙伴留言说,"老师,你确定吗?" 我这个人一直 ...
golang 容器的学习与实践
golang 提供了几个简单的容器供我们使用,本文在介绍几种Golang 容器的基础上,实现一个基于Golang 容器的LRU算法. 容器介绍 Golang 容器位于 container 包下,提供了 ...
【FreeRTOS学习03】小白都能懂的Task Management 任务管理基本概念介绍
在FreeRTOS中,线程的术语又可以被称之为任务,或许这样更加合适,本文将介绍任务的创建/删除,任务参数的使用,以及任务优先级: 1 软实时和硬实时硬实时系统的任务运行正确性与响应时限是紧密相关的 ...
Linux高性能服务器技术总结
文章目录 1 服务器简介 2 I/O复用技术 2.1 循环方式 2.2 select 方式 2.3 poll方式 2.4 epoll 方式 3 多线程方式 4 CPU多核并行计算 5 深度分析内核性能 ...
js--bom对象
bom:browser object model **navigator:获取浏览器的信息 **screen:获取屏幕的相关信息 **location:请求的url地址 **获取请求的url地址:lo ...
git工作中最常用的用法教程，不走命令行
·1.1 git的概述 Git(读音为/gɪt/.)是一个开源的分布式版本控制系统,可以有效.高速的处理从很小到非常大的项目版本管理. Git 是 Linus Torvalds 为了帮助管理 Lin ...
web2
0x01 <?php $miwen="a1zLbgQsCESEIqRLwuQAyMwLyq2L5VwBxqGA3RQAyumZ0tmMvSGM2ZwB4tws"; funct ...
android Viewpager禁用/开启滑动切换功能
要实现viewpager的滑动以及禁止滑动切换功能只需要继承viewpager,在onTouchEvent进行逻辑判断即可(网上搜到的,确实可行,原创地址不明),下面自己实现一个 import and ...

【python爬虫】scrapy入门1--环境搭建

【python爬虫】scrapy入门1--环境搭建的更多相关文章

随机推荐

热门专题