PythonCrawl自学日志(2)
一、Scrapy环境的安装
1.配套组件的安装
由于开发环境是在VS2015Community中编码,默认下载的python3.5,系统是windows8.1,为此需要安装的组件有如下列表:
所有的组件在pip、easy_install或者可执行exe无法安装时,使用下面的安装方法,
(1)pywim32(win32编程)
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import win32api检查是否安装成功,如果import win32con
可以运行,而import win32api显示DLL缺失时,将Python\Lib\site-packages\pywin32_system32\下的所有文件复制到c:\\windows\\system32文件夹下,即可运行
(2)Twisted (socket通讯)
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字的集成安装包,用import OpenSSL检测是否安装成功
(3)zope.interface
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包,用 import zope检测是否安装成功
(4)YAML
在http://pyyaml.org/wiki/PyYAML下载对应的可执行就行了
(5)requests
使用指令 pip install requests==2.2.1
(6)progressbar
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包
(7)pyOpenSSL(通信协议ssl)
在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应名字集成安装包
2.Scrapy的安装
pip install scrapy
二、Scrapy一些命令行指令
1.新建爬虫项目 scrapy startproject 项目名
2.新建爬虫 scrapy genspider 爬虫名字 处理网址
3.运行爬虫 scrapy crawl 爬虫名
4.检查爬虫完整 scrapy check [-l] 爬虫名
5.列出爬虫 scrapy list
6.编辑爬虫 scrapy edit 爬虫名
7.显示爬取过程 scrapy fetch 处理网址
8.下载网页 scrapy view 处理网址
9.组件组合情况 scrapy parse 处理网址
10.爬虫压力测试scrapy bench
11.自定义指令 COMMANDS_MODULE ='定义指令'
PythonCrawl自学日志(2)的更多相关文章
- PythonCrawl自学日志
2016-09-10 PythonCrawl自学日志 1.python及Selenium的安装 (1)开发环境使用的是VS2015 Community.python3.5.Selenium3.0BET ...
- PythonCrawl自学日志(3)
2016年9月21日09:21:431.爬虫的抓取周期:(1)首先生成初始请求爬第一个url,并指定一个回调函数被称为与下载这些请求的响应.(2)第一个请求执行通过调用 start_requests( ...
- PythonCrawl自学日志(4)
2016年9月22日10:34:02一.Selector1.如何构建(1)text构建: body = '<html><body><span>good</sp ...
- Python自学日志_2017/9/05
9月5日今天早晨学习了网易云课程<Python做Web工程师课程>提前预习课程<学会开发静态网页>.轻松的完成了第五节课的两个实战作业--感觉自己这几天的功夫没有白费,总算学会 ...
- python自学日志--基础篇(1)
从认识python,到学习python,中间经历了挺长一段时间的心理挣扎.人总是对未知的事物有着天生的恐惧感,但是,人又是对未知充斥好奇.所以在最后,还是推开了这扇门,开始学习python. pyth ...
- VUE自学日志01-MVC和MVVM
一.需要了解的基础概念 Model(M)是指数据模型,泛指后端进行的各种业务逻辑处理和数据操控,主要围绕数据库系统展开.这里的难点主要在于需要和前端约定统一的接口规则. View(V)是视图层,也就是 ...
- VUE自学日志02-应用与组件实例
准备好了吗? 我们刚才简单介绍了 Vue 核心最基本的功能--本教程的其余部分将更加详细地涵盖这些功能以及其它高阶功能,所以请务必读完整个教程! 应用 & 组件实例 创建一个应用实例创建一个应 ...
- Appium自动化测试教程-自学网-monkey日志管理
日志管理作用 Monkey日志管理是Monkey测试中非常重要的一个环节,通过日志管理分析,可以获取当前测试对象在测试过程中是否会发生异常,以及发生的概率,同时还可以获取对应的错误信息,帮助开发定位和 ...
- 从零自学Hadoop(22):HBase协处理器
阅读目录 序 介绍 Observer操作 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,Sour ...
随机推荐
- [C++知识点]2015.4.18
1.“static_cast/强制转换”后普通函数.虚函数的表现 A基类 B子类 实例aPtr:将B实例强制抓换得到的A实例 实例bPtr:将A实例强制转换得到的B实例 总结: (1) aPtr因为是 ...
- Java基础知识强化之多线程笔记04:并行和并发 区别
1. 并发 和 并行区别 (1)并发:(单核) 并发,是在同一个cpu上同时(不是真正的同时,而是看来是同时,因为cpu要在多个程序间切换)运行多个程序. 并发是指两个任务都请求运行,而处理器只能按受 ...
- MAC上安装Homebrew、Nginx、PHP、MySQL
准备工作 新版的 Mac OS 内置了Apache 和 PHP,可以通过以下命令查看Apache和PHP的版本号: # httpd -v # php -v 安装Homebrew Mac下的Homebr ...
- 虚拟机CentOS联网相关配置
CentOS 用ifconfig命令,只有lo,没有eth0的解决方案 如果ifconfig -a 也没发现eth0则拷贝lo自己造一个,CentOS7 命令为 ip addr 1.配置虚拟机如下图: ...
- 【汉诺塔问题】UVa 10795 - A Different Task
[经典汉诺塔问题] 汉诺(Hanoi)塔问题:古代有一个梵塔,塔内有三个座A.B.C,A座上有64个盘子,盘子大小不等,大的在下,小的在上.有一个和尚想把这64个盘子从A座移到B座,但每次只能允许移动 ...
- dig命令浅析
dig命令,功能更强大的命令. man dig dig [@server] [-b address] [-c class] [-f filename] [-k filename] [-m] \ [-p ...
- 创建eclipse新的workspace并设置workspace共享配置
一:创建新的workspace 1.File——Switch Workspace——Other 2.修改workspace路径和名称 3.修改后如下: 4.点击OK按钮后,eclipse自动重启 同时 ...
- 灯笼Lantern下载及使用教程
http://www.iyaxi.com/2015-11-17/732.html 最新科学上网QQ群群号:465166189点击链接加入群[翻越长城三群]:http://jq.qq.com/?_wv= ...
- 用JQuery中的Ajax方法获取web service等后台程序中的方法
用JQuery中的Ajax方法获取web service等后台程序中的方法 1.准备需要被前台html页面调用的web Service,这里我们就用ws来代替了,代码如下: using System; ...
- iOS开发——图片轮播图+单选选项
由于公司开发需要,需要滚动每道评测题, 并且一道评测题单项选择,按钮和文字都可点击选中 (单选比多选复杂一点,但是原理差不多) 1.当初任务紧,代码也没有优化,仅供思路参考,先放几张图 2.代码部分 ...