潭州课堂25班:Ph201805201 爬虫高级 第一课 pyspider框架 (课堂笔记)
利用wheel安装
S1: pip install wheel
S2: 进入www.lfd.uci.edu/~gohlke/pythonlibs/,Ctrl + F查找pycurl
这个包名是pycurl-版本-你下载的python版本(如python3.4,就是cp34)-win32/64操作系统),选择你所需要的进行下载
S4: 安装编译包,命令行输入 pip install 你下载的whl文件的位置如(d:\pycurl-7.43.1-cp34-cp34m-win_amd64.whl)
S5: 继续pip install pyspider
pip install 安装好后
在 cmd 中运行
有这出现,说明安装成功

浏览器中输入 http://127.0.0.1:5000/



js渲染的页面数据不容易抓取,因为 http 请求库是能直接运行 js 代码 的 如urlilb, requests
而 pyspider 是支持 js 的
当出现 SSL错误时,
我们在 requests 中添加 参数 verify = False
在pyspider中我没设置 validate_cert = False

在这里,
on_start 是程序入口,当在web 页面点击 run 的时候调用
self.crawl 生成一个新的爬邓任务,
doc('a[href^="http"]')
匹配 a 标签中的 href 以 http 开头的内容
要在框架中显示js渲染后的页面
Phantomjs 无界面浏览器
在 win 下,下载后,添加环境变量
fetch_type =' js'
删除一个项目
把 name 改为: delete ,状态为 stop 24小时后自动删除
py操作数据库
# -*- coding:utf-8 -*-
# 斌彬电脑
# @Time : 2018/9/26 0026 下午 3:39
import pymysql
# import sclapy
class a():
def __init__(self):
self.db = pymysql.connect(
host = '127.0.0.1', # 远程 ip
port=3306, # mysql 端口
user='binbin', # 用户名
password = 'qwe123', # 密码
db = 'binbin', # 数据库
charset="utf8" # 编码
)
self.cur = self.db.cursor() # 定义游标 def add_items(self):
# def add_items(self,url,title,nr,h):
try:
# 往表格里写数据
sql ="insert into bb(url,title,内容,时间与点击次数) value(%s,%s,%s,%s)"
self.cur.execute(sql,['bindu','a','c','d'])
self.db.commit() # 提交事务
a = self.cur.execute( 'select * from bb' )
print(a)
except Exception as e:
self.db.rollback() # 数据回滚 a = a()
a.add_items()
# print(a)


将爬到的数据写入数据库
潭州课堂25班:Ph201805201 爬虫高级 第一课 pyspider框架 (课堂笔记)的更多相关文章
- 潭州课堂25班:Ph201805201 爬虫高级 第二课 sclapy  框架 (课堂笔记)
		
win 下安装 sclapy 先安装 pip install wheel py 库下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 在这 ...
 - 潭州课堂25班:Ph201805201 爬虫高级 第九课  scrapyd 部署  (课堂笔记)
		
c rapyd是 scrapy 的部署, 是官方提供的一个爬虫管理工具, 通过他可以非常方便的上传控制爬虫的运行, 安装 : pip install scapyd 他提供了一个json ,web, s ...
 - 潭州课堂25班:Ph201805201  爬虫基础   第一课  (课堂笔记)
		
爬虫的概念: 其实呢,爬虫更官方点的名字叫数据采集,英文一般称作spider,就是通过编程来全自动的从互联网上采集数据.比如说搜索引擎就是一种爬虫.爬虫需要做的就是模拟正常的网络请求,比如你在网站上点 ...
 - 潭州课堂25班:Ph201805201 爬虫基础 第九课  图像处理- PIL (课堂笔记)
		
Python图像处理-Pillow 简介 Python传统的图像处理库PIL(Python Imaging Library ),可以说基本上是Python处理图像的标准库,功能强大,使用简单. 但是由 ...
 - 潭州学院-JavaVIP的Javascript的高级进阶-KeKe老师
		
潭州学院-JavaVIP的Javascript的高级进阶-KeKe老师 讲的不错,可以学习 下面是教程的目录截图: 下载地址:http://www.fu83.cn/thread-283-1-1.htm ...
 - 潭州课堂25班:Ph201805201 WEB 之 页面编写 第四课 登录注册 (课堂笔记)
		
index.html 首页 <!DOCTYPE html> <html lang="en"> <head> <meta charset=& ...
 - 潭州课堂25班:Ph201805201 WEB 之 页面编写 第三课 (课堂笔记)
		
index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...
 - 潭州课堂25班:Ph201805201 WEB 之 页面编写 第二课 (课堂笔记)
		
index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...
 - 潭州课堂25班:Ph201805201 WEB 之 页面编写 第一课 (课堂笔记)
		
index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&quo ...
 
随机推荐
- Python中的exec、eval使用实例
			
Python中的exec.eval使用实例 这篇文章主要介绍了Python中的exec.eval使用实例,本文以简洁的方式总结了Python中的exec.eval作用,并给出实例,需要的朋友可以参考下 ...
 - 使用RMS API 自定义Office(Word、Excel、PPT)加密策略
			
什么是RMS: Microsoft Windows Rights Management 服务 (RMS),是一种与应用程序协作来保护数字内容(不论其何去何从)的安全技术,专为那些需要保护敏感的 Web ...
 - Javascript之BOM与DOM讲解
			
一.Javascript组成 JavaScript的实现包括以下3个部分: ECMAScript(核心) 描述了JS的语法和基本对象. 文档对象模型 (DOM) 处理网页内容的方法和接口 浏览器对象模 ...
 - 20个实用的webApp前端开发技巧
			
自Iphone和Android这两个牛逼的手机操作系统发布以来,在互联网界从此就多了一个新的名词-WebApp(意为基于WEB形式的应用程序,运行在高端的移动终端设备). 开发者们都知道在高端智能手机 ...
 - ZOJ 2314 Reactor Cooling(无源汇有上下界可行流)
			
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=2314 题目大意: 给n个点,及m根pipe,每根pipe用来流躺 ...
 - poj2018 二分+线性dp好题
			
/* 遇到求最值,且答案显然具有单调性,即可用二分答案进行判定 那么本题要求最大的平均数,就可以转换成是否存在一个平均数为mid的段 */ #include<iostream> #incl ...
 - 获取修改CSS
			
获取CSS使用方法css("CSS属性名称"), 示例css("color") 设置CSS使用方法css("CSS属性名称","属 ...
 - centos下配置DNS
			
centos网络配置实例 1,配置DNSvi /etc/resolv.conf加入: 代码如下: nameserver 192.168.0.1 nameserver 8.8.8.8 nameserve ...
 - 详解webpack中的hash、chunkhash、contenthash区别
			
hash.chunkhash.contenthash hash一般是结合CDN缓存来使用,通过webpack构建之后,生成对应文件名自动带上对应的MD5值.如果文件内容改变的话,那么对应文件哈希值也会 ...
 - Mq的介绍
			
1.使用场景 异步处理 日志收集 流量削峰 应用解耦 2.通信协议 高级消息队列协议(AMQP). 参考文档:http://www.huangxiaobai.com/archives/1267