Python爬虫笔记安装篇
爬虫三步
- 抓取页面:使用请求库
- 分析页面:使用解析库
- 存储数据:使用数据库
所以,根据这三步,我们要下载一些第三方库,也就是请求库,解析库,数据库.
经常听有人说:人生苦短,我用Python
我想这大概是因为Python有众多的第三方库,别人已经写好了,你调用就完事了
下面是爬虫所需要的一些第三方库的安装,大部分可以使用pip安装,少数需要去官网下载
pip是什么?超级爽的包管理工具,可以理解为手机上的应用商店
请求库
Requests:阻塞式请求库
Requests是什么
Requests是一个请求库,阻塞式的.意思就是你在请求浏览器的时候,只能等,期间什么都做不了,效率很低很低的
Requests安装
pip install Requests #Request库安装
selenium:浏览器自动化测试
selenium安装
pip install selenium #selenium库安装
安装完selenium之后,下载ChromeDriverChromeDriver下载,其他浏览器也有驱动,但是我只用Chrome,根据你的Chrome浏览器版本下载对应的Driver,然后把Driver放到Python安装目录的Scripts目录下即可.使用where python即可查看安装目录
在Python文件中输入以下,运行,会启动Chrome窗口
from selenium import webdriver
browser = webdriver.Chrome()
如果弹窗一闪而退了,说明版本有问题,如果Chrome版本的Driver没有,恭喜你,遇到了和我一样的问题,原因大概是因为新版的Chrome浏览器实现了隐藏窗口,因为你爬虫的时候,总开个浏览器窗口也不是个事
PhantomJS:隐藏浏览器窗口
PhantomJS是什么
上面说到,最新版的Chrome浏览器支持隐藏窗口,其实使用PhantomJS也可以实现隐藏窗口.Selenium是支持PhantomJS的,支持不同的浏览器,很方便
PhantomJS安装
PhantomJS居然不支持pip安装,真是诧异,那就在官网下载吧.下载完成之后打开bin文件夹,有一个phantomjs.exe,还是个小白布精灵图标好可爱~和ChromeDriver一样,把这个exe放到Python的Scripts目录即可
检测安装很简单,直接在终端打PhantomJS即可,如果进去了就ok,ctrl+d退出
PhantomJS使用
from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get('https://www.baidu.com')
print (browser.current_url)
aiohttp:异步请求库
aiohttp是什么
异步请求库,和Requests刚好相反,在请求的时候,在浏览器还没搭理你的时候,可以干点其他的事.在爬虫后期的代理中,用处非常大
aiohttp安装
pip install aiohttp
#aiohttp官方推荐再下载两个相关库,不下也没事
#cchardet是字符编码检测库,aiodns是加速DNS解析库
pip install cchardet aiodns
解析库
安装完上面的请求库之后,我们可以获取大量的网页数据了,但是怎么提取我们想要的数据呢?这就要使用解析库了,非常强大
lxml:解析HTML和XML,支持XPath
lxml是什么
解析HTML和XML的一个解析库,支持XPath解析方式
lxml安装
pip install lxml
BeautifulSoup:解析HTML和XML
BeautifulSoup是什么
解析HTML和XML的一个解析库,具有强大的API和多样的解析样式
BeautifulSoup安装
pip install bs4
BeautifulSoup验证安装
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print (soup.p.string)
输出hello表明安装成功
BeautifulSoup基本用法
我有一个重要的提醒,在获取文本信息的时候,不要使用string,最好使用get_text()
#BeautifulSoup初始化可以自动更正HTML格式,补全没有闭合的元素
print (soup.prettify())#以标准的缩进格式输出
print(soup.title)#标题
print(soup.title.string)#标题里面的内容
print(soup.title.name)#title的节点名称,就是title
print(soup.p)#第一个p元素的内容
print(soup.p.attrs)#第一个p元素的所有属性和值
print(soup.p['class'])#第一个p元素class属性的值
print(soup.p['name'])#第一个p元素name属性的值
print(soup.p.b.string)#第一个p标签下的b标签的文本内容
print(soup.p.contents)#第一个p元素下的所有子节点,不包括孙子节点
#第一个p元素所有的子节点
print(soup.p.descendants)
for i,child in enumerate(soup.p.descendants):
print(i,child)
print(soup.p.parent)#第一个p元素的父节点
#第一个p元素所有的父节点
print(soup.p.parents)
print(list(enumerate(soup.p.parents)))
print(soup.p.next_sibling)#第一个p元素的下一个兄弟节点,注意有回车的时候要写两个next_sibling
print(list(enumerate(soup.p.next_siblings)))#第一个p元素后面的所有兄弟节点
print(soup.p.previous_sibling)#第一个p元素的上一个兄弟节点
print(list(enumerate(soup.p.previous_siblings)))#第一个p元素前面的所有兄弟节点
#########################################################
#下面这些是比较常用的,上面的了解一下即可
# 判断某个标签是否有属性,例如img标签有一个alt属性,有时候img没有alt属性,我就可以判断一下,否则出错
if img.attrs.get('alt'):
soup.find(id='text-7').find_all(name='li')
#根据文本查找到该标签
# 例如下面的,根据Description查找含有Description的第一个p元素
test = soup.find(lambda e: e.name == 'p' and 'Description' in e.text)
# 其实如果是直接子元素的话,也可以使用parent,但是这个很少用,适用情况不多
test= soup.find(text=re.compile('Description')).parent
#查找某个属性为包含的标签
#标签的属性有很多值,例如img标签的alt属性,有item和img两个值,可以通过如下查找
noscript.find_all('img',attrs={'alt':re.compile('item')})
#判断属性里面是否有某个值
if 'Datasheet' in img['alt']:
#替换所有的br换行符号
html = get_one_page(url)
return html.replace('<br>', '').replace('<br />', '').replace('<br/>', '')
#去除最后一个逗号
datasheet_url.rstrip(',')
#去除关键字和空格,只要后面的内容
#例如 Function : Sensitive Gate Silicon Controlled Rectifiers
#得到的就是Sensitive Gate Silicon Controlled Rectifiers
return re.sub(keywords+'.*?[\s]:.*?[\s]', '', child.find(text=re.compile(keywords)).string)
#返回某个符号之前的字符
import re
text="K6X4008C1F-BF55 ( 32-SOP, 55ns, LL )"
b=re.search('^[^\(]*(?=\()',text,re.M)
if b:
print(b.group(0))
print(len(b.group(0)))
else:
print('没有')
#关键地方是,这里是匹配的( 括号需要\来转义一下
^[^\(]*(?=\()
#如果是逗号,可以写
^[^,]*(?=,)
#如果是单词,比如我想匹配Vae这个单词,如下
text='XuSong Vae hahaha'
text2='VV Vae hahaha'
b=re.search('^[^Vae]*(?=Vae)',text,re.M)
#这个例子很重要,text是可以正则出XuSong的,但是下面的VV就正则不出来了,因为^是后面的Vae的任意一个单词,只要前面包含就不行,VV包含了V,所以就不行了,我尝试着给Vae加括号,也不行.然后我就想了一个办法,把Vae替换成逗号之类的符号不就可以了,只要是一个字符就行,如下
text='XuSong Vae hahaha'
text2='VV Vae hahaha'
b=re.search('^[^,]*(?=,)',text.replace('Vae',','),re.M)
#一段HTML元素中去除a标签,但是保留a标签的值
return re.sub('(<\/?a.*?>)', '', description_element)
#有时候想获取一段HTML元素内容,因为有的排版在,比如ul和li元素,排版是在的,如果使用text就是一串文本,换行都没了,可以这样
str(child.find(class_='ul2')) #获取到这段HTML元素之后,使用str函数变成字符串即可
#下一个兄弟元素最好使用find_next_sibling()
#等待验证,和next_sibling比较一下再说
#Python爬虫数据插入到MongoDB
import pymongo
client = pymongo.MongoClient("mongodb://admin:test123@192.168.3.80:27017/")
db = client.datasheetcafe
collection = db.datasheetcafe
collection.insert_one(message)
pyquery:解析HTML,支持CSS选择器
pyquery安装
pip install pyquery
tesserocr:识别图形验证码
tesserocr是什么
在各大网站上,很多都有图形验证码,这个时候可以使用OCR来识别,OCR是光学字符识别,通过扫描字符翻译成文本.tesserocr是一个OCR的识别库
tesserocr安装
首先要安装tesserocr的核心库tesseract,必须下载,否则tesserocr安装不成功
有趣和坑爹的是,有一款同名的游戏,我Google的时候以为是官网中招了 tesseract 同名游戏
选择一个windows版本下载安装,过程中可以自行勾选是否添加多语言,注意,在线下多语言超级慢,安装完成之后添加一下环境变量,有两个
Path里面添加 C:\Program Files\Tesseract-OCR
新建一个环境变量TESSDATA_PREFIX C:\Program Files\Tesseract-OCR\tessdata
tesserocr还是通过pip安装
pip install tesserocr pillow
如果安装出现了一大堆红色的,就换个方式,使用whl安装
在tesserocr whl 里面找到你对应的Python版本,下载,注意你的Python是32位是还是64位的,下载whl之后执行
pip install C:\Users\Justin\Downloads\tesserocr-2.4.0-cp37-cp37m-win32.whl
至此,tesserocr验证码识别就安装完成了
Web库
Flask:轻量级的Web服务程序
Flask安装
pip install flask
Flask验证安装
运行,然后终端会出现连接,ctrl+鼠标左键点击就可以看到浏览器中出现许嵩
from flask import Flask
app=Flask(__name__)
@app.route("/")
def hello():
return "许嵩"
if __name__=="__main__":
app.run()
Tornado:支持异步的Web框架,支持成千上万的连接
Tornado安装
pip install tornado
Tornado验证安装
这个终端不会输出访问地址了,自己在浏览器上输入http://127.0.0.1:8888/
能看到Hello就代表成功了
import tornado.ioloop
import tornado.web
class MainHandler(tornado.web.RequestHandler):
def get(self):
self.write("Hello")
def make_app():
return tornado.web.Application([
(r"/",MainHandler)
])
if __name__=="__main__":
app=make_app()
app.listen(8888)
tornado.ioloop.IOLoop.current().start()
App库
Python爬虫不仅可以爬网页,也可以爬App的数据
Charles:网络抓包工具,移动端支持也很好
APP的暂时不写
爬虫框架
我直接使用requests,Beautifulsoup已经爬取了几万条数据了,爬虫的爬取量不大的话自己写是ok的,但是你会发现,爬虫的代码好多都是重复的啊,仅仅是爬虫的规则不一样而已,所以,有了一点基础之后就可以开始上手框架了
pyspider框架:中国人写的框架
这个框架我真的是无语了,都说很强大,现在是2019.7.25号,这个框架在GitHub4个月没有更新了, 我使用的时候遇到一堆问题
一堆问题啊,真坑
pyspider安装
pip install pyspider
问题一:需要先安装Pycurl
上面的安装pyspider会报错,提示你安装pycurl,我就奇怪了,不能整合到一起吗
去这个网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl
找到你对应的版本,比如我的Python是3.7.3 32bit 的就使用37,32位,如下
- [pycurl‑7.43.0.3‑cp37‑cp37m‑win32.whl](javascript:
Python爬虫笔记安装篇的更多相关文章
- SystemTap 学习笔记 - 安装篇
https://segmentfault.com/a/1190000000671438 在安装前,需要知道下自己的系统环境,我的环境如下: uname -r 2.6.18-308.el5 Linux ...
- python爬虫笔记Day01
python爬虫笔记第一天 Requests库的安装 先在cmd中pip install requests 再打开Python IDM写入import requests 完成requests在.py文 ...
- [Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假 来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
- Python学习笔记进阶篇——总览
Python学习笔记——进阶篇[第八周]———进程.线程.协程篇(Socket编程进阶&多线程.多进程) Python学习笔记——进阶篇[第八周]———进程.线程.协程篇(异常处理) Pyth ...
- Python学习笔记基础篇——总览
Python初识与简介[开篇] Python学习笔记——基础篇[第一周]——变量与赋值.用户交互.条件判断.循环控制.数据类型.文本操作 Python学习笔记——基础篇[第二周]——解释器.字符串.列 ...
- Python爬虫笔记一(来自MOOC) Requests库入门
Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...
- Python爬虫笔记(一):爬虫基本入门
最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项 ...
- Python爬虫笔记技术篇
目录 前言 requests出现中文乱码 使用代理 BeautifulSoup的使用 Selenium的使用 基础使用 Selenium获取网页动态数据赋值给BeautifulSoup Seleniu ...
- python 爬虫库安装
一键安装python爬虫库 pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask djan ...
随机推荐
- Nginx基于域名的虚拟主机
一.基于域名的虚拟主机 修改配置文件/usr/local/nginx/conf/nginx.conf 创建新的虚拟主机的根目录和默认网页index.html 重新加载nginx的配置文件 查看两个虚拟 ...
- supervisor安装部署文档和管理实例
Supervisord是用Python实现的一款非常实用的进程管理工具,类似于monit(关于monit见我的博客:用monit监控系统关键进程),monit和supervisord的一个比较大的差异 ...
- CentOS7安装Pycharm
1. 进入官网:https://www.jetbrains.com/pycharm/2. 点击下载3. 直接安装:tar zxvf ***.tar.gz4. 建立软连接:sudo ln -s /you ...
- LOJ#2343. 「JOI 2016 Final」集邮比赛 2
题目地址 https://loj.ac/problem/2343 题解 首先处理出\(f[i]\)表示以当前位置开头(J,O,I)的合法方案数.这个显然可以\(O(n)\)处理出来.然后考虑在每个位置 ...
- Kafka为什么这么快?
批量处理 传统消息中间件的消息发送和消费整体上是针对单条的.对于生产者而言,它先发一条消息,然后broker返回ACK表示已接收,这里产生2次rpc:对于消费者而言,它先请求接受消息,然后broker ...
- 线程池的使用(ThreadPoolExecutor详解)
为什么要使用线程池? 线程是一个操作系统概念.操作系统负责这个线程的创建.挂起.运行.阻塞和终结操作.而操作系统创建线程.切换线程状态.终结线程都要进行CPU调度——这是一个耗费时间和系统资源的事情. ...
- 长为N的数组,元素范围是0-N-1,其中只有一个数是重复的,找出这个重复元素
思路:如果限制空间复杂度为O(1),我们就无法采用哈希表的方法去求解.题目中数组中所以数字都在范围[0, N-1],因此哈希表的大小为N即可.因此我们实际要做的就是对N个范围为0到N-1的数进行哈希, ...
- Web 项目的文件/文件夹上传下载
我们平时经常做的是上传文件,上传文件夹与上传文件类似,但也有一些不同之处,这次做了上传文件夹就记录下以备后用. 这次项目的需求: 支持大文件的上传和续传,要求续传支持所有浏览器,包括ie6,ie7,i ...
- pgloader 学习(六) 加载csv 数据
关于加载的配置参数都是使用comand file command file 参考格式 LOAD CSV FROM 'GeoLiteCity-Blocks.csv' WITH ENCODING iso- ...
- prisma 已经支持mongodb了
好久没有关注prisma 的版本迭代了,记得在去年12月份左右的时候,mongodb 在github 上还只是一个草案, 官方文档也没有相关的详细介绍,今天留意了下,居然已经支持了,还是很给力的(my ...
- SystemTap 学习笔记 - 安装篇