Python3爬虫相关软件,库的安装
Anaconda
百度搜Anaconda清华,根据环境选择版本下载
安装时记得勾选添加到环境变量,不要还要手动添加
Anaconda Navigator可视化界面,可以方便地调用Jupyter等工具。
MongoDB
官网下载地址 https://www.mongodb.com/download-center?jmp=nav#production
3.4版本需要如下配置,4.0不需要
在I:MongoDB\Server\3.4\目录下建立data\db
在bin目录下,Shift+鼠标右键,打开PowerShell,输入
mongod --dbpath I:\MongoDB\Server\3.4\data\db
验证MongoDB启动成功,在浏览器输入
localhost:
启动MongoDB,打开新的cmd,输入
mongo
db
db.test.insert(('a':'b'))
将MongoDB作为服务,以管理员身份打开cmd,进入bin目录,在data目录下建立logs\mongo.log,在cmd中输入
mongod --bind_ip 0.0.0.0 --logpath I:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath
I:\MongoDB\Server\3.4\data\db --port 27017 -serviceName "MongoDB" --serviceDisplayName "MongoDB" --install
Robomongo可视化界面
下载地址:云盘快捷传送门→robo.3t.windows-x86_64.7z:https://pan.baidu.com/s/1Y5uTvTT9rLlOrW9HnCMp7g 密码:1ycs
(备注:想下载studio.3t的请选择studioxsdaw.rar)
Redis
key-value数据库,用到的时候再安装
=====================================
库
---------------------------
查询请求库
urllib
python自带,无需安装
request
pip3 install request
import request
requests.get('http://www.baidu.com')
selenium
打开浏览器执行
先下载chromedriver,解压后包exe文件移动到已经配置了环境变量的目录下,如python/script,然后再执行下面的代码
pip3 install selenium
import selenium
from selenium import webdriver
driver=webdriver.Chrome()
driver.get("http:\\www.baidu.com")
driver.page_source \\打印网页源码
phantomjs
后台静默运行,无需打开浏览器
下载地址http://phantomjs.org/download.html,解压后将bin目录添加到环境变量即可,无需安装,好像不更新了
可以用headless chrome?
lxml
pip3 install lxml
//另一种安装方式,先下载whl文件,再执行下面的命令
pip3 install whl文件名
beautifulsoup
依赖lxml库,pip安装即可,记得是beautifulsoup4,不要打错
pip3 install beautifulsoup4
python
from bs4 import BeautifulSoup
soup=BeautifulSoup('(html)(/html)','lxml')
pyquery
注意html和/html外面是尖括号,其余是圆括号
pip3 install pyquery
python
from pyquery import PyQuery as pq
doc=pq('<html>hello</html>')//只有这行有尖括号
result=doc('html').text()
result
---------------------------------------------------
存储库
pymysql
注意创建表时要用圆括号。
pip3 install pymysql
python
import pymysql
conn=pymysql.connect(host='localhost',user='root',password='yourpassword',port=3306,db='mysql')
cursor = conn.cursor()
cursor.execute('select * form db') 返回数据大小
cursor.fetchone() 返回执行结果
执行到这儿的时候出错了,pymysql.err.OperationalError: (1045, "Access denied for user 'root'@'localhost' (using password: YES)")
原因:不是pymysql出错,而是用户名密码的问题,不用密码可以进入mysql数据库,使用密码后反而不能(但我已经按照https://www.cnblogs.com/Pusteblume/p/10165287.html 重设密码了,还是不能登录)
解决方案:卸载重装,虽然不是一个好的方法,但至少解决了问题
pymongo
pip3 install pymongo
python
import pymongo
client = pymongo.MongoClient('localhost')
db = client['newtestdb']
db['table'].insert({'name':'Bob'})
db['table'].find_one({'name':'Bob'})
redis 分布式爬虫用,维护爬行队列,效率高
直接执行下面的代码会提示由于目标计算机积极拒绝,无法连接,要手动下载Windows版的redis,网址https://github.com/MicrosoftArchive/redis/releases,安装后执行redis-server.exe,启动界面闪了一下就可以了,具体教程如下https://blog.csdn.net/sinat_29957455/article/details/78567194,也有的教程说执行redis-cli.exe,不过我没试过。
pip3 install redis
python
import redis
r=redis.Redis(host='localhost',port=6379)
r.set('name','a')
print(r.get('name'))
flask
pip3 install flask
django 和网站有关
pip3 install flask
Python3爬虫相关软件,库的安装的更多相关文章
- Python3 网络爬虫(请求库的安装)
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据 在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
- Mac os 下 python爬虫相关的库和软件的安装
由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑. 一. 相关软件的安装: 1. h ...
- linux安装python3 大型的软件一定要安装在/ opt中 规范
关闭页面特效 linux中安装python 1.首先切换目录 大型的软件一定要安装在/ opt中 规范 cd /opt 2.下载python3的源码 wget https://www.p ...
- python3爬虫之requests库基本使用
官方文档链接(中文) https://2.python-requests.org/zh_CN/latest/ requests 基于 urllib3 ,python编写. 安装 pip insta ...
- python爬虫学习记录——各种软件/库的安装
Ubuntu18.04安装python3-pip 1.apt-get update更新源 2,ubuntu18.04默认安装了python3,但是pip没有安装,安装命令:apt install py ...
- python3爬虫之Urllib库(一)
上一篇我简单说了说爬虫的原理,这一篇我们来讲讲python自带的请求库:urllib 在python2里边,用urllib库和urllib2库来实现请求的发送,但是在python3种在也不用那么麻烦了 ...
- 爬虫相关--requests库
requests的理想:HTTP for Humans 一.八个方法 相比较urllib模块,requests模块要简单很多,但是需要单独安装: 在windows系统下只需要在命令行输入命令 pip ...
- python3 爬虫相关-requests和BeautifulSoup
前言 时间的关系,这篇文章只记录了相关库的使用,没有进行深入分析,各位看官请见谅(还是因为懒.....) requests使用 发送无参数的get请求 r = requests.get('http:/ ...
- python3爬虫之Urllib库(二)
在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等 ...
随机推荐
- 算法题:int 数组中 只有一个是id 只出现一次 其他都出现2次 怎么找出只出现一次的id
首先讲一个最笨的算法:时间复杂度为N 空间复杂度为N 代码如下:输出结果id=3完全正确: int[] a = new int[] { 1, 1, 2, 2, 3, 4, 4 }; Dictiona ...
- Go 初体验 - 错误与异常处理
错误处理是学习任何编程语言都需要考虑的一个重要话题 go 内置的 error 接口是这样的: 先上代码: 输出: 释义: 我们首先定义9行的自定义错误类型 30行再实现 error 接口 34定义打开 ...
- Fiddler抓包【4】_重定向AutoResponder
1. 文件及图片替换(Enable rules) 目的:允许从本地返回文件,代替服务器响应,而不用将文件发布到服务器[可用正式环境验证本地文件] 步骤一:抓页面http://ir.baidu.com/ ...
- mongodb细讲
一. 关系型数据库(sql) 1.建表 二.非关系型数据库(nosql 98提出的概念) 1.不用建库建表数据直接存入就可 优缺点: 关系型:节约资源(学生姓名和课程名不重复出现),开发不方便(需先 ...
- windows10误删Administrator用户的家目录之后
今天在玩Windows10的用户管理的时候,把Administrator用户给开启了,然后还用这个用户登录了系统. 结果就是,第一次登录的时候,闪过一条条初始化配置欢迎信息,Windows系统为Adm ...
- RocketMQ基本概念
RocketMQ基本概念 一.生产者 生产者发送业务系统产生的消息给broker.RocketMQ提供了多种发送方式:同步的.异步的.单向的. 1.1 生产者组 具有相同角色的生产者被分到一组.假如原 ...
- python pprint模块
pprint模块 提供了打印出任何python数据结构类和方法. 模块方法: 1.class pprint.PrettyPrinter(indent=1,width=80,depth=None, st ...
- Appium(一)---环境搭建的一些问题
最近开始学习Appium,一款很不错的自动化测试工具,网上已经有大量的环境搭建教程,我就不再细说,我搭建环境时主要参考如下两个博客https://www.cnblogs.com/yoyoketang/ ...
- base64使用
public static void main(String args[]) throws Exception { InputStream in = null; byte[] data = null; ...
- java导出csv格式文件
导出csv格式文件的本质是导出以逗号为分隔的文本数据 import java.io.BufferedWriter; import java.io.File; import java.io.FileIn ...