Python爬虫常用库安装

建议更换pip源到国内镜像，下载会快很多：https://www.cnblogs.com/believepd/p/10499844.html

requests

pip3 install requests

selenium

pip3 install selenium

安装好后，测试一下：

from selenium import webdriver

driver = webdriver.Chrome()

执行后报错了：

需要安装chromedriver才能完成chrome浏览器的驱动。

可以从这里下载适合自己的chromedriver（需要对应自己的chrome版本！！！）：https://npm.taobao.org/mirrors/chromedriver

比如我的是windows，解压后将chromedriver.exe放到某个配置好环境变量的目录下。

运行：

from selenium import webdriver

driver = webdriver.Chrome()

driver.get("https://www.baidu.com")

print(driver.page_source)

可以看到，自动打开百度并获取到了源代码。

但是，在做爬虫的时候，一直打开浏览器是不方便的，这时就需要一个没有界面的"浏览器"----phantomjs。

下载phantomjs：http://phantomjs.org/download.html

解压后，将bin目录配置到环境变量中。

from selenium import webdriver

driver = webdriver.PhantomJS(executable_path=r"D:\phantomjs-2.1.1-windows\bin\phantomjs.exe")

driver.get("https://www.baidu.com")

print(driver.page_source)

lxml

pip3 install lxml

beautifulsoup

pip3 install beautifulsoup4

from bs4 import BeautifulSoup

soup = BeautifulSoup("<html></html>", "lxml")

pyquery

pip3 install pyquery

from pyquery import PyQuery as pq

doc = pq("<html>hello!</html>")

result = doc("html").text()

print(result)  # hello!

pymongo

pip3 install pymongo

import pymongo

client = pymongo.MongoClient("localhost")

db = client["test_db"]

db["table"].insert({"name": "pd"})

result = db["table"].find_one({"name": "pd"})

print(result)

jupyter

pip3 install jupyter

相当于一个记事本，它是运行在网页端的。

在cmd中输入：jupyter notebook，就会自动打开浏览器。点击new python3，即可在网页上运行代码。

Python爬虫常用库安装的更多相关文章

爬虫-Python爬虫常用库
一.常用库 1.requests 做请求的时候用到. requests.get("url") 2.selenium 自动化会用到. 3.lxml 4.beautifulsoup 5 ...
python爬虫常用库和安装 -- windows7环境
1:urllib python自带 2:re python自带 3:requests pip install requests 4:selenium 需要依赖chrome ...
Python爬虫常用模块安装
安装:pip3 install requestspip3 install seleniumpip3 install bs4pip3 install pyquerypip3 install pymysq ...
Python 爬虫常用库（九）
python常用库安装网址
python常用库安装网址如下: http://pypi.python.org/pypi
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...
python爬虫---selenium库的用法
python爬虫---selenium库的用法 selenium是一个自动化测试工具,支持Firefox,Chrome等众多浏览器在爬虫中的应用主要是用来解决JS渲染的问题. 1.使用前需要安装这个 ...
Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...

随机推荐

利用JFreeChart生成组合图表 (8) (转自 JSP开发技术大全)
利用JFreeChart生成组合图表 (8) (转自 JSP开发技术大全) 14.8 利用JFreeChart生成组合图表实例位置:光盘\mingrisoft\14\dxyy\02 通过JFree ...
SPI操作flash MX25L64读写数据
STM32F10X SPI操作flash MX25L64读写数据简单的一种应用,ARM芯片作为master,flash为slaver,实现单对单通信.ARM主控芯片STM32F103,flash芯片 ...
Objective-C 继承与类
创建: 2018/01/20 完成: 2018/01/21 更新: 2018/01/22 标题前增加 [Objective-C] 继承的概念父类与子类 ●继承: 继承其他类 ●父类: 被继承的类 ...
Rails5入门
更新: 2017/05/29 更新: 2017/09/07 补充对ruby自身的扩张的放置位置配置文件位置 /config/routes.rb 最简单的定义方法 get ('hello/in ...
测试神器Swagger的相关使用
1.Swagger简介 swagger官网地址: https://swagger.io/ swagger官网文档介绍地址: https://swagger.io/about/ swagge是一个易 ...
BADI FCODE(菜单) 增强
菜单增强功能只能用于非依赖于过滤器的一次性BADI(不是多用途的). 目前,菜单增强功能只能与程序增强功能(界面)一起创建. 定义一个没有过滤器的一次性增强 2.Classic Badi在FCODE ...
ACM_蛇形矩阵
蛇行矩阵 Time Limit: 4000/2000ms (Java/Others) Problem Description: 蛇形矩阵是由1开始的自然数依次排列成的一个矩阵上三角形. Input: ...
HTML基础2——综合案例3——创建考试报名表格
<html> <head> <title></title> </head> <body> <table width=&qu ...
转 js实践篇：例外处理Try{}catch(e){}
程序开发中,编程人员经常要面对的是如何编写代码来响应错误事件的发生,即例外处理(exception handlers).如果例外处理代码设计得周全,那么最终呈现给用户的就将是一个友好的界面.否则,就会 ...
项目需求会__前端er定位的思考~
一.页面展示-----针对前端部分:后台的东西(功能.样式)不考虑! 二.动态效果------能不能实现! 三.接口数据------怎么传数据! 四.兼容性--------兼容到哪个版本浏览器! 五. ...