第三方模块的下载与使用、requests模块、爬取链家二手房数据、openpyxl模块、hashlib加密模块

第三方模块的下载与使用
- 下载第三方模块可能会出现的问题
网络爬虫模块之requests模块
网络爬虫实战之爬取链家二手房数据
自动化办公领域之openpyxl模块

第三方模块的下载与使用

第三方模块:别人写的模块 一般情况下功能都特别强大

我们如果想使用第三方模块 第一次必须先下载后面才可以反复使用(等同于内置模块)

下载第三方模块的方式

1.pip工具

    	注意每个解释器都有pip工具 如果我们的电脑上有多个版本的解释器那么我们在使用pip的时候一定要注意到底用的是哪一个 否则极其任意出现使用的是A版本解释器然后用B版本的pip下载模块

       为了避免pip冲突 我们在使用的时候可以添加对应的版本号

    	  python27			pip2.7

     	  python36			pip3.6

          python38			pip3.8

  		下载第三方模块的句式

          pip install 模块名

       下载第三方模块临时切换仓库

    	  pip install 模块名 -i 仓库地址

       下载第三方模块指定版本(不指定默认是最新版)

    	  pip install 模块名==版本号 -i 仓库地址

 	2.pycharm提供快捷方式

    	群内截图

下载第三方模块可能会出现的问题

"""

下载第三方模块可能会出现的问题

	1.报错并有警告信息

		WARNING: You are using pip version 20.2.1;

		原因在于pip版本过低 只需要拷贝后面的命令执行更新操作即可

		d:\python38\python.exe -m pip install --upgrade pip

		更新完成后再次执行下载第三方模块的命令即可

	2.报错并含有Timeout关键字

		说明当前计算机网络不稳定 只需要换网或者重新执行几次即可

	3.报错并没有关键字

		面向百度搜索

			pip下载XXX报错:拷贝错误信息

		通常都是需要用户提前准备好一些环境才可以顺利下载

	4.下载速度很慢

		pip默认下载的仓库地址是国外的 python.org

		我们可以切换下载的地址

		pip install 模块名 -i 仓库地址

		pip的仓库地址有很多 百度查询即可

		清华大学 ：https://pypi.tuna.tsinghua.edu.cn/simple/

		阿里云：http://mirrors.aliyun.com/pypi/simple/

		中国科学技术大学 ：http://pypi.mirrors.ustc.edu.cn/simple/

		华中科技大学：http://pypi.hustunique.com/

		豆瓣源：http://pypi.douban.com/simple/

		腾讯源：http://mirrors.cloud.tencent.com/pypi/simple

		华为镜像源：https://repo.huaweicloud.com/repository/pypi/simple/

"""

网络爬虫模块之requests模块

requests模块能够模拟浏览器发送网络请求

import requests

1.朝指定网址发送请求获取页面数据(等价于:浏览器地址栏输入网址回车访问)

res = requests.get('http://www.redbull.com.cn/about/branch')

print(res.content)  # 获取bytes类型的网页数据(二进制)

res.encoding = 'utf8'  # 指定编码

print(res.text)  # 获取字符串类型的网页数据(默认按照utf8)

网络爬虫实战之爬取链家二手房数据

mport requests

import re

res = requests.get('https://sh.lianjia.com/ershoufang/pudong/')

# print(res.text)

data = res.text

home_title_list = re.findall(

    '<a class="" href=".*?" target="_blank" data-log_index=".*?"  data-el="ershoufang" data-housecode=".*?" data-is_focus="" data-sl="">(.*?)</a>',

    data)

# print(home_title_list)

home_name_list = re.findall('<a href=".*?" target="_blank" data-log_index=".*?" data-el="region">(.*?) </a>', data)

# print(home_name_list)

home_street_list = re.findall(

    '<div class="positionInfo"><span class="positionIcon"></span><a href=".*?" target="_blank" data-log_index=".*?" data-el="region">.*? </a>   -  <a href=".*?" target="_blank">(.*?)</a> </div>',

    data)

# print(home_street_list)

home_info_list = re.findall('<div class="houseInfo"><span class="houseIcon"></span>(.*?)</div>', data)

# print(home_info_list)

home_watch_list = re.findall('<div class="followInfo"><span class="starIcon"></span>(.*?)</div>', data)

# print(home_watch_list)

home_total_price_list = re.findall(

    '<div class="totalPrice totalPrice2"><i> </i><span class="">(.*?)</span><i>万</i></div>', data)

# print(home_total_price_list)

home_unit_price_list = re.findall(

    '<div class="unitPrice" data-hid=".*?" data-rid=".*?" data-price=".*?"><span>(.*?)</span></div>', data)

# print(home_unit_price_list)

home_data = zip(home_title_list, home_name_list, home_street_list, home_info_list, home_watch_list,

                home_total_price_list, home_unit_price_list)

with open(r'home_data.txt','w',encoding='utf8') as f:

    for data in home_data:

        print(

            """

            房屋标题:%s

            小区名称:%s

            街道名称:%s

            详细信息:%s

            关注程度:%s

            房屋总价:%s

            房屋单价:%s

            """%data

        )

        f.write("""

                房屋标题:%s

                小区名称:%s

                街道名称:%s

                详细信息:%s

                关注程度:%s

                房屋总价:%s

                房屋单价:%s\n

                """%data)

自动化办公领域之openpyxl模块

1.excel文件的后缀名问题

	03版本之前

    	.xls

 	03版本之后

    	.xlsx

2.操作excel表格的第三方模块

	xlwt往表格中写入数据、wlrd从表格中读取数据

    	兼容所有版本的excel文件

 	openpyxl最近几年比较火热的操作excel表格的模块

    	03版本之前的兼容性较差

	ps:还有很多操作excel表格的模块 甚至涵盖了上述的模块>>>:pandas

3.openpyxl操作

	'''学会看官方文档!!!'''

    from openpyxl import Workbook

    # 创建一个excel文件

    wb = Workbook()

    # 在一个excel文件内创建多个工作簿

    wb1 = wb.create_sheet('学生名单')

    wb2 = wb.create_sheet('a')

    wb3 = wb.create_sheet('b')

    # 还可以修改默认的工作簿位置

    wb4 = wb.create_sheet('c名单', 0)

    # 还可以二次修改工作簿名称

    wb4.title = 'd名单'

    wb4.sheet_properties.tabColor = "1072BA"

    # 填写数据的方式1

     wb4['F4'] = 666

    # 填写数据的方式2

     wb4.cell(row=3, column=1, value='jason')

    # 填写数据的方式3

    wb4.append(['编号', '姓名', '年龄', '爱好'])  # 表头字段

    wb4.append([1, 'jason', 18, 'read'])

    wb4.append([2, 'kevin', 28, 'music'])

    wb4.append([3, 'tony', 58, 'play'])

    wb4.append([4, 'oscar', 38, 'ball'])

    wb4.append([5, 'jerry', 'ball'])

    wb4.append([6, 'tom', 88,'ball','哈哈哈'])

    # 填写数学公式

     wb4.cell(row=1, column=1, value=12321)

     wb4.cell(row=2, column=1, value=3424)

     wb4.cell(row=3, column=1, value=23423432)

     wb4.cell(row=4, column=1, value=2332)

     wb4['A5'] = '=sum(A1:A4)'

     wb4.cell(row=8, column=3, value='=sum(A1:A4)')

   # 保存该excel文件

    wb.save(r'111.xlsx')

'''

openpyxl主要用于数据的写入 至于后续的表单操作它并不是很擅长 如果想做需要更高级的模块pandas

excel软件正常可以打开操作的数据集在10万左右 一旦数据集过大 软件操作几乎无效 需要使用代码操作>>>:pandas模块

'''

第三方模块的下载与使用、requests模块、爬取链家二手房数据、openpyxl模块、hashlib加密模块的更多相关文章

基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
Python 网络爬虫 006 (编程) 解决下载（或叫：爬取）到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
requests+正则表达式爬取ip
#requests+正则表达式爬取ip #findall方法,如果表达式中包含有子组,则会把子组单独返回出来,如果有多个子组,则会组合成元祖 import requests import re def ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片
需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoD ...

随机推荐

微服务系列之授权认证(一) OAuth 2.0 和 OpenID Connect
1.传统架构的授权认证传统应用架构,用户使用账号密码登录后,可以使用前端cookie存储登录状态,也可以使用后端session方式存储登录状态,小应用这么做其实很高效实用,当应用需要横向扩展时,就需 ...
.net程序集强签名
要想得到强签名的dll有两种情况: 1.给项目添加强命名在你的项目右键->属性->签名,勾选"为程序集签名",新建或浏览已经新建过的.pfx文件,然后重新buil ...
SDN实验环境安装配置
第六章：Django 综合篇 - 19：部署 Django
补充说明:关于项目部署,历来是开发和运维人员的痛点.造成部署困难的主要原因之一是大家的Linux环境不同,这包括发行版.解释器.插件.运行库.配置.版本级别等等太多太多的细节.因此,一个成功的部署案例 ...
云服务器 Centos7 部署 Elasticsearch 8.0 + Kibana 8.0 指南
文章转载自:https://mp.weixin.qq.com/s/iPfh9Mkwxf5lieiqt6ltxQ 服务器是命令行模式登录,没法以浏览器方式访问.而官方推荐的快捷部署方式,在kibana ...
k8s中资源配额 ResourceQuota
文章转载自:https://www.kuboard.cn/learning/k8s-advanced/policy/lr.html 当多个用户(团队)共享一个节点数量有限的集群时,如何在多个用户(团队 ...
aardio + AutoHotkey 混合编程
本文主要介绍 aardio + AutoHotkey 混合编程. 在 aardio 中可以调用很多编程语言,例如 C语言.C++.C#.Java.Python.R.Javascript.Node.Js ...
do...while循环体
基本语法不要忘记while()后还需要加分号!!! 例(输出五句hello): int i = 1; //循环变量初始化 int max = 5; //循环的最大次数 do{ printf(&quo ...
echarts pie饼状图绑定点击事件
var valueData = [ {value: 33,name: '诊所'}, {value: 29,name: '汽车服务相关'}, {value: 27, name: '洗衣店'}, {val ...
洛谷P4147 玉蟾宫（单调栈）
要求我们去找一个最大矩形面积. 单调栈做法(和P1950 长方形那道题类似(一模一样)). 1 #include<bits/stdc++.h> 2 using namespace std; ...

第三方模块的下载与使用、requests模块、爬取链家二手房数据、openpyxl模块、hashlib加密模块

第三方模块的下载与使用

下载第三方模块可能会出现的问题

网络爬虫模块之requests模块

网络爬虫实战之爬取链家二手房数据

自动化办公领域之openpyxl模块

第三方模块的下载与使用、requests模块、爬取链家二手房数据、openpyxl模块、hashlib加密模块的更多相关文章

随机推荐

热门专题