01爬取豆瓣网电影数据进行numpy的练习

level 2:
10、案例：编写爬虫爬取豆瓣电影排行榜(电影名称，评分)，保存为csv文件
    a、用numpy加载csv数据
    b、把评分列转换成float64类型
    c、计算电影的平均评分
    d、求评分最高的电影
    e、求评分在9分以上的电影
"""

import requests
from lxml import etree
import csv
import numpy as np
def getHtml():
    url = 'https://movie.douban.com/chart'
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0",
        'Cookie':'ll="118237"; bid=kQ4wCGaUHxM; dbcl2="198098900:5Dr+gGK65ck"; ck=u-be; _pk_id.100001.4cf6=842ffa65a9a6b8b3.1560771548.1.1560771681.1560771548.; _pk_ses.100001.4cf6=*; __yadk_uid=ACadYi5zL218X3UjCuwIiXTk7lThAmup; __utma=30149280.26375845.1560771555.1560771555.1560771555.1; __utmb=30149280.2.10.1560771555; __utmc=30149280; __utmz=30149280.1560771555.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.1679117071.1560771555.1560771555.1560771555.1; __utmb=223695111.0.10.1560771555; __utmc=223695111; __utmz=223695111.1560771555.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); push_noty_num=0; push_doumail_num=0; _vwo_uuid_v2=D0397C64E4418CF03F84A9F99DED3AE28|9c841c774e9ad1066dc8a2ca931d9a9a; __utmt=1; __utmv=30149280.19809'
    }
    # 1.请求网页源代码
    strHtml = requests.get(url,headers=headers).text
    # print(strHtml)
    """
    页面分析之标题：
        <a class="nbg" href="https://movie.douban.com/subject/27060077/" title="绿皮书">
        <a class="nbg" href="https://movie.douban.com/subject/27053945/" title="我们">
    页面分析之评分：
        <span class="rating_nums">8.9</span>
        <span class="rating_nums">6.6</span>
    """
    #2. 数据提取
    html = etree.HTML(strHtml)
    # 获取到电影名称
    tittle = html.xpath('//tr[@class="item"]//a/@title')
    print(tittle)
    # 获取到评分
    grade = html.xpath('//span[@class="rating_nums"]/text()')
    print(grade)
    # 3.处理数据（使用拉链函数，让数据一一对应）
    list=[]
    res=zip(tittle,grade)
    for i in res:
        # 将元组数据保存进列表中
        list.append(i)
    # print(list)
    # 4.保存成csv文件
    with open('./doubandianying.csv','w',) as f:
        csv_f = csv.writer(f)
        # 添加第一行
        csv_f.writerow(["title","grade"])
        # 将数据遍历存储
        for row in list:
            csv_f.writerow(row)

def loadTxt():
    filePath = './doubandianying.csv'
    res=np.loadtxt(
        filePath,
        delimiter=',',
        dtype=str,
        usecols=(0,1),
        skiprows=1
    )
    return res

def chage():
    filePath = './doubandianying.csv'
    res = np.loadtxt(
        filePath,
        delimiter=',',
        dtype=str,
        usecols=(1),
        skiprows=1
    )
    res = res.astype(np.float)
    return res

def mean(gradeFloat):
    mean = np.mean(gradeFloat)
    return mean

def movie(gradeFloat):
    index = np.argmax(gradeFloat)
    # print(index)
    filePath = './doubandianying.csv'
    title = np.loadtxt(
        filePath,
        delimiter=',',
        dtype=str,
        usecols=(0),
        skiprows=1
    )
    # print(title)
    return title[index]
    # index = np.argmin(gradeFloat)

def movies(gradeFloat):

    res = gradeFloat[(gradeFloat>9)]
    print(res)

if __name__ == '__main__':
    # 1.爬取数据
    getHtml()

    # 2.加载数据
    lt = loadTxt()
    print(lt)

    # 3.将分数列转换成浮点类型
    gradeFloat = chage()
    print(gradeFloat)
    print(type(gradeFloat))

    # 4.计算电影的平均分
    gradeMean = mean(gradeFloat)
    print(gradeMean)

    # 5.评分最高的电影
    movieFirst = movie(gradeFloat)
    print(movieFirst)

    # 6. q求评分高于9分以上的电影 （无）
    movies = movies(gradeFloat)

01爬取豆瓣网电影数据进行numpy的练习的更多相关文章

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
Python3爬取豆瓣网电影信息
# -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称 Language: Python3.6 ...
实例学习——爬取豆瓣网TOP250数据
开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...
requests爬取豆瓣top250电影信息
''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...
爬取豆瓣网图书TOP250的信息
爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.doub ...
基于爬取百合网的数据，用matplotlib生成图表
爬取百合网的数据链接:http://www.cnblogs.com/YuWeiXiF/p/8439552.html 总共爬了22779条数据.第一次接触matplotlib库,以下代码参考了matpl ...
Python-爬虫实战简单爬取豆瓣top250电影保存到本地
爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
python3爬取豆瓣top250电影
需求:爬取豆瓣电影top250的排名.电影名称.评分.评论人数和一句话影评环境:python3.6.5 准备工作: 豆瓣电影top250(第1页)网址:https://movie.douban.co ...
003.[python学习] 简单抓取豆瓣网电影信息程序
声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...

随机推荐

C#代码整洁之道读后总结与感想
1. 基本信息 C#代码整洁之道:代码重构与性能提升 ,英文名为Clean Code in C#. 作者:[英] 詹森·奥尔斯(Jason Alls) 著,刘夏译机械工业出版社,2022年4月出版 ...
1、Spring源码环境搭建
本文目的完成Spring Framework5.x的源码构建准备官网:Spring Framework 使用5.x版本源码包构建项目管理工具 gradle(没学过的先去找资料学习) 说明 Sp ...
chatGPT 桌面版安装教程
概述标题党了,首先声明 ChatGPT 官方没有桌面版,目前市面上很多的桌面应用也在是浏览器上包了一层,而且大多做的比较粗糙,不太好用,所以都不太推荐. 作为一名骨灰级的程序员,ChatGPT 的重 ...
python导入xls数据到db--优化版
import sys from orator import DatabaseManager import xlrd dbconfig = { 'mysql': { 'driver': 'mysql', ...
LM算法详解
1. 高斯牛顿法残差函数f(x)为非线性函数,对其一阶泰勒近似有: 这里的J是残差函数f的雅可比矩阵,带入损失函数的: 令其一阶导等于0,得: 这就是论文里常看到的normal equation. ...
kali linux 使用教程
kali linux使用教程前言:Kali Linux 是专门用于渗透测试的linux操作系统,它由BackTrack发展而来,在整合了IWHAX.WHOPPIX和Auditor这三种渗透测试专用L ...
GitHub 入门与 2023年2月18日10:29:02
用 GitHub 有一段时间了,之前一直用来做 Hexo 的服务器,直到前阵子搞 GitHub Action 因为命令不熟,把 GitHub 上的源码强制拉到本地把本地的 Hexo 搞崩了,博客源码都 ...
NOIP 模拟赛左右横跳
$\text{Problem}$ 大意就是优化这样一个 $dp$ \[f_{i}=\max f[j]+(i-j) \cdot (i-j-1) \] \(L[i] \le j < i,n\ ...
js（最新）手机号码正则验证 - 代码篇
现在手机号码,除了以11+.12+开头的没有,别的好像都有了! 代码如下: 方法一: function checkPhone(){ var phone = $(".phone"). ...
Postgresql 锁等待检测及处理
背景对于多数数据库,dba技能之一就是查找锁.锁的存在有效合理的在多并发场景下保证业务有序进行.下面我们看一下Postgresql中查找阻塞的方法. 1.找到"被阻塞者",获取被 ...

01爬取豆瓣网电影数据进行numpy的练习

01爬取豆瓣网电影数据进行numpy的练习的更多相关文章

随机推荐

热门专题