Python新手爬虫一：爬取影片名称评分等

豆瓣网站：https://movie.douban.com/chart

先上最后的代码：

from bs4 import BeautifulSoup

from lxml import html

import xml

import requests

from fake_useragent import UserAgent   #ua库

import xlwt    #表格模块

n = []   #存放电影名称

p = []   #存放电影评分

def get_url():

   url = "https://movie.douban.com/chart"

   ua = UserAgent()

   headers={'user-agent':ua.random}

   f = requests.get(url,headers=headers)     #Get该网页从而获取该html内容

   soup = BeautifulSoup(f.text,'lxml')       #用lxml解析器解析该网页的内容, 好像f.content也是返回的html

   for k in soup.find_all('div',class_='pl2'):     #找到div并且class为pl2的标签

      b = k.find('a')       #在每个对应div标签下找a标签

      n.append(b.get_text())    #取标签 a 下的文字，并添加到 n 列表中

   for i in soup.find_all('div',class_='star clearfix'):

      c = i.find_all('span')  #在每个对应div标签下找span标签，会发现，一个a里面有四组span

      t = c[1].string,c[2].string   #取相对应span中的字符串,评分和评价人数

      p.append(t) #添加到 p 列表中

get_url()   #获取数据

style = xlwt.XFStyle()     #初始化样式模板

font = xlwt.Font()         #初始化字体模板

pattern = xlwt.Pattern()   #初始化背景颜色模板

alignment = xlwt.Alignment() #初始化单元格格式模板

font.name = 'Times New Roman' #指定字体

font.bold = True        #加黑

font.height = 20*14     #字体

pattern.pattern = xlwt.Pattern.SOLID_PATTERN # 设置背景颜色的模式

pattern.pattern_fore_colour = 2  # 背景颜色

alignment.horz = 0x02   # 0x01(左端对齐)、0x02(水平方向上居中对齐)、0x03(右端对齐)

alignment.vert = 0x01   # 0x00(上端对齐)、 0x01(垂直方向上居中对齐)、0x02(底端对齐)

#alignment.wrap = 1      # 设置自动换行

style.font = font             #应用到style中

style.pattern = pattern       #

style.alignment = alignment   #应用到style中

workbook = xlwt.Workbook()

worksheel = workbook.add_sheet('豆瓣电影排行榜')   #创建一个新表格

worksheel.write(0,0,'电影名',style)    #填写行、列、值

worksheel.write(0,1,'评分',style)

for x in range(1,11):

   for y in range(0,2):

      if y == 0:

         worksheel.write(x,y,label=n[x-1])

      elif y == 1:

         worksheel.write(x,y,label=p[x-1])

workbook.save(r"C:\Users\fan\Desktop\豆瓣影评.xls")    #创建excel表

效果图：

思路：

1、进入网页—>F12—>右击影名—>检查—>查看相对应的html代码

发现影名是存在<div class="pl2">标签下的<a>标签中，使用requests+BeautifulSoup库获取

评分和评价人数存储在<div class="star clearfix">下的<span>标签中。

所涉及到的库，全部是前文《爬虫常用库》中有介绍。

Python新手爬虫一：爬取影片名称评分等的更多相关文章

利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
初识python 之爬虫：爬取双色球中奖号码信息
人生还是要有梦想的,毕竟还有python.比如,通过python来搞一搞彩票(双色球).注:此文仅用于python学习,结果仅作参考.用到知识点:1.爬取网页基础数据2.将数据写入excel文件3.将 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
python之爬虫（爬取.ts文件并将其合并为.MP4文件——以及一些异常的注意事项）
//20200115 最近在看“咱们裸熊——we bears”第一季和第三季都看完了,单单就第二季死活找不到,只有腾讯有资源,但是要vip……而且还是国语版……所以就瞄上了一个视频网站——可以在线观看 ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...

随机推荐

Zynq-7045升级，ARM+FPGA性能怪兽，Xilinx UltraScale+ MPSoC XCZU7EV核心板正式发布
OPC 数据采集解决方案
笔者计划从此篇博客开始,详细介绍OPC数据采集采集过程.包括常用组态软件介绍,数据接入,OPC接入过程,常用OPC数据接入与处理全流程范例,分享相关案例Demo. 因为分享的都是个人实际工作经验中的 ...
vs code 设置中文
1.安装下载地址:官网打开安装后打开默认显示英文界面. 2.修改使用快捷键 ctrl+shift+p, 输入configure display language 下拉框选择 install ...
HTTP 和 HTTPS，为什么HTTPS安全？
HTTP协议通常承载与 TCP协议之上,在HTTP和TCP之间添加一个安全协议层(SSL或TSL),这个时候,就成了我们常说的HTTPS 默认HTTP的端口号为80,HTTPS的端口号为443 因为网 ...
Vue 框架怎么实现对象和数组的监听？
如果被问到 Vue 怎么实现数据双向绑定,大家肯定都会回答通过 Object.defineProperty() 对数据进行劫持,但是 Object.defineProperty() 只能对属性进行数 ...
使用中台 Admin.Core 实现了一个Razor模板的通用代码生成器
前言前面使用 Admin.Core 的代码生成器生成了通用代码生成器的基础模块分组,模板,项目,项目模型,项目字段的基础功能,本篇继续完善,实现最核心的模板生成功能,并提供生成预览及代码文件压缩下 ...
基于Java“镜头人生”约拍网站系统设计实现(源码+lw+部署文档+讲解等)
\n文末获取源码联系感兴趣的可以先收藏起来,大家在毕设选题,项目以及论文编写等相关问题都可以给我加好友咨询系统介绍: 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件 ...
Python爬虫（1-4）-基本概念、六个读取方法、下载（源代码、图片、视频）、user-agent反爬
Python爬虫一.爬虫相关概念介绍 1.什么是互联网爬虫如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据解 ...
C# DataGridView控件用法大全
动态添加新行 //方法一: int index = this.dataGridView1.Rows.Add(); this.dataGridView1.Rows[index].Cells[0].Val ...
腾讯云免费申请SSL证书配置https
证书申请 1.进入腾讯云官网,在上方直接搜索SSL,搜索到后点击立即选购: 2.点击进去后选择自定义配置,加密标准选择默认的国际标准,证书种类选择域名免费版(DV),勾选同意服务条款后选择免费快速申请 ...

Python新手爬虫一：爬取影片名称评分等

Python新手爬虫一：爬取影片名称评分等的更多相关文章

随机推荐

热门专题