python爬虫4猫眼电影的Top100

1 查看网页结构

(1)确定需要抓取的字段

电影名称

电影主演

电影上映时间

电影评分

(2) 分析页面结构

按住f12------->点击右上角(如下图2)---->鼠标点击需要观察的字段

(3)BeautifulSoup解析源代码并设置过滤属性

 soup = BeautifulSoup(htmll, 'lxml')

 Movie_name = soup.find_all('div',class_='movie-item-info')

 Movie_Score1=soup.find_all('p',class_='score')

(4)调试查看过滤属性是否正确

(5)提取对应字段

  for cate,score in zip(Movie_name,Movie_Score1):

         data={}

         movie_name1 = cate.find('a').text.strip('\n')

         data['title']=movie_name1

         movie_actor = cate.find_all("p")[1].text.replace("\n"," ").strip()

         data['actors']=movie_actor

         movie_time=cate.find_all("p")[2].text.strip('\n').strip()

         data['data']=movie_time

         movie_score1=score.find_all("i")[0].string

         movie_score2=score.find_all("i")[1].string

         movie_score=movie_score1+movie_score2

         data['score'] = movie_score

         name = movie_name1 + "\t"+movie_actor+"\t" + movie_time+"\t"+movie_score

         DATA.append(name)

         with open('Movie1.txt', 'a+') as f:

             f.write("\n{}".format(name))

(6)翻页爬取

如下图，按照1 2 3步骤，发现页数是有这样子的规律。比如offset=0 offset=10......

2 存储excel

   for datas in DATA:

         datas=datas.split('\t')#因为我之前解析字段拼接的时候就是采用\t分割

         print(len(datas))

         print(datas)

         for j in range(len(datas)):#列表中的每一项都包含按照\t分割的字段

             print(j)

             sheet1.write(i, j, datas[j])

         i = i + 1

     f.save("d.xls")  # 保存文件

3 结果

python爬虫4猫眼电影的Top100的更多相关文章

python爬取猫眼电影top100
最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了. 1 看下猫眼电影的top100页面分了10页,url为:https://maoyan.com/b ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
Python正则表达式匹配猫眼电影HTML信息
爬虫项目爬取猫眼电影TOP100电影信息项目内容来自:https://github.com/Germey/MaoYan/blob/master/spider.py 由于其中需要爬取的包含电影名字.电 ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
【Python3爬虫】猫眼电影爬虫（破解字符集反爬）
一.页面分析首先打开猫眼电影,然后点击一个正在热播的电影(比如:毒液).打开开发者工具,点击左上角的箭头,然后用鼠标点击网页上的票价,可以看到源码中显示的不是数字,而是某些根本看不懂的字符,这是因为 ...
Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
用Python爬取猫眼上的top100评分电影
代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...
爬虫_猫眼电影top100（正则表达式）
代码查看码云

随机推荐

easyui_验证扩展
本文为转载,并非原创 easyui validatebox 验证类型分类: jquery-easyUI -- : 11000人阅读评论() 收藏举报 easyuiValidateBox requ ...
使用eclipse-hadoop插件无法再eclipse操作（上传、删除文件）
再conf中的hdfs-site.xml添加如下配置: <property><name>dfs.permissions</name><value>fal ...
CentOS7中使用yum安装nginx和php7.2的方法
c 1.安装源安装php72w,是需要配置额外的yum源地址的,否则会报错不能找到相关软件包. php高版本的yum源地址,有两部分,其中一部分是epel-release,另外一部分来自webtat ...
C# .net core 相对路径转绝对路径 (官方示例)
public static string GetAbsolutePath(string relativePath) { FileInfo _dataRoot = new FileInfo(typeof ...
springboot的HTTPS配置
WinDbg常用命令系列---显示当前异常处理程序链!exchain
!exchain 这个!exchain扩展命令显示当前异常处理程序链. !exchain [Options] 参数: Options下列值之一: /c 如果检测到异常,则显示与调试C++ try/c ...
mysql 查询账户
查询 mysql 的存在的账户 >select user,host,password from mysql.user; # 可以查询涉及到user. host 链接权限.密码加密文件.
63、Spark Streaming：架构原理深度剖析
一.架构原理深度剖析 StreamingContext初始化时,会创建一些内部的关键组件,DStreamGraph,ReceiverTracker,JobGenerator,JobScheduler, ...
C博客作业03——函数
0.展示PTA总分截图展示: 1.本章学习总结 1.1学习内容总结 (a)函数的定义 1)函数是一个完成特定工作的独立程序模块,包括库函数和自定义函数两种,scanf(),printf()等为库函数 ...
【00NOIP普及组】计算器的改良（信息学奥赛一本通 1910）（洛谷 1022）
[题目描述] NCL是一家专门从事计算器改良与升级的实验室,最近该实验室收到了某公司所委托的一个任务:需要在该公司某型号的计算器上加上解一元一次方程的功能.实验室将这个任务交给了一个刚进入的新手ZL先 ...

python爬虫4猫眼电影的Top100

1 查看网页结构

(1)确定需要抓取的字段

(2) 分析页面结构

(3)BeautifulSoup解析源代码并设置过滤属性

(4)调试查看过滤属性是否正确

(5)提取对应字段

(6)翻页爬取

2 存储excel

3 结果

python爬虫4猫眼电影的Top100的更多相关文章

随机推荐

热门专题