抓取豆瓣电影TOP250标题-年份-评分-评分人数

import csv

import re

import requests

headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.56'

}

# 正则

# 需要注意的是这个正则是一层一层的往下写的，不是单独出来的，每一段后面记得要接.*?不然程序会死循环

obj = re.compile(r'<div class="info">.*?<span class="title">.*?(?P<title>.*?)</span>.*?'

                 r'...<br>.*?(?P<year>.*?)&nbsp.*?'

                 r'property="v:average">.*?(?P<score>.*?)</span>.*?'

                 r'<span>(?P<num>.*?)人评价</span>', re.S)

f = open('data.csv', mode='w', encoding='utf-8', newline='')  # newline = ''

#备注：如果没有指定 newline=‘’，则嵌入引号中的换行符将无法正确解析，并且在写入时，使用 \r\n 换行的平台会有多余的 \r 写入。

csvwriter = csv.writer(f)

# 请求前TOP250个电影

# 它的url start是0，25，50最大时250，所以步长25，0开始250结束

for i in range(0, 250, 25):

    url = f'xxx/top250?start={i}'

    print(i)

    # 请求 并返回成text

    resp = requests.get(url=url, headers=headers)

    page_text = resp.text

    # print(page_text)

    result = obj.finditer(page_text)

    for it in result:

        # print(it.group('title'))

        # print(it.group('year').strip())  # 此数据如果不做任何处理会出现前后有很大的空格

        # # strip 去除前后空格 并返回字符串

        # print(it.group('score'))

        # print(it.group('num'))

        dic = it.groupdict()  # 统一返回，返回成字典包装起来

        dic['year'] = dic['year'].strip()  # 老样子，去除前后空格

        # print(dic)

        csvwriter.writerow(dic.values())  # 放到csv文件里

f.close()

resp.close()

print("完成！")

抓取豆瓣电影TOP250标题-年份-评分-评分人数的更多相关文章

Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python抓取豆瓣电影top250!
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

快速搭建Zookeeper和Kafka环境
前言由于项目需要涉及到zookeeper和Kafka的使用,快速做了一篇笔记,方便小伙伴们搭建环境. zookeeper 官方定义 What is ZooKeeper? ZooKeeper is a ...
记录一次fs通话无声的问题
概述 freeswitch是一款简单好用的VOIP开源软交换平台. fs的实际应用中,由于网络.配置等问题,经常会产生通话无声的问题. 环境 CentOS 7.9 freeswitch 1.10.7 ...
在英特尔至强 CPU 上使用 🤗 Optimum Intel 实现超快 SetFit 推理
在缺少标注数据场景,SetFit 是解决的建模问题的一个有前途的解决方案,其由 Hugging Face 与 Intel 实验室以及 UKP Lab 合作共同开发.作为一个高效的框架,SetFit ...
linux服务器配置查看
查看linux服务器配置查硬盘信息 sblk 看sda sdb sdc之类的以下可以看出是500G sda第一块,sdb是第二块以下可以看出是 1T+100G 查内存 free -h 查cpu ...
List<T> 根据对象中的属性处理数据
一.创建测试数据 UserEntity user1 = UserEntity.builder().id(1).name("张三").sex(0).build(); UserEnti ...
WordPress 整合Bootstrap制作分页代码
1.整合Bootstrap分页代码 * 因为wordpress默认仅仅提供简单分页, 所以要实现数字分页,需要自定义函数,wordpress可以结合bootstrap制作分页,bootstrap提供了 ...
从 p12 格式 SSL 证书解出 pem 格式公钥私钥给 Postman 使用
目的 Postman 的(非 Chrome 扩展版的)app 并不能读取系统中的客户端证书,这种调试要发送客户端证书的 https 请求的时候就得自己另外设置.系统直接导出证书有 cer 和 p12 ...
SqlServer 死锁查询
use master go create procedure sp_who_lock as begin declare @spid int,@bl int, @intTransactionCountO ...
微信开发者工具拉取gitlab远程代码报Pull failed原因分析：
可能出现的原因: 本地主机上没有安装node node下载地址: 1 https://nodejs.org/zh-cn/download/ 没有保存gitlab的用户名和密码
阿里巴巴 MySQL 数据库之建表规约（一）
建表规约强制部分 [强制] 表达是与否概念的字段,必须使用 is_xxx 的方式命名,数据类型是 unsigned tinyint (1 表示是,0 表示否). 说明:任何字段如果为非负数,必须是 ...

抓取豆瓣电影TOP250标题-年份-评分-评分人数

抓取豆瓣电影TOP250标题-年份-评分-评分人数的更多相关文章

随机推荐

热门专题