爬取豆瓣TOP250电影

自己跟着视频学习的第一个爬虫小程序，里面有许多不太清楚的地方，不如怎么找到具体的电影名字的，那么多级关系，怎么以下就找到的是那个div呢？

诸如此类的，有许多，不过先做起来再说吧，后续再取去弄懂。

import requests

import bs4

import re

def open_url(url):

    #使用代理

    # proxies={'http':"127.0.0.1:1080",'https':'127.0.0.1:1080'}

    headers={"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) \

    Chrome/86.0.4240.198 Safari/537.36 QIHU 360EE"}

    headers1={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'}

    #res=requests.get(url,headers=headers,proxies=proxies)

    res=requests.get(url,headers=headers1)

    return res

def find_movies(res):

    soup=bs4.BeautifulSoup(res.text,'html.parser')

    #电影名

    movies=[]

    targets=soup.find_all('div',class_="hd")

    for each in targets:

        movies.append(each.a.span.text)

    #评分

    ranks=[]

    targets=soup.find_all('span',class_='rating_num')

    for each in targets:

        ranks.append('评分：{}'.format(each.text))

    #资料

    messages=[]

    targets=soup.find_all("div",class_='bd')

    for each in targets:

        try:

            messages.append(each.p.text.split('\n')[1].strip()+each.p.text.split('\n')[2].strip())

        except:

            continue

    result=[]

    length=len(movies)

    for i in range(length):

        result.append(movies[i]+ranks[i]+messages[i]+'\n')

    return result

#找出一共有多少个页面

def find_depth(res):

    soup=bs4.BeautifulSoup(res.text,'html.parser')

    depth=soup.find('span',class_='next').previous_sibling.previous_sibling.text

    return int(depth)

def main():

    host="https://movie.douban.com/top250"

    res=open_url(host)

    depth=find_depth(res)

    result=[]

    for i in range(depth):

        url=host+'/?start='+str(25*i)

        res=open_url(url)

        result.extend(find_movies(res))

    with open("豆瓣TOP250电影.txt","w",encoding='utf-8') as f:

        for each in result:

            f.write(each)

if __name__=="__main__":

    main()

爬取豆瓣TOP250电影的更多相关文章

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
requests爬取豆瓣top250电影信息
''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...
python3爬取豆瓣top250电影
需求:爬取豆瓣电影top250的排名.电影名称.评分.评论人数和一句话影评环境:python3.6.5 准备工作: 豆瓣电影top250(第1页)网址:https://movie.douban.co ...
Python-爬虫实战简单爬取豆瓣top250电影保存到本地
爬虫原理发送数据获取数据解析数据保存数据 requests请求库 res = requests.get(url="目标网站地址") 获取二进制流方法:res.content ...
爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充
今日内容概要如何将爬取的数据直接导入Excel表格 #如何通过Python代码操作Excel表格 #前戏 import requests import time from openpyxl impo ...
80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库
一.下载页面并处理二.提取数据观察该网站 html 结构可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签在 ol 标签中 ...
团队-爬取豆瓣Top250电影-团队-阶段互评
团队名称:咣咣踹电脑学号:2015035107217姓名:耿文浩得分10 原因:组长带领的好,任务分配的好,积极帮助组员解决问题学号:2015035107213姓名:周鑫得分8 原因:勇于分担,积 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python 爬取豆瓣TOP250实战
学习爬虫之路,必经的一个小项目就是爬取豆瓣的TOP250了,首先我们进入TOP250的界面看看. 可以看到每部电影都有比较全面的简介.其中包括电影名.导演.评分等. 接下来,我们就爬取这些数据,并将这 ...

随机推荐

利用window对象自带atob和btoa方法进行base64的编码和解码
项目中一般需要将表单中的数据进行编码之后再进行传输到服务器,这个时候就需要base64编码现在可以使用window自带的方法window.atob() 和 window.btoa() 方法进行 ...
Visual Studio 2022 git error Unable to negotiate with xx.xxx.xxxx port 22: no matching host key type found. Their offer: ssh-rsa
前言前两天因为升级了Git导致git提交拉取的时候都提示下面这个异常,然后经过一番折腾以后终于把这个问题解决了.但是今天我升级了下Visual Studio 2022将其升级到了17.1.3版本然后 ...
怎么快速找出帝国CMS数据库配置文件路径及迁移网站后修改技巧！
首先,我们要了解一下帝国CMS整个目录结构,只有了解清楚结构,我们才有可能快速找到自己想要的文件,比如:帝国CMS数据库配置文件路径! 帝国CMS目录结构介绍 / 系统根目录├d/ 附件和数据存放目录 ...
java实现ssh连接工具类
import ch.ethz.ssh2.Connection;import ch.ethz.ssh2.Session;import ch.ethz.ssh2.StreamGobbler;import ...
Codeforces Round #133 (Div. 2), A.【据图推公式】 B.【思维+简单dfs】
Problem - 216A - Codeforces Problem - B - Codeforces A Tiling with Hexagons 题意: 给出a b c ,求里面有多少个六边形 ...
面试官：RabbitMQ过期时间设置、死信队列、延时队列怎么设计？
哈喽!大家好,我是小奇,一位不靠谱的程序员小奇打算以轻松幽默的对话方式来分享一些技术,如果你觉得通过小奇的文章学到了东西,那就给小奇一个赞吧文章持续更新一.前言 RabbitMQ我们经常的使用, ...
contact 和 footer 的页面制作
1. html 结构 <section id="contact"> <div class="contact-form bg-primary p-2&qu ...
前端架构三大巨头之一Angular | 深度讲解
云智慧集团成立于2009年,是全栈智能业务运维解决方案服务商.经过多年自主研发,公司形成了从IT运维.电力运维到IoT运维的产业布局,覆盖ITOM.ITOA.ITSM.DevOps以及IoT几大领域, ...
python的一些练习题
1.目前工作上有一堆的ip地址,ip是ok的,但是需要找出来不在这里面的其他ip import os a = list() with open('ip.txt','r') as f: #print(f ...
js归并排序实现
let arr = [3,4,2,8,1,1,2,2,3,3,4,5]; const merge = function(L,M,R) { let arr2=[]; let i=0; let p1 = ...

爬取豆瓣TOP250电影

爬取豆瓣TOP250电影的更多相关文章

随机推荐

热门专题