Douban Top 250爬虫

# Ref: https://fishc.com.cn/forum.php?mod=viewthread&tid=101887&extra=page%3D1%26filter%3Dtypeid%26typeid%3D722

import requests

from bs4 import BeautifulSoup

import openpyxl

def open_url(url):

    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

    res = requests.get(url, headers=headers)

    res.raise_for_status()

    res.encoding = res.apparent_encoding

    return res.text

def parserHtml(html) -> object:

    try:

        soup = BeautifulSoup(html, 'html.parser')

        titles = []

        hrefs = []

        messages_movie = []

        messages_star = []

        # 名称

        titles_targets = soup.find_all('div', class_='hd')

        for each in titles_targets:

            titles.append(each.a.span.text)

            hrefs.append(each.a['href']) # 链接

        # 信息

        bd_targets = soup.find_all('div', class_='bd')

        for each in bd_targets:

            try:

                messages_movie.append(each.p.text.split('\n')[1].strip() +

                                       each.p.text.split('\n')[2].strip())

            except:

                continue

        # 评分

        star_targets = soup.find_all('span', class_='rating_num')

        for each in star_targets:

            messages_star.append(each.text)

        # result

        result = []

        for i in range(len(messages_star)):

            # result.append(titles[i]  + messages_movie[i] + messages_star[i] + '\n') # save to text

            result.append([titles[i], messages_star[i], messages_movie[i], hrefs[i]])\

        return result

    except:

        print('解析错误')

# def sava_excel(result):

#     try:

#         with open(r'./Python_Excel_小甲鱼/Top_DouBan_250.txt', 'w', encoding='utf-8') as f:

#             for each in result:

#                 f.write(each)

#         f.close()

#     except:

#         print('存储错误')

def save_excel(result):

    try:

        wb = openpyxl.Workbook()

        ws = wb.active

        ws['A1'] = '电影名称'

        ws['B1'] = '评分'

        ws['C1'] = '电影信息'

        ws['D1'] = '电影链接'

        for each in result:

            ws.append(each)

        wb.save('Top_DouBan_250.xlsx')

    except:

        print('保存Excel错误')

# 获取页面

def get_depth(html):

    try:

        soup = BeautifulSoup(html, 'html.parser')

        depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text

        return depth

    except:

        print('获取页数错误')

def main():

    host = r'https://movie.douban.com/top250'

    html = open_url(host)

    depth = get_depth(html)

    result = []

    for i in range(int(depth)):

        url = host + '/?start=' + str(25*i) + '&filter='

        html = open_url(url)

        result.extend(parserHtml(html))

    save_excel(result)

if __name__ == '__main__':

    main()

Douban Top 250爬虫的更多相关文章

IMDB TOP 250爬虫
这个小学期Python大作业搞了个获取IMDB TOP 250电影全部信息的爬虫.第二次写爬虫,比在暑假集训时写的熟练多了.欢迎大家评论. ''' ************************** ...
爬取豆瓣电影TOP 250的电影存储到mongodb中
爬取豆瓣电影TOP 250的电影存储到mongodb中 1.创建项目sp1 PS D:\scrapy> scrapy.exe startproject douban 2.创建一个爬虫 PS D: ...
用python爬取豆瓣电影Top 250
首先,打开豆瓣电影Top 250,然后进行网页分析.找到它的Host和User-agent,并保存下来. 然后,我们通过翻页,查看各页面的url,发现规律: 第一页:https://movie.dou ...
吐血推荐250部必看电影下载 IMDB TOP 250 download
中文名: IMDB Top 250合辑 TLF-MiniSD收藏版英文名: IMDB Top 250 TLF-MiniSD Collection版本: (更新至TOP119)[MiniSD]发行日期: ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
Python爬虫-豆瓣电影 Top 250
爬取的网页地址为:https://movie.douban.com/top250 打开网页后,可观察到:TOP250的电影被分成了10个页面来展示,每个页面有25个电影. 那么要爬取所有电影的信息,就 ...
豆瓣电影 Top 250
import refrom urllib.request import urlopen def getPage(url): # 获取网页的字符串 response = urlopen(url) ret ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
python+SQLAlchemy+爬虫
python+SQLAlchemy+爬虫前面分享了SQLAlchemy的知识,这次我共享一下学习用python开发爬虫再把爬出来的数据放到用SQLAlchemy的数据库上面的知识,当然我这个是带测试 ...

随机推荐

git新建分支及提交代码到分支
二.创建分支并提交代码到分支上述添加成员的方式非常简单,但是如果说每一个小组成员都可以对仓库push内容,就涉及到一个代码的安全和冲突问题了,当多个成员同时在线编辑时容易出现冲突,假设A的代码是有问 ...
java8 lambda表达式和函数式编程
什么是函数式接口(Functional Interface) 其实之前在讲Lambda表达式的时候提到过,所谓的函数式接口,当然首先是一个接口,然后就是在这个接口里面只能有一个抽象方法 (可以有def ...
linux0.01内核源码结构
目录 boot 系统引导. fs 文件系统. include 头文件.一些C标准库,系统核心库. init 入口.main.c. kernel 内核. lib 库.C源程序,一些基本核心的程序. mm ...
Git配置多账户
一般情况下,公司代码company_repos/会存放在公司内部的gitlab上,个人代码privacy_repos/会放在github上.因此我们会有两个git账户:公司账号zioyi@campan ...
《redis 5设计与源码分析》：第二章简单动态字符串
介绍简单动态字符串(Simple Dynamic Strings, SDS)是Redis的基本数据结构之一,用于存储字符串和整型数据.它的特点是:方便扩容.二进制安全. 二进制安全在C语言中,用& ...
在ES5中模拟类
1.Object.create()方法创建一个新对象,使用现有的对象来提供新创建的对象的__proto__. var _this = Object.create(fn.prototype);这句代码的 ...
Python3-sqlalchemy-orm 创建关联表带外键并查询数据
#-*-coding:utf-8-*- #__author__ = "logan.xu" import sqlalchemy from sqlalchemy import crea ...
linux centos7 模拟垃圾回收站功能以及 crontab 定时任务的设置
2021-08-04 1. 安装环境:CentOS Linux release 7.5.1804 (Core) # 将 saferm.sh 拷贝到 /bin 目录下面 git clone git:/ ...
centos7 shell 计算器 bc 命令
2021-08-03 1. 安装 yum -y install bc 2. 简介 bc 命令是任意精度计算器语言,通常在 linux 下当计算器使用类似基本的计算器, 使用这个计算器可以做基本的数学 ...
Reinforcement Learning 强化学习入门
https://www.zhihu.com/question/277325426 https://github.com/jinglescode/reinforcement-learning-tic-t ...

Douban Top 250爬虫

Douban Top 250爬虫的更多相关文章

随机推荐

热门专题