Python 爬取豆瓣

...

import urllib.request

import time

from bs4 import BeautifulSoup

def url_open(url):

    response = urllib.request.urlopen(url)

    return response

def parse_html(response):

    html_content = response.read()

    html_soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')

    tag_lis = html_soup.find_all('li')

    for li in tag_lis:

        em = li.find('em')

        title = li.find_all('span', class_='title')

        # other = li.find_all('span', class_='other')

        rating = li.find('span', class_='rating_num')

        if title != []:

            rank=em.get_text()

            print("排名:" + rank + "------评分:" + str(rating.get_text()) + "-------" + title[0].get_text())

            if rank==250:

                return None

            if int(rank)%25==0:

                url="https://movie.douban.com/top250?start="+rank+"&filter="

                return url

url = "https://movie.douban.com/top250?start=0&filter="

if __name__=='__main__':

    response=url_open(url)

    start_time=time.time()

    print("开始："+str(start_time))

    while 1:

        url=parse_html(response)

        if url==None:

            break

        response=url_open(url)

    end_time=time.time()

    print("结束:"+str(end_time))

    print("一共用了："+str(end_time-start_time)+"秒")

Python 爬取豆瓣的更多相关文章

Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name
需求:爬取豆瓣小组所有话题(话题title,内容,作者,发布时间),及回复(最佳回复,普通回复,回复_回复,翻页回复,0回复) 解决:1. 先爬取小组下,所有的主题链接,通过定位nextpage翻页获 ...
python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法
本文旨在提供爬取豆瓣电影<我不是药神>评论和词云展示的代码样例 1.分析URL 2.爬取前10页评论 3.进行词云展示 1.分析URL 我不是药神短评第一页url https://mo ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...

随机推荐

数据库InnoDB和MyISAMYSQL的区别
1.nnoDB支持事务,MyISAM不支持,这一点是非常之重要.事务是一种高级的处理方式,如在一些列增删改中只要哪个出错还可以回滚还原,而MyISAM就不可以了. 2.MyISAM适合查询以及插入为主 ...
DDD领域驱动设计落地实践（十分钟看完，半小时落地）
一.引子不知今年吹了什么风,忽然DDD领域驱动设计进入大家视野.该思想源于2003年 Eric Evans编写的"Domain-Driven Design领域驱动设计"简称DDD ...
从零入门 Serverless | Serverless 应用如何管理日志 & 持久化数据
作者 | 竞霄阿里巴巴开发工程师本文整理自<Serverless 技术公开课>,关注"Serverless"公众号,回复"入门",即可获取 Se ...
Python简单爬取图书信息及入库
课堂上老师布置了一个作业,如下图所示: 就是简单写一个借书系统. 大概想了一下流程,登录-->验证登录信息-->登录成功跳转借书界面-->可查看自己的借阅书籍以及数量... 登录可以 ...
LCT模板（学习笔记）（洛谷3690）（加边，删边，修改点权）
最近学习了一波LCT qwq 强势安利Flashhu的博客!!!!! 真的特别详细(可惜我不会弄链接) 如果有想要学习\(LCT\)的同学,可以直接看他的博客我这里就简单写一点自己的体会啊. \(L ...
Protocol handler start failed
问题描述: 启动项目的时候出现的中文大体意思是:协议处理程序启动失败看着这个启动失败,下意识就想是不是端口占用了,结果换个端口还是不行,于是百度了一个办法问题解决: 打开任务管理器,找到Java的后 ...
安装早期老版本 Visual Studio
安装早期老版本 Visual Studio https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/
036—环境变量path
day04 课堂笔记 1.开发第一个java程序:HelloWorld 1.1.程序写完以后,一定要ctrl+s进行保存源代码若修改,需重新进行编译 1.2.编译阶段怎么编译?使用什么命令?这个命 ...
【UE4 C++】Slate 初探: Editor UI 与 Game UI
概述名词区分 Slate Slate 是完全自定义.与平台无关的UI框架应用可用于编辑器UI,编辑器的大部分界面都是使用 Slate 构建的可做为游戏UI 可作为独立应用开发只能 C++ 开 ...
Java：并发笔记-05
Java:并发笔记-05 说明:这是看了 bilibili 上黑马程序员的课程 java并发编程后做的笔记 4. 共享模型之内存本章内容上一章讲解的 Monitor 主要关注的是访问共享变量 ...

Python 爬取 豆瓣

Python 爬取 豆瓣的更多相关文章

随机推荐

热门专题

Python 爬取豆瓣

Python 爬取豆瓣的更多相关文章