python3爬取豆瓣排名前250电影信息

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @File  : doubanmovie.py

# @Author: Anthony.waa

# @Date  : 2019/3/2 0028

# @Desc  : PyCharm

import requests

from lxml import html

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

# 爬取页面内容

def moviesInfo(url):

    reponse = requests.get(url=url, headers=headers).content

    bs = html.fromstring(reponse)

    num = 0

    for i in bs.xpath('//div[@class ="info"]'):

        try:

            # 电影名称

            movieName = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]

            # 电影信息

            movieInfo = i.xpath('div[@class="bd"]/p[1]/text()')

            # 电影简述

            movieDescribes = i.xpath('//span[@class="inq"]/text()')

            # 电影评论人数

            movieNums = i.xpath('//div[@class="star"]/span[4]/text()')

            # 上映国家

            moviePeople = movieInfo[1].replace(" ","").replace("\n","").split("/")[1]

            # 电影上映时间

            movieDate = movieInfo[1].replace(" ","").replace("\n","").split("/")[0]

            # 获取电影的每一条简述

            movieDescribe = movieDescribes[num]

            # 获取每一个电影的评论人数

            movieNum = movieNums[num]

            with open('2019movies.txt','a+',encoding="utf-8") as file:

                file.writelines("%s   %s   %s   %s   %s\n"%(movieName, moviePeople, movieDate, movieDescribe,movieNum))

            # print(movieName, moviePeople, movieDate, movieDescribe,movieNum,'\n')

            num += 1

        except Exception as e:

            break

if __name__ == '__main__':

    num = 0

    for i in range(10):

        page = 'https://movie.douban.com/top250?start=%d&filter='%num

        moviesInfo(page)

        num += 25

python3爬取豆瓣排名前250电影信息的更多相关文章

爬取豆瓣网图书TOP250的信息
爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.doub ...
python3爬取豆瓣top250电影
需求:爬取豆瓣电影top250的排名.电影名称.评分.评论人数和一句话影评环境:python3.6.5 准备工作: 豆瓣电影top250(第1页)网址:https://movie.douban.co ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
[超详细] Python3爬取豆瓣影评、去停用词、词云图、评论关键词绘图处理
爬取豆瓣电影<大侦探皮卡丘>的影评,并做词云图和关键词绘图第一步:找到评论的网页url.https://movie.douban.com/subject/26835471/comments ...
Python进阶练习与爬取豆瓣T250的影片相关信息
(一)Python进阶练习正所谓要将知识进行实践,才会真正的掌握于是就练习了几道题:求素数,求奇数,求九九乘法表,字符串练习 import re #求素数 i=1; flag=0 while(i& ...
Python3爬取豆瓣网电影信息
# -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称 Language: Python3.6 ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
R语言爬虫：使用R语言爬取豆瓣电影数据
豆瓣排名前25电影及评价爬取 url <-'http://movie.douban.com/top250?format=text' # 获取网页原代码,以行的形式存放在web 变量中 web & ...

随机推荐

C 利用strtok, feof 截取字符串
#cat /tmp/fff 10:hugetlb:/hello/06b11c9967cc0e106f5f4673246f671aa7388f623f58b250d9d9cb0f8c0f2b18 9:d ...
Python ---- KMP（博文推荐+代码）
既解决完后宫问题(八皇后问题)后,又利用半天的时间完成了著名的“看毛片”算法——KMP.对于初学者来说这绝对是个大坑,非常难以理解. 在此,向提出KMP算法的三位大佬表示诚挚的敬意.!!!牛X!!! ...
C# 派生类的XmlSerializer序列化XML
近段对XML 序列化进行处理,用XmlSerializer这个挺好用的. 但是对于派生类对象的XML的生成总会报错.因为同一个节点名称,不能反射为不同的对象.这个在网上找了好久,都说要利用反射来处理. ...
【codeforces 527A】Playing with Paper
[题目链接]:http://codeforces.com/contest/527/problem/A [题意] 让你每次从一个长方形里面截出一个边长为长方形的较短边的正方形; 然后留下的部分重复上述步 ...
HDU 5442 Favorite Donut
Favorite Donut Time Limit: 1500/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) ...
[poj2417]Discrete Logging_BSGS
Discrete Logging poj-2417 题目大意:求$a^x\equiv b(mod\qquad c)$ 注释:O(分块可过) 想法:介绍一种算法BSGS(Baby-Step Giant- ...
最小堆的两种实现及其STL代码
#include<cstdio> #include<iostream> #include<algorithm> #include<vector> boo ...
SpringBoot 注册拦截器方式及拦截器如何获取spring bean实例
SpringBoot 注册拦截器时,如果用New对象的方式的话,如下: private void addTokenForMallInterceptor(InterceptorRegistry regi ...
iOS：改变UITableViewCell的选中背景色
要改变UITableViewCell选中时的背景色,需要在-(UITableViewCell *)tableView:(UITableView *)tableView cellForRowAtInde ...
HDU 4519
实现简单,但不得不说是一道好题. 当员工数少于医生数时,直接输出K,因为此时N个员工同时检查,必定是最少的时间了. 当员工数大于医生数时,可以把员工的项目看成一段一段的,每个医生对其进行切割,总能得到 ...

python3爬取豆瓣排名前250电影信息

python3爬取豆瓣排名前250电影信息的更多相关文章

随机推荐

热门专题