一个豆瓣电影Top250爬虫

一个爬虫

这是我第一次接触爬虫，写的第一个爬虫实例。

https://movie.douban.com/top250

模块

import requests #用于发送请求

import re #使用正则表达式，用于匹配处理文本

import os #用于创建文件夹

from lxml import etree #这里我使用了Xpath表达式用于数据解析，我觉得这个模块比BeautifulSoup好用，强烈推荐

from fake_useragent import UserAgent #反爬虫，随机获取浏览器 UA 信息

代码

import requests

import re

import os

from lxml import etree

from fake_useragent import UserAgent

class doubanSpider(object):

    def __init__(self):

        if not os.path.exists('db/douban'):

            os.makedirs('db/douban')

        else:

            pass

        self.f = open('./db/douban/douban.txt', 'a', encoding='utf-8')

    def start(self):

        for i in range(46):

            headers = {

                'User-Agent': UserAgent().random

            }

            url = 'https://movie.douban.com/top250?start=' + str(i * 25)

            r = requests.get(url, headers=headers)

            html = etree.HTML(r.text)

            li_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li')

            movies = []

            for each in li_list:

                movie = {}

                order = each.xpath('.//div/div[1]/em/text()')[0]

                movie['id'] = order

                cover = each.xpath('.//div/div[1]/a/img/@src')[0]

                movie['cover'] = cover

                name = each.xpath('.//div/div[2]/div[1]/a/span/text()')

                flag = ''

                for mo in name:

                    flag += mo

                movie['name'] = flag

                info = each.xpath('.//div/div[2]/div[2]/p[1]/text()[1]')[0].strip()

                info = info.replace("\n", "")

                info = info.replace("\xa0", "")

                director = re.findall(r'[导演:].+[主演:]', info)[0]

                director = director[4:len(director) - 3]

                movie['director'] = director

                try:

                    role = re.findall(r'主.+', info)[0]

                    role = role[4:]

                except IndexError:

                    role = ''

                movie['role'] = role

                plot = each.xpath('.//div/div[2]/div[2]/p[1]/text()[2]')[0].strip()

                plot = plot.replace("\xa0", "")

                movie['plot'] = plot

                star = each.xpath('.//div/div[2]/div[2]/div/span[2]/text()')[0]

                movie['star'] = star

                try:

                    comment = each.xpath('.//div/div[2]/div[2]/p[2]/span/text()')[0]

                except IndexError:

                    comment = ''

                movie['comment'] = comment

                movies.append(movie)

                self.f.write(str(movie)+'\n')

                print(movie)

    def run(self):

        self.start()

        self.f.close()

if __name__ == '__main__':

    spider = doubanSpider()

    spider.run()

一个豆瓣电影Top250爬虫的更多相关文章

[Python] 豆瓣电影top250爬虫
1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...
记一次python爬虫实战，豆瓣电影Top250爬虫
import requests from bs4 import BeautifulSoup import re import traceback def GetHtmlText(url): for i ...
练习：一只豆瓣电影TOP250的爬虫
练习:一只豆瓣电影TOP250爬虫练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapyclass DoubanmovieItem(scrapy ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

127_Power Pivot&Power BI DAX计算订单商品在库时间(延伸订单仓储费用)
博客:www.jiaopengzi.com 焦棚子的文章目录请点击下载附件一.背景前面已经写过一个先进先出的库龄案例,在业务发生又有这样一个需求:先进先出前提,需要按照订单计算每个商品在库时间, ...
python之数据类型的内置方法(str, list)
目录字符串的内置方法移除首尾指定字符字母大小写相关操作判断字符串的开头或结尾是否是指定字符字符串特殊的输出方法拼接字符串替换指定字符判断是否是纯数字查找指定字符对应的索引值文本位置 ...
【单片机】使用 sscanf 提取AT命令返回结果中的有效数据
摘要:1. sscanf函数 sscanf是C标准库函数，用于从字符串中读取格式化输入. 头文件： #include <stdio.h>函数原型如下： int sscanf(const c ...
C++从静态类型到单例模式
目录 1. 概述 2. 详论 2.1. 静态类型 2.1.1. 静态方法成员 2.1.2. 静态数据成员 2.2. 单例模式 2.2.1. 实现 2.2.2. 问题 3. 参考 1. 概述很多的知识 ...
基于.NetCore开发博客项目 StarBlog - (9) 图片批量导入
系列文章基于.NetCore开发博客项目 StarBlog - (1) 为什么需要自己写一个博客? 基于.NetCore开发博客项目 StarBlog - (2) 环境准备和创建项目基于.NetC ...
Lucene开发实例：Lucene中文分词(转载)
1.准备工作下载lucene 3.6.1 : http://lucene.apache.org/下载中文分词IK Analyzer: http://code.google.com/p/ik-analy ...
微信小程序使用 ECharts
echarts-for-weixin 是 ECharts 官方维护的一个开源项目,提供了一个微信小程序组件(Component),我们可以通过这个组件在微信小程序中使用 ECharts 绘制图表. e ...
Centos使用crontab自动定时备份mysql的脚本
在我们网站上线之后免不了需要备份数据库,为什么要备份呢?我给大家列出了3个理由. 1.防止数据丢失 2.防止数据改错了,可以用来恢复 3.方便给客户数据以上几点告诉我们要经常备份,当然我今天给大家 ...
pytorch初学
(pytorch_gpu) D:\pytorch-text>pythonPython 3.7.9 (default, Aug 31 2020, 17:10:11) [MSC v.1916 64 ...
Vue回炉重造之封装防刷新考试倒计时组件
 <template> <div class="time"> <p>00:{{timerCount2 ...

一个豆瓣电影Top250爬虫

一个爬虫

模块

代码

一个豆瓣电影Top250爬虫的更多相关文章

随机推荐

热门专题