一个豆瓣电影Top250爬虫

一个爬虫

这是我第一次接触爬虫，写的第一个爬虫实例。

https://movie.douban.com/top250

模块

import requests #用于发送请求

import re #使用正则表达式，用于匹配处理文本

import os #用于创建文件夹

from lxml import etree #这里我使用了Xpath表达式用于数据解析，我觉得这个模块比BeautifulSoup好用，强烈推荐

from fake_useragent import UserAgent #反爬虫，随机获取浏览器 UA 信息

代码

import requests

import re

import os

from lxml import etree

from fake_useragent import UserAgent

class doubanSpider(object):

    def __init__(self):

        if not os.path.exists('db/douban'):

            os.makedirs('db/douban')

        else:

            pass

        self.f = open('./db/douban/douban.txt', 'a', encoding='utf-8')

    def start(self):

        for i in range(46):

            headers = {

                'User-Agent': UserAgent().random

            }

            url = 'https://movie.douban.com/top250?start=' + str(i * 25)

            r = requests.get(url, headers=headers)

            html = etree.HTML(r.text)

            li_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li')

            movies = []

            for each in li_list:

                movie = {}

                order = each.xpath('.//div/div[1]/em/text()')[0]

                movie['id'] = order

                cover = each.xpath('.//div/div[1]/a/img/@src')[0]

                movie['cover'] = cover

                name = each.xpath('.//div/div[2]/div[1]/a/span/text()')

                flag = ''

                for mo in name:

                    flag += mo

                movie['name'] = flag

                info = each.xpath('.//div/div[2]/div[2]/p[1]/text()[1]')[0].strip()

                info = info.replace("\n", "")

                info = info.replace("\xa0", "")

                director = re.findall(r'[导演:].+[主演:]', info)[0]

                director = director[4:len(director) - 3]

                movie['director'] = director

                try:

                    role = re.findall(r'主.+', info)[0]

                    role = role[4:]

                except IndexError:

                    role = ''

                movie['role'] = role

                plot = each.xpath('.//div/div[2]/div[2]/p[1]/text()[2]')[0].strip()

                plot = plot.replace("\xa0", "")

                movie['plot'] = plot

                star = each.xpath('.//div/div[2]/div[2]/div/span[2]/text()')[0]

                movie['star'] = star

                try:

                    comment = each.xpath('.//div/div[2]/div[2]/p[2]/span/text()')[0]

                except IndexError:

                    comment = ''

                movie['comment'] = comment

                movies.append(movie)

                self.f.write(str(movie)+'\n')

                print(movie)

    def run(self):

        self.start()

        self.f.close()

if __name__ == '__main__':

    spider = doubanSpider()

    spider.run()

一个豆瓣电影Top250爬虫的更多相关文章

[Python] 豆瓣电影top250爬虫
1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...
记一次python爬虫实战，豆瓣电影Top250爬虫
import requests from bs4 import BeautifulSoup import re import traceback def GetHtmlText(url): for i ...
练习：一只豆瓣电影TOP250的爬虫
练习:一只豆瓣电影TOP250爬虫练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapyclass DoubanmovieItem(scrapy ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

[题解] 序列(sequence)
题目大意给定一个长度为 \(N\) 的非负整数序列 \(A_1,A_2, \ldots ,A_N\),和一个正整数 \(M\).序列 \(A\) 满足 \(\forall 1 \le i \ ...
Barbican密钥管理器服务
Barbican服务介绍 Key Manager 服务 (barbican) 提供机密数据的安全存储.配置和管理.这包括密钥材料,例如对称密钥.非对称密钥.证书和原始二进制数据. Barbican 是 ...
技术管理进阶——技术Leader如何拒绝业务方？
原创不易,求分享.求一键三连前段时间,有个粉丝在群里问了一个问题: 今天对接一个业务团队,要我帮他导数据,这种工作又臭又烦又没成长,而且边界模糊谁做都可以,我很想拒绝他,但又怕引起对方不满,大家有什 ...
docker 保存,加载,导入,导出命令
持久化docker的镜像或容器的方法 docker的镜像和容器可以有两种方式来导出 docker save #ID or #Name docker export #ID or #Name docker ...
好客租房32-事件绑定this指向（class实例方法）
class实例方法利用箭头函数的class实例方法 //导入react import React from 'react' import ReactDOM from 'react-dom' // ...
[USACO16JAN]Angry Cows G 解题报告
一图流参考代码: #include<bits/stdc++.h> #define ll long long #define db double #define filein(a) fre ...
Java 接口返回值集合防止空指针
接口返回值为一个集合 public interface UserSearchService{ List<User> listUser(); } 接口实现 public List<U ...
文字轮播与图片轮播？CSS 不在话下
今天,分享一个实际业务中能够用得上的动画技巧. 巧用逐帧动画,配合补间动画实现一个无限循环的轮播效果,像是这样: 看到上述示意图,有同学不禁会发问,这不是个非常简单的位移动画么? 我们来简单分析分析, ...
Caller 服务调用 - Dapr
前言上一篇我们讲了使用HttpClient的方式调用,那么如果我们现在需要更换为通过dapr实现服务调用,我们需要做哪些事情呢? Caller.Dapr 入门如果我们的项目原本使用的是Caller ...
编写一个kubernetes controller
Overview 根据Kuberneter文档对Controller的描述,Controller在kubernetes中是负责协调的组件,根据设计模式可知,controller会不断的你的对象(如Po ...

一个豆瓣电影Top250爬虫

一个爬虫

模块

代码

一个豆瓣电影Top250爬虫的更多相关文章

随机推荐

热门专题