前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者：404notfound

一直对爬虫感兴趣，学了python后正好看到某篇关于爬取的文章，就心血来潮实战一把吧。当然如果你学的不好，建议可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！

实现目标：抓取豆瓣电影top250，并输出到文件中

1.找到对应的url：https://movie.douban.com/top250

2.进行页面元素的抓取：

3.编写代码：

　　第一步：实现抓取第一个页面；

　　第二步：将其他页面的信息也抓取到；

　　第三步：输出到文件；

4.代码：

import sys
import io
from selenium import webdriver

#改变标准输出，解决输出到文件时遇到的编码问题。
# 如果输出到控制行，不要加这一行
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

class DouBan:
    #初始化driver对象，打开页面，最大化页面
    def __init__(self):
        self.driver=webdriver.Chrome()
        self.driver.get('https://movie.douban.com/top250')
        self.driver.maximize_window()

    # 分页判断，默认显示第一页，输出第一页后，点击下一页按钮，再输出。总共10页
    def get_content(self):
        for page in range(1,10):
            #获取元素定位： 对当前页面中 单个电影元素进行定位
            movie = self.driver.find_elements_by_class_name('info')

           # for循环：循环输出当前页面中单部影片的电影信息（text输出元素的文本内容）；
            i = 1
            for item in movie:
                #输出格式： 电影序号 +  电影介绍  +换行展示
                print(str(i+ page*25-25)+":　"+item.text+'')
                print("")
                i+=1

            # 判断：如果当前页面码小于10，则查找页码的元素，并点击页码。否则不用进行查找，因为最多点击第10页；
            # 获取底部的页签元素（采用了format格式输出，根据当前页面做加1操作）
            if page<10:
                page_but = self.driver.find_element_by_xpath('//div[@class="paginator"]//a[contains(text(),{0})]'.format(page + 1))
                page_but.click()
            else:
                pass

if __name__ == '__main__':
    DouBan().get_content()

5.结果：

1）控制台输出部分截图：

2）如果想要输出到文件，执行命令并重定向到TXT文件中：

python xxxx.py >d:/out_test.txt

6.遇到的问题：

1.多页时，for循环的数字设置，来回试几次就可以了，不难。

2.输出到文件中

真的很简单，不知道你们都懂了没？如果没懂可以去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！有问题留言问我吧~

Python抓取豆瓣电影top250!的更多相关文章

Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
Python 爬取豆瓣电影Top250排行榜，爬虫初试
from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...

随机推荐

Centos 7环境下修改主机名
步骤如下: 一.首先把虚拟机打开,用root账户进行登录后打开终端二.我们看到我们虚拟机名称是默认的主机名. 三.用vi编辑器编辑etc目录下的hostname文件,输入“vi /etc/hostn ...
jquery 判断数组是否为空
jquery 判断数组是否为空 if (data.length === 0) { console.log("数组为空"); }
nyoj 208 + poj 1456 Supermarket (贪心)
Supermarket 时间限制:1000 ms | 内存限制:65535 KB 难度:4 描述 A supermarket has a set Prod of products on sal ...
AV时间戳dts,pts。从ffmpeg解码过程看过来。
解码过程中,dts由媒体流读入的包推动(解码包中的dts标记),dts在前进.pts是在dts前进到某处(截点)而进行动作的标记. 物理时间自然流逝,dts可以被控制同步与物理时间同一脚步节奏,也可以 ...
Linux菜鸟——常见命令一权限
Linux对文件和目录的权限位权限位是十位第一位代表文件类型 - 普通文件 d 目录文件 l 链接文件后面九尾所有者权限 u = user 所属组权限 g = group 其他人权限 o = ...
Springboot 系列（十六）你真的了解 Swagger 文档吗？
前言目前来说,在 Java 领域使用 Springboot 构建微服务是比较流行的,在构建微服务时,我们大多数会选择暴漏一个 REST API 以供调用.又或者公司采用前后端分离的开发模式,让前端和 ...
小白学 Python 爬虫（5）：前置准备（四）数据库基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
GDG Xi'an DevFest 2019 闪电演讲 -《假如我是一个浏览器》PPT（经典多图，建议收藏）
GDG Xi'an DevFest2019演讲PPT链接: http://tmp.link/f/5dd9e6bf461b6 闪电演讲<假如我是一个浏览器>PPT链接: https://gi ...
Ubuntu中使用Nginx+rtmp模块搭建流媒体视频点播服务
1. 背景不知不觉笔者来到流媒体部门已经一年半多了,积攒了不少的流媒体知识,但平时工作也比较忙,很少进行总结性的梳理,最近准备花几个周末时间写一个流媒体系列的实践文章,也算是给自己做总结的同时帮助有 ...
模型量化原理及tflite示例
模型量化什么是量化模型的weights数据一般是float32的,量化即将他们转换为int8的.当然其实量化有很多种,主流是int8/fp16量化,其他的还有比如二进制神经网络:在运行时具有二进 ...

Python抓取豆瓣电影top250!

前言

Python抓取豆瓣电影top250!的更多相关文章

随机推荐

热门专题