前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者：404notfound

一直对爬虫感兴趣，学了python后正好看到某篇关于爬取的文章，就心血来潮实战一把吧。当然如果你学的不好，建议可以先去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！

实现目标：抓取豆瓣电影top250，并输出到文件中

1.找到对应的url：https://movie.douban.com/top250

2.进行页面元素的抓取：

3.编写代码：

　　第一步：实现抓取第一个页面；

　　第二步：将其他页面的信息也抓取到；

　　第三步：输出到文件；

4.代码：

import sys
import io
from selenium import webdriver

#改变标准输出，解决输出到文件时遇到的编码问题。
# 如果输出到控制行，不要加这一行
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

class DouBan:
    #初始化driver对象，打开页面，最大化页面
    def __init__(self):
        self.driver=webdriver.Chrome()
        self.driver.get('https://movie.douban.com/top250')
        self.driver.maximize_window()

    # 分页判断，默认显示第一页，输出第一页后，点击下一页按钮，再输出。总共10页
    def get_content(self):
        for page in range(1,10):
            #获取元素定位： 对当前页面中 单个电影元素进行定位
            movie = self.driver.find_elements_by_class_name('info')

           # for循环：循环输出当前页面中单部影片的电影信息（text输出元素的文本内容）；
            i = 1
            for item in movie:
                #输出格式： 电影序号 +  电影介绍  +换行展示
                print(str(i+ page*25-25)+":　"+item.text+'')
                print("")
                i+=1

            # 判断：如果当前页面码小于10，则查找页码的元素，并点击页码。否则不用进行查找，因为最多点击第10页；
            # 获取底部的页签元素（采用了format格式输出，根据当前页面做加1操作）
            if page<10:
                page_but = self.driver.find_element_by_xpath('//div[@class="paginator"]//a[contains(text(),{0})]'.format(page + 1))
                page_but.click()
            else:
                pass

if __name__ == '__main__':
    DouBan().get_content()

5.结果：

1）控制台输出部分截图：

2）如果想要输出到文件，执行命令并重定向到TXT文件中：

python xxxx.py >d:/out_test.txt

6.遇到的问题：

1.多页时，for循环的数字设置，来回试几次就可以了，不难。

2.输出到文件中

真的很简单，不知道你们都懂了没？如果没懂可以去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面有最新Python教程项目，一起交流学习进步！有问题留言问我吧~

Python抓取豆瓣电影top250!的更多相关文章

Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python3 抓取豆瓣电影Top250
利用 requests 抓取豆瓣电影 Top 250: import re import requests def main(url): global num headers = {"Use ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
Python 爬取豆瓣电影Top250排行榜，爬虫初试
from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...

随机推荐

Appium+python自动化（四十）-Appium自动化测试框架综合实践 - 代码实现（超详解）
1.简介今天我们紧接着上一篇继续分享Appium自动化测试框架综合实践 - 代码实现.由于时间的关系,宏哥这里用代码给小伙伴演示两个模块:注册和登录. 2.业务模块封装因为现在各种APP的层出不群 ...
Ubuntu 16.04.4 LTS设置root用户登陆图形界面
普通用户登陆真是太憋屈,这也不能那也不能,root用户登录就可以肆无忌惮了本方法采用nano编辑器,ubantu版本Ubuntu 16.04.4 LTS,其他版本应该也一样,下面进入正题 1.终端登 ...
nyoj 1071-不可以！(a*b + fabs(a*b))
1071-不可以! 内存限制:64MB 时间限制:1000ms 特判: No 通过数:10 提交数:18 难度:1 题目描述: 判断:两个数x.y的正负性. 要求:不可以使用比较运算符,即" ...
看淡生死，不服就干（C语言指针）
看淡生死,不服就干 emmmmm 其实今天蛮烦的高等数学考的一塌糊涂会的不会的都没写真心没有高中轻松了啊也不知道自己立的flag还能不能实现既然选择了就一定坚持下去啊下面还是放一段之前写的 ...
[转]shell 特殊字符
下面这篇博文对特殊字符总结的非常齐全.这里做一下mark.另外补充一些例子. https://blog.csdn.net/K346K346/article/details/51819236 假设我们定 ...
Future模式的学习以及JDK内置Future模式的源码分析
并发程序设计之Future模式一).使用Future模式的原因当某一段程序提交了一个请求,期待得到一个答复,但服务程序对这个请求的处理可能很慢,在单线程的环境中,调用函数是同步的,必须等到服务程序 ...
研究Java语言的编译器和虚拟机源代码
现在使用Java语言的人很多,但是了解Java语言实现的人非常少.如果要研究Java语言的实现,推荐研究Javac和虚拟机HotSpot的源代码实现,其中Javac相当于Java编译的前端,HotSp ...
ubuntu 交叉编译 busybox 1.31.1
目的:静态编译 Busybox_arm64 1.13.1 环境:Ubuntu 18.04.3 #----------------环境配置 # aarch64-linux-gnu-g++ sudo ap ...
day 36 html的补充
参考博客:https://www.cnblogs.com/majj/p/9062540.html 内容回顾: 0.浏览器 1.标签 - 行内标签 a span i em strong b.label ...
C#取视频某一帧图片
首先下载 ffmpeg http://ffmpeg.org/ 注意一定要从官网下载,其他地方可以会有问题解压后在 bin 目录下找到 ffmpeg.exe 用到的使命是 -i 视频地址 -ss 第几 ...

Python抓取豆瓣电影top250!

前言

Python抓取豆瓣电影top250!的更多相关文章

随机推荐

热门专题