一、分析网页：

明确要爬取的元素：排名、名字、导演、评语、评分，在这里利用Chrome浏览器，查看元素的所在位置

每一部电影信息都在<li></li>当中

爬取元素的所在位置

分析完要爬取的元素，开始准备爬取的工作

二、爬取部分：

工具：

　　Python3

　　requests

　　BeautifulSoup

1、获取每一部电影的信息

 def get_html(web_url):  # 爬虫获取网页没啥好说的

     header = {

         "User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"}

     html = requests.get(url=web_url, headers=header).text#不加text返回的是response，加了返回的是字符串

     Soup = BeautifulSoup(html, "lxml")

     data = Soup.find("ol").find_all("li")  # 还是有一点要说，就是返回的信息最好只有你需要的那部分，所以这里进行了筛选

     return data

requests.get()函数，会根据参数中url的链接，返回response对象

.text会将response对象转换成str类型

find_all()函数，会将html文本中的ol标签下的每一个li标签中的内容筛选出来

2、筛选出信息，保存进文本

 def get_info(all_move):

     f = open("F:\\Pythontest1\\douban.txt", "a")

     for info in all_move:

         #    排名

         nums = info.find('em')

         num = nums.get_text()

         #    名字

         names = info.find("span")  # 名字比较简单 直接获取第一个span就是

         name = names.get_text()

         #    导演

         charactors = info.find("p")  # 这段信息中有太多非法符号你需要替换掉

         charactor = charactors.get_text().replace(" ", "").replace("\n", "")  # 使信息排列规律

         charactor = charactor.replace("\xa0", "").replace("\xee", "").replace("\xf6", "").replace("\u0161", "").replace(

             "\xf4", "").replace("\xfb", "").replace("\u2027", "").replace("\xe5", "")

         #    评语

         remarks = info.find_all("span", {"class": "inq"})

         if remarks:  # 这个判断是因为有的电影没有评语，你需要做判断

             remark = remarks[0].get_text().replace("\u22ef", "")

         else:

             remark = "此影片没有评价"

         print(remarks)

         # 评分

         scores = info.find_all("span", {"class": "rating_num"})

         score = scores[0].get_text()

         f.write(num + '、')

         f.write(name + "\n")

         f.write(charactor + "\n")

         f.write(remark + "\n")

         f.write(score)

         f.write("\n\n")

     f.close()  # 记得关闭文件

注意爬取元素的时候，会有非法符号（因为这些符号的存在，会影响你写入文本中），所以需要将符号用replace函数替换

其余的部分就不做解释了~~

3、全部代码

 from bs4 import BeautifulSoup

 import requests

 import os

 def get_html(web_url):  # 爬虫获取网页没啥好说的

     header = {

         "User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"}

     html = requests.get(url=web_url, headers=header).text#不加text返回的是response，加了返回的是字符串

     Soup = BeautifulSoup(html, "lxml")

     data = Soup.find("ol").find_all("li")  # 还是有一点要说，就是返回的信息最好只有你需要的那部分，所以这里进行了筛选

     return data

 def get_info(all_move):

     f = open("F:\\Pythontest1\\douban.txt", "a")

     for info in all_move:

         #    排名

         nums = info.find('em')

         num = nums.get_text()

         #    名字

         names = info.find("span")  # 名字比较简单 直接获取第一个span就是

         name = names.get_text()

         #    导演

         charactors = info.find("p")  # 这段信息中有太多非法符号你需要替换掉

         charactor = charactors.get_text().replace(" ", "").replace("\n", "")  # 使信息排列规律

         charactor = charactor.replace("\xa0", "").replace("\xee", "").replace("\xf6", "").replace("\u0161", "").replace(

             "\xf4", "").replace("\xfb", "").replace("\u2027", "").replace("\xe5", "")

         #    评语

         remarks = info.find_all("span", {"class": "inq"})

         if remarks:  # 这个判断是因为有的电影没有评语，你需要做判断

             remark = remarks[0].get_text().replace("\u22ef", "")

         else:

             remark = "此影片没有评价"

         print(remarks)

         # 评分

         scores = info.find_all("span", {"class": "rating_num"})

         score = scores[0].get_text()

         f.write(num + '、')

         f.write(name + "\n")

         f.write(charactor + "\n")

         f.write(remark + "\n")

         f.write(score)

         f.write("\n\n")

     f.close()  # 记得关闭文件

 if __name__ == "__main__":

     if os.path.exists("F:\\Pythontest1") == False:  # 两个if来判断是否文件路径存在 新建文件夹 删除文件

         os.mkdir("F:\\Pythontest1")

     if os.path.exists("F:\\Pythontest1\\douban.txt") == True:

         os.remove("F:\\Pythontest1\\douban.txt")

     page = 0  # 初始化页数，TOP一共有250部   每页25部

     while page <= 225:

         web_url = "https://movie.douban.com/top250?start=%s&filter=" % page

         all_move = get_html(web_url)  # 返回每一页的网页

         get_info(all_move)  # 匹配对应信息存入本地

         page += 25

python3 爬虫---爬取豆瓣电影TOP250的更多相关文章

python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
[151116 记录] 使用Python3.5爬取豆瓣电影Top250
这一段时间,一直在折腾Python爬虫.已有的文件记录显示,折腾爬虫大概个把月了吧.但是断断续续,一会儿鼓捣python.一会学习sql儿.一会调试OpenCV,结果什么都没学好.前几天,终于耐下心来 ...
Python爬虫-爬取豆瓣电影Top250
#!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import BeautifulSoup import re ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...

随机推荐

Redis的各项功能解决了哪些问题？
先看一下Redis是一个什么东西.官方简介解释到:Redis是一个基于BSD开源的项目,是一个把结构化的数据放在内存中的一个存储系统,你可以把它作为数据库,缓存和消息中间件来使用.同时支持string ...
js foreach、map函数
语法:forEach和map都支持2个参数:一个是回调函数(item,index,input)和上下文: •forEach:用来遍历数组中的每一项:这个方法执行是没有返回值的,对原来数组也没有影响: ...
(二): 基于ZeroMQ的实时通讯平台
基于ZeroMQ的实时通讯平台上篇:C++分布式实时应用框架 (Cpp Distributed Real-time Application Framework)----(一):整体介绍通讯平台作为 ...
linux-more
more 这个命令可以用来分页查看大篇幅的文件内容非常有效命令参数: -num : 这里的num 是一个数字,用来指定分页显示时每页的行数 +num : 指定从文件的第几行num开始显示 ... ...
SpringAop源码情操陶冶-JdkDynamicAopProxy
承接前文SpringAop源码情操陶冶-AspectJAwareAdvisorAutoProxyCreator,本文在前文的基础上稍微简单的分析默认情况下的AOP代理,即JDK静态代理 JdkDyna ...
Dubbo源码学习--环境搭建及基础准备(ServiceLoader、ExtensionLoader)
环境搭建 Github上下载Dubbo最新发布版本,楼主下载版本为2.5.7. cd到源码解压目录,maven编译,命令为: mvn clean install -Dmaven.test.skip 生 ...
c语言的类型、运算符与表达式
title: 2017-10-17c语言的类型.运算符与表达式 tags: c程序设计语言 grammar_cjkRuby: true --- 1.1 数据类型 char 字符型,一个字节 int 整 ...
Thrift全面介绍
官网:http://thrift.apache.org 简介 Thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发.它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java ...
Linux命令学习备忘
格式: 命令:原理:实践及截图 1.su <user> 执行该命令,需要输入password,它是<user>中定义的用户的password,即,要变换成的用户的passw ...
手 Q 人脸识别动画实现详解
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 前言开门见山,先来看下效果吧. 看到这么酷炫的效果图,不得不赞叹一下我们的设计师.然而,站在程序员的角度上看,除了酷炫之外更多的是复杂.但是 ...

python3 爬虫---爬取豆瓣电影TOP250