第一个爬虫经历----豆瓣电影top250(经典案例)

因为要学习数据分析，需要从网上爬取数据，所以开始学习爬虫，使用python进行爬虫，有好几种模拟发送请求的方法，最基础的是使用urllib.request模块(python自带，无需再下载)，第二是requests模块(第三方库，需要pip install requests)，第三是直接使用scaper模块(第三方库，需要下载)。

本次开发使用的工具是jupyter notebook,使用到的模块主要有requests(模拟http请求，详情请看http://2.python-requests.org/zh_CN/latest/user/quickstart.html),BeautifulSoup(处理请求的数据，以dom的形式进行处理，详细查看https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/),pandas(将处理后的数据存储为DataFrame，如果想详细了解此库可以查看https://www.cnblogs.com/lvpengbo/p/10851096.html),re(正则表达式库 https://docs.python.org/zh-cn/3/library/re.html)。

具体代码如下：

import requests

import pandas as pd

import re

from bs4 import BeautifulSoup

url='https://movie.douban.com/top250?start={}&filter='

headers={"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}

movie_list=[]

movie_rank=[]

movie_score=[]

people_num=[]

movie_year=[]

county_list=[]

director_list=[]

quote_list=[]

for i in range(10):

    start=i*25

    request_url=url.format(start)

    response=requests.get(request_url,headers=headers)

    data=response.content.decode('utf-8')

    soup=BeautifulSoup(data,'html.parser')

    all_item_divs=soup.find_all(class_='item')

    for item in all_item_divs:

        movie_list.append(item.find('span').get_text())

        movie_rank.append(item.find('em').get_text())

        movie_score.append(item.find('span',class_='rating_num').get_text())

        num=item.find('div',class_='star').contents[7].get_text()

        people_num.append(int(re.findall('\d+',num)[0]))

        br_value=item.find('p').get_text()

        movie_year.append(re.findall('\d+',br_value)[0].strip())

        director=list(filter(None,br_value.split('/')[0].split(':')[1].split(' ')))[0]

        director_list.append(director)

        county_list.append(br_value.split('/')[2].strip())

        if item.find('span',class_='inq')==None:

            quote_list.append('')

        else:

            quote_list.append(item.find('span',class_='inq').get_text())

df=pd.DataFrame(

    {'排名':movie_rank,

     '电影名称':movie_list,

     '上映日期':movie_year,

     '国家':county_list,

      '导演':director_list,

     '评分':movie_score,

     '评论人数':people_num,

    '经典台词':quote_list})

df.to_csv('豆瓣250.csv')

数据集结果：国家这列有问题，字符串切割的问题，主演和电影类型也是因为字符串切割问题没有获取到

第一个爬虫经历----豆瓣电影top250(经典案例)的更多相关文章

【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
<爬虫实战>豆瓣电影TOP250（三种解析方法）
1.豆瓣电影排行.py # 目标:爬取豆瓣电影排行榜TOP250的电影信息 # 信息包括:电影名字,上映时间,主演,评分,导演,一句话评价 # 解析用学过的几种方法都实验一下①正则表达式.②Beaut ...
爬虫_豆瓣电影top250 （正则表达式）
一样的套路,就是多线程还没弄 import requests import re import json headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
练习：一只豆瓣电影TOP250的爬虫
练习:一只豆瓣电影TOP250爬虫练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapyclass DoubanmovieItem(scrapy ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...

随机推荐

volatile、synchronized、ReentrantLock与CAS
目录一.JVM内存模型: 二.volatile关键字 1.volatile保证内存可见性. 2.能禁止指令重排序 3.不能保证原子性三.synchronized关键字 1.内存可见性: 2.操作的 ...
抽样分布|t分布|中心极限定理|点估计|矩估计|最大似然法|
生物统计与实验设计-统计学基础-2&区间估计-1 正态分布参数:均值和方差其中,选择1d是因为好算:通常,95%区分大概率事件和小概率事件, 当总体是正态分布时,可以利用常用抽样分布估计出样 ...
吴裕雄--天生自然HTML学习笔记：HTML 段落
HTML 可以将文档分割为若干段落. HTML 段落段落是通过 <p> 标签定义的. 实例 <p>这是一个段落 </p> <p>这是另一个段落< ...
dubbo分布式框架下web层调用业务层一直报空指针异常的解决办法
java.lang.NullPointerException............... 环境:SSM(通用mapper)+Dubbo 1.检查导包提示注解@Reference 应该导入 im ...
dTree动态生成树(后台处理，简化前台操作)
dTree是个很方便在页面生成树的 js 控件,如果你下载了,我猜里在几分钟之内便能在页面上显示出一颗树来. 它本身给的例子是通过一些静态数据构造树,下面我说一种通过查询的数据动态构造树的方法. 例子 ...
吴裕雄--天生自然 R语言开发学习：基本数据管理
#---------------------------------------------------------# # R in Action (2nd ed): Chapter 4 # # Ba ...
LeetCode43(字符串相乘)
题目: 给定两个以字符串形式表示的非负整数 num1 和 num2,返回 num1 和 num2 的乘积,它们的乘积也表示为字符串形式. 示例 1: 输入: num1 = "2", ...
基于OpenDDS应用程序开发(3)订阅端实现
连续的三篇博文演示如何基于OpenDDS开发应用程序,将数据从发布端节点发送到订阅端节点,该示例程序由一个发布者发布数据,一个订阅者订阅数据,使用默认的QoS策略和TCP/IP传输方式. 本文是第三篇 ...
Java equals和==的理解
一.简介 ==: == 比较的是变量(栈)内存中存放的对象的(堆)内存地址,用来判断两个对象的地址是否相同,即是否是指相同一个对象.比较的是真正意义上的指针操作. 1.比较的是操作符两端的操作数是否是 ...
我们一起学React Native(一)：环境配置
最近想在项目中实现跨平台,对比一下主流的实现方式,选用了React Native.参考网上的教程,对于一直都是原生移动端开发,对前端的知识不是很了解的,感觉入门不是特别简单.于是打算把学习React ...

第一个爬虫经历----豆瓣电影top250(经典案例)

第一个爬虫经历----豆瓣电影top250(经典案例)的更多相关文章

随机推荐

热门专题