豆瓣Top250爬取

第一次做爬虫项目，真的开心，非常顺利爬出了豆瓣Top250的电影 @^_^@

自从今年6月份就开始自学python，断断续续一直没好好学。直到看了‘’老男孩python3全栈教育‘’，才有所收获。但是这网上的视频没有给我作业，学了就忘，我大概学了一多半python的基础使用之后，决定自己从爬虫学起。开始看崔庆才的教学视频，这个讲的很快，幸好我有看过许多基础，还能够听懂。不过最好从项目直接入手，回过头来再看崔庆才的基础知识教育，更有利于对爬虫的学习。话不多说，直接上代码。

import requests

from requests.exceptions import RequestException

from multiprocessing import Pool

import re

import json

def get_one_page(url):           # 获取网页的 URL

    try:

        response = requests.get(url)

        if response.status_code == 200:    # 得到网页的响应

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html):         # 提取出‘电影标题’，‘序列号’，‘评分’

    pattern = re.compile('<li>.*?<em class="">(\d+)</em>.*?<span class="title">(.*?)</span>.*?<div class="star">.*?average">(.*?)</span>.*?</li>',re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield{

            'index':item[0],

            'title':item[1],

            'score':item[2]

        }

def write_to_file(content):       # 把提取出来的信息写到文件夹

    with open('result.txt','a',encoding='utf8')as f:

        f.write(json.dumps(content,ensure_ascii=False)+'\n')

        f.close()

def main(offset):

    url = 'https://movie.douban.com/top250?start=' + str(offset) + '&filter='  # 共提取10个网页内容

    html = get_one_page(url)     # 每个网页对应的信息代码

    for item in parse_one_page(html):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    pool = Pool()

    pool.map(main,[i*25 for i in range (10)])

最关键的函数是 parse_one_page()，所要提取的网页内容都由它决定。视频中的教学是让提取猫眼电影的，但由于猫眼电影访问后的response.status_code = 403，因此访问了豆瓣Top250，提取内容的方法是按照崔庆才的视频学的。

代码中的 '.*?' 用来代表任何内容，后面的 're.S’ ，说明 '.*?' 可以代替的内容也包括 ‘\n’ 。最后再把提取的内容写到result.txt的文件中就好了（^__^）

豆瓣Top250爬取的更多相关文章

Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
豆瓣电影top250爬取并保存在MongoDB里
首先回顾一下MongoDB的基本操作: 数据库,集合,文档 db,show dbs,use 数据库名,drop 数据库 db.集合名.insert({}) db.集合名.update({条件},{$s ...
Python 豆瓣mv爬取
爬取网址:https://www.dbmeinv.com/ 豆瓣mv(现已更名) 注:自制力不好的同学,先去准备营养快线! import requests from bs4 import ...
Python 豆瓣日记爬取
无聊写了个豆瓣日记的小爬虫,requests+bs4. cookies_src可填可不填,主要是为了爬取仅自己可见的日记. url填写的是日记页面,即https://www.douban.com/pe ...
《恶魔人crybaby》豆瓣短评爬取
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业选择一个热点或者你感兴趣的主题. 选择爬取的对象 ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
小试牛刀--利用豆瓣API爬取豆瓣电影top250
最近得赶进度爬点东西,对于豆瓣,它为开发者提供了API,目前是v2版本,目前key不对个人开放,但是可以正常通过其提供的API获取数据.豆瓣V2版API权限分3类:公开.高级.商务,我们用开放基本数据 ...
python豆瓣250爬取
import requests from bs4 import BeautifulSoup from lxml import etree # qianxiao996精心制作 #博客地址:https:/ ...
Python3爬取豆瓣网电影信息
# -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称 Language: Python3.6 ...

随机推荐

Rocket - debug - TLDebugModuleInnerAsync
https://mp.weixin.qq.com/s/Xf4VFTHIDFh1NHmfwlTX3w 简单介绍TLDebugModuleInnerAsync的实现. 1. dmInner dmInner ...
Rocket - regmapper - RegisterCrossing
https://mp.weixin.qq.com/s/82iLT-fmDg9Comp2p9bxKg 简单介绍RegisterCrossing的实现. 1. BusyRegisterCrossing 简 ...
Myeclipse新建工作空间配置
之前跟着尚硅谷JavaWeb视频学习,现在总结一下Myeclipse新建工作空间配置 Windows按钮下的Preferences 1. General --> Workspace --&g ...
第八届蓝桥杯JavaB组国(决)赛真题
解题代码部分来自网友,如果有不对的地方,欢迎各位大佬评论题目1.平方十位数题目描述由0~9这10个数字不重复.不遗漏,可以组成很多10位数字. 这其中也有很多恰好是平方数(是某个数的平方). 比 ...
dotnet tool install：Failed to install tool package 'ZKEACMS.Publisher': Could not find a part of the path 'C:\Users\Christer\.dotnet\tools\.store\.stage\0qd2mqpa.m45\ZKEACMS.Publisher'
问题按照 ZKEACMS 运行命令 dotnet tool install --global ZKEACMS.Publisher 提示 Failed to install tool package ...
本地配置gitee
一下载工具 Git-2.62.0-64-bit.exe 以上工具版本号不需要一样,安装完前两个后重新启动系统,再安装第3个. 二码云网站注册 https://gitee.com/ 使用邮箱注册注 ...
local 对象补充
昨日回顾 1 @app.before_first_request,再项目启动后接收到的第一个请求,会执行before_first_request,他再@app.before_request之前执行.他 ...
Ubuntu18.04下MySQL8.0和Navicat15的安装与使用
目录一.MySQL8.0安装二.Navicat安装并与MySQL连接一.MySQL8.0安装注意:若直接 sudo apt install mysql-server,你会发现安装后的版本是5. ...
[每日一题2020.06.09] leetcode #97 交错字符串 dp
题目链接利用动态规划的思想, 对于每种状态(i, j)来说都有(i-1, j) 和 (i,j-1) 需要注意的问题 : 初始化的问题,先把i=0和j=0的状态都初始化后才可以进行dp否则发生数组越界 ...
（五）POI-设置单元格的对齐方式
原文链接:https://blog.csdn.net/class157/article/details/92817149 package com.java.poi; import org.apache ...

豆瓣Top250爬取

豆瓣Top250爬取的更多相关文章

随机推荐

热门专题