爬取豆瓣网图书TOP250的信息

爬取豆瓣网图书TOP250的信息，需要爬取的信息包括：书名、书本的链接、作者、出版社和出版时间、书本的价格、评分和评价，并把爬取到的数据存储到本地文件中。

参考网址：https://book.douban.com/top250

注意：使用正则表达式时，不要在Elements选项卡中直接查看源代码，因为那的源码可能经过Javascript渲染而与原始请求不同，而是需要从Network选项卡中查看源码。

import re

import json

import time

import requests

from requests.exceptions import RequestException

def get_one_page(url):

    try:

        headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) '

            + 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'

        }

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html, start):

    #.*? 非贪婪匹配

    items1 = re.findall('href="(.*?)".*?title="(.*?)".*?', html)

    items2 = re.findall('pl">(.*?\/)?(.*?\/)?(.*?)\/(.*?)\/(.*?)<\/p>', html)#()?有的书没写作者

    items3 = re.findall('nums">(.*?)<\/span>.*?<\/div>(.*?)?<\/td>', html, re.S)#有的书没写书评

    #re.S使.匹配包括换行在内的所有字符

    for i in range(25):

        yield{

            'page': start//25+1,

            'ranking': start+i+1,

            'book': items1[i][1],

            'link': items1[i][0],

            'author': items2[i][0].replace('/', '').strip(),

            'press': items2[i][2].strip(),

            'time': items2[i][3].strip(),

            'price': items2[i][4].strip(),

            'grade': items3[i][0],

            #有书评的则要去除两边的源码

            'evaluation': items3[i][1].strip().replace("</span>\n              </p>", '')\

            .replace('<p class="quote" style="margin: 10px 0; color: #666">\n                  <span class="inq">', '')

        }

def write_to_file(content):

    with open('doubanBookTop250.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main(start):

    url = 'https://book.douban.com/top250?start=' + str(start)

    html = get_one_page(url)

    for item in parse_one_page(html, start):

        print(item)

        #write_to_file(item)

if __name__ == '__main__':

    for i in range(10):

        main(start=i * 25)

        time.sleep(1)

爬取豆瓣网图书TOP250的信息的更多相关文章

爬取豆瓣电影排行top250
功能描述V1.0: 爬取豆瓣电影排行top250 功能分析: 使用的库 1.time 2.json 3.requests 4.BuautifulSoup 5.RequestException 上机实验 ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
Python进阶练习与爬取豆瓣T250的影片相关信息
(一)Python进阶练习正所谓要将知识进行实践,才会真正的掌握于是就练习了几道题:求素数,求奇数,求九九乘法表,字符串练习 import re #求素数 i=1; flag=0 while(i& ...
Python3爬取豆瓣网电影信息
# -*- coding:utf-8 -*- """ 一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称 Language: Python3.6 ...
python3爬取豆瓣排名前250电影信息
#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : doubanmovie.py # @Author: Anthony.waa # @Dat ...
简单python爬虫案例(爬取慕课网全部实战课程信息)
技术选型下载器是Requests 解析使用的是正则表达式效果图: 准备好各个包 # -*- coding: utf-8 -*- import requests #第三方下载器 import re ...
正则表达式_爬取豆瓣电影排行Top250
前言: 利用简单的正则表达式,获取响应内容爬取数据. Part1 正则表达式(Regular Expression) 1.1 简介正则表达式,又称规则表达式,它是一种文本模式,就是通过事先定义好的一 ...
实例学习——爬取豆瓣网TOP250数据
开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...
scrapy 爬取豆瓣互联网图书
安装scrapy conda install scrapy 生成一个scrapy项目 scrapy startproject douban settings文件 # -*- coding: utf-8 ...

随机推荐

SVM(2)-模式识别课堂笔记
三.非线性支持向量机问题起源:1.对于一些非线性可分的问题,我们希望能通过一个映射问题将特征映射到新的空间中去(可能是更高维的空间),寄希望于在新的空间中样本能够线性可分:2.我们注意到在线性支持向 ...
Intent传递实现Parcelable接口的对象
Intent可以传递基本数据类型,在对象实现了Parcelable接口后,Intent也可以传递对象. 1. 使类ListVideo实现了Parcelable接口. package com.examp ...
微信小程序 npm 找不到npm包没有找到可以构建的npm包如何使用第三方npm组件
微信官方的npm文档太模糊了,而且感觉把最重要的东西写在了最后面,我这里费了老大功夫才知道这个坑. 初次使用,首先要初始化 npm 初始化——> 找到 pages 这个文件夹,然后进入这个文件 ...
深入并发锁，解析Synchronized锁升级
这篇文章分为六个部分,不同特性的锁分类,并发锁的不同设计,Synchronized中的锁升级,ReentrantLock和ReadWriteLock的应用,帮助你梳理 Java 并发锁及相关的操作. ...
[实用分享]Kindle电子书格式AZW3转换为MOBI
[实用分享]Kindle电子书格式AZW3转换为MOBI 思路:先拆解成源文件再转换成 MOBI 推荐首选这种方法.此方法的思路是,首先用 KindleUnpack 把 azw3 文件拆解成源文件,然 ...
仅仅知道如何终止XHR请求，或许对你来说是不够的！
TLDR: 当我们需要的时候,我们可以通过AbortController接口来终止一个或者多个请求. 前言到目前为止,我们有两个常用的基本的手段去发送请求进而局部刷新页面内容,其一是XMR(XMLH ...
javascript检测客户端环境是否是pc端
//isPC(): 检测客户端环境是否是pc端 function isPC(){ let userAgent = navigator.userAgent; let agents = ["An ...
C语言三语句练习
输入一个整数day代表星期几,根据day的值输出对应的星期几,比如day==1,就输出“星期一”(用两种方式实现) int Day; printf("请输入一个1~7的数字"); ...
codewars--js--Range Extraction
问题描述: A format for expressing an ordered list of integers is to use a comma separated list of either ...
pikachu-越权漏洞（Over Permission）
一.越权漏洞概述 1.1 概述由于没有用户权限进行严格的判断,导致低权限的账户(例如普通用户)可以去完成高权限账户(例如管理员账户)范围内的操作. 1.2 越权漏洞的分类 (1)平行越权 ...

爬取豆瓣网图书TOP250的信息

爬取豆瓣网图书TOP250的信息的更多相关文章

随机推荐

热门专题