Python3获取豆瓣图书标签的前20本热门书籍（一）

介绍

第一篇主要获取豆瓣的大分类、大分类下的具体分类以及具体分类下的前20本热门书籍，第二篇对获取的数据进行分析。

准备

Python3.6、requests、BeautifulSoup4

演示

代码

# -*- coding: utf-8 -*-

# @Author: Sexy Phoenix

# @Last Modified by:   Sexy Phoenix

import requests

from bs4 import BeautifulSoup, SoupStrainer

#内容解析类

class Parse:

    #解析分类

    def parse_tags(self, content):

        only_div_tags = SoupStrainer('div', 'article')

        soup = BeautifulSoup(content, 'lxml', parse_only=only_div_tags)

        category = {}

        sub_category = {}

        # 解析大分类

        tag_title_wrapper = soup.find_all('a', 'tag-title-wrapper')

        for index,tag in enumerate(tag_title_wrapper):

            category[index] = tag.get('name')

        # 解析大分类下的具体分类

        tagCol = soup.find_all('table', "tagCol")

        for i,tag in enumerate(soup.find_all('table', "tagCol")):

            a = tag.find_all('a')

            sub_category[i] = []

            for t in a:

                sub_category[i].append(t.string)

        return category, sub_category

    #解析具体分类前20分书籍

    def parse_detail_tag(self, content):

        detail_conent = []

        only_ul_tags = SoupStrainer('ul', 'subject-list')

        soup = BeautifulSoup(content, 'lxml', parse_only=only_ul_tags)

        for li in soup.find_all('li', 'subject-item'):

            info = li.find('div', 'info')

            title = info.h2.a.get('title')

            star = info.find('span', 'rating_nums')

            extra_info = info.h2.next_sibling.next_sibling.string.split('/')

            author = extra_info[0].strip()

            price = extra_info[-1].strip()

            appraise = star.string

            appraise_num = star.next_sibling.next_sibling.string.strip()

            detail_conent.append({

                'title': title,

                'price': price,

                'author': author,

                'appraise':appraise,

                'appraise_num': appraise_num

            })

        return detail_conent

#内容获取类

class Spider:

    def __init__(self):

        self.url = 'https://book.douban.com/tag/?view=type&icn=index-sorttags-all'

        self.tag_url = 'https://book.douban.com/tag/'

        self.headers = {

            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

        }

        self.parse = Parse()

    #获取分类HTML内容

    def get_all_tag(self):

        data = requests.get(self.url, headers=self.headers)

        if(data.status_code == requests.codes.ok):

            return self.parse.parse_tags(data.text)

        else:

            print('[ERROR]: GET Category Error')

    #获取书籍HTML内容

    def get_detail_tag(self, tag_name):

        data = requests.get(self.tag_url + tag_name, self.headers)

        if(data.status_code == requests.codes.ok):

            return self.parse.parse_detail_tag(data.text)

        else:

            print('[ERROR]: GET Sub Category Error')

    #显示

    def show(self):

        category, sub_category = self.get_all_tag()

        print('豆瓣大分类：')

        for index,value in category.items():

            i = index + 1

            print("{0}、{1}".format(i, value))

        try:

            key = int(input('请输入您选择的大分类：')) - 1

            sub_cate = sub_category[key]

            for index in range(len(sub_cate)):

                i = index + 1

                print("{0}、{1}".format(i, sub_cate[index]))

            try:

                sub_key  = int(input('请输入您选择的具体分类：')) - 1

                tag_name = sub_cate[sub_key]

                detail_content = self.get_detail_tag(tag_name)

                for book in detail_content:

                    print('\n')

                    print(book['title'])

                    print("作者：{0}, 价格：{1}, 评分：{2}{3}".format(book['author'],book['price'], book['appraise'], book['appraise_num']))

                    print('='*50)

            except:

                print('[ERROR]: 具体分类选择错误')

        except:

            print('[ERROR]: 大分类选择错误')

#入口

if __name__ == '__main__':

    spider = Spider()

    spider.show()

Python3获取豆瓣图书标签的前20本热门书籍（一）的更多相关文章

Linux运维之——每日小技巧，获取网站请求数的前20个IP
获取网站请求书的前20个IP |grep tcp|awk '{print $5}'|awk -F: '{print $1}'|sort|uniq -c|sort -nr|head -n20
获取占用fd最大的前20个进程
for x in `ps -eF| awk '{ print $2 }'`;do echo `ls /proc/$x/fd 2> /dev/null | wc -l` $x `cat /proc ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...
【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.Bea ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
微信小程序之小豆瓣图书
最近微信小程序被炒得很火热,本人也抱着试一试的态度下载了微信web开发者工具,开发工具比较简洁,功能相对比较少,个性化设置也没有.了解完开发工具之后,顺便看了一下小程序的官方开发文档,大概了解了小程序 ...
微信小程序demo豆瓣图书
最近微信小程序被炒得很火热,本人也抱着试一试的态度下载了微信web开发者工具,开发工具比较简洁,功能相对比较少,个性化设置也没有.了解完开发工具之后,顺便看了一下小程序的官方开发文档,大概了解了小程序 ...
#1 爬虫：豆瓣图书TOP250 「requests、BeautifulSoup」
一.项目背景随着时代的发展,国人对于阅读的需求也是日益增长,既然要阅读,就要读好书,什么是好书呢?本项目选择以豆瓣图书网站为对象,统计其排行榜的前250本书籍. 二.项目介绍本项目使用Python ...

随机推荐

基于微信小程序云开发实现的婚礼邀请函模板，可自行定制开发
这个婚礼邀请函是之前帮别人做的,现在人家婚礼举办过了也没啥关系了,想着就修改成通用模板进行开源,方便大家尤其是小白们克隆项目之后稍微修改就能够直接使用. 当时自己开始这个项目时候也是查阅了很多教程文章 ...
.NET LINQ分析AWS ELB日志避免996
前言小明是个单纯的.NET开发,一天大哥叫住他,安排了一项任务: "小明,分析一下我们超牛逼网站上个月的所有AWS ELB流量日志,这些日志保存在AWS S3上,你分析下,看哪个API的响 ...
Hyper-V 下linux虚拟机静态IP上网配置的两种方式（2）
工作需要,搭建linux环境,网上搜了两种Hyper-V配置linux静态IP及上网的方式,记录一下,方便查阅,如下设置网络共享方式: win10下使用hyper-v在本机安装linux虚拟机后,网络 ...
django-搭建BBS关键点总结
0826自我总结 django-搭建BBS关键点总结一.关于开口子,直接输入url访问文件内容 django自带开了个口子是static文件可以直接访问到手动开口子 urs.py from dja ...
【Java 基础】谈谈集合.List
目录 1. ArrayList 1.1 ArrayList的构造 1.2 add方法 1.3 remove方法 1.4 查询方法 1.5 一些其他常用方法 1.6 ArrayList小结 2. Vec ...
权限维持-wmi事件
0x01 前言 WMIC扩展WMI(Windows Management Instrumentation,Windows管理工具),提供了从命令行接口和批命令脚本执行系统管理的支持. 在2015年的b ...
Hadoop实战1：MapR在ubuntu集群中的安装
由于机器学习算法在处理大数据处理的时候在所难免的会效率降低,公司需要搭建hadoop集群,最后采用了商业版的Hadoop2(MapR). 官网: http://doc.mapr.com/display ...
关于a标签的href属性
今天有人问起我a标签的href属性值为 # 与 JavaScript:void(0) 有啥区别,想来也没啥可说,就简单说两句 a标签的href属性,优点有: 天然鼠标手型,以及可以被键盘focus以及 ...
The usage of Markdown---目录
更新时间:2019.09.14 当我们编辑的内容比较多时,通常要生成目录来进行页内跳转.除了之前提到过的页内跳转链接的方法,还有一种方法--目录树,能够自动生产目录,大大减少工作量. tip1: ...
cordova开发环境搭建
最近我在尝试了解跨平台技术的发展,首先则是想到了cordova.本文简单记录下cordova环境搭建的过程. 安装cordova 首先是要npm全局安装cordova npm install -g c ...

Python3获取豆瓣图书标签的前20本热门书籍（一）

介绍

准备

演示

代码

Python3获取豆瓣图书标签的前20本热门书籍（一）的更多相关文章

随机推荐

热门专题