8.04-book

import requests

from lxml import etree

from bs4 import BeautifulSoup

import json

class BookSpider(object):

    def __init__(self):

        self.base_url = 'http://www.allitebooks.com/page/{}'

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}

        self.data_list = []

    # 1.构建所有url

    def get_url_list(self):

        url_list = []

        for i in range(1, 10):

            url = self.base_url.format(i)

            url_list.append(url)

        return url_list

    # 2.发请求

    def send_request(self, url):

        data = requests.get(url, headers=self.headers).content.decode()

        print(url)

        return data

    # 3.解析数据 xpath

    def parse_xpath_data(self, data):

        parse_data = etree.HTML(data)

        # 1.解析出所有的书 book

        book_list = parse_data.xpath('//div[@class="main-content-inner clearfix"]/article')

        # 2.解析出 每本书的 信息

        for book in book_list:

            book_dict = {}

            # 1.书名字

            book_dict['book_name'] = book.xpath('.//h2[@class="entry-title"]//text()')[0]

            # 2.书的图片url

            book_dict['book_img_url'] = book.xpath('div[@class="entry-thumbnail hover-thumb"]/a/img/@src')[0]

            # 3.书的作者

            book_dict['book_author'] = book.xpath('.//h5[@class="entry-author"]//text()')[0]

            # 4.书的简介

            book_dict['book_info'] = book.xpath('.//div[@class="entry-summary"]/p/text()')[0]

            self.data_list.append(book_dict)

    def parse_bs4_data(self, data):

        bs4_data = BeautifulSoup(data, 'lxml')

        # 1.取出所有的书

        book_list = bs4_data.select('article')

        # 2.解析出 每本书的 信息

        for book in book_list:

            book_dict = {}

            # 1.书名字

            book_dict['book_name'] = book.select_one('.entry-title').get_text()

            # # 2.书的图片url

            book_dict['book_img_url'] = book.select_one('.attachment-post-thumbnail').get('src')

            # # 3.书的作者

            book_dict['book_author'] = book.select_one('.entry-author').get_text()[3:]

            #

            # # 4.书的简介

            book_dict['book_info'] = book.select_one('.entry-summary p').get_text()

            print(book_dict)

            self.data_list.append(book_dict)

    # 4.保存数据

    def save_data(self):

        json.dump(self.data_list, open("04book.json", 'w'))

    # 统筹调用

    def start(self):

        url_list = self.get_url_list()

        # 循环遍历发送请求

        for url in url_list:

            data = self.send_request(url)

            # self.parse_xpath_data(data)

            self.parse_bs4_data(data)

        self.save_data()

BookSpider().start()

8.04-book的更多相关文章

Python学习--04条件控制与循环结构
Python学习--04条件控制与循环结构条件控制在Python程序中,用if语句实现条件控制. 语法格式: if <条件判断1>: <执行1> elif <条件判断 ...
Ubuntu 14.04中Elasticsearch集群配置
Ubuntu 14.04中Elasticsearch集群配置前言:本文可用于elasticsearch集群搭建参考.细分为elasticsearch.yml配置和系统配置达到的目的:各台机器配置成 ...
win8.1硬盘安装ubuntu14.04双系统
在网上找了很多方法都失败了,原因是大多数方法都是用mbr方式安装的,如grub4dos,easybcd.以至于连自己都怀疑win8能不能用硬盘安装,差点就去买个u盘来安装了,就在打算放弃的时候在ubu ...
使用win10远程控制ubuntu16.04
使用win10远程控制ubuntu16.04,网上很多需要安装xfce桌面的.今天介绍一下,不需要安装其他桌面,使用Ubuntu16.04自带桌面,漂亮美观. Ubuntu16.04端: 1.打开终端 ...
ubuntu14.04下安装node.js
在网上查了下,起初是下载了一个node-v0.12.7-linux-x64.tar.gz,解压在/home/node路径下,然后在/etc/profile中添加如下命令: export NODE_HO ...
mono3.2和monodevelop4.0在ubuntu12.04上两天的苦战
首先第一步是设置ubuntu server 12.04版更新源,推荐中科大的比较快:deb http://debian.ustc.edu.cn/ubuntu/ precise main multive ...
Jexus Web Server 完全傻瓜化图文配置教程（基于Ubuntu 12.04.3 64位）[内含Hyper-v 2012虚拟机镜像下载地址]
1. 前言近日有感许多新朋友想尝试使用Jexus,不过绝大多数都困惑徘徊在Linux如何安装啊,如何编译Mono啊,如何配置Jexus啊...等等基础问题,于是昨日向宇内流云兄提议,不如搞几个配置好 ...
Ubuntu14.04配置Mono+Jexus
总所周知,ASP.NET是微软公司的一项技术,是一个网站服务端开发的一种技术,它可以在通过HTTP请求文档时再在Web服务器上动态创建它们,就是所谓动态网站开发,它依赖运行于 IIS 之中的程序 .但 ...
deepsooncms在Ubuntu 14.04上部署教程
deepsooncms在Ubuntu 14.04上部署教程一.安装mono1.在命令行运行sudo apt-key adv --keyserver keyserver.ubuntu.com --re ...
在 Ubuntu 15.04 中使用 ubuntu-make、Eclipse 4.4、Java 8 以及 WTP
Ubuntu 今天发布新版本了其实昨天(2015-04-23)我就看到了 Ubuntu 发布新版本的新闻,下班后回家的第一件事就是访问 Ubuntu 的官网,很可惜,没有提供下载.今天(2015-0 ...

随机推荐

[PHP]算法-跳台阶问题的PHP实现
一只青蛙一次可以跳上1级台阶,也可以跳上2级.求该青蛙跳上一个n级的台阶总共有多少种跳法(先后次序不同算不同的结果). 思路: 1.找规律 f(1)=1 f(2)=2 f(3)=3 f(4)=5 f( ...
Yii2基本概念之——行为(Behavior)
使用行为(behavior)可以在不修改现有类的情况下,对类的功能进行扩充.通过将行为绑定到一个类,可以使得类具有行为本身所具有的属性和方法,就好像是类本来就具有的这些属性和功能一样. 好的代码设计, ...
PHP 无限极分类下拉列表实现
1. 递归实现下拉列表 /** * @param 递归实现下拉列表分类 */ include('db.inc.php'); function getList($pid = 0,&$resu ...
javascript中加号(+)操作符的作用
// 16进制转换:+”0xFF”; // -> 255 // 获取当前的时间戳,相当于`new Date().getTime()`:+new Date(); // 比 ...
学习之路-前端-笔记-一、HTML笔记
各种技巧 1.在Webstrom中同时按ctrl+alt+insert创建新内容 2.输入标签按tab自动补全按end 或 HOME实现光标移动到当前行的最后或最前 3.按住alt键不放同时按鼠标 ...
Win7怎么录制电脑屏幕视频
我们在看视频的时候,经常会看到自己特别喜爱的视频,想要把其中的某些片段给录制下来,那么Win7怎么录制电脑屏幕视频?其实步骤很简单,下面就来分享下具体的步骤. 使用工具: 电脑操作方法: 第一步.首 ...
三星450R5J windows8.1系统重装小结
本人一台三星450R5J,到今年也差不多五六年了.虽然颜值很高,但是用久了真的不行,毕竟是属于商务型笔记本,这里我就不晒配置了. 比较一下四五年前的三星与现在使用的华硕,三星看起来更鲜. 准 ...
iOS------App之间传递数据的几种方式
UIDocumentInteractionController UIActivityViewController Shared Keychain Access Custom URL Scheme We ...
小程序实践（一）：主页tab选项实现
官方文档效果图: 实现底部Tab选项,只需要在项目根目录下的app.json下修改如图: ----------------------------------------------------- ...
Ehcache缓存配置以及基本使用
在java项目广泛的使用.它是一个开源的.设计于提高在数据从RDBMS中取出来的高花费.高延迟采取的一种缓存方案.正因为Ehcache具有健壮性(基于java开发).被认证(具有apache 2.0 ...

8.04-book

8.04-book的更多相关文章

随机推荐

热门专题