爬虫之爬取豆瓣图书名字及ID

from urllib import request

from bs4 import BeautifulSoup as bs

#爬取豆瓣最受关注图书榜

resp = request.urlopen('https://book.douban.com/chart?subcat=I')

html_data = resp.read().decode('utf-8')

#转化为BeautifulSoup对象

soup = bs(html_data,'html.parser')

#搜索最受关注的图书列表

topchart_book =soup.find_all('ul',class_='chart-dashed-list')

#搜索列表中所有图书

topchart_book_list = topchart_book[0].find_all('li',class_='media clearfix')

#新建数组用于存放后续的数据

topchart_list = []

#遍历图书馆列表，从中过滤出我们所需的信息

for item in topchart_book_list:

    #新建字典用于存放我们的图书信息，之后可用class来存储

    topchart_dict = {}

    #搜索到具体信息的位置

    book_item = item.find('a',class_='fleft')

    book_items = item.find('span',class_='font-small color-red fleft')

    #得到图书ID

    topchart_dict['id'] = book_item['href'].split('/')[4]   

    #得到图书名称

    topchart_dict['name'] = book_item.getText().replace('\t','').replace('\n','').replace(' ','')  #图书名字

    #得到图书评分

    topchart_dict['grade'] = book_items.getText()

    #将图书信息加入到数组中

    topchart_list.append(topchart_dict)

print(topchart_list)

爬虫之爬取豆瓣图书名字及ID的更多相关文章

requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器会包含表头通过next函数可以跳过,但是它只能通过下标访问数据: DictRead ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
go爬虫之爬取豆瓣电影
go爬取豆瓣电影好久没使用go语言做个项目了,上午闲来无事花了点时间使用golang来爬取豆瓣top电影,这里我没有用colly框架而是自己设计简单流程.mark一下思路定义两个channel, ...

随机推荐

Linux：LAMP环境的搭建
LAMP环境的搭建安装DNS服务器安装DNS服务 yum install bind -y DNS的配置创建正向解析以创建一个名为"lsy.com"的正向查找区域为例: 第一 ...
Spring汇总
如今做Java尤其是web几乎是避免不了和Spring打交道了,但是Spring是这样的大而全,新鲜名词不断产生,学起来给人一种凌乱的感觉,我就在这里总结一下,理顺头绪. Spring Spring ...
acwing 81. 扑克牌的顺子
地址 https://www.acwing.com/problem/content/77/ 从扑克牌中随机抽5张牌,判断是不是一个顺子,即这5张牌是不是连续的. 2-10为数字本身,A为1,J为11, ...
这样修改有哪些优缺点 wcf service via attribute setting vs config
客户要恢复数据,结果就是block在某个阶段,在server端log一圈下来,发现原来是client端出了问题,就是这个log: ERROR - Identity check failed for o ...
python的__future__模块
一.概述 Python的每个新版本都会增加一些新的功能,或者对原来的功能作一些改动.有些改动是不兼容旧版本的,也就是在当前版本运行正常的代码,到下一个版本运行就可能不正常了.从Python 2.7到P ...
python接口自动化7-post文件上传
前言文件上传在我们软件是不可少的,最多的使用是体现在我们后台,当然我们前台也会有.但是了解过怎样上传文件吗?这篇我们以禅道文档-创建文档,上传文件为例. post请求中的:Content-Type: ...
导出HTML5 Canvas图片并上传服务器功能
这篇文章主要介绍了导出HTML5 Canvas图片并上传服务器功能,文中通过实例代码给大家介绍了HTML5 Canvas转化成图片后上传服务器,代码简单易懂非常不错,具有一定的参考借鉴价值,需要的朋友 ...
c# Winform 继承窗体无法拖动修改控件大小
问题描述: 一个窗体集成父窗体,发现无法直接拖动修改的控件,比如修改大小等特征: 不禁使父窗体控件,就算新加一个控件也会这样:鼠标放到控件移动手方块上会出现一个“继承的控件”的tooptip, 异常 ...
Javase之多线程（1）
多线程(1) 多线程的概述了解多线程之前需要先了解线程,而线程依赖于进程而存在,所以先了解进程. 什么是进程进程就是正在运行的程序.是系统进行资源分配和调用的独立单位.每一个进程都有它自己的内存空 ...
E203 CSR寄存器
RiscV架构则定义了一些控制和状态寄存器(CSR),用于配置或记录一些运行的状态.CSR寄存器是处理器内核内部的寄存器,使用专有的12位地址编码空间,对一个hart,可以配置4k的CSR寄存器. 蜂 ...

爬虫之爬取豆瓣图书名字及ID

爬虫之爬取豆瓣图书名字及ID的更多相关文章

随机推荐

热门专题