requests+beautifulsoup爬取豆瓣图书

使用Xpath和BeautifulSoup来解析网页可以说真的很简便。

import requests

from bs4 import BeautifulSoup

from random import choice

url = 'https://book.douban.com/tag/%E7%BC%96%E7%A8%8B'

ua = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"

headers = {'User-Agent': ua}

with open('hosts') as f:

    proxies = [proxy.strip() for proxy in f.readlines()]

    with requests.get(url=url, headers=headers, proxies={"http": choice(proxies)}) as resp:

        soup = BeautifulSoup(markup=resp.text, features='lxml')

        # //li[@class="subject-item"]//h2/a/text()

        # //li[@class="subject-item"]//span[@class="rating_nums"]/text()

        books = soup.select('.subject-item')

        # print(books)

        for book in books:

            # print(book.select('h2 a'))

            title = ''.join(map(lambda x: x.strip(), book.select('h2 a')[0].text))  # 合并副标题

            rate = book.select('.rating_nums')[0].text

            print(title, rate)

解析结果:

计算机程序的构造和解释:原书第2版 9.5

编码:隐匿在计算机软硬件背后的语言 9.2

代码大全（第2版） 9.3

深入理解计算机系统 9.5

C程序设计语言:第2版·新版 9.4

算法导论（原书第2版） 9.3

算法（第4版） 9.4

JavaScript高级程序设计（第3版） 9.3

黑客与画家:硅谷创业之父PaulGraham文集 8.8

集体智慧编程 9.0

编程珠玑:第2版 9.1

Java编程思想（第4版） 9.1

Python编程：从入门到实践:从入门到实践 9.1

C++Primer中文版（第4版） 9.2

流畅的Python 9.5

程序员的自我修养:链接、装载与库 8.8

UNIX环境高级编程:第2版 9.4

Python编程快速上手:让繁琐工作自动化 9.0

程序员修炼之道:从小工到专家 8.6

重构:改善既有代码的设计 9.0

requests+beautifulsoup爬取豆瓣图书的更多相关文章

requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
爬虫之爬取豆瓣图书名字及ID
from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen(' ...
爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件通过csv.reader()和DictReader()两个函数 reader()函数返回一个迭代器会包含表头通过next函数可以跳过,但是它只能通过下标访问数据: DictRead ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
requests库爬取豆瓣热门国产电视剧数据并保存到本地
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...
python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...

随机推荐

Part 5：Django测试--Django从入门到精通系列教程
该系列教程系个人原创,并完整发布在个人官网刘江的博客和教程所有转载本文者,需在顶部显著位置注明原作者及www.liujiangblog.com官网地址. 本节将简要介绍Django的自动化测试相关内 ...
koa2入门（2） koa-router 路由处理
项目地址:https://github.com/caochangkui/demo/tree/koa-test 1. 创建项目创建目录 koa-test npm init 创建 package.jso ...
browserify运行原理分析
目前对于前端工程师而言,如果只针对浏览器编写代码,那么很简单,只需要在页面的script脚本中引入所用js就可以了. 但是某些情况下,我们可能需要在服务端也跑一套类似的逻辑代码,考虑如下这些情景(以n ...
CentOS搭建NAT和DHCP服务，实现共享上网
什么是NAT? NAT(Network address translation)即网络地址转换,作为一种过渡解决手段,可以用来减少对全球合法IP地址的需求.简单的说,NAT就是在内部专用网络中使用内部 ...
Spring+SpringMVC+MyBatis+easyUI整合进阶篇（八）线上Mysql数据库崩溃事故的原因和处理
前文提要承接前文<一次线上Mysql数据库崩溃事故的记录>,在文章中讲到了一次线上数据库崩溃的事件记录,建议两篇文章结合在一起看,不至于摸不着头脑. 由于时间原因,其中只讲了当时的一些经 ...
rsync同步时，删除目标目录比源目录多余文件的方法（--delete）
在日常运维工作中,我们经常用到rsync这个同步神器.有时在同步两个目录时,会要求删除目标目录中比源目录多出的文件,这种情况下,就可用到rsync的--delete参数来实现这个需求了. 实例说明:在 ...
【2015 软件工程个人项目 PJ1】四则运算题目生成程序
1.开发时间预估 PSP2.1 Personal Software Process Stages Time Planning 计划 · Estimate · 估计这个任务需要多少时间 2day Dev ...
checkbox未选中不提交数据
如果checkbox为选中的话提交的数据为NULL function checkForm() { alert(($("#checkbox").get(0).checked)); i ...
Python学习笔记——Python Number(数字)
Python Number 类型转换 int(x, y) #将x转换为一个整数,y为进制数.如 int('11',2)将二进制数的11转成十进制数的整数,结果为3 long(x, y) #将x转换为一 ...
Java 线程内递归 Bug 一例
一个线程的run方法里使用递归方法,出了Bug. private boolean ispass(String creationId){ List<Map> maps =creationSe ...

requests+beautifulsoup爬取豆瓣图书

requests+beautifulsoup爬取豆瓣图书的更多相关文章

随机推荐

热门专题