Python爬虫之豆瓣-新书速递-图书解析

1- 问题描述

　　抓取豆瓣“新书速递”^[1]页面下图书信息（包括书名，作者，简介，url），将结果重定向到txt文本文件下。

2- 思路分析^[2]

　　Step1 读取HTML

　　Step2 Xpath遍历元素和属性

3- 使用工具

　　Python，lxml模块，requests模块

4- 程序实现

 # -*- coding: utf-8 -*-

 from lxml import html

 import requests

 page = requests.get('http://book.douban.com/latest?icn=index-latestbook-all')

 tree = html.fromstring(page.text)

 # 若保存了html文件，可使用下面方法

 # page = open('/home/freyr/codeHouse/python/512.htm', 'r').read()

 # tree = html.fromstring(page)

 #提取图书信息

 bookname = tree.xpath('//div[@class="detail-frame"]/h2/text()')    # 书名

 author = tree.xpath('//div[@class="detail-frame"]/p[@class="color-gray"]/text()')    # 作者

 info = tree.xpath('//div[@class="detail-frame"]/p[2]/text()')    # 简介

 url = tree.xpath('//ul[@class="cover-col-4 clearfix"]/li/a[@href]')    # URL

 booknames = map(lambda x:x.strip(), bookname)

 authors = map(lambda x:x.strip(), author)

 infos = map(lambda x:x.strip(), info)

 urls = map(lambda p: p.values()[0], url)

 with open('/home/freyr/codeHouse/python/dbBook.txt','w+') as f:

     for book, author, info, url in zip(booknames, authors, infos, urls):

         f.write('%s\n\n%s\n\n%s' % (book.encode('utf-8'), author.encode('utf-8'), info.encode('utf-8')))

         f.write('\n\n%s\n' % url )

         f.write('\n\n-----------------------------------------\n\n\n')

PS: 　　1.还没有真正入手学习网页爬虫，先简单记录下。

　　　　2.程序涉及编码问题^[3]

[1] 豆瓣-新书速递

[2] lxml and Requests

[3] lxml 中文乱码

Python爬虫之豆瓣-新书速递-图书解析的更多相关文章

Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示
最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改原文链接 http://python.jobbole.com/88325/#comment-9 ...
Python爬虫(一)——豆瓣下图书信息
爬虫目的: 随着近年互联网的发展,网络上的信息飞速数量增长.在庞大的数据面前想要获得期望的信息往往如同大海捞针.通过合理的筛选,在百万甚至数亿计的数据中找到所需信息,无疑有着非常大的意义. 在豆瓣网下 ...
Python爬虫(二)——豆瓣图书决策树构建
前文参考: https://www.cnblogs.com/LexMoon/p/douban1.html Matplotlib绘制决策树代码: # coding=utf-8 import matpl ...
python爬虫之一---------豆瓣妹子图
#-*- coding:utf-8 -*- __author__ = "carry" import urllib import urllib2 from bs4 import Be ...
Python爬虫——爬豆瓣登录页面
直接上代码 import urllib.request import http.cookiejar from lxml import etree # from spiderImg import get ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
Python爬虫_豆瓣电视剧
1 import requests 2 import json 3 import csv 4 5 6 class DoubantvSpider: 7 def __init__(self): 8 # s ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...

随机推荐

myBatis获取批量插入数据的主键id
在myBatis中获取刚刚插入的数据的主键id是比较容易的 , 一般来说下面的一句话就可以搞定了 , 网上也有很多相关资料去查. @Options(useGeneratedKeys = true, k ...
jmeter测试某个QPS下的响应时间-设置QPS限制
本次性能测试的需求中提到测试的目的是“了解博客的首页在负载达到20 QPS时的响应时间”,因此需要控制向博客首页发送请求的负载为20QPS. 一种可行的方法是逐步调整测试计划中的线程计算的数量以及为取 ...
Good Sentences
Wine in, truth out One is never too old to learn What is done can not be undone Time tries all thing ...
data-icon=""图片还可以是自定义的？
自定义的图片怎么写啊? data-icon = "地址" 不对啊????? 不是写地址,而是设置css 比如 data-icon="mm" 那么在css中肯定有 ...
Export excel file using web API
使用MVC controller输出excel的例子,自不待言,例子满天飞. 由于本项目使用的是Asp.net MVC API,因此在本项目使用API,实现了文件下载功能.代码的原理很简单,基本上是老 ...
gomobile 真机 log 打出的日志跟踪
go mobile 开发的应用,真机调试时,我们期望看到log包打出的日志, 这时候就需要借用 Android Device Monitor 了. 我们的 go 代码中用最简单的 log.Printl ...
Linux命令 find和mv的结合使用：查找文件，移动到某个目录
显示前十个文件 [root@localhost smgpbi]# ls -1 | sort -u | head -10 1.首先查看文件个数,进入所在的文件 # find . -name " ...
[kuangbin带你飞]专题一简单搜索
ID Origin Title 454 / 1008 Problem A POJ 1321 棋盘问题 328 / 854 Problem B POJ 2251 Dungeon Ma ...
PHP中$_FILES的使用及注意事项
$_FILES: 经由 HTTP POST 文件上传而提交至脚本的变量.类似于旧数组 $HTTP_POST_FILES 数组(依然有效,但反对使用).$_FILES数组内容如下: $_FILES['m ...
MSSQL中的随机函数
随机函数:rand()在查询分析器中执行:select rand(),可以看到结果会是类似于这样的随机小数:0.36361513486289558,像这样的小数在实际应用中用得不多,一般要取随机数都会 ...

Python爬虫之豆瓣-新书速递-图书解析

Python爬虫之豆瓣-新书速递-图书解析的更多相关文章

随机推荐

热门专题