Python爬虫之豆瓣-新书速递-图书解析

1- 问题描述

　　抓取豆瓣“新书速递”^[1]页面下图书信息（包括书名，作者，简介，url），将结果重定向到txt文本文件下。

2- 思路分析^[2]

　　Step1 读取HTML

　　Step2 Xpath遍历元素和属性

3- 使用工具

　　Python，lxml模块，requests模块

4- 程序实现

 # -*- coding: utf-8 -*-

 from lxml import html

 import requests

 page = requests.get('http://book.douban.com/latest?icn=index-latestbook-all')

 tree = html.fromstring(page.text)

 # 若保存了html文件，可使用下面方法

 # page = open('/home/freyr/codeHouse/python/512.htm', 'r').read()

 # tree = html.fromstring(page)

 #提取图书信息

 bookname = tree.xpath('//div[@class="detail-frame"]/h2/text()')    # 书名

 author = tree.xpath('//div[@class="detail-frame"]/p[@class="color-gray"]/text()')    # 作者

 info = tree.xpath('//div[@class="detail-frame"]/p[2]/text()')    # 简介

 url = tree.xpath('//ul[@class="cover-col-4 clearfix"]/li/a[@href]')    # URL

 booknames = map(lambda x:x.strip(), bookname)

 authors = map(lambda x:x.strip(), author)

 infos = map(lambda x:x.strip(), info)

 urls = map(lambda p: p.values()[0], url)

 with open('/home/freyr/codeHouse/python/dbBook.txt','w+') as f:

     for book, author, info, url in zip(booknames, authors, infos, urls):

         f.write('%s\n\n%s\n\n%s' % (book.encode('utf-8'), author.encode('utf-8'), info.encode('utf-8')))

         f.write('\n\n%s\n' % url )

         f.write('\n\n-----------------------------------------\n\n\n')

PS: 　　1.还没有真正入手学习网页爬虫，先简单记录下。

　　　　2.程序涉及编码问题^[3]

[1] 豆瓣-新书速递

[2] lxml and Requests

[3] lxml 中文乱码

Python爬虫之豆瓣-新书速递-图书解析的更多相关文章

Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示
最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改原文链接 http://python.jobbole.com/88325/#comment-9 ...
Python爬虫(一)——豆瓣下图书信息
爬虫目的: 随着近年互联网的发展,网络上的信息飞速数量增长.在庞大的数据面前想要获得期望的信息往往如同大海捞针.通过合理的筛选,在百万甚至数亿计的数据中找到所需信息,无疑有着非常大的意义. 在豆瓣网下 ...
Python爬虫(二)——豆瓣图书决策树构建
前文参考: https://www.cnblogs.com/LexMoon/p/douban1.html Matplotlib绘制决策树代码: # coding=utf-8 import matpl ...
python爬虫之一---------豆瓣妹子图
#-*- coding:utf-8 -*- __author__ = "carry" import urllib import urllib2 from bs4 import Be ...
Python爬虫——爬豆瓣登录页面
直接上代码 import urllib.request import http.cookiejar from lxml import etree # from spiderImg import get ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
Python爬虫_豆瓣电视剧
1 import requests 2 import json 3 import csv 4 5 6 class DoubantvSpider: 7 def __init__(self): 8 # s ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...

随机推荐

cookie和会话状态的工作原理
一:存在两种类型的cookie: 1>会话cookie (session cookie) 不设置过期时间,则表示这个cookie生命周期为浏览器会话期间,只要关闭浏览器窗口, ...
http头信息
请求头:用于告诉服务器,客户机支持的数据类型accept-charset:用于告诉服务器,客户机采用的编码accept-Encoding:用于告诉服务器,客户机支持的数据压缩格式Host:客户机通过这 ...
C++学习6
类是一种数据类型,它类似于普通的数据类型,但是又有别于普通的数据类型.类这种数据类型是一个包含成员变量和成员函数的一个集合. 类的成员变量和普通变量一样,也有数据类型和名称,占用固定长度的内存空间.但 ...
rsync 目录斜杠
源: 不带:同步目录和内容带/: 只同步内容 target目录: 待. -Warv --delete -W, --whole-file copy files whole ( ...
SQL 引用 webservice
sp_configure 'show advanced options', 1;GORECONFIGURE;GOsp_configure 'Ole Automation Procedures', 1; ...
Entity Framework6 访问MySQL
先用PM命令安装EF6,MySQL提供的EF实现新增.删除.修改是采用存储过程实现的 Install-Package EntityFramework 配置修改如下 <?xml version=& ...
转载cocos2dx的各种动作用法
以下内容来源于:http://www.cnblogs.com/linux-ios/archive/2013/04/06/3001946.html 转载时请保留以上链接. bool HelloWorld ...
【转】iOS高级向的十道面试问题
原文:http://onevcat.com/2013/04/ios-interview/ 不管对于招聘和应聘来说,面试都是很重要的一个环节,特别对于开发者来说,面试中的技术问题环节不仅是企业对应聘者技 ...
python 如何找到某一目录下的文件类型（三种方法）
#!/usr/bin/env python import glob import os os.chdir(“./”) for file in glob.glob(“*.py”): print file ...
关于codeblocks调试错误
对于出血编程者,当代码有错误时,可能大家一般都是在程序的变量操作之后输出变量的值,但是这种方法较麻烦,工作量较大,也无法很快的找出错误,因此运用编程软件调试错误就显得尤为重要,刚才写啦一个代码,运用直 ...

Python爬虫之豆瓣-新书速递-图书解析

Python爬虫之豆瓣-新书速递-图书解析的更多相关文章

随机推荐

热门专题