使用python抓取有路网图书信息（原创）

　　以前挺喜欢去有路网买二手书的，但是有路网有个缺陷，就是放在图书列表中的书很多都没货了，尤其是一些热门的方向，比如android，在列表中的书大多都没有货了，你必须一个一个点进入查看详细信息才能得知图书是否有货。因此，很久之前用python写了一个抓取的脚本，用来按书名搜索图书以及库存信息。现在拿出来与大家分享一下，因为是最开始学python的时候写的，有些地方写的不是特别好。比如那个时候对于正则表达式不是特别懂，所以用的不是特别好。其次，采用urllib库发送http请求的，效率太低。建议使用tornado库或者采用node.js（见 http://www.cnblogs.com/dyf6372/p/3536821.html）。哦，还有一个问题，网页编码处理的不好，可能部分网页会乱码。废话少说，直接上代码：

# coding: utf-8

import urllib
import re
import sys
reload(sys)
sys.setdefaultencoding('utf8')

class ReadFromWeb:
　　def setKeyWord(self, keyword):
　　　　self.url = 'http://www.youlu.net/search/result/?isbn=&publisherName=&author=&bookName=' + urllib.quote(keyword.decode('utf-8').encode('gb18030'))

　　def getHtml(self):
　　　　try:
　　　　　　self.html = urllib.urlopen(self.url).read().decode('gb18030').encode('utf-8')
　　　　except UnicodeDecodeError:
　　　　　　self.html = urllib.urlopen(self.url).read()
　　　　finally:
　　　　　　return self.html

　　def list(self):
　　　　self.id_group = re.findall('<a href=\"/[0-9]*\" target=\"_blank\">.*</a>', self.html)
　　　　for in_id in self.id_group:
　　　　　　try:
　　　　　　　　url = re.findall('[0-9]+',in_id)[0].encode('utf-8')
　　　　　　　　detail = re.findall('>.*<',in_id)[0].encode('utf-8')
　　　　　　except UnicodeDecodeError:
　　　　　　　　url = re.findall('[0-9]+',in_id)[0]
　　　　　　　　detail = re.findall('>.*<',in_id)[0]

　　　　　　if detail.find('img')<0 and detail.find('我要购买')<0:
　　　　　　　　if self.getDetail(url) > 0:
　　　　　　　　　　print detail[1:-1]
　　　　　　　　　　print '有货:'+str(self.getDetail(url))+":"+"http://www.youlu.net/"+url
　　　　　　　　else:
　　　　　　　　　　print detail[1:-1]
　　　　　　　　　　print '无货'+":"+"http://www.youlu.net/"+url

　　def getDetail(self, url):
　　　　target = "http://www.youlu.net/" + str(url);
　　　　try:
　　　　　　returnStr = urllib.urlopen(target).read().decode('gb18030').encode('utf-8')
　　　　except UnicodeDecodeError:
　　　　　　return 0
　　　　startStr = re.findall('startRequestBookBuyLink\(.*\)',returnStr)[0]
　　　　realNumber = int(startStr.split(',')[3].strip()[1:-1])
　　　　return realNumber

　　def setSearchNextPage(self):
　　　　self.nextPage = re.findall('(?<=\"下一页\" href=\").*(?=\">下一页</a>)', self.html)
　　　　if len(self.nextPage) > 0:
　　　　　　self.url = self.nextPage[0]
　　　　　　return True
　　　　return False

　　def setAndSearch(self,keyword):
　　　　self.setKeyWord(keyword)
　　　　self.getHtml()
　　　　self.list()
　　　　while self.setSearchNextPage():
　　　　　　self.getHtml()
　　　　　　self.list()

if __name__ == "__main__":
　　keyword = raw_input("Type in search keyword:")
　　readFromWeb = ReadFromWeb()
　　readFromWeb.setAndSearch(keyword)

下面是使用结果示例：

————————————————————————————

Type in search keyword:java
JAVA 2实用教程实验指导与习题解答-(第三版)
有货:190:http://www.youlu.net/2597032
Java面向对象程序设计
有货:88:http://www.youlu.net/2504849
Java EE 5开发基础与实践
有货:70:http://www.youlu.net/500752
Java 2实用教程 (第三版)
有货:68:http://www.youlu.net/5310
Java课程设计(第二版)
有货:61:http://www.youlu.net/500751
JAVA 2实用教程实验指导与习题解答-(第三版)
有货:60:http://www.youlu.net/2596529
JAVA 2实用教程(第三版)-实验指导与习题解答
有货:48:http://www.youlu.net/10750
Java 语言与面向对象程序设计(第2版)
有货:47:http://www.youlu.net/356506
Java程序设计教程(第2版)
有货:42:http://www.youlu.net/1008395
Java XML应用程序设计
有货:39:http://www.youlu.net/338105
Java程序设计习题集(含参考答案)
有货:37:http://www.youlu.net/1206253
Java大学实用教程学习指导(第2版)
有货:37:http://www.youlu.net/461648

使用python抓取有路网图书信息（原创）的更多相关文章

使用node.js抓取有路网图书信息（原创）
之前写过使用python抓取有路网图书信息,见http://www.cnblogs.com/dyf6372/p/3529703.html. 最近想学习一下Node.js,所以想试试手,比较一下http ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...
python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...
python抓取链家房源信息(三)
之前写过一个链家网北京二手房的数据抓取,然后本来今天想着要把所有的东西弄完,但是临时有事出去了一趟,耽搁了一下,然后现在是想着把北京的二手房的信息都进行抓取,并且存储在mongodb中, 首先是通过' ...
python抓取链家房源信息
闲着没事就抓取了下链家网的房源信息,抓取的是北京二手房的信息情况,然后通过网址进行分析,有100页,并且每页的url都是类似的 url = 'https://bj.lianjia.com/ershou ...
我的第一个爬虫程序：利用Python抓取网页上的信息
题外话我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好 ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...

随机推荐

Struts2 中的数据传输
1. 如何将参数从界面传递到Action? 你可以把Struts2中的Action看做是Struts1的Action+ActionForm,即只需在Action中定义相关的属性(要有gette ...
学习笔记之Shell & QSHELL
shell(计算机壳层)_百度百科 http://baike.baidu.com/subview/849/15831672.htm Shell (computing) - Wikipedia, the ...
android中3种实现动画效果的方法
3中实现动画的方法:ImageView imgView = (ImageView)findViewById(R.id.imageView_logo); //第一种动画方法,使用AlphaAnimati ...
ajax的一部分知识
jquery中的ajax方法参数总是记不住,这里记录一下. 1.url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. 2.type: 要求为String类型的参数,请求方式(p ...
JAVA_Reflection1
package com.qf.reflection1; import java.lang.reflect.Constructor; import java.lang.reflect.Field; im ...
nginx性能配置参数说明：
nginx的配置:main配置段说明一.正常运行的必备配置: 1.user username [groupname]; 指定运行worker进程的用户和组 2.pid /path/to/pidfile ...
关于Eclispe插件开发起步(一)
Eclipse中三个最吸引人的地方是: 第一是它创新性的图形API,就是SWT/JFace. 第二是它的插件机制. 第三个是利用它的插件机制开发众多功能强大的插件. 插件成就了Eclipse的今天.E ...
CentOS 7下的软件安装方法及策略
一些废话 2010年开始正式接触Linux,入门发行版是Ubuntu 10.10,后来过渡到Ubunu 11.04,这其中也尝试了很多其他主流的发行版.进入实验室之后,开始用CentOS 5,然后是C ...
用CentOS 7打造合适的科研环境
http://seisman.info/linux-environment-for-seismology-research.html 这篇博文记录了我用CentOS 7搭建地震学科研环境的过程,供我个 ...
NC参照查那个表
select * from bd_refinfo where name like '%人员工作记录全职树(行政树)%';select * from bd_refinfo where name like ...

使用python抓取有路网图书信息（原创）

使用python抓取有路网图书信息（原创）的更多相关文章

随机推荐

热门专题