Requests+Xpath 爬取租房网站信息

【抓取】:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html

【分页】:参考前文 爬虫系列2:https://www.cnblogs.com/yizhiamumu/p/10267721.html

【保存】:参考前文 爬虫系列3:https://www.cnblogs.com/yizhiamumu/p/10270926.html

【动态】:参考前文 爬虫系列4:https://www.cnblogs.com/yizhiamumu/p/10272977.html

一:F12,检查页面信息并复制

# http://cd.xiaozhu.com/
# 标题 from lxml import etree
import requests
import time #获取页面text, 并解析data url = 'http://cd.xiaozhu.com/'
data = requests.get(url).text
s=etree.HTML(data) # //*[@id="page_list"]/ul/li[1]/div[2]/div[2]/a/span
# //*[@id="page_list"]/ul/li[2]/div[2]/div[2]/a/span
# //*[@id="page_list"]/ul/li[3]/div[2]/div[2]/a/span # li div titles = s.xpath('//*[@id="page_list"]/ul/li/div[2]/div/a/span/text()') time.sleep(2) for title in titles:
print(title)

打印结果:

温馨浪漫情侣度假—民谣里贝壳帐篷
含早/成都东站2号地铁-肯派之家13-101
芗吟民宿-《竹坞》成都太古里市井中的隐世桃源
37楼夜景超美 樓頂空中花園俯瞰成都
【晔艳】东客站-巨屏投影地铁直达太古里m
春熙路/太古里/英伦风两居/地铁直达宽窄巷子
【几末】空间几何/地铁100米/一居/桐梓林
春熙路地铁口&宽窄巷&莫兰迪复古&两居跃层
新房特惠川师东站三圣乡34号爱情公寓轻奢浪漫
【白鹿】春熙路武侯祠/九眼桥/宽窄巷子套一
【初醒】成都市中心盐市口春熙路太古里IFS
【花韵】舒适大床房/春熙路宽窄巷子文殊院地铁
【一厘一景】武侯祠锦里&近地铁口&近天府广场
漫时光•宽窄巷子•.春熙路.太古里
【洛丽塔】美拍网红/泡泡池网红/太古里/春熙
画途美宿|S4火车东站巨幕投影凯德广场地铁旁
【馥绿轻奢】春熙路/2号线/牛市口/高端物业
〖美居〗免费接送机 复式二房 近机场 商圈
春熙路太古里宽窄巷子北欧.杜夫公寓913
柒❤️田螺姑娘❤️北欧套一近八宝街/宽窄巷子
宽窄巷子/复古小木屋大一居
新上线优惠❣️【夕替·伊人】少女心|超大投影
【甜梦】宽窄巷子 锦里 地铁 吃货集中营
◣简▪奢◥∽地铁4号线旁原木风度假、商旅套房

二:分析规律,抓取多个信息源

# http://cd.xiaozhu.com/
# 标题 + 循环 from lxml import etree
import requests
import time #获取页面text, 并解析data url = 'http://cd.xiaozhu.com/'
data = requests.get(url).text
s=etree.HTML(data) # 标题
# //*[@id="page_list"]/ul/li[1]/div[2]/div[2]/a/span
# //*[@id="page_list"]/ul/li[2]/div[2]/div[2]/a/span
# //*[@id="page_list"]/ul/li[3]/div[2]/div[2]/a/span # 价格 # //*[@id="page_list"]/ul/li[1]/div[2]/div[1]/span/i
# //*[@id="page_list"]/ul/li[2]/div[2]/div[1]/span/i # //*[@id="page_list"]/ul/li[3]/div[2]/div[1]/span
# //*[@id="page_list"]/ul/li[3]/div[2]/div[1]/span/i # 介绍 //*[@id="page_list"]/ul/li[1]/div[2]/div[2]/em
# //*[@id="page_list"]/ul/li[2]/div[2]/div[2]/em # 图片 增加 @lazy_src
# //*[@id="page_list"]/ul/li[1]/a/img
# //*[@id="page_list"]/ul/li[2]/a/img titles = s.xpath('//*[@id="page_list"]/ul/li')
time.sleep(2) for div in titles:
title = div.xpath("./div[2]/div/a/span/text()")[0]
price = div.xpath("./div/div[1]/span[1]/i/text()")[0]
scribe = div.xpath("./div[2]/div/em/text()")[0].strip()
pic = div.xpath("./a/img/@lazy_src")[0] print("{} {} {} {}".format(title,price,scribe,pic))

打印结果:

温馨浪漫情侣度假—民谣里贝壳帐篷 1580 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/51,0,26,19200,1800,1199,8068737f.jpg
含早/成都东站2号地铁-肯派之家13-101 298 独立单间/1张床/宜住2人 https://image.xiaozhustatic1.com/12/12,0,6,4561,1800,1202,9e891d09.jpg
芗吟民宿-《竹坞》成都太古里市井中的隐世桃源 777 整套出租/4室2厅/4张床/宜住8人 https://image.xiaozhustatic1.com/12/51,0,96,19302,1800,1202,f6740069.jpg
37楼夜景超美 樓頂空中花園俯瞰成都 258 整套出租/2室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/15,0,16,29629,1800,1200,70a3953b.jpg
【晔艳】东客站-巨屏投影地铁直达太古里m 200 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/51,0,28,18056,1800,1201,404b7ef3.jpg
春熙路/太古里/英伦风两居/地铁直达宽窄巷子 288 整套出租/2室1厅/2张床/宜住4人 https://image.xiaozhustatic1.com/12/16,0,77,34616,1800,1200,0ebc6521.jpg
【几末】空间几何/地铁100米/一居/桐梓林 258 整套出租/1室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/51,0,9,23389,1800,1202,5754c402.jpg
春熙路地铁口&宽窄巷&莫兰迪复古&两居跃层 338 整套出租/2室1厅/2张床/宜住4人 https://image.xiaozhustatic1.com/12/51,0,60,843,1800,1200,168035ac.jpg
新房特惠川师东站三圣乡34号爱情公寓轻奢浪漫 208 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/15,0,27,12717,1800,1200,f21ab62c.jpg
【白鹿】春熙路武侯祠/九眼桥/宽窄巷子套一 159 整套出租/1室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/12,0,86,14671,1498,1000,c5c55bb2.jpg
【初醒】成都市中心盐市口春熙路太古里IFS 198 整套出租/1室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/14,0,20,24457,1800,1202,485c365f.jpg
【花韵】舒适大床房/春熙路宽窄巷子文殊院地铁 188 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/18,0,97,13909,1800,1200,31083987.jpg
【一厘一景】武侯祠锦里&近地铁口&近天府广场 188 整套出租/1室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/51,0,13,1739,1800,1200,87f65e79.jpg
漫时光•宽窄巷子•.春熙路.太古里 188 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/15,0,52,2877,1800,1200,8a7ff4b7.jpg
【洛丽塔】美拍网红/泡泡池网红/太古里/春熙 208 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/17,0,10,10978,1800,1200,7b571573.jpg
画途美宿|S4火车东站巨幕投影凯德广场地铁旁 198 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/15,0,24,5683,1800,1200,c4787970.jpg
【馥绿轻奢】春熙路/2号线/牛市口/高端物业 198 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/51,0,60,8059,1800,1200,e971ed29.jpg
〖美居〗免费接送机 复式二房 近机场 商圈 228 整套出租/2室1厅/2张床/宜住4人 https://image.xiaozhustatic1.com/12/14,0,31,9446,1800,1200,93a5e7d1.jpg
春熙路太古里宽窄巷子北欧.杜夫公寓913 168 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/16,0,44,41422,1800,1202,3876b7a0.jpg
◣简▪奢◥∽地铁4号线旁原木风度假、商旅套房 269 整套出租/2室1厅/3张床铺/宜住6人 https://image.xiaozhustatic1.com/12/14,0,86,24588,1800,1200,5adb64d9.jpg
宽窄巷子/复古小木屋大一居 228 整套出租/1室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/51,0,19,15728,1800,1200,98637263.jpg
柒❤️田螺姑娘❤️北欧套一近八宝街/宽窄巷子 198 整套出租/1室1厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/14,0,92,21587,1800,1202,c2122770.jpg
【甜梦】宽窄巷子 锦里 地铁 吃货集中营 198 整套出租/1室1厅/2张床铺/宜住4人 https://image.xiaozhustatic1.com/12/12,0,72,18081,1800,1200,28f9bcf3.jpg
新上线优惠❣️【夕替·伊人】少女心|超大投影 218 整套出租/1室0厅/1张床/宜住2人 https://image.xiaozhustatic1.com/12/15,0,95,1036,1800,1200,38232cbf.jpg

三:分页循环抓取

# http://cd.xiaozhu.com/
# 主题 + 分页 from lxml import etree
import requests
import time #获取页面text, 并解析data
# 分页
# http://cd.xiaozhu.com/search-duanzufang-p2-0/
# http://cd.xiaozhu.com/search-duanzufang-p3-0/ for a in range(1,10):
url = 'http://cd.xiaozhu.com/search-duanzufang-p{}-0/'.format(a)
data = requests.get(url).text
s=etree.HTML(data) titles = s.xpath('//*[@id="page_list"]/ul/li')
time.sleep(5) for div in titles:
title = div.xpath("./div[2]/div/a/span/text()")[0]
price = div.xpath("./div/div[1]/span[1]/i/text()")[0]
scribe = div.xpath("./div[2]/div/em/text()")[0].strip()
pic = div.xpath("./a/img/@lazy_src")[0] print("{} {} {} {}".format(title,price,scribe,pic))

打印结果:略 By:【一只阿木木】

爬虫系列2:Requests+Xpath 爬取租房网站信息的更多相关文章

  1. 爬虫系列3:Requests+Xpath 爬取租房网站信息并保存本地

    数据保存本地 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 爬虫系列2:https://www ...

  2. Python爬虫学习之使用beautifulsoup爬取招聘网站信息

    菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...

  3. 爬虫系列1:Requests+Xpath 爬取豆瓣电影TOP

    爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...

  4. 爬虫系列4:Requests+Xpath 爬取动态数据

    爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

  5. 爬虫系列(十三) 用selenium爬取京东商品

    这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析 原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...

  6. python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

    目录 前言 XPath的使用方法 XPath爬取数据 后言 @(目录) 前言 本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...

  7. Python爬虫学习三------requests+BeautifulSoup爬取简单网页

    第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...

  8. 爬虫基本库request使用—爬取猫眼电影信息

    使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标 猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作 安装request库. 3.代码实现 impor ...

  9. python之简单爬取一个网站信息

    requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下 使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...

随机推荐

  1. shell截取指定字符串之间的内容

    #!/bin/bash#截取字符串 #path=ss/usr/share/src/root/home/admin path=ss/usr/share/src/root/home/admin/src/a ...

  2. C#action和func的使用

    以前我都是通过定义一个delegate来写委托的,但是最近看一些外国人写的源码都是用action和func方式来写,当时感觉对这很陌生所以看起源码也觉得陌生,所以我就花费时间来学习下这两种方式,然后发 ...

  3. jQuery-4.动画篇---上卷下拉效果

    jQuery中下拉动画slideDown 对于隐藏的元素,在将其显示出来的过程中,可以对其进行一些变化的动画效果.之前学过了show方法,show方法在显示的过程中也可以有动画,但是.show()方法 ...

  4. videojs播放直播源rtmp时画面在左上角解决方案

    问题描述:https://stackoverflow.com/questions/30383135/videojs-live-rtmp-stream-player-and-video-size-iss ...

  5. JS实现日期选择

    简单的JS实现日期选择,对于PHP来说就像是遍历一样,不过我个人觉得JS这个很有趣,随便记录一下 开始: <select name="gh_date"><opti ...

  6. Vue原理--双向数据绑定

    MVVM MVVM 是Model-View-ViewModel 的缩写,它是一种基于前端开发的架构模式,其核心是提供对View 和 ViewModel 的双向数据绑定,这使得ViewModel 的状态 ...

  7. zoj 2524 并查集裸

    Description There are so many different religions in the world today that it is difficult to keep tr ...

  8. myEclipse出现cannot paste the clipboard contents into the selected elements报错

    导入jar包报错,cannot paste the clipboard contents into the selected elements,查阅资料让重新打开工程,但依然报错. 最后在本地路径复制 ...

  9. STL标准模板类

    STL,中文名标准模板库,是一套C++的标准模板类(是类!),包含一些模板类和函数,提供常用的算法和数据结构. STL分为:迭代器,容器,适配器,算法以及函数对象. --迭代器是一种检查容器内元素并遍 ...

  10. java的几种模式以及如何实现的

    创建Bean实例的方式: 1) 通过构造器(有参或无参) 方式: <bean id="" class=""/> 2) 通过静态工厂方法 方式: &l ...