xpath-房价爬取

xpath

xpath两种使用方式

和bs类似，一种是调用本地资源，一种是网络资源

etree.parse(filePath)

etree.HTML('page_text')

xpath表达式

层级：/一个层级 //多个层级（注意如果从html开始取，要在前面加一个/ 写成/html，局部./li)

属性定位:类似//div[@class='zx']

索引取值: 类似p[3]（注意xpath中的索引，是从1开始的）

取文本:/text()直系 //text()取所有

取属性:类似/@src

xpath实战

功能：爬取安居客某区域所有的房价信息，最终以条形图的方式显示

import requests

from lxml import etree

import matplotlib.pyplot as plt

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"

}

all_price=[]

def work(count):

    page=1

    while page<=count:

        url=f"https://hangzhou.anjuke.com/sale/yuhang-q-hzpingyao/p{page}/#filtersort"

        res=requests.get(url=url,headers=headers).text

        tree=etree.HTML(res)

        all_house=tree.xpath("//div[@class='sale-left']/ul/li")

        for i in all_house:

            #截取有效的价格

            price=i.xpath("./div[@class='pro-price']/span[2]/text()")[0][:-4]

            price=int(price)

            #价格添加到list中

            all_price.append(price)

            print(price)

        page+=1

    print(all_price)

def show():

    #画图

    plt.hist(all_price, bins=50)

    plt.show()

    print(len(all_price))

if __name__ == '__main__':

    #爬取25页

    work(25)

    show()

如图

但是安居客有部分数据感觉并不可靠

xpath-房价爬取的更多相关文章

requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息，并对比时间效率（附源代码）
爬虫思路分析: 1. 观察小猪短租(北京)的网页首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...
xpath+多进程爬取网易云音乐热歌榜。
用到的工具,外链转换工具网易云网站直接打开源代码里面并没有对应的歌曲信息,需要对url做处理, 查看网站源代码路径:发现把里面的#号去掉会显示所有内容, 右键打开的源代码路径:view-source ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python+xpath+requests爬取维基百科历史上的今天
import requests import urllib.parse import datetime from lxml import etree fhout = open("result ...

随机推荐

Flask：项目的准备工作
1.创建虚拟环境 (1)打开Windows命令窗口,输入命令(先确保电脑上安装了Anaconda): conda create -n FlaskPath python=3.5.2 FlaskPath为 ...
Java基础系列二：Java泛型
该系列博文会告诉你如何从入门到进阶,一步步地学习Java基础知识,并上手进行实战,接着了解每个Java知识点背后的实现原理,更完整地了解整个Java技术体系,形成自己的知识框架. 一.泛型概述 1.定 ...
泛微e-cology OA系统远程代码执行漏洞及其复现
泛微e-cology OA系统远程代码执行漏洞及其复现 2019年9月19日,泛微e-cology OA系统自带BeanShell组件被爆出存在远程代码执行漏洞.攻击者通过调用BeanShell组件中 ...
C语言作业007
问题答案这个作业属于那个课程 C语言程序设计1 这个作业要求在哪里我在这个课程的目的是学习并掌握C语言这个作业在那个具体方面帮助我实现目标参考文献四作业格式 1PTA作业贴图 1.1题 ...
AutoCad 二次开发 .net 之相同块的自动编号
主要步骤: 一.获取一个块的id: 其中oId就是了. 二.通过次oId获取块引用blkRef: 三.通过它获取所有相同的块引用的id集合: 四.通过步骤三的集合得到所有的块引用得到集合listBr: ...
STL库学习笔记（一）——什么是STL？
小明是一个很牛逼的程序员,在国际标准化组织工作. 他现在正在设计新一代的C++标准,标准中有一个待实现的函数:findMax(),这个函数要求使用者输入任何类型的数据,他都能找到最大的一个. 于是他想 ...
MyBatis --- 映射关系【一对一、一对多、多对多】，懒加载机制
映射(多.一)对一的关联关系 1)若只想得到关联对象的id属性,不用关联数据表 2)若希望得到关联对象的其他属性,要关联其数据表举例: 员工与部门的映射关系为:多对一 1.创建表员工表确定其外键 ...
201871010114-李岩松《面向对象程序设计（java）》第十二周学习总结
项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p ...
解决WordPress不能发邮件，WordPress 无法发送邮件
解决WordPress不能发邮件,WordPress 无法发送邮件,不得不说WordPress这个问题真的很烦人,研究了一下午发现不能发邮件的问题无非以下几种! 1.系统本身问题,这个直接装个插件即可 ...
C# Web分页功能实现
无论是网站还是APP分页功能都是必不可少的.为什么使用分页呢? 1,加载速度快,不会占用服务器太多资源,减少服务器压力. 2,减少数据库压力. 3,提升用户体验. 那么我们常用的分页方法有两种. 1, ...