python爬虫---链家网二手房价采集
代码:
import requests
from lxml import etree
import pandas as pd
from pyecharts.charts import Bar
from pyecharts.charts import WordCloud
from pyecharts import options as opts
import os # resp = requests.get("https://sjz.lianjia.com/ershoufang/").text ---->str
from pyecharts.globals import ThemeType resp = requests.get("https://sjz.lianjia.com/ershoufang/").content.decode() # ---->bytes 字节
html = etree.HTML(resp)
div_list = html.xpath(".//div[@class='info clear']") # 设置一个空列表保存小区和小区房价
ershoufang = []
for div in div_list:
# 小区名称
name = div.xpath(".//div[@class='positionInfo']/a/text()")[0]
# 小区单价
price = div.xpath(".//div[@class='unitPrice']/span/text()")[0].replace("元/平", "").replace(",", "")
ershoufang.append([name, float(price)])
print(ershoufang)
title = ['小区名称', '元/平']
table = pd.DataFrame(ershoufang, columns=title)
bar = Bar(init_opts=opts.InitOpts(width="100%",theme=ThemeType.LIGHT))
bar.add_xaxis(list(table["小区名称"]))
bar.add_yaxis("石家庄二手房价信息",list(table["元/平"]))
bar.set_series_opts(label_opts=opts.LabelOpts(is_show=True))
bar.set_global_opts(title_opts=opts.TitleOpts(title="石家庄二手房价信息"))
bar.render("ershoufang.html")
os.system("ershoufang.html")
python爬虫---链家网二手房价采集的更多相关文章
- python爬虫-链家租房信息获取
		
#导入需要用到的模块 import requests import pymysql import time from bs4 import BeautifulSoup import tkinter a ...
 - python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
		
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
 - Python的scrapy之爬取链家网房价信息并保存到本地
		
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面  爬虫结构:  其中封装了一个数据库处理模 ...
 - python链家网高并发异步爬虫and异步存入数据
		
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
 - Pyspider爬虫简单框架——链家网
		
pyspider 目录 pyspider简单介绍 pyspider的使用 实战 pyspider简单介绍 一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...
 - 使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)
		
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
 - 【收藏】收集的各种Python爬虫、暗网爬虫、豆瓣爬虫、抖音爬虫 Github1万+星
		
收集的各种Python爬虫.暗网爬虫.豆瓣爬虫 Github 1万+星 磁力搜索网站2020/01/07更新 https://www.cnblogs.com/cilisousuo/p/1209954 ...
 - TOP100summit:【分享实录】链家网大数据平台体系构建历程
		
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数 ...
 - 分享系列--面试JAVA架构师--链家网
		
本月7日去了一趟链家网面试,虽然没有面上,但仍有不少收获,在此做个简单的分享,当然了主要是分享给自己,让大家见笑了.因为这次是第一次面试JAVA网站架构师相关的职位,还是有些心虚的,毕竟之前大部分时间 ...
 
随机推荐
- 基于消息队列(RabbitMQ)实现延迟任务
			
一.序言 延迟任务应用广泛,延迟任务典型应用场景有订单超时自动取消:支付回调重试.其中订单超时取消具有幂等性属性,无需考虑重复消费问题:支付回调重试需要考虑重复消费问题. 延迟任务具有如下特点:在未来 ...
 - 零基础,三个月内,找到??? java后端开发工作
			
一.分析你的问题 出于尊重,先分析一下你的原问题吧,从您的问题,我提取到关键信息:"零基础"."三个月内"."找到工作",最后一个关键词&q ...
 - 【FAQ】接入HMS Core推送服务过程中一些常见问题总结
			
HMS Core 推送服务(Push Kit)是华为提供的消息推送平台,建立了从云端到终端的消息推送通道.开发者通过集成推送服务,可以向客户端应用实时推送消息,构筑良好的用户关系,提升用户的感知度和活 ...
 - glibc2.29以上 IO_FILE 及 house of pig
			
摆烂很长时间之后,终于下定决心来看点新的东西.正好 winmt 师傅前不久把他 pig 修好的附件发给我了,我就借此来学习一下新版本的 IO_FILE 及 house of pig. 新版本的 IO_ ...
 - vm虚拟机安装CentOS8.2服务器系统
			
前言 开发服务器应用,需要使用到CentOS8.2,安装到虚拟机上方便快捷. 提前准备 Vmware 16虚拟机软件 下载VM16版本及以上的vmware虚拟机版本,否则没有CentOs8选 ...
 - 2022最新IntellJ IDEA诺依开发部署文档
			
前景提示 若伊是国内一款很好的开源项目,非常的便于学习,而且它是开源免费的,但是,它的开发部署文档实在是没法按照那个文档,快速高效的在本地搭建一套可以运行的项目,对于学习开发和使用实在是一大难题,为此 ...
 - Vue3中setup语法糖学习
			
目录 1,前言 2,基本语法 2,响应式 3,组件使用 3.1,动态组件 3.2,递归组件 4,自定义指令 5,props 5.1,TypeScript支持 6,emit 6.1,TypeScript ...
 - [] == ![] 返回 true
			
对于==来说,如果数据类型不同,就会进行隐式类型转换. 首先判断是否在对比 null 和 undefined,是的话就会返回 true: 判断其中一方是否为 string ,在与 number进行比较 ...
 - python中文及符号检测工具带GUI界面
			
import tkinter import webbrowser import re #本程序是一个中文字符和中文检测工具 #中文字符自己添加,我只添加了一点 #输入字符串,点击检查文本即可判断有没有 ...
 - 怎么让一个div消失在视野里
			
怎么让一个div消失在视野里 视野内隐藏 1.设置高度宽度为0 div { height: 0; width: 0; } 2.设置透明度为0 div { opacity: 0; } 3.设置displ ...