Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。
网址为:https://beijing.anjuke.com/sale/
BeautifulSoup官网:https://www.crummy.com/software/BeautifulSoup/
直接上代码:
import requests
from bs4 import BeautifulSoup headers={'user-agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
link='https://beijing.anjuke.com/sale/'
def getHouseInfo(link):
r=requests.get(link,headers=headers) soup=BeautifulSoup(r.text,'lxml')
house_list=soup.find_all('li',class_='list-item') for house in house_list:
name=house.find('div',class_='house-title').a.text.strip()
price=house.find('span',class_='price-det').text.strip()
price_area=house.find('span',class_='unit-price').text.strip()#单位面积
no_room=house.find('div',class_='details-item').span.text#几室几厅
area=house.find('div',class_='details-item').contents[3].text
floor=house.find('div',class_='details-item').contents[5].text
year=house.find('div',class_='details-item').contents[7].text broker=house.find('span',class_='brokername').text
broker=broker[1:] address=house.find('span',class_='comm-address').text.strip()
address=address.replace('\xa0\xa0\n',' ') tag_list=house.find_all('span',class_='item-tags')
tags=[i.text for i in tag_list] print(name,price,price_area,no_room,area,floor,year,broker,address,tags)
for i in range(1,11):
link=link+'/p'+str(i)
print('page'+str(i))
getHouseInfo(link)
相关代码解析请参照前几篇博客以及BeautifulSoup官网。
输出结果(由于输出内容过多,此处仅截取一部分):
page1
宏星地产租售部 新出!1700南花园, 赠500万红木家具 3800万 106442元/m² 5室2厅 357m² 共3层 2008年建造 夏秋冬 碧水庄园 昌平-沙河-定泗路 ['独栋别墅', '业主唯一住房', '业主住房']
没有不喜欢的!《金泉全南带露台的房子?+观水系花园?》少有啊 990万 107608元/m² 2室2厅 92m² 高层(共30层) 2009年建造 位春雷 金泉家园 朝阳-亚运村-大屯路 ['房型正', '近地铁', '全南户型']
满五年低首付,车位充足,双卧南,西北旺,软件园二期,采光好 875万 66287元/m² 3室2厅 132m² 低层(共9层) 2008年建造 孙国鹏 山语间(保利西山林语) 海淀-温泉镇-黑龙潭路 ['配套成熟', '品质小区 ', '客厅朝南']
金色21 罗兰大道经典户型,每年出房量有限 勿错过 730万 61864元/m² 3室1厅 118m² 高层(共15层) 2009年建造 徐功 万象新天家园 朝阳-常营-常营北路10号 ['近地铁', '配套成熟', '景观房']
远洋LAVIE:法式大独栋,三面临湖面,花园3500平米 15800万 92941元/m² 6室3厅 1700m² 地下(共3层) 2013年建造 张云锋 远洋LAVIE 朝阳-来广营-康营东路,近机场高速 ['配套成熟', '品质小区 ', '景观房']
白菜价!就是为了卖房!《卧室朝南正对花园+送储藏间》太棒了! 1250万 77639元/m² 3室2厅 161m² 低层(共28层) 2009年建造 位春雷 金泉家园 朝阳-亚运村-大屯路 ['配套成熟', '景观房', '拎包入住']
通州地铁六号线物资学院路+4.5米洋房公寓+大产权独立房本 296万 37000元/m² 2室1厅 80m² 高层(共7层) 2016年建造 孙羽 朝北8080 通州-北关-滨榆东路 ['近地铁', '配套成熟', '品质小区 ']
首 付 100万 正规一居室 出行方便 15万装修 国风美唐 260万 58956元/m² 1室1厅 44m² 低层(共6层) 2003年建造 田小强 天鑫家园 昌平-霍营-回龙观东大街 []
京核心趋势刚需房成家立业,幸福生活开始地方,靠近地铁出行方便 535万 70973元/m² 2室1厅 75m² 共4层 2008年建造 唐天童 沿海赛洛城南区 朝阳-百子湾-广渠东路33号 ['近地铁', '房型正', '拎包入住']
珍惜委托 清河强佑新城 新上正规一居室 满五年 周期4个月 410万 70689元/m² 1室1厅 58m² 中层(共27层) 2009年建造 白小伟 强佑清河新城 海淀-清河-京藏高速辅路,近清河中街 ['近地铁', '配套成熟', '品质小区 ']
九州好房源 满二年 育新花园南里88平通透大两居 边户 精装 210万 23863元/m² 2室2厅 88m² 低层(共9层) 2012年建造 付秋艳 育新花园南里 大兴-大兴区其他-育仁街1号 ['客厅朝南', '小户型', '一梯两户']
主做德胜门 深度了解房源 置业店长博涛精心推介 诚信卖房 2300万 150326元/m² 4室2厅 153m² 高层(共20层) 2003年建造 刘博涛 阳光丽景 西城-德胜门-黄寺大街23号 ['近地铁', '近学校']
绿地国际花都南区 新小区 环境好 南北通透 电梯房 240万 26086元/m² 2室2厅 92m² 低层(共15层) 2011年建造 杜守亮 绿地国际花都 密云-密云-城后街32号 ['配套成熟', '环境优美', '交通便利']
仅5w的税+南排楼+前后左右安静不临街+南北双通透+带阳台 1100万 79994元/m² 3室2厅 137m² 低层(共24层) 2007年建造 杨韶峰 澳洲康都 朝阳-望京西-望京北路39号 ['素质住户', '环境优美', '品质小区']
上地西二旗融泽嘉园二期,育翔小学旁明厨明卫三居室 商品房!! 560万 53333元/m² 3室1厅 105m² 中层(共34层) 2015年建造 冯宝成 融泽嘉园六号院(西区) 昌平-回龙观-龙域西二路6号 ['配套成熟', '环境优美', '次新小区']
西五环精装新房,西山甲一号,园博园旁 五期正式入市 等您来看 800万 57142元/m² 4室2厅 140m² 中层(共16层) 2018年建造 刘珍珍 西山甲一号 丰台-卢沟桥-长顺二路 ['配套成熟', '环境优美', '交通便利']
《专注星河皓月》双卧朝南+自住精装+全天采光+家私全送 210万 22580元/m² 2室1厅 93m² 低层(共18层) 2010年建造 罗刚 星河皓月 北京周边-燕郊-燕顺路,近燕兴街 ['配套成熟', '交通便利', '素质住户']
盛景嘉园东西通透四居室,小板楼带电梯温泉入户,满五年明厨明卫 1550万 127049元/m² 4室2厅 122m² 中层(共7层) 2005年建造 谭海军 盛景嘉园 西城-陶然亭-福长街68号 ['近地铁', '近学校']
特价房 特价房 天著春秋精装洋房 赠80平阁楼+20露台 1935万 120937元/m² 4室2厅 160m² 高层(共6层) 2018年建造 刘素利 远洋天著春秋 石景山-苹果园-金顶山路 ['南北通透', '交通便利', '素质住户']
联排南端户、花园200平、已委托钥匙、看房随时 1600万 80000元/m² 5室3厅 200m² 共2层 2001年建造 刘飞剑 香江花园 朝阳-来广营-香江北路1号 ['近地铁', '独栋别墅', '带花园']
换房就选这套!经典实用3居还能观景!有钥匙!临地铁14号线 1050万 66878元/m² 3室2厅 157m² 高层(共28层) 2000年建造 王艳鸽 丽水嘉园 朝阳-朝阳公园西-朝阳公园南路 ['近地铁', '近学校', '交通便利']
k2集团强力打造通州园林式住宅社区、南北通透格局、30万首付 205万 26623元/m² 2室2厅 77m² 高层(共20层) 2018年建造 于海瑞 K2十里春风 通州-通州区其他-漷小路 ['南北通透', '交通便利', '素质住户']
新出可看!200平花园 2015年全新装修 大联排! 6399万 110039元/m² 6室4厅 581m² 共3层 2012年建造 吴鹏 亚运新新家园 朝阳-亚运村-辛店路1号 ['近地铁', '低总价'] 。。。。。。。。 精装修 随时看房 南北通透 直接拎包入住 无税 真实照片 235万 20434元/m² 3室2厅 115m² 中层(共6层) 2000年建造 杨兴 明珠花园(东区) 密云-密云-西大桥路 ['品质小区 ', '一梯两户', '远离马路']
page10
安华里一区新上两居室,出行方便,临近公园,带自建 480万 96000元/m² 2室1厅 50m² 低层(共6层) 1989年建造 李朋 安华里一区 朝阳-安贞-安定门外大街 ['近地铁', '配套成熟', '素质住户']
朝阳5层别墅,婚房标准,全新未住,同看双珑原著、中粮瑞府 3000万 94637元/m² 4室3厅 317m² 共3层 2016年建造 董** 泰禾北京院子 朝阳-来广营-顺黄路 []
大厂潮白河孔雀城伯顿庄园双庭堡别墅业主着急出售有钥匙随时看房 756万 24000元/m² 5室2厅 315m² 共3层 2014年建造 田伟民 潮白河孔雀城伯顿庄园(别墅) 北京周边-廊坊-侯谭线 ['配套成熟', '素质住户', '安全性高']
优山美地 精装双拼 花园200平 临近顺义英国* 随时看 2680万 63058元/m² 4室2厅 425m² 共4层 2008年建造 李豆豆 优山美地C区 顺义-中央别墅区-裕园路 ['配套成熟', '采光好', '环境优美'] 。。。。。。
参考书目:唐松,来自《Python 网络爬虫:从入门到实践》
Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据的更多相关文章
- python爬取安居客二手房网站数据(转)
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
- (转)Python网络爬虫实战:世纪佳缘爬取近6万条数据
又是一年双十一了,不知道从什么时候开始,双十一从“光棍节”变成了“双十一购物狂欢节”,最后一个属于单身狗的节日也成功被攻陷,成为了情侣们送礼物秀恩爱的节日. 翻着安静到死寂的聊天列表,我忽然惊醒,不行 ...
- 利用python实现爬虫爬取某招聘网站,北京地区岗位名称包含某关键字的所有岗位平均月薪
#通过输入的关键字,爬取北京地区某岗位的平均月薪 # -*- coding: utf-8 -*- import re import requests import time import lxml.h ...
- Python之爬虫(二十一) Scrapy爬取所有知乎用户信息(下)
在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 cla ...
- python爬虫爬取安居客并进行简单数据分析
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 爬取过程一.指定爬取数据二.设置请求头防止反爬三.分析页面并且与网页源码进行比对四.分析页面整理数据 ...
- Python之爬虫(二十) Scrapy爬取所有知乎用户信息(上)
爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
- Python转页爬取某铝业网站上的数据
天行健,君子以自强不息:地势坤,君子以厚德载物! 好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据.刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不 ...
- python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
- python3 [爬虫实战] selenium 爬取安居客
我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接: 安居客详情 一开始直接用requests库进行网站的爬取,会访问不到数据的, ...
随机推荐
- [Swift]LeetCode168. Excel表列名称 | Excel Sheet Column Title
Given a positive integer, return its corresponding column title as appear in an Excel sheet. For exa ...
- PHP文件域上传
PHP中使用文件域上传文件,需要几个步骤,首先先判断有无文件域,然后判断是否选择了文件,最后判断文件是否上传成功. 需要注意的是 表单中有文件域,必须将method设置为post, enctype设置 ...
- 面向对象-Java MOOC翁恺老师第一次作业
由于看这个慕课的时候已经结课了,没有办法提交查看代码是否正确...先保存一下,以后再提交改错 欢迎批评指正! 题目链接:https://www.icourse163.org/learn/ZJU-100 ...
- BBS论坛(三十一)
31.帖子加精和取消加精功能完成 (1)apps/models.py class HighLight(db.Model): __tablename__='highlight_post' id = db ...
- BBS论坛(十九)
19.1.cms轮播图管理页面布局 (1)cms/cms_base.html <li class="nav-group banner-manage"><a hre ...
- BBS论坛(八)
8.1.发送邮箱验证码功能 (1)cms/resetemail.html {% from 'common/_macros.html' import static %} {% block head %} ...
- mockjs,json-server一起搭建前端通用的数据模拟框架
无论是在工作,还是在业余时间做前端开发的时候,难免出现后端团队还没完成接口的开发,而前端团队却需要实现对应的功能,不要问为什么,这是肯定存在的.本篇文章就是基于此原因而产出的.希望对有这方面的需求的同 ...
- 从锅炉工到AI专家(2)
大数据 上一节说到,大多的AI问题,会有很多个变量,这里深入的解释一下这个问题. 比如说某个网站要做用户行为分析,从而指导网站建设的改进.通常而言如果没有行为分析,并不需要采集用户太多的数据. 比如用 ...
- Nginx+Tomcat搭建集群,Spring Session+Redis实现Session共享
小伙伴们好久不见!最近略忙,博客写的有点少,嗯,要加把劲.OK,今天给大家带来一个JavaWeb中常用的架构搭建,即Nginx+Tomcat搭建服务集群,然后通过Spring Session+Redi ...
- 查找占用资源高的JAVA代码
1. /tmp/hsperfdata_$USER目录 $USER是启动JAVA进程的用户,这里保存的所有用户启动的JAVA进程. 这些都JAVA进程的PID,里面存放的是JVM进程信息.你所用的jsp ...