目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。

网址为:https://beijing.anjuke.com/sale/

BeautifulSoup官网:https://www.crummy.com/software/BeautifulSoup/

直接上代码:

import requests
from bs4 import BeautifulSoup headers={'user-agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
link='https://beijing.anjuke.com/sale/'
def getHouseInfo(link):
r=requests.get(link,headers=headers) soup=BeautifulSoup(r.text,'lxml')
house_list=soup.find_all('li',class_='list-item') for house in house_list:
name=house.find('div',class_='house-title').a.text.strip()
price=house.find('span',class_='price-det').text.strip()
price_area=house.find('span',class_='unit-price').text.strip()#单位面积
no_room=house.find('div',class_='details-item').span.text#几室几厅
area=house.find('div',class_='details-item').contents[3].text
floor=house.find('div',class_='details-item').contents[5].text
year=house.find('div',class_='details-item').contents[7].text broker=house.find('span',class_='brokername').text
broker=broker[1:] address=house.find('span',class_='comm-address').text.strip()
address=address.replace('\xa0\xa0\n',' ') tag_list=house.find_all('span',class_='item-tags')
tags=[i.text for i in tag_list] print(name,price,price_area,no_room,area,floor,year,broker,address,tags)
for i in range(1,11):
link=link+'/p'+str(i)
print('page'+str(i))
getHouseInfo(link)

相关代码解析请参照前几篇博客以及BeautifulSoup官网。

输出结果(由于输出内容过多,此处仅截取一部分):

page1
宏星地产租售部 新出!1700南花园, 赠500万红木家具 3800万 106442元/m² 5室2厅 357m² 共3层 2008年建造 夏秋冬 碧水庄园 昌平-沙河-定泗路 ['独栋别墅', '业主唯一住房', '业主住房']
没有不喜欢的!《金泉全南带露台的房子?+观水系花园?》少有啊 990万 107608元/m² 2室2厅 92m² 高层(共30层) 2009年建造 位春雷 金泉家园 朝阳-亚运村-大屯路 ['房型正', '近地铁', '全南户型']
满五年低首付,车位充足,双卧南,西北旺,软件园二期,采光好 875万 66287元/m² 3室2厅 132m² 低层(共9层) 2008年建造 孙国鹏 山语间(保利西山林语) 海淀-温泉镇-黑龙潭路 ['配套成熟', '品质小区 ', '客厅朝南']
金色21 罗兰大道经典户型,每年出房量有限 勿错过 730万 61864元/m² 3室1厅 118m² 高层(共15层) 2009年建造 徐功 万象新天家园 朝阳-常营-常营北路10号 ['近地铁', '配套成熟', '景观房']
远洋LAVIE:法式大独栋,三面临湖面,花园3500平米 15800万 92941元/m² 6室3厅 1700m² 地下(共3层) 2013年建造 张云锋 远洋LAVIE 朝阳-来广营-康营东路,近机场高速 ['配套成熟', '品质小区 ', '景观房']
白菜价!就是为了卖房!《卧室朝南正对花园+送储藏间》太棒了! 1250万 77639元/m² 3室2厅 161m² 低层(共28层) 2009年建造 位春雷 金泉家园 朝阳-亚运村-大屯路 ['配套成熟', '景观房', '拎包入住']
通州地铁六号线物资学院路+4.5米洋房公寓+大产权独立房本 296万 37000元/m² 2室1厅 80m² 高层(共7层) 2016年建造 孙羽 朝北8080 通州-北关-滨榆东路 ['近地铁', '配套成熟', '品质小区 ']
首 付 100万 正规一居室 出行方便 15万装修 国风美唐 260万 58956元/m² 1室1厅 44m² 低层(共6层) 2003年建造 田小强 天鑫家园 昌平-霍营-回龙观东大街 []
京核心趋势刚需房成家立业,幸福生活开始地方,靠近地铁出行方便 535万 70973元/m² 2室1厅 75m² 共4层 2008年建造 唐天童 沿海赛洛城南区 朝阳-百子湾-广渠东路33号 ['近地铁', '房型正', '拎包入住']
珍惜委托 清河强佑新城 新上正规一居室 满五年 周期4个月 410万 70689元/m² 1室1厅 58m² 中层(共27层) 2009年建造 白小伟 强佑清河新城 海淀-清河-京藏高速辅路,近清河中街 ['近地铁', '配套成熟', '品质小区 ']
九州好房源 满二年 育新花园南里88平通透大两居 边户 精装 210万 23863元/m² 2室2厅 88m² 低层(共9层) 2012年建造 付秋艳 育新花园南里 大兴-大兴区其他-育仁街1号 ['客厅朝南', '小户型', '一梯两户']
主做德胜门 深度了解房源 置业店长博涛精心推介 诚信卖房 2300万 150326元/m² 4室2厅 153m² 高层(共20层) 2003年建造 刘博涛 阳光丽景 西城-德胜门-黄寺大街23号 ['近地铁', '近学校']
绿地国际花都南区 新小区 环境好 南北通透 电梯房 240万 26086元/m² 2室2厅 92m² 低层(共15层) 2011年建造 杜守亮 绿地国际花都 密云-密云-城后街32号 ['配套成熟', '环境优美', '交通便利']
仅5w的税+南排楼+前后左右安静不临街+南北双通透+带阳台 1100万 79994元/m² 3室2厅 137m² 低层(共24层) 2007年建造 杨韶峰 澳洲康都 朝阳-望京西-望京北路39号 ['素质住户', '环境优美', '品质小区']
上地西二旗融泽嘉园二期,育翔小学旁明厨明卫三居室 商品房!! 560万 53333元/m² 3室1厅 105m² 中层(共34层) 2015年建造 冯宝成 融泽嘉园六号院(西区) 昌平-回龙观-龙域西二路6号 ['配套成熟', '环境优美', '次新小区']
西五环精装新房,西山甲一号,园博园旁 五期正式入市 等您来看 800万 57142元/m² 4室2厅 140m² 中层(共16层) 2018年建造 刘珍珍 西山甲一号 丰台-卢沟桥-长顺二路 ['配套成熟', '环境优美', '交通便利']
《专注星河皓月》双卧朝南+自住精装+全天采光+家私全送 210万 22580元/m² 2室1厅 93m² 低层(共18层) 2010年建造 罗刚 星河皓月 北京周边-燕郊-燕顺路,近燕兴街 ['配套成熟', '交通便利', '素质住户']
盛景嘉园东西通透四居室,小板楼带电梯温泉入户,满五年明厨明卫 1550万 127049元/m² 4室2厅 122m² 中层(共7层) 2005年建造 谭海军 盛景嘉园 西城-陶然亭-福长街68号 ['近地铁', '近学校']
特价房 特价房 天著春秋精装洋房 赠80平阁楼+20露台 1935万 120937元/m² 4室2厅 160m² 高层(共6层) 2018年建造 刘素利 远洋天著春秋 石景山-苹果园-金顶山路 ['南北通透', '交通便利', '素质住户']
联排南端户、花园200平、已委托钥匙、看房随时 1600万 80000元/m² 5室3厅 200m² 共2层 2001年建造 刘飞剑 香江花园 朝阳-来广营-香江北路1号 ['近地铁', '独栋别墅', '带花园']
换房就选这套!经典实用3居还能观景!有钥匙!临地铁14号线 1050万 66878元/m² 3室2厅 157m² 高层(共28层) 2000年建造 王艳鸽 丽水嘉园 朝阳-朝阳公园西-朝阳公园南路 ['近地铁', '近学校', '交通便利']
k2集团强力打造通州园林式住宅社区、南北通透格局、30万首付 205万 26623元/m² 2室2厅 77m² 高层(共20层) 2018年建造 于海瑞 K2十里春风 通州-通州区其他-漷小路 ['南北通透', '交通便利', '素质住户']
新出可看!200平花园 2015年全新装修 大联排! 6399万 110039元/m² 6室4厅 581m² 共3层 2012年建造 吴鹏 亚运新新家园 朝阳-亚运村-辛店路1号 ['近地铁', '低总价'] 。。。。。。。。 精装修 随时看房 南北通透 直接拎包入住 无税 真实照片 235万 20434元/m² 3室2厅 115m² 中层(共6层) 2000年建造 杨兴 明珠花园(东区) 密云-密云-西大桥路 ['品质小区 ', '一梯两户', '远离马路']
page10
安华里一区新上两居室,出行方便,临近公园,带自建 480万 96000元/m² 2室1厅 50m² 低层(共6层) 1989年建造 李朋 安华里一区 朝阳-安贞-安定门外大街 ['近地铁', '配套成熟', '素质住户']
朝阳5层别墅,婚房标准,全新未住,同看双珑原著、中粮瑞府 3000万 94637元/m² 4室3厅 317m² 共3层 2016年建造 董** 泰禾北京院子 朝阳-来广营-顺黄路 []
大厂潮白河孔雀城伯顿庄园双庭堡别墅业主着急出售有钥匙随时看房 756万 24000元/m² 5室2厅 315m² 共3层 2014年建造 田伟民 潮白河孔雀城伯顿庄园(别墅) 北京周边-廊坊-侯谭线 ['配套成熟', '素质住户', '安全性高']
优山美地 精装双拼 花园200平 临近顺义英国* 随时看 2680万 63058元/m² 4室2厅 425m² 共4层 2008年建造 李豆豆 优山美地C区 顺义-中央别墅区-裕园路 ['配套成熟', '采光好', '环境优美'] 。。。。。。

参考书目:唐松,来自《Python 网络爬虫:从入门到实践》

Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据的更多相关文章

  1. python爬取安居客二手房网站数据(转)

    之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...

  2. (转)Python网络爬虫实战:世纪佳缘爬取近6万条数据

    又是一年双十一了,不知道从什么时候开始,双十一从“光棍节”变成了“双十一购物狂欢节”,最后一个属于单身狗的节日也成功被攻陷,成为了情侣们送礼物秀恩爱的节日. 翻着安静到死寂的聊天列表,我忽然惊醒,不行 ...

  3. 利用python实现爬虫爬取某招聘网站,北京地区岗位名称包含某关键字的所有岗位平均月薪

    #通过输入的关键字,爬取北京地区某岗位的平均月薪 # -*- coding: utf-8 -*- import re import requests import time import lxml.h ...

  4. Python之爬虫(二十一) Scrapy爬取所有知乎用户信息(下)

    在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 cla ...

  5. python爬虫爬取安居客并进行简单数据分析

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 爬取过程一.指定爬取数据二.设置请求头防止反爬三.分析页面并且与网页源码进行比对四.分析页面整理数据 ...

  6. Python之爬虫(二十) Scrapy爬取所有知乎用户信息(上)

    爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...

  7. Python转页爬取某铝业网站上的数据

    天行健,君子以自强不息:地势坤,君子以厚德载物! 好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据.刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不 ...

  8. python3 爬虫之爬取安居客二手房资讯(第一版)

    #!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...

  9. python3 [爬虫实战] selenium 爬取安居客

    我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接: 安居客详情 一开始直接用requests库进行网站的爬取,会访问不到数据的, ...

随机推荐

  1. 【安富莱二代示波器教程】第17章 附件B---功能扩展和改进方向

    完整教程下载地址:http://forum.armfly.com/forum.php?mod=viewthread&tid=45785 第17章      附件B---功能扩展和改进方向   ...

  2. Batch入门教程丨第一章:部署与Hello World!(下)

    在上期分享的内容中,我们已经掌握了基础理论知识,今天我们将继续了解和学习与Windows Batch有关的知识和编程方法,如何编写和运行Windows Batch程序,脚本语言的入门方式等,从而能够更 ...

  3. Python爬虫5-利用usergent伪装访问方式

    GitHub代码练习地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac08_useragent.py UserAgen ...

  4. (转)iOS学习——UIlabel设置行间距和字间距

    在iOS开发中经常会用到UIlabel来展示一些文字性的内容,但是默认的文字排版会觉得有些挤,为了更美观也更易于阅读我们可以通过某些方法将UIlabel的行间距和字间距按照需要调节. 比如一个Labe ...

  5. github pages代码高亮highlighter

    github pages 一直想添加代码高亮 highlighter ,基于 jekyll 3.0 的 rouge 终于搞定了: 下载代码高亮库 在 cmd 中输入: rougify style mo ...

  6. BBS论坛(二十九)

    29.帖子详情页布局 (1)front/hooks.py @bp.errorhandler def page_not_found(): return render_template('front/fr ...

  7. Spring Boot 2.0 教程 | 配置 Undertow 容器

    欢迎关注个人微信公众号: 小哈学Java, 文末分享阿里 P8 资深架构师吐血总结的 <Java 核心知识整理&面试.pdf>资源链接!! 文章首发于个人网站 https://ww ...

  8. qt cef嵌入web(二)

    在qt cef嵌入web文章中已经讲述了怎么把cef页面嵌入到qt程序中,但是这样并不完美,因为如果需要在多个窗口上创建cef浏览器部件的话,在 消息监听部分没有办法做区分多个浏览器事件,在这篇文章中 ...

  9. SignalR学习笔记(一) 简单聊天室

    什么是ASP.NET SignalR? ASP.NET SignalR是一个方便程序员添加实时网络通信功能的类库.所谓的实时网络通信功能(Real-time Web Functionality)就是需 ...

  10. 【朝花夕拾】Android性能篇之(三)Java内存回收

    在上一篇日志([朝花夕拾]Android性能篇之(二)Java内存分配)中有讲到,JVM内存由程序计数器.虚拟机栈.本地方法栈.GC堆,方法区五个部分组成.其中GC堆是一块多线程的共享区域,它存在的作 ...