python爬虫（房天下）

房天下

import requests

res = requests.get('http://esf.sz.fang.com/')

#res.text

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,'html.parser')

domain = 'http://esf.sz.fang.com'

for house in soup.select('.houseList dl'):

    if len(house.select('.title')) > 0:

        #print(house.select('.title'))

        #print(house.select('.title')[0].text.strip('\n'))

        #title = house.select('.title')[0].text.strip('\n')

        link = house.select('.title a')[0]['href']

        url = domain + link

        #print(title)

        print(url)

        print("=====================================")

http://esf.sz.fang.com/chushou/3_195350255.htm

=====================================

http://esf.sz.fang.com/chushou/3_195673873.htm

=====================================

http://esf.sz.fang.com/chushou/3_194871298.htm

=====================================

http://esf.sz.fang.com/chushou/3_195440493.htm

=====================================

http://esf.sz.fang.com/chushou/3_194941076.htm

=====================================

http://esf.sz.fang.com/chushou/3_195229169.htm

=====================================

http://esf.sz.fang.com/chushou/3_195408601.htm

=====================================

http://esf.sz.fang.com/chushou/3_195686255.htm

=====================================

http://esf.sz.fang.com/chushou/3_195652264.htm

=====================================

http://esf.sz.fang.com/chushou/3_195602160.htm

=====================================

http://esf.sz.fang.com/chushou/3_195499064.htm

=====================================

http://esf.sz.fang.com/chushou/3_195655132.htm

=====================================

http://esf.sz.fang.com/chushou/3_195018784.htm

=====================================

http://esf.sz.fang.com/chushou/3_193837152.htm

=====================================

http://esf.sz.fang.com/chushou/3_195680364.htm

=====================================

http://esf.sz.fang.com/chushou/3_195585056.htm

=====================================

http://esf.sz.fang.com/chushou/3_195346885.htm

=====================================

http://esf.sz.fang.com/chushou/3_195500516.htm

=====================================

http://esf.sz.fang.com/chushou/3_194325860.htm

=====================================

http://esf.sz.fang.com/chushou/3_195556602.htm

=====================================

http://esf.sz.fang.com/chushou/3_195555259.htm

=====================================

http://esf.sz.fang.com/chushou/3_195692033.htm

=====================================

http://esf.sz.fang.com/chushou/3_195202600.htm

=====================================

http://esf.sz.fang.com/chushou/3_195521932.htm

=====================================

http://esf.sz.fang.com/chushou/3_195392858.htm

=====================================

http://esf.sz.fang.com/chushou/3_194891027.htm

=====================================

http://esf.sz.fang.com/chushou/3_192915787.htm

=====================================

http://esf.sz.fang.com/chushou/3_195538851.htm

=====================================

http://esf.sz.fang.com/chushou/3_195737629.htm

=====================================

http://esf.sz.fang.com/chushou/3_195587205.htm

=====================================

'''

[0] 出错

IndexError: list index out of range

第1种可能情况

list[index]index超出范围

第2种可能情况

list是一个空的没有一个元素

进行list[0]就会出现该错误

'''

import requests

res = requests.get('http://esf.sz.fang.com/chushou/10_195724712.htm')

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,'html.parser')

soup.select('.title h1')[0].text.strip()

'碧桂园翡翠山坡地别墅 配套设施齐全 环境优美 价格实惠 交通便利'

info = {}

info['标题'] = soup.select('.title h1')[0].text.strip()

info

{'标题': '碧桂园翡翠山坡地别墅 配套设施齐全 环境优美 价格实惠 交通便利'}

soup.select('.zongjia1 .red20b')[0].text

'398'

info['总价'] = soup.select('.zongjia1 .red20b')[0].text

info

{'总价': '398', '标题': '碧桂园翡翠山坡地别墅 配套设施齐全 环境优美 价格实惠 交通便利'}

for dd in soup.select('dd'):

    if '：' in dd.text.strip():

        #print(dd.text.strip().split('：'))

        key,value = dd.text.strip().split('：')

        info[key] = value

info

{'专业度': '2.3',

 '二 手 房': '32套',

 '使用面积': '216�O',

 '厅 结 构': '平层',

 '参考月供': '',

 '参考首付': '119.4万',

 '同比去年': '↓2.1%',

 '地上层数': '3层',

 '地下室面积': '200平米(全明)',

 '好评率': '33%',

 '建筑年代': '2016年',

 '建筑形式': '独栋',

 '建筑面积': '216�O',

 '开 发 商': '东莞市黄江碧桂园房地产开发有限公司',

 '总价': '398',

 '户型': '5室2厅1厨4卫',

 '标题': '碧桂园翡翠山坡地别墅 配套设施齐全 环境优美 价格实惠 交通便利',

 '满意度': '2.3',

 '物 业 费': '暂无资料',

 '物业公司': '暂无资料',

 '物业类型': '别墅',

 '环比上月': '↓1.39%',

 '真实度': '2.3',

 '租 房': '0套',

 '绿 化 率': '0.00%',

 '花园面积': '100平米',

 '装修程度': '精装修',

 '车位数量': '2个',

 '车库数量': '1个',

 '进门朝向': '南'}

def getHouseDetil(url):

    info = {}

    import requests

    res = requests.get(url)

    from bs4 import BeautifulSoup

    soup = BeautifulSoup(res.text,'html.parser')

    info['标题'] = soup.select('.title h1')[0].text.strip()

    info['总价'] = soup.select('.zongjia1 .red20b')[0].text

    for dd in soup.select('dd'):

        if '：' in dd.text.strip():

            #print(dd.text.strip().split('：'))

            key,value = dd.text.strip().split('：')

            info[key] = value

    return info

url = 'http://esf.sz.fang.com/chushou/3_195684731.html'

getHouseDetil(url)

{'专业度': '5',

 '二 手 房': '264套',

 '产权性质': '商品房',

 '住宅类别': '普通住宅',

 '使用面积': '76�O',

 '参考月供': '',

 '参考首付': '114万',

 '同比去年': '↑1.11%',

 '好评率': '100%',

 '年代': '2013年',

 '建筑类别': '板楼',

 '建筑面积': '89�O',

 '开 发 商': '和记黄埔地产（深圳）有限公司',

 '总价': '380',

 '户型': '3室2厅1厨2卫',

 '朝向': '南',

 '标题': '刚刚放盘 和黄懿花园顶楼湖景房 带20万装修 诚心出售380万！',

 '楼层': '高层(共10层)',

 '满意度': '5',

 '物 业 费': '3.8元/平米・月',

 '物业公司': '暂无资料',

 '物业类型': '住宅',

 '环比上月': '↑0.01%',

 '真实度': '5',

 '租 房': '66套',

 '结构': '平层',

 '绿 化 率': '30.00%',

 '装修': '精装修'}

综合案例

import requests

from bs4 import BeautifulSoup

res = requests.get('http://esf.sz.fang.com/')

soup = BeautifulSoup(res.text,'html.parser')

domain = 'http://esf.sz.fang.com'

houslist = []

for house in soup.select('.houseList dl'):

    if len(house.select('.title')) > 0:

        link = house.select('.title a')[0]['href']

        url = domain + link

        houslist.append(getHouseDetil(url))

len(houslist)

houslist[21]

{'专业度': '5.0',

 '二 手 房': '993套',

 '产权性质': '商品房',

 '住宅类别': '普通住宅',

 '使用面积': '126�O',

 '参考月供': '',

 '参考首付': '47.4万',

 '同比去年': '暂无资料',

 '好评率': '100%',

 '年代': '2016年',

 '建筑类别': '板楼',

 '建筑面积': '128�O',

 '开 发 商': '20160527162320,2016051',

 '总价': '158',

 '户型': '4室2厅1厨2卫',

 '朝向': '南北',

 '标题': '碧桂园公园上城、全智能社区、精装四房、南站万达、带',

 '满意度': '5.0',

 '物 业 费': '2.6元/�O・月',

 '物业公司': '广东碧桂园物业服务有限公司',

 '物业类型': '住宅',

 '环比上月': '↑0.14%',

 '真实度': '5.0',

 '租 房': '0套',

 '结构': '平层',

 '绿 化 率': '30.00%',

 '装修': '精装修'}

import pandas

df = pandas.DataFrame(houslist)

#df

df.to_excel('/mnt/z/house.xlsx')

url1 = 'http://esf.sz.fang.com/house/i3'

for i in range(1,3):

    print (url1 + str(i))

http://esf.sz.fang.com/house/i31

http://esf.sz.fang.com/house/i32

import requests

import pandas

from bs4 import BeautifulSoup

domain = 'http://esf.sz.fang.com'

url1 = 'http://esf.sz.fang.com/house/i3'

houslist = []

for i in range(1,21):

    res = requests.get(url1 + str(i))

    soup = BeautifulSoup(res.text,'html.parser')

    for house in soup.select('.houseList dl'):

        if len(house.select('.title')) > 0:

            link = house.select('.title a')[0]['href']

            url = domain + link

            houslist.append(getHouseDetil(url))

df = pandas.DataFrame(houslist)

df.to_excel('/mnt/z/house4.xlsx')

python爬虫（房天下）的更多相关文章

python爬虫-房天下-登录
房天下-登录本次爬取的网址为:https://passport.fang.com 一.分析请求输入用户名和密码,点击登录按钮请求的参数为: uid: 123456789 pwd: 64ccd42 ...
python分布式爬虫--房天下
第一步安装redis redis在windows系统中的安装与启动: 下载:redis官方是不支持windows操作系统的.但是微软的开源部门将redis移植到了windows上.因此下载地址不是在r ...
python爬虫项目(scrapy-redis分布式爬取房天下租房信息)
python爬虫scrapy项目(二) 爬取目标:房天下全国租房信息网站(起始url:http://zu.fang.com/cities.aspx) 爬取内容:城市:名字:出租方式:价格:户型:面积: ...
爬虫Scrapy框架运用----房天下二手房数据采集
在许多电商和互联网金融的公司为了更好地服务用户,他们需要爬虫工程师对用户的行为数据进行搜集.分析和整合,为人们的行为选择提供更多的参考依据,去服务于人们的行为方式,甚至影响人们的生活方式.我们的scr ...
Python爬取房天下二手房信息
一.相关知识 BeautifulSoup4使用 python将信息写入csv import csv with open("11.csv","w") as csv ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python爬虫利器六之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
月薪45K的Python爬虫工程师告诉你爬虫应该怎么学，太详细了！
想用Python做爬虫,而你却还不会Python的话,那么这些入门基础知识必不可少.很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学.但是却完全不知道从何开始,很迷茫,学的 ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...

随机推荐

nodejs v8引擎c++编译版本号升级教程
原GCC版本号:4.4.7. 目标:升级GCC到4.8.2.以支持C++11. yum install gcc-c++ 获取GCC 4.8.2包:wget http://gcc.skazkaforyo ...
openstack-glance-api.service start request repeated too quickly, refusing to start
问题描写叙述 openstack J版 centos7部署重新启动服务时起不来,日志也不报错.以glance服务为例,例如以下: # systemctl start openstack-glance ...
工作总结 default Console.WriteLine(default(Guid));
泛型代码中的默认关键字在泛型类和泛型方法中产生的一个问题是,在预先未知以下情况时,如何将默认值分配给参数化类型 T: T 是引用类型还是值类型. 如果 T 为值类型,则它是数值还是结构. 给定参数化 ...
PHP + Socket 发送http请求进而实现站点灌水
本质上实现组装http信息的请求行,头信息.主题信息.參考it自学网 cookie信息和http请求头有非常大关系,注意把http请求头信息传递到函数里面 01-msg.php <?php re ...
ubuntu14.04 的ibus不能卸载（安装fcitx输入法框架时可能有这个需求）。出现无system setting有用程序
每年的ubuntu新版本号公布,都会吸引一大批热血青年. 关注越多也让ubuntu越来越好了. 使用ubuntu的人都会在安装系统之后马上安装顺手的输入法,也可能不会.看人. 安装输入法,对于中文输入 ...
uva 10765 Doves and Bombs（割顶）
题意:给定一个n个点的连通的无向图,一个点的"鸽子值"定义为将它从图中删去后连通块的个数.求每一个点的"鸽子值". 思路dfs检查每一个点是否为割顶,并标 ...
union关键字及大小端模式
1. union 关键字 union 维护足够的空间来置放多个数据成员中的“一种”,而不是为每一个数据成员配置空间,在 union 中所有的数据成员共用一个空间,同一时间只能储存其中一个数据成员,所有 ...
[办公自动化]计算机突然死机后asd自动恢复文档未能恢复，如何打开使用
今天计算机突然死机,但是word未能提示自动恢复窗格.所以无法自动恢复word文档.但是在文档所在的文件夹看到了一个“自动恢复”开头的asd恢复文档. 该如何使用这个文档呢? 按照以前的惯例,尝试了如 ...
android studio 使用
java5-7适用android,java8对安卓支持不好. mac osx 需要安装jdk8, google Nexus模拟器, Intellij是JetBrains发布的. Intellij有2个 ...
NOI.AC #31 MST —— Kruskal+点集DP
题目:http://noi.ac/problem/31 好题啊! 题意很明白,对于有关最小生成树(MST)的题,一般是要模拟 Kruskal 过程了: 模拟 Kruskal,也就是把给出的 n-1 条 ...

python爬虫（房天下）

房天下

综合案例

python爬虫（房天下）的更多相关文章

随机推荐

热门专题