一、相关知识

BeautifulSoup4使用
python将信息写入csv

import csv

with open("11.csv","w") as csvfile:

    writer = csv.writer(csvfile)

    writer.writerow(["a","b","c"])

    writer.writerows([[1,1,1],[2,2,2],[3,3,3]])

二、目标

要求爬取房天下各大城市的二手房信息（www.fang.com）
需爬取所有城市的二手房信息，并存在csv文件中，可以所有数据放在一个文件中，但要记录是哪个省，哪个城市。也可以每个城市的数据放在一个csv文件中。要求爬取每个房源信息包括标题、面积、价格、地址等信息。

三、实现思路

1.准备工作

获取网址并解析

分析房天下各城市各页的网址，得出大部分城市某页的网址为 https://城市.esf.fang.com/?i=30+页数
解析网页为文本：

def response(url, headers):

    html = requests.get(url=url, headers=headers)

    html.encoding = html.apparent_encoding

    return html.text

2.获取所有城市及对应网址

解析该网页代码，获取各城市名及链接，并存到列表

3.遍历城市，获取所需信息

先获取每个城市的页数，然后每个城市每页依次解析
通过f12查看网页源代码，分析所需信息

4.将分解的信息存到csv中

四、完整代码

# -*- coding:utf-8 -*-

import requests

from lxml import etree

import re

import csv

from bs4 import BeautifulSoup

from pyasn1.compat.octets import null

headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

        }

def response(url, headers):

    html = requests.get(url=url, headers=headers)

    html.encoding = html.apparent_encoding

    return html.text

def crawl(url, write, headers):

    html = response(url,headers)

    soup = BeautifulSoup(html, 'lxml')

    titles = []  # 存放所有房源标题的列表

    house_types = []  # 存放所有房源房型的列表

    sizes = []  # 存放所有房源面积的列表

    floors = []  # 存放所有房源楼层的列表

    orientations = []  # 存放所有房源朝向的列表

    addrs = []  # 存放所有房源地址的列表

    totals = []  # 存放所有房源总价的列表

    prices = []  # 存放所有房源单价的列表

    items1 = soup.find_all('span', class_="tit_shop")

    for item in items1:

        titles.append(item.string.split()[0])

    items2 = soup.find_all('p', class_="tel_shop")

    for item in items2:

        house_types.append(item.contents[0].split()[0])

        sizes.append(item.contents[2].split()[0])

        floors.append(item.contents[4].split()[0])

        orientations.append(item.contents[6].split()[0])

    items4 = soup.find_all('p', class_="add_shop")

    for item in items4:

        addrs.append(item.contents[3].string)

    items5 = soup.find_all('dd', class_="price_right")

    for item in items5:

        totals.append(item.contents[1].contents[1].string)

        prices.append(item.contents[3].string)

    for i in range(len(titles)):

        write.writerow([titles[i], house_types[i], sizes[i], floors[i], orientations[i], addrs[i], totals[i],prices[i]])

def crawlCity(url2,headers,address_list,hrefs):

    html2 = response(url2,headers)

    soup = BeautifulSoup(html2, 'lxml')

    items = soup.find_all('a', class_="red")

    for item in items:

        address_list.append(item.string)

        hrefs.append(item['href'])

def crawlPage(url,headers):

    html = response(url, headers)

    items = re.findall("共(.*)页",html)

    if(len(items)==0):

        return 0

    else:

        for item in items:

            return item

def main():

    totalpage = 0

    address_list = []

    hrefs = []

    url2 = 'https://gz.esf.fang.com/newsecond/esfcities.aspx'

    crawlCity(url2, headers,address_list,hrefs)

    key = ['标题', '户型', '面积', '楼层', '朝向', '地址', '总价/万', '单位价格']  # ,'总价','单位价格']

    for i in range(len(address_list)):

        with open('{}.csv'.format(address_list[i]), 'a', newline='', encoding='utf-8') as fp:

            write = csv.writer(fp)

            write.writerow(key)

            print('现在爬取%s的二手房信息' % address_list[i])

            pageurl = "http:"+hrefs[i]

            if(crawlPage(pageurl,headers)==0):

                print("该城市无房源信息\n")

                continue

            else:

                totalpage=int(crawlPage(pageurl,headers))

                for page in range(1, totalpage+1):

                    pages = (str)(page + 30)

                    new_url = "http:"+hrefs[i]+"/?i="+pages

                    crawl(new_url, write, headers)

                    print('第%s页爬取完成' % page)

                print('已完成%s爬取' % address_list[i])

                print('\n')

if __name__ == '__main__':

    main()

五、实现结果

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理

想要获取更多Python学习资料可以加
QQ:2955637827私聊
或加Q群630390733
大家一起来学习讨论吧！

Python爬取房天下二手房信息的更多相关文章

python爬虫项目(scrapy-redis分布式爬取房天下租房信息)
python爬虫scrapy项目(二) 爬取目标:房天下全国租房信息网站(起始url:http://zu.fang.com/cities.aspx) 爬取内容:城市:名字:出租方式:价格:户型:面积: ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python 爬取房天下
... import requests from requests import ConnectionError from bs4 import BeautifulSoup import pymong ...
python爬取房天下数据Demo
import requests from bs4 import BeautifulSoup res = requests.get('http://sh.esf.fang.com/chushou/3_3 ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
python爬取 “得到” App 电子书信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...
python爬取北京政府信件信息01
python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度 ...
python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...

随机推荐

【模板】【P3402】可持久化并查集
(题面来自洛谷) 题目描述 n个集合 m个操作操作: 1 a b 合并a,b所在集合 2 k 回到第k次操作之后的状态(查询算作操作) 3 a b 询问a,b是否属于同一集合,是则输出1否则输出0 ...
Pytest系列（十三）- 重复执行之pytest-repeat的使用
写在前面这个插件,可以帮助我们很好的解决自动化测试过程中的一些偶线性bug难以复现的问题,但前提是,当前自动化脚本是独立的,不依赖任何其他脚本.个人觉得还是失败重运行的一种体现,就和TestNG是一 ...
CountDownLatch、CyclicBarrier、Semaphore、Exchanger 的详细解析
本文主要介绍和对比我们常用的几种并发工具类,主要涉及 CountDownLatch . CyclicBarrier . Semaphore . Exchanger 相关的内容,如果对多线程相关内容不熟 ...
JZOJ8月6日提高组反思
JZOJ8月6日提高组反思又是愉快的没落的一天被2020&2018暴打day2 一堆人AK-- T1 看到这个\(m\)只有100 就坚定了我打暴力的信心离散化加暴力匹配原本就想\(3 ...
基于CefSharp开发（三）浏览器头部优化
一.上文回顾上编实现了简单的网页加载功能包括URL输入.打开空标签页.网页链接中新页面处理等本编将对网页的Title绑定.前进.后退.刷新等事件处理二.Title绑定处理当打开网页时Title ...
JDK8日期类入门
关于jdk8的时间类的用法,网上有很多教程教你如何用,比如: System.out.println(LocalDateTime.now()); 可以获取当前的时间, 2020-12-06T18:02: ...
PyQt+moviepy音视频剪辑实战2：一个剪裁视频文件精华内容留存工具的实现
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用 PyQt+moviepy音视频剪辑实战专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录一.引言 ...
第二十二章、 Model/View便利类树型部件QTreeWidget
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.引言树部件(Tree Widget)是Qt Designer中 Item Widgets(It ...
PyQt(Python+Qt)学习随笔：Qt Designer中QAbstractButton派生按钮部件的checkable和checked属性
checkable属性 checkable属性确认按钮是否可以被选中,缺省情况下该值为False,即按钮是不能被选中的. 可选择的按钮按下之后,按钮不会自动弹起来,此时按钮为选中状态,当再次点击按钮时 ...
vulnstack靶机实战01
前言 vulnstack是红日安全的一个实战环境,地址:http://vulnstack.qiyuanxuetang.net/vuln/detail/2/最近在学习内网渗透方面的相关知识,通过对靶机的 ...

Python爬取房天下二手房信息