适合初学者的Python爬取链家网教程

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者： TinaLY

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

网上很多爬取教程，但是一般存在两个问题：

一是：自己调试会遇到很多bug，一般无法直接使用，对于调试代码有难度的来说比较抓狂；

二是：由于网页数据的格式不是完全规整的，寻找的代码块可能会遇到问题，所以需要设置一个异常抛出机制，以免前面爬取的数据没来得及保存，耗时耗力。

这次是根据自己的经验，提供小批量爬取的数据，能拆开的代码尽量拆开。

用的爬取结构，主要是selenium，网页会连续不断地打开。
以济南市为例，为了小规模测试，针对单个行政区分别获取，代码熟悉之后可将区改为循环。

代码如下：

关键包：

 from selenium import webdriver

 from urllib import request,parse

 from selenium.common.exceptions import NoSuchElementException

定义参数（前三行是高德API获取坐标用得到，第四行是爬取的城市，一般网页链接接中会有）：

 amap_web_key = '你的key'

 poi_search_url = "http://restapi.amap.com/v3/place/text"

 poi_boundary_url = "https://ditu.amap.com/detail/get/detail"

 city ='jinan'

关键代码：

 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36'}

 driver1 = webdriver.Chrome()

 pageid = 1

 while(pageid <='页码数')://此处页码数是指进入某个区之后显示的页码数量

     allarray = []

     print('pageid =',pageid)

     url ='https://jn.lianjia.com/xiaoqu/pingyin/pg'+str(pageid)

     driver1.get(url)

     driver1.implicitly_wait(5)

     house_list =driver1.find_elements_by_class_name('img')

     for i in range(house_list.__len__()):

         time.sleep(2)

         temparray =[]

         detailurl = house_list[i].get_attribute('href')

         print(i,'detailurl',detailurl)

         driver = webdriver.Chrome()

         driver.get(detailurl)

         try:

             housename =driver.find_element_by_class_name('detailTitle').text

             price = driver.find_element_by_class_name('xiaoquUnitPrice').text

             xiaoquinfo = driver.find_elements_by_class_name('xiaoquInfoContent')

             # [占地面积，建筑面积，容积率，绿化率，停车位，楼栋总数，总户数，物业公司，物业费，物业描述，楼层状况]

             xiaoquage = xiaoquinfo[0].text  #建筑年代

             jianzhuleixing = xiaoquinfo[1].text  # 建筑类型

             wuyefei = xiaoquinfo[2].text  # 物业费用

             dongshu = xiaoquinfo[5].text  # 楼栋总数

             hushu = xiaoquinfo[6].text #房屋总数

             temparray.append(housename)

             temparray.append(price)

             temparray.append(jianzhuleixing)  # 户数

             temparray.append(wuyefei)  # 物业费

             temparray.append(dongshu)  # 容积率

             temparray.append(hushu)  # 绿化率

             # location = getpoi_page(temparray[0])//调用利用高德API获取坐标的函数

             # 通过高德查询经纬度

             //获得小区的最终目的要落到地图上，所以需要获得坐标点，高德开源API可以获得，但是

             //由于一个key的查询数量有限，为了防止中间出错，建议先把所有房屋数据建立起来之后，

             //统一查坐标，对于初学者，一切以简单易实现为主！

             temparray.append('')

             temparray.append('')

             # if (location == ''):

             #     temparray.append('0')

             #     temparray.append('0')

             # else:

             #     temparray.append(location[0])

             #     temparray.append(location[1])

             # break

             # print(temparray)

         except NoSuchElementException as msg:

             //异常抛出函数非常非常重要，虽然诸如淘宝、阿里巴巴等页面都有统一的HTML标签格式，

             //但是有经验的童鞋应该知道，总会有那么一两个不按常规出牌的，如果异常抛出机制写

             //不好，经常容易前功尽弃

             # print("第",i,"个小区查找元素失败")

             try:

                 housename = driver.find_element_by_class_name('detailTitle').text

 price = driver.find_element_by_css_selector("[class='xiaoquPrice clear']").text

 //对比上面的price可以看出，异常抛出是因为对于price属性出现了两种标签

 xiaoquinfo = driver.find_elements_by_class_name('xiaoquInfoContent')

                 # [占地面积，建筑面积，容积率，绿化率，停车位，楼栋总数，总户数，物业公司，物业费，物业描述，楼层状况]

                 xiaoquage = xiaoquinfo[0].text  # 建筑年代

                 jianzhuleixing = xiaoquinfo[1].text  # 建筑类型

                 wuyefei = xiaoquinfo[2].text  # 物业费用

                 dongshu = xiaoquinfo[5].text  # 楼栋总数

                 hushu = xiaoquinfo[6].text  # 房屋总数

                 temparray.append(housename)

                 temparray.append(price)

                 temparray.append(jianzhuleixing)  # 户数

                 temparray.append(wuyefei)  # 物业费

                 temparray.append(dongshu)  # 容积率

                 temparray.append(hushu)  # 绿化率

                 temparray.append('')

                 temparray.append('')

             except NoSuchElementException as msg:

                 print("两种情况均查不到")

         allarray.append(temparray)

         driver.close()

     text_save(allarray, 'lianjia_fangwu.txt')

 pageid += 1

适合初学者的Python爬取链家网教程的更多相关文章

Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
Python爬取链家二手房源信息
爬取链家网站二手房房源信息,第一次做,仅供参考,要用scrapy. import scrapy,pypinyin,requests import bs4 from ..items import L ...
Scrapy实战篇（二）之爬取链家网成交房源数据（下）
在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置. 数据处理我们这里以把数据存储到mongo数据库为例.编写pipelines.py ...
Scrapy实战篇（九）之爬取链家网天津租房数据
以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用. 思路: 1.以初始链接https://tj.lianjia.com/zufang/rt200600000001/?sh ...
python爬取链家二手房信息，确认过眼神我是买不起的人
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python - 爬虫入门练习爬取链家网二手房信息
import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db&qu ...
python 爬取链家
import json import requests from lxml import etree from time import sleep url = "https://sz.lia ...
爬取链家网租房图使用ImagesPipeline保存图片
# 爬虫文件 # -*- coding: utf-8 -*- import scrapy import os from urllib import request from lianjia.items ...

随机推荐

Maven項目打包報錯：Plugin execution not covered by lifecycle configuration
Maven項目打包報錯:Plugin execution not covered by lifecycle configuration 使用Eclipse导入一个新的maven项目时不时的会遇到这个错 ...
view WITH CHECK OPTION where-clause violation（查看与检查选项where-子句违反）
创建视图的语句是设置了 WITH CHECK OPTION 这个条件; 创建视图时,sql语句是这样写的: CREATE OR REPLACE VIEW RZ_TST_VIEW AS WHER ...
jupyter notebook改变行间图片大小
jupyter notebook使用起来代码效果很直接,这是我最喜欢的一点,但是主题单一,后来改了一下主题.也可以接受了,但是还有一个问题是显示图片太小我们可以用两个方法来改变它. 一.可以通过rcP ...
Cypress 之常用API
.visit() 访问一个远程URL.>>详情参考 Cypress 之 cy.visit() cy.visit(url) cy.visit(url, options) cy.visit(o ...
[算法]PriorityQueue的应用
1. 数据流中的第K大元素题目设计一个找到数据流中第K大元素的类(class).注意是排序后的第K大元素,不是第K个不同的元素. 你的 KthLargest 类需要一个同时接收整数 k 和整数数组 ...
计算机网络知识（TCP连接，TCP/UDP区别，HTTP与HTTPS，Socket原理等等）
1.网络七层协议包含,物理层.数据链路层.网络层(ip协议).传输层(TCP传输控制协议.UDP用户数据报协议).会话层.表示层.应用层(http协议).是一个提供的概念架构协议. 2.TCP/IP协 ...
C# 判断点是否在矩形框内
欢迎加群交流 QQ群 830426796 用 System.Drawing.Drawing2D.GraphicsPath 和 Region 类联合起来,然后用 Region.IsVisible(poi ...
整理了8个Python中既冷门又实用的技巧
1.print 打印带有颜色的信息大家知道 Python 中的信息打印函数 print,一般我们会使用它打印一些东西,作为一个简单调试. 但是你知道么,这个 Print 打印出来的字体颜色是可以设置 ...
SpringCloud（二）：服务的注册与发现（Eureka）
一.什么是服务注册与发现Spring Cloud Eureka 模块提供的功能是被动式的服务发现. 服务注册:每个用户去聊天室服务器上注册. 服务发现:这样他的好友们就能看到你,你同时也将获取好友的上 ...
使用Kubernetes进行ProxySQL本机群集
自v1.4.2起,ProxySQL支持本机群集.这意味着多个ProxySQL实例可识别群集; 他们了解彼此的状态,并能够通过根据配置版本,时间戳和校验和值同步最新的配置来自动处理配置更改. Proxy ...

适合初学者的Python爬取链家网教程

前言

代码如下：

适合初学者的Python爬取链家网教程的更多相关文章

随机推荐

热门专题