python3 爬虫之爬取安居客二手房资讯(第一版)

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

# Author;Tsukasa

import requests

from bs4 import BeautifulSoup

import pandas

import time

url_all = []

url_in = input('输入你所需要城市的字母简写：\n如：中山 zs ， 广州 gz\n！！！不要乱输入，不然运行不了')

url_number = 1+int(input('输入爬取页数：'))

okl = []

def open(nobe):

    res = requests.get(nobe)

    soup = BeautifulSoup(res.text,'html5lib')

    http_start = []

    url_start = 'http://esf.'+url_in+'.fang.com'

    for title in soup.select('.houseList dl'):  #网址链接列表

        url_end = title.select('.title a ')[0]['href']

        http_start.append(url_start + url_end)

    return http_start

#获取详细信息

def content(url):

    info = {}

    info['网页'] = url

    res = requests.get(url)

    soup = BeautifulSoup(res.text,'html5lib')

    info['标题'] = soup.select('h1')[0].text.strip()  #获取标题

    info['总价'] = soup.select('.red20b')[0].text + '万'   #总价

    info['联系电话'] = soup.select('#mobilecode')[0].text   #电话

    for sl in soup.select('span'):  #获取发布时间

        if '发布时间' in sl.text.lstrip('<span>'):

            key , value = (sl.text.strip().rstrip('(').split('：'))

            info[key] = value + '*' + soup.select('#Time')[0].text

    for dd in soup.select('dd'):  #获取详细内容

        if '：' in dd.text.strip():

            key , value = (dd.text.strip().split('：'))

            info[key] = value

    return info

print('----------正在运行，请不要关闭----------')

url_home = ('http://esf.'+ url_in + '.fang.com/house/i3{}/')

for url_next in range(1,url_number):

    url_all.append((url_home.format(url_next)))

home = []

for i in url_all:

    a = (open(i))

    print('正在获取 -----> ',i,' <-----')

    time.sleep(1)

    for b in a:

        home.append(content(b))

        print('\t正在获取详细信息 -> ',b,' <-----')

        time.sleep(2)

    #home.append(content(open(i[0])))

last = pandas.DataFrame(home)

last.to_excel('temp.xlsx',sheet_name='房源信息')

print('----------运行结束----------\n\n----------查看根目录---------')

abcdefg = input('完成运行')

　　源码先奉上，以后在填坑

python3 爬虫之爬取安居客二手房资讯(第一版)的更多相关文章

python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
爬虫---lxml爬取博客文章
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地爬取博客园博客爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 i ...
python3 [爬虫实战] selenium 爬取安居客
我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接: 安居客详情一开始直接用requests库进行网站的爬取,会访问不到数据的, ...
python爬虫爬取安居客并进行简单数据分析
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理爬取过程一.指定爬取数据二.设置请求头防止反爬三.分析页面并且与网页源码进行比对四.分析页面整理数据 ...
PyCharm+Scrapy爬取安居客楼盘信息
一.说明 1.1 开发环境说明开发环境--PyCharm 爬虫框架--Scrapy 开发语言--Python 3.6 安装第三方库--Scrapy.pymysql.matplotlib 数据库--M ...
【scrapy实践】_爬取安居客_广州_新楼盘数据
需求:爬取[安居客—广州—新楼盘]的数据,具体到每个楼盘的详情页的若干字段. 难点:楼盘类型各式各样:住宅别墅商住商铺写字楼,不同楼盘字段的名称不一样.然后同一种类型,比如住宅,又分为不同的情 ...
python3爬虫-通过requests获取安居客房屋信息
import requests from fake_useragent import UserAgent from lxml import etree from http import cookiej ...

随机推荐

理解PV操作和信号量
对于信号量,可以认为是一个仓库,有两个概念,容量和当前的货物个数. P操作从仓库拿货,如果仓库中没有货,线程一直等待,直到V操作,往仓库里添加了货物,为了避免P操作一直等待下去,会有一个超时时间. V ...
wget命令下载文件
wget -r -N -l -k http://192.168.99.81:8000/solrhome/ 命令格式: wget [参数列表] [目标软件.网页的网址] -V,–version 显示软 ...
应用maven自动部署的脚本
@(编程) 最近写了一个自动部署的脚本,可以一键部署到测试服务器或者生产服务器上,包括一个函数脚本和一个调用脚本,比较简单,记录如下. 特点如下: 部署前自动备份可以部署tomcat项目和java项 ...
Eclipse 使用mybatis generator插件自动生成代码
Eclipse 使用mybatis generator插件自动生成代码标签: mybatis 2016-12-07 15:10 5247人阅读评论(0) 收藏举报 .embody{ paddin ...
Python学习笔记（三十三）常用内置模块（2）collections_namedtuple_deque_defaultdict_OrderedDict_Counter
摘抄自:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431953239 ...
说说asp.net中的异常处理和日志追踪
关于异常的处理想必大家都了解try{}catch(){}finally{},这里就不再讲了.通过在VS里的"调试"-"异常",在弹出的异常对话框里的Common ...
[acmm week12]染色（容斥定理+组合数+逆元）
1003 染色 Time Limit: 1sec Memory Limit:256MB Description 今天离散数学课学了有关树的知识,god_v是个喜欢画画的人,所以他 ...
js、php本周第一天和本周最后一天
PHP:本周一 echo date('Y-m-d',(time()-((date('w')==0?7:date('w'))-1)*24*3600)); //w为星期几的数字形式,这里0为周日本周日 ...
ES6基础知识汇总
1.如何理解ECMAScript6? ECMAScript是什么,ECMASCript的作用 2.新增let关键字 let的用途 3.关键字const const作用,传址赋值 4.解构赋值解构赋值 ...
flask插件系列之flask_cors跨域请求
前后端分离在开发调试阶段本地的flask测试服务器需要允许跨域访问,简单解决办法有二: 使用flask_cors包安装 pip install flask_cors 初始化的时候加载配置,这样就可以 ...

python3 爬虫之爬取安居客二手房资讯(第一版)

python3 爬虫之爬取安居客二手房资讯(第一版)的更多相关文章

随机推荐

热门专题