Python 爬58同城城市租房信息

爬取完会自动生成csv电子表格文件，含有房价、押付、链接等信息

环境

py2.7

pip install lxml

pip install cssselect

 #coding:utf-8

 import csv

 import urllib2

 import lxml.html

 import time

 import sys

 from lxml.cssselect import CSSSelector

 import threading

 reload(sys)

 sys.setdefaultencoding('utf8')

 print "请输入要爬取得城市简称例如bj（北京）："

 CITY=str(raw_input(">>>"))

 def download(url, user_agent='Google', num_retries=2):

     headers = {'User-agent': user_agent}

     request = urllib2.Request(url, headers=headers)

     try:

         html = urllib2.urlopen(request).read()

     except urllib2.URLError as e:

         html = None

         if num_retries > 0:

             if hasattr(e, 'code') and 500 <= e.code < 600:

                 return download(url, num_retries-1)

     return html

 def get_data(url):

     html_text_detail = download(url)

     try:

         tree = lxml.html.fromstring(html_text_detail)

         house_ext = CSSSelector('div.house-pay-way > span:nth-child(3)')

         house_title = CSSSelector('div.main-wrap > div.house-title > h1')

         house_pay_way1 = CSSSelector('div.house-pay-way > span:nth-child(1)')

         house_pay_way2 = CSSSelector('div.house-pay-way > span:nth-child(2)')

         print house_title(tree)[0].text_content()

         print '%s|%s' % (house_pay_way1(tree)[0].text_content(), house_pay_way2(tree)[0].text_content())

         for i in range(7):

             for j in range(2):

                 css = 'div.house-desc-item > ul.f14 > li:nth-child(%s) > span:nth-child(%s)' % (i+1, j+1)

                 house_info = CSSSelector(css)

                 data = [

                 ('标题 ： ',house_title(tree)[0].text_content(), '#',url),

                 ('价格： ',house_pay_way1(tree)[0].text_content(), '#'),

                 ('压付： ',house_pay_way2(tree)[0].text_content(), '#'),

                 ('详情： ',house_info(tree)[0].text_content().replace(' ', ''), '#')]

                 with open('%s_houses.csv'%CITY,'ab+') as csvfile:

                     writer = csv.writer(csvfile,lineterminator='\n')

                     writer.writerows(data)

     except TypeError as e:

         pass

     except IndexError as e:

         pass

 def get_url(html):

     tree = lxml.html.fromstring(html)

     sel = CSSSelector('div.mainbox > div.main > div.content > div.listBox > ul.listUl > li > div.des > h2 > a')

     url_list = []

     for i in sel(tree):

         if i.get('href') not in url_list:

             url_list.append(i.get('href'))

     return url_list

 if __name__ == '__main__':

     url_index = 'http://%s.58.com/chuzu/'%CITY

     html_text_list = download(url_index)

     url_list = get_url(html_text_list)

     for url_detail in url_list:

         thr = threading.Thread(target=get_data, args=(url_detail,))

         thr.start()

         time.sleep(0.001)

py58.py

Python 爬58同城城市租房信息的更多相关文章

利用python爬取贝壳网租房信息
最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了. 1. 利用lxml中的xpath ...
Python 爬取赶集网租房信息
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse impor ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
python爬虫项目(scrapy-redis分布式爬取房天下租房信息)
python爬虫scrapy项目(二) 爬取目标:房天下全国租房信息网站(起始url:http://zu.fang.com/cities.aspx) 爬取内容:城市:名字:出租方式:价格:户型:面积: ...
关于python的中国历年城市天气信息爬取
一.主题式网络爬虫设计方案(15分)1.主题式网络爬虫名称关于python的中国城市天气网爬取 2.主题式网络爬虫爬取的内容与数据特征分析爬取中国天气网各个城市每年各个月份的天气数据, 包括最高城 ...
Python爬取房天下二手房信息
一.相关知识 BeautifulSoup4使用 python将信息写入csv import csv with open("11.csv","w") as csv ...
python爬取北京政府信件信息01
python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度 ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
python爬取 “得到” App 电子书信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...

随机推荐

第三组通信一班 030 OSPFv2、OSPFv3综合实验
一. 实验目的掌握 OSPFv2. OSPFv3 的配置方法掌握在帧中继环境下OSPFv2. OSPFv3 的配置方法掌握 OSPFv2. OSPFv3 NSSA 的配置方法 ...
Unable to load DLL 'api-ms-win-core-localization-l1-2-0.dll': 找不到指定的模块
asp.net mvc 4.6 发布到WinServer2008R2 SP1 提示错误 Unable to load DLL 'api-ms-win-core-localization-l1-2-0 ...
Java语法基础学习DayFourteen（IO）
一.java.io.FIle类 1.特点 (1)凡是与输入.输出相关的类.接口等都定义在java.io包下. (2)File是一个类,使用构造器创建对象,此对象对应一个文件(.txt .avi .do ...
[IntelliJ IDEA入门] 新建一个Java项目
新建一个Project 是否有JDK配置选择JavaEE 点击Next 项目路径和文件 .idea (directory based) 创建项目的时候自动创建一个 .idea 的项目配置目录来保存项 ...
https://www.cnblogs.com/wuyepiaoxue/p/5661194.html
https://www.cnblogs.com/wuyepiaoxue/p/5661194.html
C# 连接池开发，多连接高效应用开发，多连接自动维护管理。
本文将使用一个Github开源的组件库技术来实现连接池的操作,应用于一些情况下的频繁的网络连接操作. github地址:https://github.com/dathlin/HslCommunicat ...
ecmall 后台添加新菜单
所谓的开发新菜单,其实是和开发模块相对比的,之前说的开发模块,是在应对较大的,或者较为复杂,又相对独立于其他功能的项目需求. 而开发菜单,就是简单的在后台增加一个一级菜单以及其子菜单,或者直接在现有的 ...
lua经典问题
lua是一门比较简单的脚本语言,但是有些问题经常碰到,在这里总结一下: 1 lua 传参,如果参数是table,则相当于传引用 2 lua中只有nil和false返回假 3 lua and 和 or ...
《Linux内核原理与分析》第三周作业
实验:基于kernel的简单的时间片轮转多道程序内核 1.实验要求完成一个简单的时间片轮转多道程序内核代码 2.实验过程进入实验楼的linux环境,打开shell,输入以下代码: cd Linux ...
CDI的分析
CDI是一组服务,它们一起使用,使开发人员可以轻松地在Web应用程序中使用企业bean和JavaServer Faces技术.CDI设计用于有状态对象,还有许多更广泛的用途,允许开发人员以松散耦合但类 ...

Python 爬58同城 城市租房信息

Python 爬58同城 城市租房信息的更多相关文章

随机推荐

热门专题

Python 爬58同城城市租房信息

Python 爬58同城城市租房信息的更多相关文章