Python 爬取赶集网租房信息

代码已久,有可能需要调整

#coding:utf-8

from bs4 import BeautifulSoup        #有这个bs4不用正则也可以定位要爬取的内容了

from urlparse import urljoin

import requests

import csv

import html5lib

URL = 'http://hn.ganji.com/fang1/'    #爬取的目标地址

ADDR = 'http://hn.ganji.com/'

if __name__ == '__name__'

    start_page = 1    #开始爬取的页面

    end_page = 10    #结束爬取的页面

    price = 7        #爬取的价格

    #f = open('ganji.csv','wb')这样打开一个文件最后需要关闭

    with open('ganji.csv','wb') as f:    #创建一个csv文件,with ... as f表示打开文件最后用完自动关闭,一般和打开文件一起用

    #delimiter=','表示以逗号为分隔符,如:'天通苑一区','天通苑','1500'

    csv_writer = csv.writer(f,delimiter = ',')

    print('start..........')

    while start_page <= end_page:

    start_page += 1

        print('get:{0}'.format(URL.format(page = start_page,price = price)))#开始爬取

        response = requests.get(URL.format(page = start_page,price = price))#获取页面

        html = BeautifulSoup(response.text,'html.parser')

        #第一个参数是要抓取的html文本,第二个是使用哪种解析器(python默认的解析器)

        house_list = html.select('.f-list > .f-list-item > .f-list-item-wrap')    #括号里面的表示html标签的层次,具体可查看赶集网

        #获取房源信息,也可以用正则区匹配

        if not house_list:

            break

        for house in house_list:

            house_title = house.select('.title > a')[0].string.encode('utf-8')    #[0]取列表的第一个标签

            house_addr = house.select('.address > .area > a')[-1].string.encode('utf-8')    #[-1]取列表的第一个标签

            house_price = house.select('.info > .price > .num')[0].string.encode('utf-8')

            house_url = urljoin(ADDR,house.select('.title > a')[0]['href'])

            csv_writer.writerow([house_title,house_addr,house_price,house_url])

    print('end.........')

Python 爬取赶集网租房信息的更多相关文章

利用python爬取贝壳网租房信息
最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了. 1. 利用lxml中的xpath ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
python爬取 “得到” App 电子书信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...
Python爬取房天下二手房信息
一.相关知识 BeautifulSoup4使用 python将信息写入csv import csv with open("11.csv","w") as csv ...
python爬取北京政府信件信息01
python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度 ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

随机推荐

并查集(Disjoint Set Union,DSU)
定义: 并查集是一种用来管理元素分组情况的数据结构. 作用: 查询元素a和元素b是否属于同一组合并元素a和元素b所在的组优化方法: 1.路径压缩 2.添加高度属性拓展延伸: 分组并查集带权并查 ...
在url里请求id
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
spark代码写入hdfs错误
报错: org.apache.hadoop.security.AccessControlException: Permission denied: user=hgm, access=WRITE 其实就 ...
WPF ItemControl的源与选择项问题
具体场景: datagrid的行中有个combox 每个行是一个实例A 每个行中的SelectedItem是实例A的一个属性B 我希望实现datagrid的复制Command,具体做法是A序列化反序列 ...
C/C++ GBK和UTF8之间的转换
{ 关于GBK和UTF-8之间的转换,很多初学者会很迷茫. 一般来说GBK和UTF-8是文字的编码方式,其对应的内码是不一样的,所以GBK和UTF-8的转换需要对内码进行一一映射,然后进行转换. 对于 ...
查看git HEAD
如果想看 HEAD 指向,可以通过 cat .git/HEAD 查看, 如果 HEAD 指向的是一个引用,还可以用 git symbolic-ref HEAD 查看它的指向.
使用springBoot和mybatis整合时出现如下错误：org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)解决方案
在pom.xml文件中添加如下: <build> <resources> <resource> & ...
【转】tomcat优化-有改protocol 和缓存集群方案
tomcat优化在线上环境中我们是采用了tomcat作为Web服务器,它的处理性能直接关系到用户体验,在平时的工作和学习中,归纳出以下七种调优经验. 1. 服务器资源服务器所能提供CPU.内存.硬 ...
SQL 空值
SQL NULL Values(空值) 什么是SQL NULL值? SQL 中, NULL 用于表示缺失的值.数据表中的 NULL 值表示该值所处的字段为空. 具有NULL值的字段是没有值的字段. 如 ...
oracle主要的动态视图与基表的对应关系
动态视图基表 GV$ACCESS x$ksuses,x$kglob,x$kgldp,x$kgllk GV$ACTIVE_INSTANCES x$ksimsi GV$ACTIVE_SESS_POOL_ ...

Python 爬取赶集网租房信息

Python 爬取赶集网租房信息的更多相关文章

随机推荐

热门专题