python - 爬虫入门练习 爬取链家网二手房信息
import requests
from bs4 import BeautifulSoup
import sqlite3 conn = sqlite3.connect("test.db")
c = conn.cursor() for num in range(1,101):
url = "https://cs.lianjia.com/ershoufang/pg%s/"%num
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/64.0.3282.140 Safari/537.36',
} req = requests.session()
response = req.get(url, headers=headers, verify=False) info = response.text
f1 = BeautifulSoup(info,'lxml')
f2 = f1.find(class_='sellListContent')
f3 = f2.find_all(class_='clear LOGCLICKDATA') for i in f3:
data_id = i.find(class_="noresultRecommend").get('data-housecode')
href = i.find( class_ ="noresultRecommend img ").get('href')
title = i.find(class_ ="title").get_text()
adress = i.find(class_="houseInfo").get_text().split("|")
jage = i.find(class_="totalPrice").get_text() # print(k,data_id, '|', title, '|', adress, '|', jage, '|', href)
# print("---") dz = ''
fx = ''
dx = ''
cx = ''
zx = ''
dt = ''
if len(adress) == 6:
dz = adress[0]
fx = adress[1]
dx = adress[2]
cx = adress[3]
zx = adress[4]
dt = adress[5]
elif len(adress) ==5:
dz = adress[0]
fx = adress[1]
dx = adress[2]
cx = adress[3]
zx = adress[4]
dt = 'None'
# print(dz,fx,dx,cx,zx,dt)
elif len(adress) < 5:
print(dz, fx, dx, cx, zx, dt) info = {'nid':int(data_id),
'title':title,
'dz':dz,
'fx':fx,
'dx':dx,
'cx':cx,
'zx':zx,
'dt':dt,
'jg':jage,
'url':href}
# print(info) x = info
sql = "insert into rsf(nid,dz,fx,dx,cx,zx,dt,jg,title,url)values(%d,'%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (x['nid'], x['dz'], x['fx'], x['dx'], x['cx'], x['zx'], x['dt'], x['jg'], x['title'], x['url'])
cursor = c.execute(sql)
conn.commit()
# print("OK") conn.close() # import json
# file_path = 'info%s.txt'%num
# json_data = json.dumps(info_list).encode('utf8')
# with open(file_path,'wb') as f:
# f.write(json_data)
sqlite3 读取数据
import sqlite3
conn = sqlite3.connect("test.db")
c = conn.cursor() #sqlit3 查询数据
cursor = c.execute("SELECT * from rsf")
k = 1
for row in cursor:
num = float(row[7].split('万')[0])
if 30.0 < num < 50.0:
print(k,row[1],row[3],num,row[-2])
k +=1 conn.close()
python - 爬虫入门练习 爬取链家网二手房信息的更多相关文章
- Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 爬虫结构: 其中封装了一个数据库处理模 ...
- 43.scrapy爬取链家网站二手房信息-1
首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下: url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套 ...
- 44.scrapy爬取链家网站二手房信息-2
全面采集二手房数据: 网站二手房总数据量为27650条,但有的参数字段会出现一些问题,因为只给返回100页数据,具体查看就需要去细分请求url参数去请求网站数据.我这里大概的获取了一下筛选条件参数,一 ...
- python爬虫:利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
- Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图 来源:李英杰 链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
- Scrapy实战篇(一)之爬取链家网成交房源数据(上)
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
- python3 爬虫教学之爬取链家二手房(最下面源码) //以更新源码
前言 作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构 这里以广州链家二手房为例:http:/ ...
- Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面 作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
- Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
随机推荐
- poj 3258"River Hopscotch"(二分搜索+最大化最小值问题)
传送门 https://www.cnblogs.com/violet-acmer/p/9793209.html 题意: 有 N 块岩石,从中去掉任意 M 块后,求相邻两块岩石最小距离最大是多少? 题解 ...
- c#委托中的匿名方法和lambda表达式
一.一般委托方式 Func<int, int, int> AddMethodHander; public unName() { AddMethodHander += AddMethod; ...
- 高级组件——弹出式菜单JPopupMenu
弹出式菜单JPopupMenu,需要用到鼠标事件.MouseListener必须要实现所有接口,MouseAdapter是类,只写你关心的方法,即MouseAdapter实现了MouseListene ...
- HTML学习笔记Day4
一.浮动属性 1.首先要知道,div是块级元素,在页面中独占一行,自上而下排列,也就是传说中的流: 无论多么复杂的布局,其基本出发点均是:“如何在一行显示多个div元素”: 显然标准流已经无法满足需求 ...
- SSH框架下ajax调用action并生成JSON再传递到客户端【以get和post方式提交】
需要完成的任务: 主要是把JSP页面上图片ID传给服务器端,服务器读取cookie看是否有username,如果有则根据ID读取MongoDB数据库,读出图片URL,再存放到mysql中的collec ...
- qml: 自定义按钮-- 仿QML自带控件;
import QtQuick 2.0 Rectangle { id: btn; width:; height:; radius:; border.color: "#A3A3A3"; ...
- 如何在springcloud分布式系统中实现分布式锁?
一.简介 一般来说,对数据进行加锁时,程序先通过acquire获取锁来对数据进行排他访问,然后对数据进行一些列的操作,最后需要释放锁.Redis 本身用 watch命令进行了加锁,这个锁是乐观锁.使用 ...
- go实现Windows服务注册
go实现Windows服务注册 1.nssm下载:http://nssm.cc/download 2.服务注册 nssm.exe install 服务名 程序 样例如下: .\nssm.exe in ...
- sklearn-数据预处理scale
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
- JAVA核心技术I---JAVA基础知识(列表List)
一:List了解 (一)List:列表 –有序的Collection –允许重复元素 –{,,,{,},,} (二)List:主要实现 同步/非同步:针对线程而言 –ArrayList(非同步的) – ...