python3 [爬虫实战] selenium 爬取安居客

我们爬取的网站：https://www.anjuke.com/sy-city.html

获取的内容：包括地区名，地区链接：

安居客详情

一开始直接用requests库进行网站的爬取，会访问不到数据的，会直接出现访问的页面出现错误的信息。
selenium 的使用,我的博客上有说过：

代码

 # -*- coding: utf-8 -*-
 # @Time    :
 # @Author  :
 # @Email   :
 # @File    :

 import requests
 import re
 from bs4 import BeautifulSoup
 import csv
 import time
 import threading
 from lxml import etree
 from selenium import webdriver
 from openpyxl import Workbook

 num0 = 1  # 用来计数
 baseurl = 'https://www.anjuke.com/sy-city.html'

 wb = Workbook()
 ws = wb.active
 ws.title = '安居客'
 ws.cell(row=1, column=1).value = '城市链接'
 ws.cell(row=1, column=2).value = '城市名称'

 def gethtml():
     chromedriver = "chromedriver.exe"
     browser = webdriver.Chrome(chromedriver)
     browser.get(baseurl)
     time.sleep(5)

     #让页面滚动到下面,window.scrollBy(0, scrollStep),ScrollStep ：间歇滚动间距
     js = 'window.scrollBy(0,3000)'
     browser.execute_script(js)
     js = 'window.scrollBy(0,5000)'
     browser.execute_script(js)
     html = browser.page_source
     return html

 def parseHotBook(html):
     # print(html)
     regAuthor = r'.*?<a href="(.*?)</a>'
     reg_author = re.compile(regAuthor)
     authorother = re.findall(reg_author, html)

     global num0

     for info in authorother:
         verinfo = info.split('">')
         print(verinfo[0],verinfo[1].replace('class="hot',''))

         num0 = num0 + 1
         name = verinfo[0]
         link = verinfo[1].replace('class="hot','')
         ws.cell(row=num0, column=1).value = name
         ws.cell(row=num0, column=2).value = link
     wb.save('安居客2' + '.xlsx')
     print('爬取成功')

 if __name__=='__main__':
     html = gethtml()
     parseHotBook(html)

文本存储还有一些瑕疵，因为用的是正则表达式，并没有进行很严格的匹配
贴上爬取内容：

安居客爬取内容

python3 [爬虫实战] selenium 爬取安居客的更多相关文章

Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
python爬虫爬取安居客并进行简单数据分析
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理爬取过程一.指定爬取数据二.设置请求头防止反爬三.分析页面并且与网页源码进行比对四.分析页面整理数据 ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
python爬取安居客二手房网站数据（转）
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
PyCharm+Scrapy爬取安居客楼盘信息
一.说明 1.1 开发环境说明开发环境--PyCharm 爬虫框架--Scrapy 开发语言--Python 3.6 安装第三方库--Scrapy.pymysql.matplotlib 数据库--M ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

随机推荐

二维码js生成库
jr-qrcode 把字符串生成二维码,并以Base64 URL形式输出. 支持白色二维码,即反色二维码. 兼容性插件使用了H5的canvas特性进行二维码绘制,最后输出base64 url,因此本 ...
nginx简单安装设置
1.Nginx ("engine x") 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器.Nginx是由Igor Sysoev为俄罗斯访问量第二 ...
wave音频格式一窥
学习需要不断的刨根问底,首先,RIFF是微软多媒体格式的一个规范. 其次,有很多用C++实现wave解析的好文章.
go Mutex （互斥锁）和RWMutex（读写锁）
转载自: https://blog.csdn.net/skh2015java/article/details/60334437 golang中sync包实现了两种锁Mutex (互斥锁)和RWMute ...
【转】火星坐标系 (GCJ-02) 与百度坐标系 (BD-09) 的转换算法
关于 GCJ-02 和 BD-09 ,请参考 http://developer.baidu.com/map/question.htm#qa0043 . 算法代码如下,其中 bd_encrypt 将 G ...
javamail接收邮件(zt)
zt from:http://xiangzhengyan.iteye.com/blog/85961 import <a href="http://lib.csdn.net/base/j ...
mysql经典面试题
数据库优化:这个优化法则归纳为5个层次:1. 减少数据访问(减少磁盘访问)2. 返回更少数据(减少网络传输或磁盘访问)3. 减少交互次数(减少网络传输)4. 减少服务器CPU开销(减少CPU及内存开销 ...
oracle数据库的备份与还原（本地及远程操作）
数据的导出 exp qh/qh@qh file='d:\backup\qh\qh20060526.dmp' grants=y full=n 1 将数据库TEST完全导出,用户名system 密 ...
C++ 延时等待(sleep/timer/wait)
原文链接:http://blog.csdn.net/tangweide/article/details/7063747 (-)使用_sleep()函数 #include <iostream> ...
java之web开发过滤器
我们通常上网的时候都会遇到一个问题,看到一个视频之类的,想要点开观看,点击之后,网页提醒你:您尚未登录,是否要登录?然后巴拉巴拉跑去输账号密码. 那么这就是一个过滤器的功能,当你要访问一个资源的时候 ...

python3 [爬虫实战] selenium 爬取安居客

python3 [爬虫实战] selenium 爬取安居客的更多相关文章

随机推荐

热门专题