石家庄政民互动数据爬取-写在前面

今天，咱抓取一个网站，这个网站呢，涉及的内容就是 网友留言和回复，特别简单，但是网站是gov的。网址为

http://www.sjz.gov.cn/col/1490066682000/index.html

首先声明，为了学习，绝无恶意抓取信息，不管你信不信，数据我没有长期存储，预计存储到重装操作系统就删除。

石家庄政民互动数据爬取-网页分析

点击更多回复，可以查看到相应的数据。

数据量很大14万条,，数据爬完，还可以用来学习数据分析，真是nice

经过分析之后，找到了列表页面。

数据的爬取这次我们采用的是 selenium ，解析页面采用lxml，数据存储采用pymongo ，关于selenium 你可以去搜索引擎搜索相关的教程，好多的，主要就是打开一个浏览器，然后模拟用户的操作，你可以去系统的学习一下。

石家庄政民互动数据爬取-撸代码

导入必备模块

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from lxml import etree

import pymongo

import time

石家庄政民互动数据爬取-打开浏览器，获取总页码

这个操作最重要的步骤，你搜索之后就会知道，需要提前下载一个叫做 chromedriver.exe 的东东，然后把他配置好，自行解决去吧~



# 加载浏览器引擎，需要提前下载好 chromedriver.exe 。

browser = webdriver.Chrome()

wait = WebDriverWait(browser,10)

def get_totle_page():

    try:

    	# 浏览器跳转

        browser.get("http://www.sjz.gov.cn/zfxxinfolist.jsp?current=1&wid=1&cid=1259811582187")

        # 等待元素加载到

        totle_page = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,'input[type="hidden"]:nth-child(4)'))

        )

		# 获取属性

        totle = totle_page.get_attribute('value')

        # 获取首页数据，这个地方先不必须

        ##############################

        #get_content()

        ##############################

        return totle

    except TimeoutError:

        return get_totle_page()

上面的代码在测试之后，你会得到如下结果

这时候，你已经得到20565这个总页码数目了，只需要进行一系列循环的操作即可，接下来有一个重要的函数，叫做next_page 这个函数里面，需要进行一个模拟用户行为的操作，输入一个页码，然后点击跳转。

def main():

    totle = int(get_totle_page()) # 获取完整页码

    for i in range(2,totle+1):

        print("正在加载第{}页数据".format(i))

        # 获取下一页

        next_page(i)

if __name__ == '__main__':

    print(main())

输入页码，点击跳转

def next_page(page_num):

    try:

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,"#pageto"))

        )

        submit = wait.until(

            EC.element_to_be_clickable((By.CSS_SELECTOR,"#goPage"))

        )

        input.clear() # 清空文本框

        input.send_keys(page_num)  # 发送页码

        submit.click()  # 点击跳转

        #get_content(page_num)

    except TimeoutException:

        next_page(page_num)

以上代码实现的效果动态演示为

石家庄政民互动数据爬取-解析页面

可以进行翻页之后，通过browser.page_source 获取网页源码，网页源码通过lxml进行解析。编写相应的方法为

def get_content(page_num=None):

    try:

        wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, "table.tably"))

        )

        html = browser.page_source   # 获取网页源码

        tree = etree.HTML(html)  # 解析

        tables = tree.xpath("//table[@class='tably']")

        for table in tables:

            name = table.xpath("tbody/tr[1]/td[1]/table/tbody/tr[1]/td")[0].text

            public_time = table.xpath("tbody/tr[1]/td[1]/table/tbody/tr[2]/td")[0].text

            to_people = table.xpath("tbody/tr[1]/td[1]/table/tbody/tr[3]/td")[0].text

            content = table.xpath("tbody/tr[1]/td[2]/table/tbody/tr[1]/td")[0].text

            repl_time  =  table.xpath("tbody/tr[2]/td[1]/table/tbody/tr[1]/td")[0].text

            repl_depart = table.xpath("tbody/tr[2]/td[1]/table/tbody/tr[2]/td")[0].text

            repl_content = table.xpath("tbody/tr[2]/td[2]/table/tbody/tr[1]/td")[0].text

            # 清理数据

            consult = {

                "name":name.replace("网友：",""),

                "public_time":public_time.replace("时间：",""),

                "to_people":to_people.replace("留言对象：",""),

                "content":content,

                "repl_time":repl_time.replace("时间：",""),

                "repl_depart":repl_depart.replace("回复部门：",""),

                "repl_content":repl_content

            }

            # 数据存储到mongo里面

            #save_mongo(consult)

    except Exception:  # 这个地方需要特殊说明一下

        print("异常错误X1")

        print("浏览器休息一下")

        time.sleep(60)

        browser.get("http://www.sjz.gov.cn/zfxxinfolist.jsp?current={}&wid=1&cid=1259811582187".format(page_num))

        get_content()

在实际的爬取过程中发现，经过几百页之后，就会限制一下IP，所以当我们捕获页面信息出错，需要暂停一下，等待页面正常之后，在继续爬取数据。

数据存储到mongodb里面

爬取到的最终数据，我存储到了mongodb里面，这个就没有什么难度了，我们按照常规的套路编写即可。

写在最后

由于这次爬取的网站是gov的，所以建议不要用多线程，源码也不发送到github上去了，要不惹祸，如果有任何疑问，请评论。nice boy

Python爬虫入门教程 15-100 石家庄政民互动数据爬取的更多相关文章

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy
1. 海王评论数据爬取前分析海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ 摘录一个评论零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒.打斗和音效方面 ...
Python爬虫入门教程 4-100 美空网未登录图片爬取
美空网未登录图片----简介上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
爬前叨叨缘由今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的.. ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...

随机推荐

php八种常用函数
八种常用的数学函数: ① abs(x):求绝对值 ② ceil(x),floor(x):向上/下取最接近的整数 ③ cos(x),sin(x),tan(x):三角函数 ④ min(),max( ...
昂贵的聘礼 POJ - 1062（最短路）
年轻的探险家来到了一个印第安部落里.在那里他和酋长的女儿相爱了,于是便向酋长去求亲.酋长要他用10000个金币作为聘礼才答应把女儿嫁给他.探险家拿不出这么多金币,便请求酋长降低要求.酋长说:" ...
BigDecimal.valueOf
Those are two separate questions: "What should I use for BigDecimal?" and "What do I ...
xpath路径定位
preceding-sibling选择同级层所有节点向前查找 //div[@id='id1']/preceding-sibling::div/a 例如:“更多产”超链接的同级向上数第二个元素,即“登陆 ...
org.apache.http.client.ClientProtocolException: URI does not specify a valid host name
问题截图: 原因:http:// 少了两个//
ubuntu 安装lnmp、swoole、redis
1.安装lnmp (此处也可用于centos) 登陆服务器后 cd /var screen -S lnmp wget http://soft.vpser.net/lnmp/lnmp1.5.tar.g ...
打包java程序生成exe
打包java程序生成exe 目标我们知道c++的控制台程序编译运行以后就会生成一个exe可执行文件,在电脑上可以直接双击运行,但是java是跨平台的语言,编译运行以后的字节码文件.class是和平台 ...
php基础-cookie&session
设置cookie //设置cookie setcookie('key', 'value', time() + 60, '/'); 设置session //必须开启session session_sta ...
CSS文字的跑马灯特效
上学时同学有个来电带跑马灯的手机,可把我羡慕坏了,可等我买的起手机时,跑马灯不流行了,甚伤萝卜心! 今天就用CSS做个文字的跑马灯特效,缅怀一下本萝卜逝去的青春! 道具:会敲代码的巧手.七窍玲珑心.会 ...
gradle环境变量设置_配置注意事项
看<Spring源码深度解析>的时候,在windows7系统中按照书里配置gradle环境变量,配置完后输入gradle -v,一直显示:'gradle'不是内部或外部命令,也不是可执行的 ...

Python爬虫入门教程 15-100 石家庄政民互动数据爬取