[Python爬虫] 之十三：Selenium +phantomjs抓取活动树会议活动数据

　抓取活动树网站中会议活动数据（http://www.huodongshu.com/html/index.html）

　具体的思路是[Python爬虫] 之十一中抓取活动行网站的类似，都是用多线程来抓取，但是由于活动树网站，每个关键字搜索页的ur是固定，比如搜索“数字”结果有470个结果，没页10条记录，第二页的url和第一页的 url是一样的。

　因此针对每个关键字用一个线程进行搜索。

　　　　具体代码如下：

# coding=utf-8
import os
import re
from selenium import webdriver
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.keys import Keys
import time
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.select import Select
import IniFile
from selenium.webdriver.common.keys import Keys
from threading import Thread
import thread
import LogFile
import urllib
import mongoDbBase
#抓取数据线程类
class ScrapyData_Thread(Thread):
    #抓取数据线程类
    def __init__(self,webSearchUrl,pageCountLable,htmlLable,originalUrlLabel,nextUrlLabel,keyword,db):
        '''
        构造函数
        :param webSearchUrl: 搜索页url
        :param pageCountLable: 搜索页数标签
        :param htmlLable: 要搜索的标签
        :param OriginalUrlLabel: 每个记录对应的url标签
        :param nextUrlLabel: 下一页标签
        :param keywords: 要搜索的关键字，多个关键字中间用分号(;)隔开
        :param db: 保存数据库引擎
        '''
        Thread.__init__(self)

        self.webSearchUrl = webSearchUrl
        self.pageCountLable = pageCountLable
        self.htmlLable = htmlLable
        self.originalUrlLabel = originalUrlLabel
        self.nextUrlLabel = nextUrlLabel
        self.keyword = keyword
        self.db = db

        # IEDriverServer = self.cf.GetValue("section", "IEDriverServer")
        # os.environ["webdriver.ie.driver"] = IEDriverServer
        # self.urldriver = webdriver.Ie(IEDriverServer)

        self.driver = webdriver.PhantomJS()
        self.wait = ui.WebDriverWait(self.driver, 20)
        self.driver.maximize_window()

    def compareDate(self, dateLeft, dateRight):
        '''
        比较俩个日期的大小
        :param dateLeft: 日期 格式2017-03-04
        :param dateRight:日期 格式2017-03-04
        :return: 1：左大于右，0：相等，-1：左小于右
        '''
        dls = dateLeft.split('-')
        drs = dateRight.split('-')
        if len(dls) > len(drs):
            return 1
        if int(dls[0]) == int(drs[0]) and int(dls[1]) == int(drs[1]) and int(dls[2]) == int(drs[2]):
            return 0

        if int(dls[0]) > int(drs[0]):
            return 1
        elif int(dls[0]) == int(drs[0]) and int(dls[1]) > int(drs[1]):
            return 1
        elif int(dls[0]) == int(drs[0]) and int(dls[1]) == int(drs[1]) and int(dls[2]) > int(drs[2]):
            return 1
        return -1

    def date_isValid(self, strDateText):
        '''
        判断日期时间字符串是否合法：如果给定时间大于当前时间是合法，或者说当前时间给定的范围内
        :param strDateText: 三种格式 '017.04.27 ~ 04.28'; '2017.04.20  08:30 ~ 12:30' ; '2015.12.29 ~ 2016.01.03'
        :return: True:合法；False:不合法
        '''
        datePattern = re.compile(r'\d{4}-\d{2}-\d{2}')
        date = strDateText.replace('.', '-')
        strDate = re.findall(datePattern, date)
        currentDate = time.strftime('%Y-%m-%d')

        if len(strDate) == 2:
            if self.compareDate(strDate[1], currentDate) > 0:
                return True
        elif len(strDate) == 1:
            if self.compareDate(strDate[0], currentDate) >= 0:
                return True
            else:
                datePattern = re.compile(r'\d{4}-\d{2}-\d{2}\s~\s\d{2}-\d{2}')
                #2015-06-04  13:30 ~ 17:30
                strDate = re.findall(datePattern, date)
                if len(strDate) >0:
                    if self.compareDate(strDate[0][0:5] + strDate[0][13:], currentDate) >= 0:
                        return True
                else:
                    return False
        return False

    def run(self):
        print ''
        print '关键字：%s ' % self.keyword
        self.driver.get(self.webSearchUrl)
        time.sleep(5)
        # 记录数
        pageCount_elements = self.driver.find_elements_by_xpath(self.pageCountLable)
        if len(pageCount_elements) > 0:
            strCount = pageCount_elements[0].text.encode('utf8')
            pageCount = int(strCount) / 10
            if int(strCount) % 10 > 0:
                pageCount = pageCount + 1

            page_Count = pageCount
            pageIndex = 0
            kword = self.keyword
            recordCount = 0
            while pageCount > 0:
                pageCount = pageCount - 1
                if pageIndex > 0:
                    next_element = self.driver.find_elements_by_xpath(self.nextUrlLabel)
                    if len(next_element) > 0:
                        next_element[0].click()
                        time.sleep(3)

                self.wait.until(lambda driver: self.driver.find_elements_by_xpath(self.htmlLable))
                Elements = self.driver.find_elements_by_xpath(self.htmlLable)

                # 查找微博对应的原始url
                urlList = []
                self.wait.until(lambda driver: self.driver.find_elements_by_xpath(self.originalUrlLabel))
                hrefElements = self.driver.find_elements_by_xpath(self.originalUrlLabel)
                for hrefe in hrefElements:
                    urlList.append(hrefe.get_attribute('href').encode('utf8'))

                index = 0
                strMessage = ' '
                strsplit = '\n------------------------------------------------------------------------------------\n'
                index = 0
                # 每页中有用记录
                usefulCount = 0
                meetingList = []
                for element in Elements:
                    txt = element.text.encode('utf8')

                    txts = txt.split('\n')

                    # strDate = re.findall(self.datePattern, txt)
                    # 日期大于今天并且搜索的关键字在标题中才认为是复合要求的数据
                    if self.date_isValid(txts[1]) and txts[0].find(kword) > -1:
                        dictM = {'title': txts[0], 'date': txts[1],
                                 'url': urlList[index], 'keyword': kword, 'info': txt}
                        meetingList.append(dictM)

                        # print ' '
                        # print txt
                        # print '活动链接：' + urlList[index]
                        # print strsplit
                        #
                        # strMessage = txt + "\n"
                        # strMessage += '活动链接：' + urlList[index] + "\n"
                        # strMessage += strsplit
                        # strMessage = unicode(strMessage, 'utf8')
                        # # log.WriteLog(strMessage)
                        usefulCount = usefulCount + 1
                        recordCount = recordCount + 1
                    index = index + 1

                pageIndex = pageIndex + 1
                if usefulCount == 0:
                    break
                else:
                    self.db.SaveMeetings(meetingList) #保存数据库中

            print "共浏览了: %d 页数据" % page_Count
            print "共抓取了: %d 个符合条件的活动记录" % recordCount

        self.driver.close()
        self.driver.quit()

if __name__ == '__main__':

    configfile = os.path.join(os.getcwd(), 'activity.conf')
    cf = IniFile.ConfigFile(configfile)
    webSearchUrl = cf.GetValue("section", "webSearchUrl")
    pageCountLable = cf.GetValue("section", "pageCountLable")
    htmlLable = cf.GetValue("section", "htmlLable")
    originalUrlLabel = cf.GetValue("section", "originalUrlLabel")
    nextUrlLabel = cf.GetValue("section", "nextUrlLabel")

    keywords= cf.GetValue("section", "keywords")
    keywordlist = keywords.split(';')
    start = time.clock()
    db = mongoDbBase.mongoDbBase()
    for keyword in keywordlist:
        if len(keyword) > 0:
            url = webSearchUrl + urllib.quote(keyword)
            t = ScrapyData_Thread(url, pageCountLable, htmlLable,originalUrlLabel,nextUrlLabel,keyword,db)
            t.setDaemon(True)
            t.start()
            t.join()

    end = time.clock()
    print "整个过程用时间: %f 秒" % (end - start)

　　
配置文件内容：

[section]
#IE驱动的路径
iedriverserver = C:\Program Files\Internet Explorer\IEDriverServer.exe

#要搜索的标签，如果有多个，中间用分号隔开
htmlLable = //div[@id ='eventList']/div[@class ='list']

#要获取爬虫也是的标签
pageCountLable = //span[@id='eventNumber']

#给定网址的搜索首页Url
webSearchUrl = http://www.huodongshu.com/html/find_search.html?search_keyword=

#查找对应的原始url
originalUrlLabel = //div[@class='listR']/h2/a

#下一页链接对应的标签
nextUrlLabel = //dt[@class='next']/a

#文本输入框要搜索的关键字
keywords = 互联网电视;智能电视;数字;影音;家庭娱乐;节目;视听;版权;数据

[Python爬虫] 之十三：Selenium +phantomjs抓取活动树会议活动数据的更多相关文章

[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
[Python爬虫] 之九：Selenium +phantomjs抓取活动行中会议活动（单线程抓取）
思路是这样的,给一系列关键字:互联网电视:智能电视:数字:影音:家庭娱乐:节目:视听:版权:数据等.在活动行网站搜索页(http://www.huodongxing.com/search?city=% ...
C#使用Selenium+PhantomJS抓取数据
本文主要介绍了C#使用Selenium+PhantomJS抓取数据的方法步骤,具有很好的参考价值,下面跟着小编一起来看下吧手头项目需要抓取一个用js渲染出来的网站中的数据.使用常用的httpclie ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
[Python爬虫] 之十一：Selenium +phantomjs抓取活动行中会议活动信息
一.介绍本例子用Selenium +phantomjs爬取活动行(http://www.huodongxing.com/search?qs=数字&city=全国&pi=1)的资讯信息 ...
[Python爬虫] 之十：Selenium +phantomjs抓取活动行中会议活动
一.介绍本例子用Selenium +phantomjs爬取活动树(http://www.huodongshu.com/html/find_search.html?search_keyword=数字) ...
[Python爬虫] 之十二：Selenium +phantomjs抓取中的url编码问题
最近在抓取活动树网站 (http://www.huodongshu.com/html/find.html) 上数据时发现,在用搜索框输入中文后,点击搜索,phantomjs抓取数据怎么也抓取不到,但是 ...

随机推荐

opencv的使用——经典大坑
视频或相机中读入的帧数不对,或有空帧 image check from cap or video: you must check wether each frame is not empty when ...
Windows7 + OSG3.6 + VS2017 + Qt5.11
一.准备工作下载需要的材料: 1. OSG稳定版源代码, 3.6.3版本 2. 第三方库,选择VS2017对应的版本 https://download.osgvisual.org/3rdParty ...
前端自动化gulp遇上es6从无知到深爱
Gulp是什么? Gulp是前端自动化的工具,但Gulp能用来做什么 1.搭建web服务器 2.使用预处理器Sass,Less 3.压缩优化,可以压缩JS CSS Html 图片 4.自动将更新变化的 ...
洛谷P1565牛宫
传送门:题目点这里; 首先理解题目,就是要求给定矩阵中权值和不小于零的最大子矩阵,数据范围200也还不算棘手,暴力n^4的算法也可以水到50分.正解要用到单调栈配合二分和前缀和,复杂度n^3logn, ...
Python开发基础-Day24socket套接字基础2
基于UDP的socket 面向无连接的不可靠数据传输,可以没有服务器端,只不过没有服务器端,发送的数据会被直接丢弃,并不能到达服务器端 #客户端 import socket ip_port=('127 ...
poj 1298(水题）
The Hardest Problem Ever Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 24241 Accept ...
【DFS】佳佳的魔法阵
[vijos1284]佳佳的魔法阵背景也许是为了捕捉猎物(捕捉MM?),也许是因为其它原因,总之,佳佳准备设计一个魔法阵.而设计魔法阵涉及到的最关键问题,似乎就是那些带有魔力的宝石的摆放…… 描述 ...
【NTT】hdu1402 A * B Problem Plus
r·2^k+1 r k g 3 1 1 2 5 1 2 2 17 1 4 3 97 3 5 5 193 3 6 5 257 1 8 3 7681 15 9 17 12289 3 12 11 40961 ...
1.2（JavaScript学习笔记）JavaScript HTML DOM
一.DOM DOM全称为document object model(文档对象模型). 此处的文档指当前HTML文档,对象指HTML标签. 当网页被加载时,浏览器会创建页面的文档对象模型. 下面结合具体 ...
用Java Swing实现Freecell(空当接龙)
目录引言 1 游戏规则 2 界面设计和大致逻辑 2.1 界面设计 2.2 大致逻辑 3 主要功能模块设计与实现 3.1 主要思路 3.2 主要工具类 3.3 异常类 3.4 游戏初始化模块 3.5 ...

[Python爬虫] 之十三：Selenium +phantomjs抓取活动树会议活动数据

[Python爬虫] 之十三：Selenium +phantomjs抓取活动树会议活动数据的更多相关文章

随机推荐

热门专题