[Python爬虫] 之二十九：Selenium +phantomjs 利用 pyquery抓取节目信息信息

一、介绍

　　　　本例子用Selenium +phantomjs爬取节目（http://tv.cctv.com/epg/index.shtml?date=2018-03-25）的信息

　　二、网站信息

　　三、数据抓取

　　　　针对上面的网站信息，来进行抓取

　　　　1、首先抓取信息列表

　　　　　　抓取代码：Elements = doc('div[class="epglist"]').find('ul')

　　　　2、节目名称，链接，时间

　　　　　　title = subEle('div[class="innerbox"]').find('h3').text().encode('utf8')

　　　　　　link = subEle('div[class="innerbox"]').find('p').find('a').attr('href')

　　　　　　strTime = subEle('div[class="innerbox"]').find('p').text().encode('utf8')

　　四，实现代码

# coding=utf-8

import os

import re

from selenium import webdriver

from datetime import datetime,timedelta

import selenium.webdriver.support.ui as ui

import time

from pyquery import PyQuery as pq

class cctvDriver:

    def __init__(self,startDate,endDate):

        #通过配置文件获取IEDriverServer.exe路径

        self.urls = self.getUrlsFromStartEndDate(startDate,endDate)

        IEDriverServer ='C:\Program Files\Internet Explorer\IEDriverServer.exe'

        self.driver = webdriver.Ie(IEDriverServer)

        self.driver.maximize_window()

        self.fileName = time.strftime('%Y-%m-%d')

    def compareDate(self, startDate, endDate):

        start_Date = time.strptime(startDate, "%Y-%m-%d")

        end_Date = time.strptime(endDate, "%Y-%m-%d")

        totalSeconds = (end_Date - start_Date).total_seconds()

        if totalSeconds >= 0:

            print endDate

            return True

        else:

            print startDate

            return False

    def compareTime(self, startTime, endTime):

        st = int(startTime.replace(':',""))

        et = int(endTime.replace(':',""))

        if st>et:

            return True

        else:

            return False

    def getUrlsFromStartEndDate(self,startDate,endDate):

        urls = []

        start_Date = datetime.strptime(startDate, "%Y-%m-%d")

        end_date = datetime.strptime(endDate, "%Y-%m-%d")

        ts = end_date-start_Date

        days = ts.days + 1

        index = 0

        for d in xrange(0,days):

            date = start_Date + timedelta(days=index)

            urls.append('http://tv.cctv.com/epg/index.shtml?date='+date.strftime("%Y-%m-%d"))

            index += 1

        return urls

    def WriteLog(self, message,date):

        fileName = os.path.join(os.getcwd(), 'cctvInfo/'+date + '.txt')

        with open(fileName, 'a') as f:

            f.write(message)

    def CatchData(self):

        className = "//div[@class='epglist']/ul"

        for url in self.urls:

            date = url.split('=')[1]

            start_Date = datetime.strptime(date, "%Y-%m-%d") + timedelta(days=-1)

            predate = start_Date.strftime("%Y-%m-%d")

            self.driver.get(url)

            time.sleep(5)

            selenium_html = self.driver.execute_script("return document.documentElement.outerHTML")

            doc = pq(selenium_html)

            Elements = doc('div[class="epglist"]').find('ul')

            message = ''

            recount = 0

            for element in Elements.items():

                channel = element.attr('id')

                subElements = element.find("li")

                for subEle in subElements.items():

                    strTime = subEle('div[class="innerbox"]').find('p').text().encode('utf8').strip().replace(

                        '回看', '').replace('直播','')

                    if strTime:

                        title = subEle('div[class="innerbox"]').find('h3').text().encode(

                            'utf8').strip().replace(

                            ',', '，')

                        link = subEle('div[class="innerbox"]').find('p').find('a').attr('href')

                        if self.compareTime(strTime.split('~')[0],strTime.split('~')[1]):

                            starttime = predate + " " + strTime.split('~')[0]

                        else:

                            starttime = date + " " + strTime.split('~')[0]

                        endtime = date + " " + strTime.split('~')[1]

                        mess = '\r\n{0},{1},{2},{3},{4}'.format(channel, title, starttime, endtime, link)

                        # print mess

                        message += mess

                        recount+=1

            if len(message)>10:

                self.WriteLog(message.strip(),date)

            print recount

        self.driver.close()

        self.driver.quit()

# #测试抓取微博数据

obj = cctvDriver('2018-01-01','2018-03-01')

obj.CatchData()

[Python爬虫] 之二十九：Selenium +phantomjs 利用 pyquery抓取节目信息信息的更多相关文章

[Python爬虫] 之二十七：Selenium +phantomjs 利用 pyquery抓取今日头条视频
一.介绍本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视二 ...
[Python爬虫] 之二十三：Selenium +phantomjs 利用 pyquery抓取智能电视网数据
一.介绍本例子用Selenium +phantomjs爬取智能电视网(http://news.znds.com/article/news/)的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字 ...
[Python爬虫] 之二十一：Selenium +phantomjs 利用 pyquery抓取36氪网站数据
一.介绍本例子用Selenium +phantomjs爬取36氪网站(http://36kr.com/search/articles/电视?page=1)的资讯信息,输入给定关键字抓取资讯信息. 给 ...
[Python爬虫] 之二十：Selenium +phantomjs 利用 pyquery通过搜狗搜索引擎数据
一.介绍本例子用Selenium +phantomjs 利用 pyquery通过搜狗搜索引擎数据()的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字:融合:电视抓取信息内如下: 1.资讯 ...
[Python爬虫] 之二十八：Selenium +phantomjs 利用 pyquery抓取网站排名信息
一.介绍本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/han ...
[Python爬虫] 之三十：Selenium +phantomjs 利用 pyquery抓取栏目
一.介绍本例子用Selenium +phantomjs爬取栏目(http://tv.cctv.com/lm/)的信息二.网站信息三.数据抓取首先抓取所有要抓取网页链接,共39页,保存到数据库里 ...
[Python爬虫] 之三十一：Selenium +phantomjs 利用 pyquery抓取消费主张信息
一.介绍本例子用Selenium +phantomjs爬取央视栏目(http://search.cctv.com/search.php?qtext=消费主张&type=video)的信息(标 ...
[Python爬虫] 之二十六：Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息
一.介绍本例子用Selenium +phantomjs爬取智能电视网站(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取图片信息. 给定关键字:数字:融合:电视 ...
[Python爬虫] 之二十五：Selenium +phantomjs 利用 pyquery抓取今日头条网数据
一.介绍本例子用Selenium +phantomjs爬取今日头条(http://www.toutiao.com/search/?keyword=电视)的资讯信息,输入给定关键字抓取资讯信息. 给定 ...

随机推荐

hdu 2881(LIS变形)
Jack's struggle Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65535/65535 K (Java/Others) ...
【JBPM4】EL表达式的使用，实现JAVA与JPDL的交互
user.java实体类 private String kezhang; private String zhuren; /...完善set get 方法.../ 创建流程实例 //创建流程引擎 Pro ...
Python数据库访问公共组件及模拟Http请求
前言最近一段时间除了忙于工作之外,在业余时,迷上了python,对它的跨平台深深的吸引.经过一段时间的自我学习,了解了其基本的语法,便开始自己着手摆弄起来.主要想把以前对接的接口再实现一次,以便于在 ...
HBase shell 命令创建表及添加数据操作
创建表,表名hbase_1102,HBase表是由Key-Value组成的,此表中Key为NAME 此表有两个列族,CF1和CF2,其中CF1和CF2下分别有两个列name和gender,Chin ...
es6 map数据类型，要比set还很多
首先它支持多数据存储,具有增删查功能 set()设置 get()获取; has()查找; delete('obj')删除指定:clear()全部删除 size长度 let json={ name:&q ...
nginx反向代理二级页面
当公司只存在一个公网地址时候,需要影射多个域名,并且域名下面要配置二级目录的时候可以参照如下配置 upstream h5_game { server 10.0.100.153:80; } serve ...
图论&双连通分量&强联通分量&2-SAT
图论入门费: 数据小,大胆的写 https://vjudge.net/problem/UVA-10047 入门费 https://vjudge.net/problem/UVA-11624 思维,建图异 ...
Trie树【p2264】情书
Background 一封好的情书需要撰写人全身心的投入.CYY同学看上了可爱的c**想对她表白,但却不知道自己写的情书是否能感动她,现在他带着情书请你来帮助他. Description 为了帮助CY ...
Flask实战第45天：完成前台登录界面
我们的注册页面和登录页面有很多相似之处,因此,也可以基于一个模板来实现. 首先创建一个模板html,命名为front_signbase.html, 然后修改注册页面front_signup.html, ...
JQ简单操作Ajax笔记
JQ对ajax进行了封装,底层$.ajax().第二层是.load(),$.get(),$.post().第三层是$.getScript()和$.getJSON(). load(url selecto ...

[Python爬虫] 之二十九：Selenium +phantomjs 利用 pyquery抓取节目信息信息

一、介绍

二、网站信息

三、数据抓取

四，实现代码

[Python爬虫] 之二十九：Selenium +phantomjs 利用 pyquery抓取节目信息信息的更多相关文章

随机推荐

热门专题

　　二、网站信息

　　三、数据抓取

　　四，实现代码