爬取熊猫TV，javascript，selenium，模拟点击

from selenium import webdriver

import csv

def get_pages_numger(browser):

    res = browser.find_elements_by_xpath('//div[@class="page-component"]/a[7]')

    return int(res.text)

def get_next_page_buttun(browser):

    button = browser.find_elements_by_xpath()

    return button

def get_rooms_number_in_a_page(browser):

    res = []

    for li in browser.find_elements_by_xpath('//li[@data-id]'):

        id = li.get_attribute("data-id")

        nickname = li.find_element_by_xpath('//span[@class="video-nickname"]')

        number = li.find_element_by_xpath('//span[@class="video-number"]') # 观众数

        cate = li.find_element_by_xpath('//span[@class="video-cate"]')

        res.append([id, nickname, cate, number])

    return res

def get_rooms_number_in_all_pages(browser, pages_number):

    res = []

    for i in range(pages_number):

        print('第{}页'.format(i+1))

        # 抓取

        res.extend(get_rooms_number_in_a_page(browser))

        # 点击进入下一页

        next_page_button = get_next_page_buttun(browser)

        next_page_button.click()

    browser.close()

    return res

def save_to_csv(rooms_number):

    with open('live_rooms_number.csv', 'w') as f:

        writer = csv.writer(f, lineterminator='\n')

        writer.writerow(['id','nickname','cate', 'number']) # 表头

        writer.writerows(rooms_number)

def read_from_csv():

    with open('live_rooms_number.csv', 'r') as f:

        reader = csv.reader(f)

        your_list = list(reader)[1:] # 去掉表头

    #print(your_list)

    return your_list

def get_rooms_number():

    browser = webdriver.Firefox()

    browser.get('http://www.panda.tv/all')

    assert '熊猫TV' in browser.title

    pages_number = get_pages_numger(browser)

    all_live_rooms_number = get_rooms_number_in_all_pages(browser, pages_number)

    return all_live_rooms_number

if __name__ == '__main__':

    rooms_number = get_rooms_number()

    save_to_csv(rooms_number)

    #rooms_number = read_from_csv()

爬取熊猫TV，javascript，selenium，模拟点击的更多相关文章

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
爬虫之selenium模拟点击
在利用爬虫爬取页面HTML信息得时候有的当你运用request方法爬取时爬下来得HTML信息和网站信息不相符,这也导致以后得爬去无法进行,这也是反扒机制之一,解决办法时利用代码进行模拟网页点击,来爬去 ...
Python3爬虫（十三）爬取动态页之Selenium
Infi-chu: http://www.cnblogs.com/Infi-chu/ Python提供了很多模拟浏览器运行的库,比如:Selenium.Splash等 1.常用的引用 from sel ...
爬取动态网页：Selenium
参考:http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬虫过程中,一般情况下都是直接解析html源码进行分析解析即可.但是,有一种情 ...
Python 爬取网页中JavaScript动态添加的内容（一）
当我们进行网页爬虫时,我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息.但是如果网页中含有 JavaScript 代码,我们必须经过渲染处理才能获得原始数据.此时,如果我们仍采用常规方法 ...
python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...
使用Python自带的库和正则表达式爬取熊猫直播主播观看人气
主要是体现代码的规范性 from urllib import request import re class Spider(): url = 'https://www.panda.tv/cate/lo ...
Python 爬取网页中JavaScript动态添加的内容（二）
使用 selenium + phantomjs 实现 1.准备环境 selenium(一个用于web应用程测试的工具)安装:pip install seleniumphantomjs(是一种无界面的浏 ...

随机推荐

Effective Java 76 Write readObject methods defensively
Principle readObject method is effectively another public constructor, and it demands all of the sam ...
PHP模拟发送POST请求之三、用Telnet和fsockopen()模拟发送POST信息
了解完了HTTP头信息和URL信息的具体内容,我们开始尝试自己动手写一段头信息发送到服务器.Windows内置命令Telnet可以帮助我们发送简单的HTTP请求. 并且TELNET是一个特别灵活的工具 ...
JS高级程序设计2nd部分知识要点1
保存浮点数值需要的内存空间是保存整数值的两倍,因此ECMAScript会不失时机的将浮点数值转换为整数值浮点数值的最高精度是17位小数 parseInt 字符串转换为数值,可传基数(8,16) pa ...
计算几何--判断两条线段相交--poj 2653
Pick-up sticks Time Limit: 3000MS Memory Limit: 65536K Total Submissions: 8862 Accepted: 3262 De ...
Hadoop Browse the filesystem 无效处理
当我们安装好并正常运行hdfs后输入http://xxxxxxxxx:50070会进入下图所示的页面. 其中Browse the filesystem 是查看文件系统的入口. 但是在发现这个链接一直无 ...
Debian
一.简介 https://zh.wikipedia.org/wiki/Debian 二.下载 https://www.debian.org/ 三.配置 1)挂载iso镜像 mount /dev/cdr ...
linux sed命令
一.初识sed 在部署openstack的过程中,会接触到大量的sed命令,比如 # Bind MySQL service to all network interfaces. sed -i 's/1 ...
频谱分析仪 RBW&VBW
扫频式频谱分析仪的结构如下图 RBW(Resolution Bandwidth)的影响 The RBW dictates the resolution bandwidth, which is rela ...
边工作边刷题：70天一遍leetcode: day 81
Encode and Decode Strings 要点:题的特点:不是压缩,而是encode为字节流.所以需要找delimiter来分割每个word,但是delimiter可能是字符本身,所以可以用 ...
Jetson TK1刷机+配置Mini PCI-e无线网卡
最近买了台4K电视,觉得可以当显示器用,但没主机,不知怎的想到了Jetson TK1,于是一冲动买了.因为没网线,而Jetson TK1没有无线网卡,所以也折腾了一番,记录一下,给万一也有像我一样没有 ...

爬取熊猫TV，javascript，selenium，模拟点击

爬取熊猫TV，javascript，selenium，模拟点击的更多相关文章

随机推荐

热门专题