python3 selenium模拟登陆斗鱼提取数据保存数据库

# coding=utf-8
from selenium import webdriver
import json
import time
import pymongo

class Douyu:
　　def __init__(self):
　　　　self.driver = webdriver.Chrome()
　　　　# 发送首页请求
　　　　self.driver.get("https://www.douyu.com/directory/all")
　　　　self.host = '127.0.0.1'
　　　　self.port = 27017
　　　　self.DBname = 'douyu'

　　def get_content(self):
　　　　time.sleep(3)
　　　　li_list = self.driver.find_elements_by_xpath('//ul[@id="live-list-contentbox"]/li')
　　　　# print(li_list)

　　　　contents = []
　　　　# 遍历房间列表
　　　　for i in li_list:
　　　　　　item = {}
　　　　　　# 获取房间图片
　　　　　　item['img'] = i.find_element_by_xpath('./a//img').get_attribute("src")
　　　　　　# 获取房间名字
　　　　　　item['title'] = i.find_element_by_xpath('./a').get_attribute("title")
　　　　　　# 获取房间分类
　　　　　　item['category'] = i.find_element_by_xpath('./a/div[@class="mes"]/div/span').text
　　　　　　# 获取主播名字
　　　　　　item['name'] = i.find_element_by_xpath("./a/div[@class='mes']/p/span[1]").text

　　　　　　# 观看人数
　　　　　　item['watch_num'] = i.find_element_by_xpath("./a/div[@class='mes']/p/span[2]").text
　　　　　　# print(item)
　　　　　　contents.append(item)
　　　　return contents

　　# 保存到MongoDB
　　def save_content(self, contents):
　　　　# 创建MongoDB连接
　　　　client = pymongo.MongoClient(host=self.host, port=self.port)
　　　　# 指向指定的数据库
　　　　mdb = client[self.DBname]
　　　　self.post = mdb[self.DBname]
　　　　self.post.insert(contents)

　　# 保存到本地
　　# def save_content(self, contents):
　　　　# with open("douyu.json", "a") as f:
　　　　　　# for content in contents:
　　　　　　# json.dump(content, f, ensure_ascii=False, indent=2)
　　　　　　# f.write(',\n')

　　def run(self):
　　　　# 1.发送首页请求
　　　　# 2.获取首页信息
　　　　contents = self.get_content()
　　　　# 3.保存内容
　　　　self.save_content(contents)
　　　　# 4.循环　点击下一页按钮，直到下一页对应的class名字不再是"shark-pager-next"
　　　　# 判断有没有下一页
　　　　while self.driver.find_element_by_class_name("shark-pager-next"):
　　　　　　# 5.点击下一页按钮
　　　　　　self.driver.find_element_by_class_name("shark-pager-next").click()
　　　　　　# 6.获取下一页的内容
　　　　　　contents = self.get_content()
　　　　　　# 7.保存内容
　　　　　　self.save_content(contents)

if __name__ == '__main__':
douyu = Douyu()
douyu.run()

python3 selenium模拟登陆斗鱼提取数据保存数据库的更多相关文章

Python3 使用selenium库登陆知乎并保存cookie为本地文件
Python3 使用selenium库登陆知乎并保存cookie为本地文件学习使用selenium库模拟登陆知乎,并将cookie保存为本地文件,然后供以后(requests模块)使用,用selen ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
php中CURL技术模拟登陆抓取数据实战，抓取某校教务处学生成绩。
这两天有基友要php中curl抓取教务处成绩的源码,用于微信公众平台的开发.下面笔者只好忍痛割爱了.php中CURL技术模拟登陆抓取数据实战,抓取沈阳工学院教务处学生成绩. 首先,教务处登录需要验证码 ...
Selenium模拟登陆百度贴吧
Selenium模拟登陆百度贴吧 from selenium import webdriver from time import sleep from selenium.webdriver.commo ...
Python3.x：定时获取页面数据存入数据库
Python3.x:定时获取页面数据存入数据库 #间隔五分钟采集一次数据入库 import pymysql import urllib.request from bs4 import Beautifu ...
使用selenium模拟登陆淘宝、新浪和知乎
如果直接使用selenium访问淘宝.新浪和知乎这些网址.一般会识别出这是自动化测试工具,会有反制措施.当开启开发者模式后,就可以绕过他们的检测啦.(不行的,哭笑) 如果网站只是对windows.na ...
Python爬虫 —— 知乎之selenium模拟登陆获取cookies+requests.Session()访问+session序列化
代码如下: # coding:utf-8 from selenium import webdriver import requests import sys import time from lxml ...
使用selenium模拟登陆新浪微博
1.selenium基本使用 1.selenium安装及基本操作 selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面浏览器驱动,也包括Ph ...
验证码破解 | Selenium模拟登陆微博
模拟登陆微博相对来说,并不难.验证码是常规的5个随机数字字母的组合,识别起来也比较容易.主要是用到许多Selenium中的知识,如定位标签.输入信息.点击等.如对Selenium的使用并不熟悉,请先移 ...

随机推荐

（译）通过 HTML、JS 和 Electron 创建你的第一个桌面应用
原文:Creating Your First Desktop App With HTML, JS and Electron 作者:Danny Markov 近年来 web 应用变得越来越强大,但是桌面 ...
快速双边滤波附完整C代码
很早之前写过<双边滤波算法的简易实现bilateralFilter>. 当时学习参考的代码来自cuda的样例. 相关代码可以参阅: https://github.com/johng12/c ...
Race to 1 概率dp
Race to 1 Time Limit: 10000MS Memory Limit: Unknown 64bit IO Format: %lld & %llu [Submit] ...
S2_OOP第一章
面向对象设计的过程就是抽象的过程步骤: 第一步:发现类第二步:发现类的属性第三步:发现类的方法抽象是遵循的原则属性和方法的设置是为了解决业务问题关注主要属性和方法如果没有必要,不增加额外 ...
记录一下从懵懂到理解RESTful的过程
前言 Spring+SpringMVC+MyBatis+easyUI整合进阶篇(一)设计一套好的RESTful API Spring+SpringMVC+MyBatis+easyUI整合进阶篇(二)R ...
vue.js用法和特性详解
前言最近用Vue.js做了一个数据查询平台,还做了一个拼图游戏,突然深深的感到了vue的强大. Vue.js是一套构建用户界面(user interface)的渐进式框架.与其他重量级框架不 ...
Github Page+Bmob实现简单动态功能
Github Page基于jekyll能够实现简单的静态网站,但是没有提供后端服务.目前国内外也有很多提供后台服务,特别是云服务.譬如国外有AWS,记得好像是注册免费使用一年:再如Heroku,支持N ...
mybatis逆向工程
一.背景在实际开发中我们会自己去写mapper映射文件,接口,数据库表对应的实体类,如果需求任务比较少,咱们还可以慢慢的一个一个去写,但是这是不现实的,因为在工作中我们的任务是很多的,这时mybat ...
Struts2 06--系统拦截器防止数据重复提交
一.拦截器简要概述拦截器,在AOP(Aspect-Oriented Programming)中用于在某个方法或字段被访问之前,进行拦截然后在之前或之后加入某些操作.拦截是AOP的一种实现策略. 在W ...
【NOIP2016 Day1 T1】玩具谜题
原题:https://www.luogu.org/problemnew/show/P1563 题目大意:有N个人围成一个圈,给定一串未化简的物品移动关系,要求你通过这些未化简的关系以及起始段的编号,求 ...

python3 selenium模拟登陆斗鱼提取数据保存数据库

python3 selenium模拟登陆斗鱼提取数据保存数据库的更多相关文章

随机推荐

热门专题