Python爬取B站视频信息

该文内容已失效，现已实现scrapy+scrapy-splash来爬取该网站视频及用户信息，由于B站的反爬封IP，以及网上的免费代理IP绝大部分失效，
无法实现一个可靠的IP代理池，免费代理网站又是各种反爬，解决反爬后获取到的有效IP占比极低，不想折腾，因此视频信息暂时无法成功获取。
github地址 https://github.com/delav/bstation

该爬虫可以爬取B站所有视频的信息：标题，发布时间，链接，点击数，弹幕数，

收藏数，硬币数，分享数，作者，作者性别，（生日）。输入你要爬取的起始

视频编号（如https://www.bilibili.com/video/av15010461，输入“15010461”）

然后输入需要爬取的数量，即可。可修改代码选择存入数据库或者Excel文件

没有用到多进程，多线程，爬取速度有点慢。

注意：起始视频编号的视频必须是存在的，如果输入的起始视频编号不存在，

会出现错误，暂时没解决

　　数据存入数据库，本地必须先安装MySQL。

代码如下（由于B站源代码经常改，只要查看源代码，修改一些信息的xpath获取方式即可）：

# coding: utf-8

# windows终端运行修改以下：
# i = input("起始视频编号：".decode('utf-8').encode('gbk'))
# print u"爬取完成"

import requests
import urllib2
import zlib
from lxml import etree
import MySQLdb
import datetime
import os
import xlwt
import multiprocessing
from xlrd import open_workbook
from xlutils.copy import copy
# import random
import warnings
import sys

reload(sys)
sys.setdefaultencoding('utf-8')
warnings.filterwarnings("ignore")  # 忽略警告提示
mode_url = 'https://api.bilibili.com/x/web-interface/archive/stat?aid={}'
title_url = 'https://www.bilibili.com/video/av{}'
path = os.getcwd()
file_path = path + os.sep + 'bilibili.xls'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/49.0.2623.112 Safari/537.36'}

# 获取所需要的信息列表
def get_info(t_url, m_url):
    msg_list = []
    try:
        request = urllib2.Request(t_url, headers=headers)
        request.add_header('Accept-encoding', 'gzip')
        opener = urllib2.build_opener()
        response = opener.open(request, timeout=10)
        html = response.read()
        gzipped = response.headers.get('Content-Encoding')
        if gzipped:
            html = zlib.decompress(html, 16 + zlib.MAX_WBITS)
        # print html
        html = etree.HTML(html)
        raw_mid = html.xpath("//div[@class='u-face fl']/a/@href")
        author_url = 'https:' + raw_mid[0]
        raw_title = html.xpath("//title[@data-vue-meta='true']/text()")
        str_title = raw_title[0].encode('unicode-escape')
        real_title = str_title.split('_')[0]
        title = real_title.decode('unicode-escape')
        msg_list.append(title)  # 标题
        types = html.xpath("//div[@class='tminfo']/span[last()-1]/a/text()")
        msg_list.append(types[0])  # 类型
        public_time = html.xpath("//time//i/text()")
        msg_list.append(public_time[0])  # 发布时间
        # author = html.xpath("//meta[@name='author']/@content")
        # msg_list.append(author)

        response1 = requests.get(m_url, headers=headers, verify=False, timeout=10)
        response2 = requests.get(author_url, headers=headers, verify=False)
        print "3333", response1.status_code
        print "4444", response2.status_code
        if response1.status_code == 200 and response2.status_code == 200:
            j1 = response1.json()['data']
            aid = 'www.bilibili.com/video/av' + str(j1['aid'])  # 地址
            view = j1['view']  # 播放量,视频没有播放量时显示会‘--’,不是整数，会抓取失败
            danmaku = j1['danmaku']  # 弹幕
            favorite = j1['favorite']  # 收藏
            coin = j1['coin']  # 硬币
            share = j1['share']  # 分享
            j2 = response2.json()['data']['card']
            author = str(j2['name'].encode('utf-8'))  # 作者
            sex = str(j2['sex'].encode('utf-8'))  # 性别
            # birthday = str(j2['birthday'])  # 生日
            msg_list.extend([aid, view, danmaku, favorite, coin, share, author, sex])
    except Exception, e:
        pass
        print e
    return msg_list

# 计时装饰器
def timer(func):
    def time_count(*args):
        start_time = datetime.datetime.now()
        func(*args)
        end_time = datetime.datetime.now()
        day = (end_time - start_time).days
        times = (end_time - start_time).seconds
        hour = times / 3600
        h = times % 3600
        minute = h / 60
        m = h % 60
        second = m
        print "爬取完成"
        print "一共用时%s天%s时%s分%s秒" % (day, hour, minute, second)
    return time_count

# 把数据存到MySQL数据库中
def mysql_save(my_list):
    conn = MySQLdb.connect(host="localhost",
                           port=3306,
                           user="root",
                           passwd="729814",
                           charset="utf8")
    cur = conn.cursor()
    cur.execute("create database if not exists bili")
    conn.select_db('bili')
    cur.execute("create table if not exists info (title varchar(30),"
                "types varchar(10),"
                "pub_time varchar(20),"
                "aid varchar(50),"
                "views int(20),"
                "danmaku int(15),"
                "favorite int(15),"
                "coin int(10),"
                "share int(10),"
                "author varchar(30),"
                "sex varchar(10))")
    sql = "insert into info values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
    cur.execute(sql, my_list)
    conn.commit()

# 把数据存到Excel表格中
def excel_save(my_list):
    try:
        first_row = ['标题', '类型', '发布时间', '地址', '播放量', '弹幕', '收藏', '硬币', '分享', '作者', '性别']
        style_bold = xlwt.easyxf('font: color-index red, bold on')
        header_style = style_bold
        if not os.path.isfile(file_path):
            w = xlwt.Workbook(encoding='utf-8')
            ws = w.add_sheet('Sheet 1')
            for x, value in enumerate(first_row):
                ws.write(0, x, value.decode('utf-8'), header_style)
            w.save(file_path)
        rexcel = open_workbook(file_path, formatting_info=True)
        rows = rexcel.sheets()[0].nrows
        excel = copy(rexcel)
        table = excel.get_sheet(0)
        for y, value in enumerate(my_list):
            if type(value) == str:
                table.write(rows, y, value.decode('utf-8'))
            else:
                table.write(rows, y, value)
        excel.save(file_path)
    except Exception, e:
        print e
        print "请先关闭bilibili.xls"

# 主函数
@timer
def main(i, n):
    print "开始爬取...."
    t = 0
    while t < n:
        t += 1
        t_url = title_url.format(i)
        m_url = mode_url.format(i)
        msg_list = get_info(t_url, m_url)
        if len(msg_list) == 11:
            # 存到数据库
            mysql_save(msg_list)
            # 存到Excel
            # excel_save(msg_list)
            print "爬取第%s个成功" % t
        else:
            print "爬取%s失败失败" % t
        i += 1

if __name__ == '__main__':
    num1 = input("起始视频编号：")
    print "---------------------"
    num2 = input("需要爬取数量：")
    print "---------------------"
    main(num1, num2)

Python爬取B站视频信息的更多相关文章

python 爬取B站视频弹幕信息
获取B站视频弹幕,相对来说很简单,需要用到的知识点有requests.re两个库.requests用来获得网页信息,re正则匹配获取你需要的信息,当然还有其他的方法,例如Xpath.进入你所观看的视频 ...
python爬取B站视频弹幕分析并制作词云
1.分析网页视频地址: www.bilibili.com/video/BV19E… 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀. 这次我选取的是自己唯一的爆款 ...
用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
爬虫之爬取B站视频及破解知乎登录方法（进阶）
今日内容概要爬虫思路之破解知乎登录爬虫思路之破解红薯网小说爬取b站视频 Xpath选择器 MongoDB数据库爬取b站视频 """ 爬取大的视频网站资源的时候,一 ...
Python爬取b站任意up主所有视频弹幕
爬取b站弹幕并不困难.要得到up主所有视频弹幕,我们首先进入up主视频页面,即https://space.bilibili.com/id号/video这个页面.按F12打开开发者菜单,刷新一下,在ne ...
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前言耗子喂汁是什么意思什么梗呢?可能很多人不知道,这个梗是出自马保国,经常上网的人可能听说过这个 ...
用python 抓取B站视频评论，制作词云
python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...
python爬取某站新闻，并分析最近新闻关键词
在爬取某站时并做简单分析时,遇到如下问题和大家分享,避免犯错: 一丶网站的path为 /info/1013/13930.htm ,其中13930为不同新闻的 ID 值,但是这个数虽然为升序,但是没有任 ...

随机推荐

day 11 绘制轮廓
#-*- coding:utf-8 -*- import cv2 import numpy as np #1.导入图像 #img = cv2.imread("home.jpg",0 ...
mysql中的直方图采样逻辑
int handler::sample_next(uchar *buf) { // Temporary set inited to RND, since we are calling rnd_next ...
ansible基础配置使用(一）
test test test
为什么测试人员必须掌握Linux？
相信点进来的小伙伴不是对Linux感兴趣就是对测试感兴趣了,也希望本文可以帮助之前接触过Linux的小伙伴找到继续坚持学习下去的动力,之前没接触过Linux的小伙伴也能找到开始学习Linux的兴趣. ...
【JSON类】使用说明
理解键名路径键名路径(keyPath)用于定位json的键,比如:{book: {title:”中国人”} },键名路径 book.title 表定位到book下的title键. 对于值是数组类型的 ...
【icon】图标组件说明
小程序默认了几种类型图标,其组件原型如下: <icon type="[success | success_no_circle | info | warn | waiting | can ...
python 终极篇 ---django 认证
Django自带的用户认证我们在开发一个网站的时候,无可避免的需要设计实现网站的用户系统.此时我们需要实现包括用户注册.用户登录.用户认证.注销.修改密码等功能,这还真是个麻烦的事情呢. Djang ...
407. Plus One【LintCode java】
Description Given a non-negative number represented as an array of digits, plus one to the number. T ...
Memcache的客户端连接系列（一） Java
声明:本文并非原创,转自华为云帮助中心的分布式缓存服务(Memcached)的用户指南. 关键词: Memcached 客户端 Java Java连接池 Java客户端示例用户的弹性云服务器已安装 ...
python 读取 log日志的编码问题
1.我要读取log日志的”执行成功”的个数,log日志编码格式为GBK 2.显示报错,大致意思是说utf-8的代码不能解析log日志 3.后来想想把log日志用GBK编码读出来,写到新文件中,用utf ...

Python爬取B站视频信息

Python爬取B站视频信息的更多相关文章

随机推荐

热门专题