心血来潮搞了一个简单的爬虫，主要是想知道某个人的b站账号，但是你知道，b站在搜索一个用户时，如果这个用户没有投过稿，是搜不到的，，，这时就只能想方法搞到对方的mid，，就是 space.bilibili.com/9444976 后面的那一串数字。偶然看到这个人关注了某个主播，，想到可能这个人会回复主播的视频，于是想着爬到所有up下的视频的评论对应的用户，这样我就可以在数据库里检索昵称得到mid，，，嘿嘿嘿（然而失败了，，不是所有人都像我这么无聊，，，，有些人真的看视频不会回复，，

项目地址: https://github.com/31415926535x/CollegeProjectBackup/tree/master/BilibiliSpiders

这个爬虫的主要功能是爬取某个指定up主下的所有视频中的评论（不包括评论的回复，当然可以实现，但是感觉都差不多，就没考虑这块），最后将爬到的用户数据存到数据库里。整个项目只是抱着学习相关内容的心态来完成，不要做大批量的爬取网站(DDOS)及其敏感数据的事，也不要用作商业用途，，（虽然写的很丑，，，）

简要说明

整个项目的分为三个部分，首先是爬取指定mid up的所有视频的av号，即 CrawlAllVideosOfAUP.py 这个脚本，使用的api是 https://api.bilibili.com/x/space/arc/search?mid=mid&ps=30&tid=0&pn=pn&keyword=&order=pubdate&jsonp=jsonp 具体的说明见脚本内注释。

之后有了所有的av号，使用 CrawlCommentUsersByVideo.py 爬取指定av号下的所有评论，使用的api是 https://api.bilibili.com/x/v2/reply?pn=**&type=1&oid=***&sort=2 爬取av号为 oid 下第 pn 页的评论的信息（sort对应的应该是评论的展示顺序用不到没管。可以爬取到很多的信息，根据自己需求来修改脚本计科。

最后将这两个整合，加一点点细节就行了，，大致是一个能用的脚本（虽然最后没有找到我想要的一个信息，，，，

具体看注释吧，，很简单的一些东西吧，，长见识为主，留印象。。。。

总结

之前很早就接触了Python爬虫，，但是只是用一下就扔了，没有自己完全的编写一个，，所以心血来擦写一个练练手，，说不定以后还会遇到这样类似的事，，，

这个脚本最后将爬取到的数据扔到了数据库里，，因为之前看别人的代码，他是获取一条写入一条，，数据量一大就很慢，，（尤其是用了线程一边获取一遍写入时，因为爬虫一次会获得很多的数据，但是如果保存数据库时一条一条的 commit 些磁盘的io瓶颈就会显露出来，，所以可以加一个 flag ，写入到1000或者某个值时再 commit 这样就很有效率了，，跑偏了）

大概了解了一下python下的线程的写法，思路都是那个思路，，算是简单的见识一下，，，

关于windows下的mysql数据库：我们通常会备份一个数据库的某些表的结构到一个文件中，例如 233.sql ，使用的命令可能是 mysqldump -uroot -p databases > 233.sql 等等类似的，，但是这个命令在windows的 PowerShell 会有bug，，具体原因没有深究（猜测是编码的锅），导出的文件不能使用 source 233.sql 导入，，会爆什么 '\0' 等 ASCII错误，，这时的解决方法就是换 cmd ，，这个错误第一次见，，而且不好解决，，迷惑性太大，，容易带偏QAQ，，，太浪费时间了，，，

好像没啥了。。。(end)

哦对，加个参考。。。

这是一个暴力爬所有用户信息的，思路差不多的

这个也是，简单些的

user-agents看到一个很全的ua，因为我的数据量不大，所以就没用，记录一下

一个简单的爬取b站up下所有视频的所有评论信息的爬虫的更多相关文章

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕！
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...
【python爬虫】一个简单的爬取百家号文章的小爬虫
需求用"老龄智能"在百度百家号中搜索文章,爬取文章内容和相关信息. 观察网页红色框框的地方可以选择资讯来源,我这里选择的是百家号,因为百家号聚合了来自多个平台的新闻报道.首先看 ...
用Python实现的一个简单的爬取省市乡镇的行政区划信息的脚本
# coding=utf-8 # Creeper import os import bs4 import time import MySQLdb import urllib2 import datet ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
爬虫练习四：爬取b站番剧字幕
由于个人经常在空闲时间在b站看些小视频欢乐一下,这次就想到了爬取b站视频的弹幕. 这里就以番剧<我的妹妹不可能那么可爱>第一季为例,抓取这一番剧每一话对应的弹幕. 1. 分析页面这部番剧 ...
python爬取b站排行榜
爬取b站排行榜并存到mysql中目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构目标网站:bil ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...

随机推荐

Snapchat欲联手亚马逊推扫一扫功能，社交应用营收来源将有大变化？
当下的社交应用,已经不能完全仅用"社交"的标签进行定义.因为目前的社交应用不仅承载着大众的喜怒哀乐和沟通指责,更在逐渐打造起一个连接多方的生态系统.甚至只从自身的营收.利润出发,社 ...
898A. Rounding#数的舍入
题目出处:http://codeforces.com/problemset/problem/898/A 题目大意:找一个数最近的整十的数 #include<iostream> using ...
2019-ECfinal-M题-value
题目传送门 sol:每个下标都有选和不选两种情况,所以总方案数是$2^{n}$,在$n$最大是$100000$的情况下不符合要求.可以这样想,假设$i^{p}=k$有符合题目要求的解,还有一个整数$j ...
Solving ordinary differential equations I(Nonstiff Problems),Exercise 1.2:A wrong solution
(Newton 1671, “Problema II, Solutio particulare”). Solve the total differential equation $$3x^2-2ax+ ...
poj-3661 Running（DP）
http://poj.org/problem?id=3661 Description The cows are trying to become better athletes, so Bessie ...
[LC] 314. Binary Tree Vertical Order Traversal
Given a binary tree, return the vertical order traversal of its nodes' values. (ie, from top to bott ...
centos设置上网代理
假设我们要设置代理为 IP:PORT 1.网页上网网页上网设置代理很简单,在firefox浏览器下 Edit-->>Preferences-->>Advanced-->& ...
python编程练习题目
github上面的一个项目,分为level1,level2,level3 三个等级的难度. 题目地址一部分中文翻译 python教程剑指offer,python3实现 python进阶练习题1: ...
linux文件系统与链接
Linux的文件属性图1 图1 linux的文件属性 ls -lhi -l 长格式 -h 人性化 -i inodo -d 看目录自己的信息 inode 源自于文件系统分区平面设计图格式化施 ...
java replaceall 用法:处理特殊字符
public class TryDotRegEx { public static void main(String[] args) { // TODO Auto-generated method st ...

一个简单的爬取b站up下所有视频的所有评论信息的爬虫

简要说明

总结

一个简单的爬取b站up下所有视频的所有评论信息的爬虫的更多相关文章

随机推荐

热门专题