B站标题/子标题/url爬取示例(requests+re)

 #coding:utf-8

 __author__ = "zhoumi"

 3
 

 import requests

 import re

 import urllib

 '''

 本文档目的在于获得：

 1、一级目录与其对应链接的字典,如下形式

     dictinfo = {一级目录:链接}

 2、二级目录与其对应链接的字典,如下形式

     dict2info = {二级目录:链接}

 3、一级目录与二级目录对应的字典，如下形式

     dict3info = {一级目录:[二级目录]}

 '''

 #获得待解析的页面

 #首先用raise_for_status处理异常：若请求不成功，抛出异常

 def getText(url):

         source = requests.get(url)

         source.raise_for_status()

         source.encoding = source.apparent_encoding

         return(source.text)

 #返回分类名(keys)及对应链接(value)的字典

 #dictinfo = {name1list:html1list}

 #例如：动画:www.bilibili.donghua.com,........

 def getfirsttitle(source):

     text = re.findall(r'a class.*?div class',source)

     namelist = []

     htmllist = []

     dictinfo = {}

     for i in text:

         namelist.append(i.split("><em>")[1].split("</em>")[0])

         htmllist.append(i.split('href="//')[1].split('"><em>')[0])

     for i in range(len(namelist) - 1):

         dictinfo[namelist[i]] = htmllist[i]

     return dictinfo

 #返回二级分类的keys(分类名)和values(对应链接)的字典

 #dict2info = {name2list:html2list}

 def getsecondtitle(source):

     text2 = re.findall(r'a href.*?<em></em></b></a></li>',source)

     name2list = []

     html2list = []

     dict2info = {}

     for i in text2:

         name2list.append(i.split('><b>')[1].split('<em>')[0])

         html2list.append(i.split('a href="//')[1].split('"><b>')[0])

     for i in range(len(name2list) - 1):

         dict2info[name2list[i]] = html2list[i]

     return dict2info

 #获得一级分类和二级分类的分类名的字典

 #dict3info = {name1list:[name2list]}

 def getfirst2second(source):

     text3 = re.findall(r'"m-i".*?</ul',source,re.S)

     dict3info = {}

     middletitle = []

     for i in text3:

         #获得出各个一级标题

         title = i.split('><b>')[0].split('</em>')[0].split('<em>')[1]

         #获得各一级标题的子标题

         childtitle = i.split('><b>')

         dict3info[title] = childtitle

         for j in range(len(childtitle) - 1):

             childtitle[j] = childtitle[j + 1]

         #处理冗余

         childtitle.pop()

         for k in childtitle:

             middletitle.append(k.split('<em>')[0])

         #每处理完一个title的childtitle，就执行存储语句

         dict3info[title] = middletitle

         #初始化传递列表

         middletitle = []

     return dict3info

 #——————————————————————————————————————————————

 ##导入字典{二级分类名：urls2}计划使用urllib库

 '''

 url为dict_2_url2字典里面的url2

 本文本块目的在于获取二级分类页面的源视频链接和视频名称

 并生成最终可调用字典{source_name:source_url}

 url = dict_2_urls.values()

 '''

 def gettext(url):

     source = requests.get(url)

     source.raise_for_status()

     source.encoding = source.apparent_encoding

     return source.text

 def download(source):

     text = re.findall(r'<video> src="blob:.*?"></video>',source)

     html = text.split('<video> src="')[1].split('"></video>')[0]

     pass

这是今两天瞎鼓捣弄出来的代码，函数名、变量名的定义存在问题。

最开始利用requests.get(url)获得文本之后，不明白为什么需要text._raise_for_status()这一句代码，后来明白这个是为了处理向url发出response请求时的异常处理，具体是什么处理不太明白。

其中，text.encoding = text.apparent.encoding的实现原理也没有深究，需要慢慢积累。

requests作为一个第三方库，提供的是一种便利的功能，但是学习这几天之后，我发现这个并不太适合初学者，深层次的才是基础的，所以我觉得需要好好了解一下urllib这个模块。

之后，我准备尝试使用urllib模块对下载下来的文本进行处理，urlretrieve函数，urllib.request.urlopen函数等.

还遇见一个问题，当我准备利用字典里面的视频链接下载b站的视频时，会显示如下结果：

b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xc5}{\x93\x1bE\xb2\xef\xdf8\xe2|\x87^\xb1\xc1\x8c\x03\xeb9\x9a\x97\xf1\x0c\x07\x0c\xdcC\x1cX\xd8\xc5

我的源码是：

 import urllib.request

 import urllib.parse

 def gettext(url):

     source = urllib.request.urlopen(url,timeout=30)

     return source.read()

 url = 'https://www.bilibili.com/video/av11138658/'

 text = gettext(url)

 print(text)

百思不得其解，最后我把原因归结为B站视频有做过加密处理，入门不足一个月的小白还没有能力解决这个问题~~~

B站标题/子标题/url爬取示例(requests+re)的更多相关文章

Python入门：全站url爬取
<p>作为一个安全测试人员,面对一个大型网站的时候,手工测试很有可能测试不全,这时候就非常需要一个通用型的网站扫描器.当然能直接扫出漏洞的工具也有很多,但这样你只能算是一个工具使用者,对于 ...
python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例（数据分析pandas）
结巴分词 import jieba """ pip install jieba 1.精确模式 2.全模式 3.搜索引擎模式 """ txt ...
A站（ACFun）爬虫爬取并播放、下载视频（JAVA）
本文使用的工具有vlc+ffmpeg+phantomjs 一般视频网站的视频地址暴露的方式有两种: 1.html直接暴露 2.通过ajax异步返回. A站使用的方式是第二种.针对第一种方式,直接使用j ...
scrapy 修改URL爬取起始位置
import scrapy from Autopjt.items import myItem from scrapy.http import Request class AutospdSpider(s ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
小爬虫。爬取网站多页的通知标题并存取在txt文档里。
爬取网页中通知标题的内容展示: this is 1 page!<精算学综合>科目考试参考大纲2016年上半年研究生开题报告评议审核结果公示[答辩]2016下半年研究生论文答辩及学位评定 ...
python爬取b站排行榜
爬取b站排行榜并存到mysql中目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构目标网站:bil ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

随机推荐

JavaScript获取当前url根目录(路径)
jsp: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8&q ...
vue不是内部或外部命令，配置一个Path系统变量就可以解决
作为一个vue小白,最近为vue安装真是操碎了心.无论怎么查找网上的教程,还是解决不了"vue不是内部或外部的命令"诸如此类的问题.好在功夫不负有心人,终于在多次的试验下,成功解决 ...
P1345 [USACO5.4]奶牛的电信Telecowmunication
P1345 [USACO5.4]奶牛的电信Telecowmunication 题目描述农夫约翰的奶牛们喜欢通过电邮保持联系,于是她们建立了一个奶牛电脑网络,以便互相交流.这些机器用如下的方式发送电邮 ...
006-接收键盘的输入(read)
read -ptns 变量名 -p 在等待read输入的时候,显示的提示信息 -t 秒数,read等待用户输入的时间 -n read接收用户输入的字符数,只接收指定字符数,就会执行 -s 隐藏输 ...
mysql myisam转innodb的2种方法
mysql myisam转innodb的2种方法 mysql中的myisam和innodb有什么区别.一个好比便利店,一个好比大型购物中心,他们是为了适应不同的场合而存在的.当流量比较小,我们可以 ...
输入和输出--java序列化机制
对象的序列化什么是Java对象的序列化? 对象序列化的目标是将对象保存到磁盘上,或允许在网络中直接传输对象.对象序列化机制允许把内存中的Java对象转换成与平台无关的二进制流,从而保存或者传输.其他 ...
C语言学习之选择排序
上一篇文章中讲C语言排序中的比较常见的(交换)冒泡排序,那么这篇文章也将以新手个人的经历来讲同样比较常见而实用的数组排序之选择排序. 选择排序,从字面上看是通过选择来进行排序.其实它的用法就是通过选择 ...
promise使用方法
代码报错会走向失败时的回调 let p = new Promise((resolve, reject) => { throw new Error("我错了"); //会失败 ...
http_build_query()函数使用方法
http_build_query()函数的作用是使用给出的关联(或下标)数组生成一个经过 URL-encode 的请求字符串. 写法格式:http_build_query ( mixed $query ...
【转】rinex
RINEX(Receiver INdependent Exchange)格式是与接收机无关的数据交换格式,该格式采用文本文件存储数据,数据记录格式与接收机的制造厂商和具体型号无关.RINEX ...

B站标题/子标题/url爬取示例(requests+re)

B站标题/子标题/url爬取示例(requests+re)的更多相关文章

随机推荐

热门专题