B站标题/子标题/url爬取示例(requests+re)
#coding:utf-8
__author__ = "zhoumi"
3
import requests
import re
import urllib
'''
本文档目的在于获得:
1、一级目录与其对应链接的字典,如下形式
dictinfo = {一级目录:链接}
2、二级目录与其对应链接的字典,如下形式
dict2info = {二级目录:链接}
3、一级目录与二级目录对应的字典,如下形式
dict3info = {一级目录:[二级目录]}
''' #获得待解析的页面
#首先用raise_for_status处理异常:若请求不成功,抛出异常
def getText(url):
source = requests.get(url)
source.raise_for_status()
source.encoding = source.apparent_encoding
return(source.text) #返回分类名(keys)及对应链接(value)的字典
#dictinfo = {name1list:html1list}
#例如:动画:www.bilibili.donghua.com,........
def getfirsttitle(source):
text = re.findall(r'a class.*?div class',source)
namelist = []
htmllist = []
dictinfo = {}
for i in text:
namelist.append(i.split("><em>")[1].split("</em>")[0])
htmllist.append(i.split('href="//')[1].split('"><em>')[0])
for i in range(len(namelist) - 1):
dictinfo[namelist[i]] = htmllist[i]
return dictinfo #返回二级分类的keys(分类名)和values(对应链接)的字典
#dict2info = {name2list:html2list}
def getsecondtitle(source):
text2 = re.findall(r'a href.*?<em></em></b></a></li>',source)
name2list = []
html2list = []
dict2info = {}
for i in text2:
name2list.append(i.split('><b>')[1].split('<em>')[0])
html2list.append(i.split('a href="//')[1].split('"><b>')[0])
for i in range(len(name2list) - 1):
dict2info[name2list[i]] = html2list[i]
return dict2info #获得一级分类和二级分类的分类名的字典
#dict3info = {name1list:[name2list]}
def getfirst2second(source):
text3 = re.findall(r'"m-i".*?</ul',source,re.S)
dict3info = {}
middletitle = []
for i in text3:
#获得出各个一级标题
title = i.split('><b>')[0].split('</em>')[0].split('<em>')[1]
#获得各一级标题的子标题
childtitle = i.split('><b>')
dict3info[title] = childtitle
for j in range(len(childtitle) - 1):
childtitle[j] = childtitle[j + 1]
#处理冗余
childtitle.pop()
for k in childtitle:
middletitle.append(k.split('<em>')[0])
#每处理完一个title的childtitle,就执行存储语句
dict3info[title] = middletitle
#初始化传递列表
middletitle = []
return dict3info #——————————————————————————————————————————————
##导入字典{二级分类名:urls2}计划使用urllib库
'''
url为dict_2_url2字典里面的url2
本文本块目的在于获取二级分类页面的源视频链接和视频名称
并生成最终可调用字典{source_name:source_url} url = dict_2_urls.values()
''' def gettext(url):
source = requests.get(url)
source.raise_for_status()
source.encoding = source.apparent_encoding
return source.text def download(source):
text = re.findall(r'<video> src="blob:.*?"></video>',source)
html = text.split('<video> src="')[1].split('"></video>')[0]
pass
这是今两天瞎鼓捣弄出来的代码,函数名、变量名的定义存在问题。
最开始利用requests.get(url)获得文本之后,不明白为什么需要text._raise_for_status()这一句代码,后来明白这个是为了处理向url发出response请求时的异常处理,具体是什么处理不太明白。
其中,text.encoding = text.apparent.encoding的实现原理也没有深究,需要慢慢积累。
requests作为一个第三方库,提供的是一种便利的功能,但是学习这几天之后,我发现这个并不太适合初学者,深层次的才是基础的,所以我觉得需要好好了解一下urllib这个模块。
之后,我准备尝试使用urllib模块对下载下来的文本进行处理,urlretrieve函数,urllib.request.urlopen函数等.
还遇见一个问题,当我准备利用字典里面的视频链接下载b站的视频时,会显示如下结果:
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xc5}{\x93\x1bE\xb2\xef\xdf8\xe2|\x87^\xb1\xc1\x8c\x03\xeb9\x9a\x97\xf1\x0c\x07\x0c\xdcC\x1cX\xd8\xc5
我的源码是:
import urllib.request
import urllib.parse def gettext(url):
source = urllib.request.urlopen(url,timeout=30)
return source.read()
url = 'https://www.bilibili.com/video/av11138658/'
text = gettext(url)
print(text)
百思不得其解,最后我把原因归结为B站视频有做过加密处理,入门不足一个月的小白还没有能力解决这个问题~~~
B站标题/子标题/url爬取示例(requests+re)的更多相关文章
- Python入门:全站url爬取
<p>作为一个安全测试人员,面对一个大型网站的时候,手工测试很有可能测试不全,这时候就非常需要一个通用型的网站扫描器.当然能直接扫出漏洞的工具也有很多,但这样你只能算是一个工具使用者,对于 ...
- python预课05 爬虫初步学习+jieba分词+词云库+哔哩哔哩弹幕爬取示例(数据分析pandas)
结巴分词 import jieba """ pip install jieba 1.精确模式 2.全模式 3.搜索引擎模式 """ txt ...
- A站(ACFun)爬虫爬取并播放、下载视频(JAVA)
本文使用的工具有vlc+ffmpeg+phantomjs 一般视频网站的视频地址暴露的方式有两种: 1.html直接暴露 2.通过ajax异步返回. A站使用的方式是第二种.针对第一种方式,直接使用j ...
- scrapy 修改URL爬取起始位置
import scrapy from Autopjt.items import myItem from scrapy.http import Request class AutospdSpider(s ...
- Python3:爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容 以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
- 小爬虫。爬取网站多页的通知标题并存取在txt文档里。
爬取网页中通知标题的内容展示: this is 1 page!<精算学综合>科目考试参考大纲2016年上半年研究生开题报告评议审核结果公示[答辩]2016下半年研究生论文答辩及学位评定 ...
- python爬取b站排行榜
爬取b站排行榜并存到mysql中 目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构 目标网站:bil ...
- 针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
- 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
随机推荐
- 关于jwplayer 处理进度条禁止快进的处理方法。
今天在处理一个关于jwplayer 第一次播放禁止快进,但是可以后退的一个需求.开始在网上去查一些方法,有几个方法是换皮肤,禁止点击,但是和我的初衷不是很一致,还有一种方式是官网查看了API接口的方 ...
- js == 和 ===
1.对于string,number等基础类型,==和===是有区别的 1)不同类型间比较,==之比较"转化成同一类型后的值"看"值"是否相等,===如果类型不同 ...
- Spring切面优先级
项目中有两个切面,这两个切面都作用于同一个方法,哪个先执行哪个后执行呢,所以要定义一个切面的优先级 import java.util.Arrays; import org.aspectj.lang.J ...
- java面向对象的三大特性——多态
多态 所谓多态就是指程序中定义的引用变量所指向的具体类型和通过该引用变量发出的方法调用在编程时并不确定,而是在程序运行期间才确定,即一个引用变量倒底会指向哪个类的实例对象,该引用变量发出的方法调用到底 ...
- js_8_dom标签
创:9_3_2017 星期4 修: 对于在a标签中,如何阻止跳转? 定义一个事件,事件顺序执行后才执行跳转,如果事件函数返回false,则后面事件就不触发 事件1 = "return 函数 ...
- JavaScript高级编程小结
Undefined 对未初始化的变量执行typeof操作符会返回undefined值,而对未声明的变量执行typeof操作符同样也会返回undefined var message; console.l ...
- 1 let和const
let命令 1)let声明的变量只在let命令所在的代码块内有效,如: { let a = ; ;} a // ReferenceError: a is not defined. b 对于for循 ...
- 解决跨站脚本注入,跨站伪造用户请求,sql注入等http安全漏洞
跨站脚本就是在url上带上恶意的js关键字然后脚本注入了,跨站伪造用户请求就是没有经过登陆,用超链接或者直接url上敲地址进入系统,类似于sql注入这些都是安全漏洞. sql注入 1.参数化查询预处理 ...
- linkin大话面向对象--内部类
内部类说白了就是类中有类 内部类:嵌套类 外部类:宿主类 内部类主要有以下作用:记住了3个字:多继承... 1,内部类提供了更好的封装,可以把内部类隐藏在外部类中,不允许同一个包中的其他类访问该类. ...
- 百度网盘不限速下载软件 Pan Download
百度网盘不限速下载软件 Pan Download Pan Download下载软件是一款电脑端的快速下载器软件,您可以通过Pan Download直接下载百度网盘中的资源,此款软件下载速度快,下载压缩 ...