python爬虫下载小视频和小说(基础)

下载视频：

 1 from bs4 import BeautifulSoup

 2 import requests

 3 import re

 4 import urllib

 5

 6

 7 def callbackfunc(blocknum, blocksize, totalsize):

 8     '''回调函数

 9     @blocknum: 已经下载的数据块

10     @blocksize: 数据块的大小

11     @totalsize: 远程文件的大小

12     '''

13     percent = 100.0 * blocknum * blocksize / totalsize

14     if percent > 100:

15         percent = 100

16     print ("%.2f%%"% percent)

17

18

19

20 ur = 'http://www.budejie.com/video/'

21

22 def get_htmls(url):

23     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}

24     html = requests.get(url,headers=headers)

25     #print(type(html.text))

26     soup =BeautifulSoup(html.text,'html.parser')

27     result1 = soup.find(attrs={'class':'j-video-c','data-title':True})

28     result2 = soup.find(attrs={'class': 'j-video', 'data-mp4': True})

29     nam = result1.get('data-title')

30     url = result2.get('data-mp4')

31     local = 'e:\\'+str(nam)+'.mp4'

32     urllib.request.urlretrieve(url, local, callbackfunc)

33

34 if __name__ == '__main__':

35     get_htmls(ur)

下载小说：

 1 from bs4 import BeautifulSoup

 2 import requests

 3 import re

 4 from openpyxl import load_workbook

 5 from openpyxl.utils import get_column_letter

 6

 7 #这一部分是存链接的

 8 '''

 9 # 设置文件 mingc

10 addr = "1.xlsx"

11 # 打开文件

12 wb = load_workbook(addr)

13 # 创建一张新表

14 ws = wb.create_sheet()

15 # 第一行输入

16 #ws.append(['TIME', 'TITLE', 'A-Z'])

17 ws['A1'] = '章节'

18 ws['B1'] = '链接

19 '''

20 links = []

21 ur = 'https://www.qb5200.tw/xiaoshuo/2/2155/'

22 def get_one_page(url,ok):

23     headers = {

24

25    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}

26

27     html = requests.get(url,headers=headers)

28     html.encoding = 'gbk'

29     #print(html.content)

30     if ok == True:

31         get_parsing(html)

32     else :

33         return html

34

35 def get_parsing(html):

36     soup = BeautifulSoup(html.content,'html.parser')

37     dd = soup.findAll(['dt',['dd']])

38     result = False

39

40     #counts =2

41     co = 0

42     for one in dd:

43         #print(type(one))

44         if one.string=='《龙王传说》正文卷':

45             #ws.title = one.string

46             result = True

47         if result == True and one.name == 'dd':

48             link = one.a.get('href')

49             links.append(link)   #注意这里是传入元组、列表、字典

50 '''

51             st = one.a.string

52             data = [++co,ur+link]

53             ws.append(data)

54 '''

55

56 def get_htmls():

57     i=1000

58     results = links[1000:]

59     for link in results:

60         i+=1

61         url = ur+link

62         path='龙3.txt'

63         html = get_one_page(url,False)

64         soup = BeautifulSoup(html.content, 'html.parser')

65         name = soup.find(attrs={'class':'content','id':False})

66         names = name.h1.string

67         div = soup.find('div',attrs={'class':'showtxt'})

68         with open(path,'a',encoding='utf8') as f:

69             f.write(names + '\n')

70             for string in div.stripped_strings:

71                 f.write(string+'\n')

72

73         if i%10 == 0:

74             print(i)

75             if i==1300:

76                 break

77

78

79

80 if __name__ == '__main__':

81     get_one_page('https://www.qb5200.tw/xiaoshuo/2/2155/',True)

82     #wb.save(addr)

83     get_htmls()

python爬虫下载小视频和小说(基础)的更多相关文章

（Python基础教程之二十二）爬虫下载网页视频(video blob)
Python基础教程在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...
小白学 Python 爬虫（17）：Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（8）：网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
小白学 Python 爬虫（11）：urllib 基础使用（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（12）：urllib 基础使用（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（13）：urllib 基础使用（三）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（14）：urllib 基础使用（四）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

ORA-32004解决办法
ORA-32004 解释是: 产生问题的原因是一个过时的参数,这个参数是早在8i,9i中使用的,在11g中已经废掉了这个参数就是pfile中的*.sql_trace 用spfile 生成一个pfil ...
XSS - Labs 靶场笔记(下)
Less - 11: 1.观察界面和源代码可知,依旧是隐藏表单 2.突破点是 $str11=$_SERVER['HTTP_REFERER']; (本题为HTTP头REFERER注入) 3.因此构造pa ...
使用 TensorBoard 可视化模型、数据和训练
使用 TensorBoard 可视化模型.数据和训练在 60 Minutes Blitz 中,我们展示了如何加载数据,并把数据送到我们继承 nn.Module 类的模型,在训练数据上训练模型,并在测 ...
Linux TCP漏洞 CVE-2019-11477 CentOS7 修复方法
CVE-2019-11477漏洞简单介绍 https://cert.360.cn/warning/detail?id=27d0c6b825c75d8486c446556b9c9b68 RedHat用户 ...
qt for webassembly环境搭建图文教程
一.前言从Qt5.14开始,官方的在线安装提供了qt for webassembly构建套件,这对很多小白来说绝对是个好消息,也绝对是个好东西,好消息是不用再去交叉编译自己生成qt for weba ...
好你个C语言，原来还有这么多副面孔！
C语言可以这样比喻,是一门非常强大的内功心法,学会它可以做到一法通万法.这也是它至今不衰的原因.说了这么多C语言的优点,现在来说说它的缺点.C语言最大的优点也是它最大的缺点,拥有强大的力量时应时刻保持 ...
.NET Core 问题记录
前言: 最近在项目中遇到了遇到了写部署步骤过多的问题,为了减少.net core项目部署步骤:需要对一些基础问题进行验证: 如端口设置.单页应用程序(angluar)合并部署方式等相关问题,特将解决过 ...
NOIP2020 T2 字符串匹配题解
首先考虑O(n^3)的暴力怎么写. 显然,可以枚举字符串$A$+$B$的右端点,左端点显然是1,暴力判断是否能与后面的字符构成循环节,对于满足 $k*(A+B)+C=$ 整个字符串\((k ...
MySQL设计之Schema与数据类型优化
一.数据类型优化 1.更小通常更好应该尽量使用可以正确存储数据的最小数据类型,更小的数据类型通常更快,因为它们占用更少的磁盘.内存和CPU缓存,并且处理时需要的CPU周期更少,但是要确保没有低估需要 ...
leaving sockets open which can trigger a ResourceWarning in some # cases, and look like a memory leak in others
# -*- coding: utf-8 -*- """ requests.api ~~~~~~~~~~~~ This module implements the Requ ...

python爬虫下载小视频和小说(基础)

python爬虫下载小视频和小说(基础)的更多相关文章

随机推荐

热门专题