下载视频:

 1 from bs4 import BeautifulSoup
2 import requests
3 import re
4 import urllib
5
6
7 def callbackfunc(blocknum, blocksize, totalsize):
8 '''回调函数
9 @blocknum: 已经下载的数据块
10 @blocksize: 数据块的大小
11 @totalsize: 远程文件的大小
12 '''
13 percent = 100.0 * blocknum * blocksize / totalsize
14 if percent > 100:
15 percent = 100
16 print ("%.2f%%"% percent)
17
18
19
20 ur = 'http://www.budejie.com/video/'
21
22 def get_htmls(url):
23 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
24 html = requests.get(url,headers=headers)
25 #print(type(html.text))
26 soup =BeautifulSoup(html.text,'html.parser')
27 result1 = soup.find(attrs={'class':'j-video-c','data-title':True})
28 result2 = soup.find(attrs={'class': 'j-video', 'data-mp4': True})
29 nam = result1.get('data-title')
30 url = result2.get('data-mp4')
31 local = 'e:\\'+str(nam)+'.mp4'
32 urllib.request.urlretrieve(url, local, callbackfunc)
33
34 if __name__ == '__main__':
35 get_htmls(ur)

下载小说:

 1 from bs4 import BeautifulSoup
2 import requests
3 import re
4 from openpyxl import load_workbook
5 from openpyxl.utils import get_column_letter
6
7 #这一部分是存链接的
8 '''
9 # 设置文件 mingc
10 addr = "1.xlsx"
11 # 打开文件
12 wb = load_workbook(addr)
13 # 创建一张新表
14 ws = wb.create_sheet()
15 # 第一行输入
16 #ws.append(['TIME', 'TITLE', 'A-Z'])
17 ws['A1'] = '章节'
18 ws['B1'] = '链接
19 '''
20 links = []
21 ur = 'https://www.qb5200.tw/xiaoshuo/2/2155/'
22 def get_one_page(url,ok):
23 headers = {
24
25 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
26
27 html = requests.get(url,headers=headers)
28 html.encoding = 'gbk'
29 #print(html.content)
30 if ok == True:
31 get_parsing(html)
32 else :
33 return html
34
35 def get_parsing(html):
36 soup = BeautifulSoup(html.content,'html.parser')
37 dd = soup.findAll(['dt',['dd']])
38 result = False
39
40 #counts =2
41 co = 0
42 for one in dd:
43 #print(type(one))
44 if one.string=='《龙王传说》正文卷':
45 #ws.title = one.string
46 result = True
47 if result == True and one.name == 'dd':
48 link = one.a.get('href')
49 links.append(link) #注意这里是传入元组、列表、字典
50 '''
51 st = one.a.string
52 data = [++co,ur+link]
53 ws.append(data)
54 '''
55
56 def get_htmls():
57 i=1000
58 results = links[1000:]
59 for link in results:
60 i+=1
61 url = ur+link
62 path='龙3.txt'
63 html = get_one_page(url,False)
64 soup = BeautifulSoup(html.content, 'html.parser')
65 name = soup.find(attrs={'class':'content','id':False})
66 names = name.h1.string
67 div = soup.find('div',attrs={'class':'showtxt'})
68 with open(path,'a',encoding='utf8') as f:
69 f.write(names + '\n')
70 for string in div.stripped_strings:
71 f.write(string+'\n')
72
73 if i%10 == 0:
74 print(i)
75 if i==1300:
76 break
77
78
79
80 if __name__ == '__main__':
81 get_one_page('https://www.qb5200.tw/xiaoshuo/2/2155/',True)
82 #wb.save(addr)
83 get_htmls()

python爬虫下载小视频和小说(基础)的更多相关文章

  1. (Python基础教程之二十二)爬虫下载网页视频(video blob)

    Python基础教程 在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...

  2. 小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  3. 小白学 Python 爬虫(8):网页基础

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  4. python爬虫下载文件

    python爬虫下载文件 下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例 地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...

  5. Python爬虫爬取全书网小说,程序源码+程序详细分析

    Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...

  6. 小白学 Python 爬虫(11):urllib 基础使用(一)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. 小白学 Python 爬虫(12):urllib 基础使用(二)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 小白学 Python 爬虫(13):urllib 基础使用(三)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. 小白学 Python 爬虫(14):urllib 基础使用(四)

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

  1. 十五:SQL注入之oracle,Mangodb注入

    Access,Mysql,mssql,mangoDB,postgresql,sqlite,oracle,sybase JSON类型的数据注入: 键名:键值 {"a":"1 ...

  2. SQL注入-流程

    一般注入分类: 时间,布尔,报错,堆,联合 有关函数介绍: current_user() 当前用户名 session_user() 链接数据库的用户名 @@basedir mysql安装路径 @@da ...

  3. MyISAM与InnoDB两者之间区别与选择(转)

    Mysql在V5.1之前默认存储引擎是MyISAM:在此之后默认存储引擎是InnoDB MyISAM:默认表类型,它是基于传统的ISAM类型,ISAM是Indexed Sequential Acces ...

  4. 【Problems】Could not set property 'id' of 'xxx' with value '' Cause argument type mismatch

    一个问题:向comment表添加记录时,报错, 无法设置值. reflection.ReflectionException: Could not set property 'id' of 'class ...

  5. 1.5V升3V芯片和电路图,DC-DC升压IC

    1.5V升3V的升压芯片,3V给LED供电,或者单片机模块供电等. PW5200A工作频率为1.4MHZ.轻载时自动PWM/PFM模式切换,提高效率. PW5200A能够提供2.5V和5V之间的可调输 ...

  6. 解决Python内CvCapture视频文件格式不支持问题

    解决Python内CvCapture视频文件格式不支持问题 在读取视频文件调用默认的摄像头cv.VideoCapture(0)会出现下面的视频格式问题 CvCapture_MSMF::initStre ...

  7. 苹果 M1 芯片 OpenSSL 性能测试

    Apple M1(MacBook Air 2020) type 16 bytes 64 bytes 256 bytes 1024 bytes 8192 bytes md2 0.00 0.00 0.00 ...

  8. TCP随笔

    目录 前言 正文 time_wait和rst fin与连接关闭 nagel和ack延迟算法 滑动窗口与拥塞控制 文末 总结 测试代码 前言 网上已经有大量关于tcp的文章,感觉作为一名技术人员,不写一 ...

  9. k8s之集群管理

    导读 经过前面k8s系列的文章,这一系列已经基本完成,现在就用几篇文章说一下日常的集群维护. 目录 更新资源对象的Label Namespace:集群环境共享与隔离 部署集群监控 部署Web UI管理 ...

  10. Java网络基础

    本来主要是讲自己在网络编程方面的学习总结,里面主要讲计算网络的基础.TCP的通信协议,还有些简单的案例.下面是我学习的一个简单路线, 一.概述 计算机网络是将不同地理位置的具有独立功能的多台计算机及其 ...