python爬虫下载小视频和小说(基础)
下载视频:
1 from bs4 import BeautifulSoup
2 import requests
3 import re
4 import urllib
5
6
7 def callbackfunc(blocknum, blocksize, totalsize):
8 '''回调函数
9 @blocknum: 已经下载的数据块
10 @blocksize: 数据块的大小
11 @totalsize: 远程文件的大小
12 '''
13 percent = 100.0 * blocknum * blocksize / totalsize
14 if percent > 100:
15 percent = 100
16 print ("%.2f%%"% percent)
17
18
19
20 ur = 'http://www.budejie.com/video/'
21
22 def get_htmls(url):
23 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
24 html = requests.get(url,headers=headers)
25 #print(type(html.text))
26 soup =BeautifulSoup(html.text,'html.parser')
27 result1 = soup.find(attrs={'class':'j-video-c','data-title':True})
28 result2 = soup.find(attrs={'class': 'j-video', 'data-mp4': True})
29 nam = result1.get('data-title')
30 url = result2.get('data-mp4')
31 local = 'e:\\'+str(nam)+'.mp4'
32 urllib.request.urlretrieve(url, local, callbackfunc)
33
34 if __name__ == '__main__':
35 get_htmls(ur)
下载小说:
1 from bs4 import BeautifulSoup
2 import requests
3 import re
4 from openpyxl import load_workbook
5 from openpyxl.utils import get_column_letter
6
7 #这一部分是存链接的
8 '''
9 # 设置文件 mingc
10 addr = "1.xlsx"
11 # 打开文件
12 wb = load_workbook(addr)
13 # 创建一张新表
14 ws = wb.create_sheet()
15 # 第一行输入
16 #ws.append(['TIME', 'TITLE', 'A-Z'])
17 ws['A1'] = '章节'
18 ws['B1'] = '链接
19 '''
20 links = []
21 ur = 'https://www.qb5200.tw/xiaoshuo/2/2155/'
22 def get_one_page(url,ok):
23 headers = {
24
25 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763'}
26
27 html = requests.get(url,headers=headers)
28 html.encoding = 'gbk'
29 #print(html.content)
30 if ok == True:
31 get_parsing(html)
32 else :
33 return html
34
35 def get_parsing(html):
36 soup = BeautifulSoup(html.content,'html.parser')
37 dd = soup.findAll(['dt',['dd']])
38 result = False
39
40 #counts =2
41 co = 0
42 for one in dd:
43 #print(type(one))
44 if one.string=='《龙王传说》正文卷':
45 #ws.title = one.string
46 result = True
47 if result == True and one.name == 'dd':
48 link = one.a.get('href')
49 links.append(link) #注意这里是传入元组、列表、字典
50 '''
51 st = one.a.string
52 data = [++co,ur+link]
53 ws.append(data)
54 '''
55
56 def get_htmls():
57 i=1000
58 results = links[1000:]
59 for link in results:
60 i+=1
61 url = ur+link
62 path='龙3.txt'
63 html = get_one_page(url,False)
64 soup = BeautifulSoup(html.content, 'html.parser')
65 name = soup.find(attrs={'class':'content','id':False})
66 names = name.h1.string
67 div = soup.find('div',attrs={'class':'showtxt'})
68 with open(path,'a',encoding='utf8') as f:
69 f.write(names + '\n')
70 for string in div.stripped_strings:
71 f.write(string+'\n')
72
73 if i%10 == 0:
74 print(i)
75 if i==1300:
76 break
77
78
79
80 if __name__ == '__main__':
81 get_one_page('https://www.qb5200.tw/xiaoshuo/2/2155/',True)
82 #wb.save(addr)
83 get_htmls()
python爬虫下载小视频和小说(基础)的更多相关文章
- (Python基础教程之二十二)爬虫下载网页视频(video blob)
Python基础教程 在SublimeEditor中配置Python环境 Python代码中添加注释 Python中的变量的使用 Python中的数据类型 Python中的关键字 Python字符串操 ...
- 小白学 Python 爬虫(17):Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(8):网页基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- python爬虫下载文件
python爬虫下载文件 下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例 地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
- Python爬虫爬取全书网小说,程序源码+程序详细分析
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...
- 小白学 Python 爬虫(11):urllib 基础使用(一)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(12):urllib 基础使用(二)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(13):urllib 基础使用(三)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(14):urllib 基础使用(四)
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
随机推荐
- 【RAC】10grac添加节点,详细步骤
RAC物理结构 现在的RAC环境是二个节点: dbp,dbs, 这个实验就是添加节点dbi. dbp,dbs和dbi节点的信息规划如下: 服务器主机名 dbp dbs dbi 公共IP地址(eth0) ...
- LeetCode617. 合并二叉树
题目 1 class Solution { 2 public: 3 TreeNode* mergeTrees(TreeNode* t1, TreeNode* t2) { 4 if(!t1 && ...
- ctfhub技能树—sql注入—整数型注入
打开靶机 查看页面信息 查看回显位 查询数据库名 查询表名 查询字段 查询字段信息 使用sqlmap食用效果更佳 查数据库名 python2 sqlmap.py -u http://challenge ...
- SP338 ROADS
题目描述 城市中有R条有向马路,n个马路连接点,通过每条马路都要花去一定费用.你现在在编号为1的连接点 ,手里有k元钱,要去n号连接点的最短路径的长度是多少?途中经过道路的花费不能超过k.注意:两个 ...
- 大数据谢列3:Hdfs的HA实现
在之前的文章:大数据系列:一文初识Hdfs , 大数据系列2:Hdfs的读写操作 中Hdfs的组成.读写有简单的介绍. 在里面介绍Secondary NameNode和Hdfs读写的流程. 并且在文章 ...
- 电脑微信电脑PC 多开/防撤回 补丁
简介 经常使用微信电脑版的用户都会发现一个蛋疼的事情,那就是微信PC版不支持多开,也就是不能同时登陆多个账号,这对于需要在电脑上登陆多个微信账号的朋友来说肯定是极其的不方便.另外有的时候别人撤回了一些 ...
- ShardingSphere内核原理 原创 鸽子 架构漫谈 2021-01-09
ShardingSphere内核原理 原创 鸽子 架构漫谈 2021-01-09
- the minimum number of bits required to represent x 最小位数
src/math/bits/bits.go:296 // --- Len ---// Len returns the minimum number of bits required to repres ...
- MySQL如何安全的给小表加字段
MySQL学习笔记-如何安全的给小表加字段 如果要给一个大表加字段,你一般都会非常谨慎小心,以免对线上业务造成影响,但实际上给一个小表加字段不慎操作也会导致线上业务出问题,这篇文章主要学习一下MySQ ...
- CSS选择器,属性前缀,长度单位,变形效果,过渡效果,动画效果
CSS3选择器 ·*通配选择器 ·E标签选择器 ·E#id ID选择器 ·E.class类选择器 ·E F包含选择器,后代选择器 ·E>F子包含选择器 ·E+F相邻兄弟选择器 ·E[foo]属性 ...