有些时候我们想知道网页中包含哪些具体的信息,比如如下的这个网页,

http://www.icourse163.org/university/view/all.htm

我们只想知道自己的学校是否在这个列表中,总共又有多少学校在里面。

但是一眼看过去,看不到结果,所以,让我们把这个里面的大学列表文字的方式列出来,因为只有一页,就不用爬虫了,直接右键得到源码,或者Ctrl+u,将文本保存为 ”university_resource.txt“,放到D盘目录下。

好了,接下来,上代码:

from xpinyin import Pinyin

def get_university_list(path):
with open(path, 'r') as source_file:
file_in_lines = source_file.readlines() university_list = [] for line in file_in_lines:
if "alt" in line:
if '大学生' in line:
continue
if '大学' in line or '学院' in line:
university = line.split('"')[-2]
university_list.append(university) return university_list, len(university_list) path = "D:\\university_resource.txt" university_list, numbers = get_university_list(path) pinyin_transformer = Pinyin() # 将大学排名按照拼音的字母顺序来排序,用到xpinyin模块
university_list_order = sorted(university_list, key=lambda x: pinyin_transformer.get_pinyin(x, '')) print('总共有{}所大学开设了公开课。大学列表(按照拼音排序)如下:'.format(numbers), '\n')
for serial_number, university in enumerate(university_list_order):
print('{}. {}'.format(serial_number + 1, university))

输出:

总共有376所大学开设了公开课。大学列表(按照拼音排序)如下:

1. 安徽农业大学

2. 安阳工学院

3. 保定学院

4. 北部湾大学

5. 北方工业大学

6. 北方民族大学

7. 北京大学

8. 北京第二外国语学院

9. 北京服装学院

10. 北京工业大学

11. 北京航空航天大学

12. 北京化工大学

13. 北京建筑大学

14. 北京交通大学

15. 北京科技大学

16. 北京联合大学

17. 北京理工大学

18. 北京林业大学

19. 北京师范大学

20. 北京体育大学

21. 北京外国语大学

22. 北京现代音乐研修学院

23. 北京协和医学院

24. 北京信息科技大学

25. 北京邮电大学

26. 北京语言大学

27. 北京中医药大学

28. 北京中医药大学东方学院

29. 滨州医学院

30. 渤海大学

31. 长安大学

32. 长春师范大学

33. 长春中医药大学

34. 长江大学

35. 长沙理工大学

36. 长沙师范学院

37. 长沙学院

38. 常熟理工学院

39. 常州大学

40. 常州工学院

41. 成都大学

42. 成都工业学院

43. 成都理工大学

44. 成都体育学院

45. 成都信息工程大学

46. 成都中医药大学

47. 大连大学

48. 大连工业大学

49. 大连海事大学

50. 大连海洋大学

51. 大连理工大学

52. 电子科技大学

53. 第四军医大学

54. 东北财经大学

55. 东北大学

56. 东北林业大学

57. 东北农业大学

58. 东北师范大学

59. 东华大学

60. 东南大学

61. 对外经济贸易大学

62. 复旦大学

63. 福建江夏学院

64. 福建农林大学

65. 福建师范大学

66. 福建医科大学

67. 福建中医药大学

68. 福州大学

69. 福州外语外贸学院

70. 广东工业大学

71. 广东技术师范大学

72. 广东外语外贸大学

73. 广西大学

74. 广西民族大学

75. 广西医科大学

76. 广州大学

77. 广州美术学院

78. 广州体育学院

79. 广州中医药大学

80. 桂林电子科技大学

81. 桂林理工大学

82. 桂林旅游学院

83. 贵州理工学院

84. 国防科技大学

85. 国家开放大学

86. 国际关系学院

87. 哈尔滨工程大学

88. 哈尔滨工业大学

89. 哈尔滨师范大学

90. 哈尔滨医科大学

91. 海南师范大学

92. 杭州电子科技大学

93. 杭州师范大学

94. 河北工业大学

95. 河北经贸大学

96. 河北科技大学

97. 河北师范大学

98. 合肥工业大学

99. 合肥师范学院

100. 河海大学

101. 黑龙江大学

102. 黑龙江信息技术职业学院

103. 河南城建学院

104. 河南大学

105. 河南科技大学

106. 河南科技学院

107. 河南理工大学

108. 河南农业大学

109. 河南师范大学

110. 河南师范大学新联学院

111. 河南中医药大学

112. 衡阳师范学院

113. 河西学院

114. 华北电力大学

115. 华北电力大学(保定)

116. 华东交通大学

117. 华东理工大学

118. 华东师范大学

119. 华东政法大学

120. 淮阴工学院

121. 淮阴师范学院

122. 华南理工大学

123. 华南师范大学

124. 黄河科技学院

125. 黄淮学院

126. 华侨大学

127. 华中科技大学

128. 华中农业大学

129. 华中师范大学

130. 湖北大学

131. 湖北经济学院

132. 湖北汽车工业学院

133. 湖北文理学院

134. 呼伦贝尔学院

135. 湖南大学

136. 湖南第一师范学院

137. 湖南工业大学

138. 湖南科技学院

139. 湖南理工学院

140. 湖南农业大学

141. 湖南师范大学

142. 江南大学

143. 江苏大学

144. 江苏第二师范学院

145. 江苏海洋大学

146. 江苏警官学院

147. 江苏开放大学

148. 江苏科技大学

149. 江苏科技大学苏州理工学院

150. 江苏理工学院

151. 江苏师范大学

152. 江苏师范大学科文学院

153. 江西财经大学

154. 江西科技学院

155. 江西理工大学

156. 江西师范大学

157. 吉林大学

158. 吉林体育学院

159. 集美大学

160. 暨南大学

161. 景德镇陶瓷大学

162. 金陵科技学院

163. 锦州医科大学

164. 九江学院

165. 开封大学

166. 昆明理工大学

167. 兰州大学

168. 兰州交通大学

169. 辽宁科技学院

170. 辽宁中医药大学

171. 岭南师范学院

172. 陇东学院

173. 洛阳理工学院

174. 洛阳师范学院

175. 闽江学院

176. 闽南理工学院

177. 闽南师范大学

178. 南昌大学

179. 南昌工程学院

180. 南昌工学院

181. 南昌航空大学

182. 南方医科大学

183. 南华大学

184. 南京财经大学

185. 南京财经大学红山学院

186. 南京大学

187. 南京大学金陵学院

188. 南京工程学院

189. 南京工业大学

190. 南京航空航天大学

191. 南京理工大学

192. 南京理工大学泰州科技学院

193. 南京理工大学紫金学院

194. 南京林业大学

195. 南京农业大学

196. 南京森林警察学院

197. 南京审计大学

198. 南京审计大学金审学院

199. 南京师范大学

200. 南京师范大学泰州学院

201. 南京师范大学中北学院

202. 南京特殊教育师范学院

203. 南京体育学院

204. 南京晓庄学院

205. 南京信息工程大学

206. 南京信息工程大学滨江学院

207. 南京医科大学

208. 南京艺术学院

209. 南京邮电大学

210. 南京中医药大学

211. 南开大学

212. 南宁师范大学

213. 南通大学

214. 南通理工学院

215. 内蒙古大学

216. 内蒙古民族大学

217. 宁波大学

218. 宁波工程学院

219. 宁夏大学

220. 平顶山学院

221. 青岛大学

222. 青岛科技大学

223. 青海大学

224. 三江学院

225. 厦门大学

226. 山东财经大学

227. 山东畜牧兽医职业学院

228. 山东大学

229. 山东工商学院

230. 山东水利职业学院

231. 山东体育学院

232. 山东中医药大学

233. 上海财经大学

234. 上海大学

235. 上海对外经贸大学

236. 上海工程技术大学

237. 上海海事大学

238. 上海海洋大学

239. 上海交通大学

240. 上海立信会计金融学院

241. 上海师范大学

242. 上海体育学院

243. 上海外国语大学

244. 上海戏剧学院

245. 上海应用技术大学

246. 汕头大学

247. 山西大学

248. 陕西科技大学

249. 山西农业大学

250. 陕西师范大学

251. 山西师范大学

252. 山西医科大学

253. 沈阳工业大学

254. 沈阳师范大学

255. 深圳大学

256. 首都经济贸易大学

257. 首都师范大学

258. 首都体育学院

259. 四川大学

260. 四川美术学院

261. 四川师范大学

262. 四川音乐学院

263. 宿迁学院

264. 苏州大学

265. 苏州大学文正学院

266. 苏州科技大学

267. 苏州科技大学天平学院

268. 太原工业学院

269. 太原理工大学

270. 泰州学院

271. 天津财经大学

272. 天津大学

273. 天津商业大学

274. 天津师范大学

275. 天津体育学院运动与文化艺术学院

276. 天津医科大学

277. 通化师范学院

278. 同济大学

279. 外交学院

280. 温州大学

281. 温州医科大学

282. 武昌工学院

283. 武昌理工学院

284. 武汉大学

285. 武汉科技大学

286. 武汉理工大学

287. 武汉体育学院

288. 武夷学院

289. 西安电子科技大学

290. 西安工程大学

291. 西安工业大学

292. 湘潭大学

293. 西安航空学院

294. 西安建筑科技大学

295. 西安交通大学

296. 西安科技大学

297. 西安理工大学

298. 西安外国语大学

299. 西安邮电大学

300. 西北大学

301. 西北工业大学

302. 西北农林科技大学

303. 西藏民族大学

304. 西华大学

305. 西华师范大学

306. 西南财经大学

307. 西南大学

308. 西南交通大学

309. 西南石油大学

310. 西南政法大学

311. 邢台学院

312. 新疆财经大学

313. 新余学院

314. 徐州工程学院

315. 徐州医科大学

316. 延安大学

317. 盐城工学院

318. 盐城师范学院

319. 扬州大学

320. 云南财经大学

321. 云南大学

322. 云南师范大学

323. 豫章师范学院

324. 浙江财经大学

325. 浙江传媒学院

326. 浙江大学

327. 浙江大学城市学院

328. 浙江工商大学

329. 浙江工业大学

330. 浙江科技学院

331. 浙江理工大学

332. 浙江农林大学

333. 浙江师范大学

334. 浙江万里学院

335. 浙江音乐学院

336. 浙江中医药大学

337. 郑州大学

338. 郑州工程技术学院

339. 郑州轻工业大学

340. 中北大学

341. 中国传媒大学

342. 中国地质大学(北京)

343. 中国地质大学(武汉)

344. 中国海洋大学

345. 中国计量大学

346. 中国科学技术大学

347. 中国科学院大学

348. 中国矿业大学

349. 中国矿业大学徐海学院

350. 中国矿业大学(北京)

351. 中国农业大学

352. 中国人民大学

353. 中国人民解放军陆军工程大学

354. 中国人民警察大学

355. 中国社会科学院大学

356. 中国石油大学(北京)

357. 中国石油大学(华东)

358. 中国刑事警察学院

359. 中国药科大学

360. 中国医科大学

361. 中国音乐学院

362. 中国政法大学

363. 中南财经政法大学

364. 中南大学

365. 中南林业科技大学

366. 中南民族大学

367. 重庆大学

368. 重庆工商大学

369. 重庆交通大学

370. 中山大学

371. 中央财经大学

372. 中央美术学院

373. 中央民族大学

374. 中央音乐学院

375. 中原工学院

376. 周口师范学院

Process finished with exit code 0

这里面有你的大学吗?如果扩展,还可以统计哪些是985,哪些是211学校…

简单的中国MOOC大学列表提取 - Python的更多相关文章

  1. python爬虫抓取中国最好大学排名1 清华大学 北京 94.0 100.0 97.70% 清华大学 2 北京大学

    import requests from bs4 import BeautifulSoup import bs4.element r=requests.get("http://www.zui ...

  2. 列表(list) ----python

    Python 列表(List) 序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型 ...

  3. 中国科学技术大学统一身份认证系统CAS

    CAS | Apereohttps://www.apereo.org/projects/cas 中国科学技术大学统一身份认证系统https://passport.ustc.edu.cn/login?s ...

  4. iRSF快速简单易用的实现列表、排序、过滤功能

    IRSF 是由javascript编写,iRSF快速简单易用的实现列表.排序.过滤功能(该三种操作以下简称为 RSF ). iRSF由三个类组成. iRSFSource 数据源 iRSFFilter ...

  5. 量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python)(转)

    量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python) 原文地址:http://blog.csdn.net/u012234115/article/details/728300 ...

  6. 列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 以及join()在python中的用法简介

    列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 使用字符串链接的四种方法都可以创建 字符串拼接一共有四种方法,也可以应用到列表的拼接中 ...

  7. python 列表List - python基础入门(13)

    列表是python开发过程中最常用的数据类型之一,列表俗称:list ,特点如下: 1.列表由一个或者多个数据构成,数据的类型可以不相同也可以相同: 2.列表中的数据需要写在[]中括号内部,数据与数据 ...

  8. Python爬虫实战:2017中国最好大学排名

    抓取内容: 从最好大学网上抓取中国前10的大学排名.大学名称.总分,并数据格式左对齐. http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先 ...

  9. python爬虫学习(二):定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018",并把结果写进txt文件

    在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...

随机推荐

  1. SSI服务器端包含注入

    服务器端嵌入:Server Side Include,是一种类似于ASP的基于服务器的网页制作技术.大多数(尤其是基于Unix平台)的WEB服务器如Netscape Enterprise Server ...

  2. [字典树,trie树] 树之呼吸-肆之型-前缀统计

    D.树之呼吸-肆之型-前缀统计 Time Limit: 1000 MS Memory Limit: 65536 K Total Submit: 59 (8 users) Total Accepted: ...

  3. Python电影数据分析

    数据说明:MovieLens数据集,它包含来自于943个用户以及精选的1682部电影的100K个电影打分.每个用户至少为20部电影打分,数据类型user id | item id | rating | ...

  4. 为何Keras中的CNN是有问题的,如何修复它们?

    在训练了 50 个 epoch 之后,本文作者惊讶地发现模型什么都没学到,于是开始深挖背后的问题,并最终从恺明大神论文中得到的知识解决了问题. 上个星期我做了一些实验,用了在 CIFAR10 数据集上 ...

  5. Mysql 随笔记录

    Soundex 声音相似的 select * from demos where Soundex('title') = Soundex('标示'); Concat 拼接语句 select concat( ...

  6. 创建Windows10无人值守(自动应答文件)教程

    一.准备工作 系统要求: Windows10 1809版本 工具下载: 镜像:Windows10,任何一个版本都可以,我使用的是1909版本 ed2k://|file|cn_windows_10_bu ...

  7. 「MoreThanJava」计算机发展史—从织布机到IBM

    「MoreThanJava」 宣扬的是 「学习,不止 CODE」,本系列 Java 基础教程是自己在结合各方面的知识之后,对 Java 基础的一个总回顾,旨在 「帮助新朋友快速高质量的学习」. 当然 ...

  8. vulnhub~DC-9

    首先对于整体的思路,网上有很多的教程,如果国内的不能满足建议‘fanqiang’,Google有很多大佬,各个部分都有详细的说明.但又由于每个人的环境都有所不同,所以会在同样的命令行执行后出现不同的错 ...

  9. 1000行MySQL学习笔记,不怕你不会,就怕你不学!

    Windows服务 -- 启动MySQL net start mysql-- 创建Windows服务 sc create mysql binPath= mysqld_bin_path(注意:等号与值之

  10. CAS单点登录系列之极速入门于实战教程(4.2.7)

    @ 目录 一. SSO简介 1.1 单点登录定义 1.2 单点登录角色 1.3 单点登录分类 二. CAS简介 2.1 CAS简单定义 2.2 CAS体系结构 2.3 CAS原理 三.CAS服务端搭建 ...