有些时候我们想知道网页中包含哪些具体的信息,比如如下的这个网页,

http://www.icourse163.org/university/view/all.htm

我们只想知道自己的学校是否在这个列表中,总共又有多少学校在里面。

但是一眼看过去,看不到结果,所以,让我们把这个里面的大学列表文字的方式列出来,因为只有一页,就不用爬虫了,直接右键得到源码,或者Ctrl+u,将文本保存为 ”university_resource.txt“,放到D盘目录下。

好了,接下来,上代码:

from xpinyin import Pinyin

def get_university_list(path):
with open(path, 'r') as source_file:
file_in_lines = source_file.readlines() university_list = [] for line in file_in_lines:
if "alt" in line:
if '大学生' in line:
continue
if '大学' in line or '学院' in line:
university = line.split('"')[-2]
university_list.append(university) return university_list, len(university_list) path = "D:\\university_resource.txt" university_list, numbers = get_university_list(path) pinyin_transformer = Pinyin() # 将大学排名按照拼音的字母顺序来排序,用到xpinyin模块
university_list_order = sorted(university_list, key=lambda x: pinyin_transformer.get_pinyin(x, '')) print('总共有{}所大学开设了公开课。大学列表(按照拼音排序)如下:'.format(numbers), '\n')
for serial_number, university in enumerate(university_list_order):
print('{}. {}'.format(serial_number + 1, university))

输出:

总共有376所大学开设了公开课。大学列表(按照拼音排序)如下:

1. 安徽农业大学

2. 安阳工学院

3. 保定学院

4. 北部湾大学

5. 北方工业大学

6. 北方民族大学

7. 北京大学

8. 北京第二外国语学院

9. 北京服装学院

10. 北京工业大学

11. 北京航空航天大学

12. 北京化工大学

13. 北京建筑大学

14. 北京交通大学

15. 北京科技大学

16. 北京联合大学

17. 北京理工大学

18. 北京林业大学

19. 北京师范大学

20. 北京体育大学

21. 北京外国语大学

22. 北京现代音乐研修学院

23. 北京协和医学院

24. 北京信息科技大学

25. 北京邮电大学

26. 北京语言大学

27. 北京中医药大学

28. 北京中医药大学东方学院

29. 滨州医学院

30. 渤海大学

31. 长安大学

32. 长春师范大学

33. 长春中医药大学

34. 长江大学

35. 长沙理工大学

36. 长沙师范学院

37. 长沙学院

38. 常熟理工学院

39. 常州大学

40. 常州工学院

41. 成都大学

42. 成都工业学院

43. 成都理工大学

44. 成都体育学院

45. 成都信息工程大学

46. 成都中医药大学

47. 大连大学

48. 大连工业大学

49. 大连海事大学

50. 大连海洋大学

51. 大连理工大学

52. 电子科技大学

53. 第四军医大学

54. 东北财经大学

55. 东北大学

56. 东北林业大学

57. 东北农业大学

58. 东北师范大学

59. 东华大学

60. 东南大学

61. 对外经济贸易大学

62. 复旦大学

63. 福建江夏学院

64. 福建农林大学

65. 福建师范大学

66. 福建医科大学

67. 福建中医药大学

68. 福州大学

69. 福州外语外贸学院

70. 广东工业大学

71. 广东技术师范大学

72. 广东外语外贸大学

73. 广西大学

74. 广西民族大学

75. 广西医科大学

76. 广州大学

77. 广州美术学院

78. 广州体育学院

79. 广州中医药大学

80. 桂林电子科技大学

81. 桂林理工大学

82. 桂林旅游学院

83. 贵州理工学院

84. 国防科技大学

85. 国家开放大学

86. 国际关系学院

87. 哈尔滨工程大学

88. 哈尔滨工业大学

89. 哈尔滨师范大学

90. 哈尔滨医科大学

91. 海南师范大学

92. 杭州电子科技大学

93. 杭州师范大学

94. 河北工业大学

95. 河北经贸大学

96. 河北科技大学

97. 河北师范大学

98. 合肥工业大学

99. 合肥师范学院

100. 河海大学

101. 黑龙江大学

102. 黑龙江信息技术职业学院

103. 河南城建学院

104. 河南大学

105. 河南科技大学

106. 河南科技学院

107. 河南理工大学

108. 河南农业大学

109. 河南师范大学

110. 河南师范大学新联学院

111. 河南中医药大学

112. 衡阳师范学院

113. 河西学院

114. 华北电力大学

115. 华北电力大学(保定)

116. 华东交通大学

117. 华东理工大学

118. 华东师范大学

119. 华东政法大学

120. 淮阴工学院

121. 淮阴师范学院

122. 华南理工大学

123. 华南师范大学

124. 黄河科技学院

125. 黄淮学院

126. 华侨大学

127. 华中科技大学

128. 华中农业大学

129. 华中师范大学

130. 湖北大学

131. 湖北经济学院

132. 湖北汽车工业学院

133. 湖北文理学院

134. 呼伦贝尔学院

135. 湖南大学

136. 湖南第一师范学院

137. 湖南工业大学

138. 湖南科技学院

139. 湖南理工学院

140. 湖南农业大学

141. 湖南师范大学

142. 江南大学

143. 江苏大学

144. 江苏第二师范学院

145. 江苏海洋大学

146. 江苏警官学院

147. 江苏开放大学

148. 江苏科技大学

149. 江苏科技大学苏州理工学院

150. 江苏理工学院

151. 江苏师范大学

152. 江苏师范大学科文学院

153. 江西财经大学

154. 江西科技学院

155. 江西理工大学

156. 江西师范大学

157. 吉林大学

158. 吉林体育学院

159. 集美大学

160. 暨南大学

161. 景德镇陶瓷大学

162. 金陵科技学院

163. 锦州医科大学

164. 九江学院

165. 开封大学

166. 昆明理工大学

167. 兰州大学

168. 兰州交通大学

169. 辽宁科技学院

170. 辽宁中医药大学

171. 岭南师范学院

172. 陇东学院

173. 洛阳理工学院

174. 洛阳师范学院

175. 闽江学院

176. 闽南理工学院

177. 闽南师范大学

178. 南昌大学

179. 南昌工程学院

180. 南昌工学院

181. 南昌航空大学

182. 南方医科大学

183. 南华大学

184. 南京财经大学

185. 南京财经大学红山学院

186. 南京大学

187. 南京大学金陵学院

188. 南京工程学院

189. 南京工业大学

190. 南京航空航天大学

191. 南京理工大学

192. 南京理工大学泰州科技学院

193. 南京理工大学紫金学院

194. 南京林业大学

195. 南京农业大学

196. 南京森林警察学院

197. 南京审计大学

198. 南京审计大学金审学院

199. 南京师范大学

200. 南京师范大学泰州学院

201. 南京师范大学中北学院

202. 南京特殊教育师范学院

203. 南京体育学院

204. 南京晓庄学院

205. 南京信息工程大学

206. 南京信息工程大学滨江学院

207. 南京医科大学

208. 南京艺术学院

209. 南京邮电大学

210. 南京中医药大学

211. 南开大学

212. 南宁师范大学

213. 南通大学

214. 南通理工学院

215. 内蒙古大学

216. 内蒙古民族大学

217. 宁波大学

218. 宁波工程学院

219. 宁夏大学

220. 平顶山学院

221. 青岛大学

222. 青岛科技大学

223. 青海大学

224. 三江学院

225. 厦门大学

226. 山东财经大学

227. 山东畜牧兽医职业学院

228. 山东大学

229. 山东工商学院

230. 山东水利职业学院

231. 山东体育学院

232. 山东中医药大学

233. 上海财经大学

234. 上海大学

235. 上海对外经贸大学

236. 上海工程技术大学

237. 上海海事大学

238. 上海海洋大学

239. 上海交通大学

240. 上海立信会计金融学院

241. 上海师范大学

242. 上海体育学院

243. 上海外国语大学

244. 上海戏剧学院

245. 上海应用技术大学

246. 汕头大学

247. 山西大学

248. 陕西科技大学

249. 山西农业大学

250. 陕西师范大学

251. 山西师范大学

252. 山西医科大学

253. 沈阳工业大学

254. 沈阳师范大学

255. 深圳大学

256. 首都经济贸易大学

257. 首都师范大学

258. 首都体育学院

259. 四川大学

260. 四川美术学院

261. 四川师范大学

262. 四川音乐学院

263. 宿迁学院

264. 苏州大学

265. 苏州大学文正学院

266. 苏州科技大学

267. 苏州科技大学天平学院

268. 太原工业学院

269. 太原理工大学

270. 泰州学院

271. 天津财经大学

272. 天津大学

273. 天津商业大学

274. 天津师范大学

275. 天津体育学院运动与文化艺术学院

276. 天津医科大学

277. 通化师范学院

278. 同济大学

279. 外交学院

280. 温州大学

281. 温州医科大学

282. 武昌工学院

283. 武昌理工学院

284. 武汉大学

285. 武汉科技大学

286. 武汉理工大学

287. 武汉体育学院

288. 武夷学院

289. 西安电子科技大学

290. 西安工程大学

291. 西安工业大学

292. 湘潭大学

293. 西安航空学院

294. 西安建筑科技大学

295. 西安交通大学

296. 西安科技大学

297. 西安理工大学

298. 西安外国语大学

299. 西安邮电大学

300. 西北大学

301. 西北工业大学

302. 西北农林科技大学

303. 西藏民族大学

304. 西华大学

305. 西华师范大学

306. 西南财经大学

307. 西南大学

308. 西南交通大学

309. 西南石油大学

310. 西南政法大学

311. 邢台学院

312. 新疆财经大学

313. 新余学院

314. 徐州工程学院

315. 徐州医科大学

316. 延安大学

317. 盐城工学院

318. 盐城师范学院

319. 扬州大学

320. 云南财经大学

321. 云南大学

322. 云南师范大学

323. 豫章师范学院

324. 浙江财经大学

325. 浙江传媒学院

326. 浙江大学

327. 浙江大学城市学院

328. 浙江工商大学

329. 浙江工业大学

330. 浙江科技学院

331. 浙江理工大学

332. 浙江农林大学

333. 浙江师范大学

334. 浙江万里学院

335. 浙江音乐学院

336. 浙江中医药大学

337. 郑州大学

338. 郑州工程技术学院

339. 郑州轻工业大学

340. 中北大学

341. 中国传媒大学

342. 中国地质大学(北京)

343. 中国地质大学(武汉)

344. 中国海洋大学

345. 中国计量大学

346. 中国科学技术大学

347. 中国科学院大学

348. 中国矿业大学

349. 中国矿业大学徐海学院

350. 中国矿业大学(北京)

351. 中国农业大学

352. 中国人民大学

353. 中国人民解放军陆军工程大学

354. 中国人民警察大学

355. 中国社会科学院大学

356. 中国石油大学(北京)

357. 中国石油大学(华东)

358. 中国刑事警察学院

359. 中国药科大学

360. 中国医科大学

361. 中国音乐学院

362. 中国政法大学

363. 中南财经政法大学

364. 中南大学

365. 中南林业科技大学

366. 中南民族大学

367. 重庆大学

368. 重庆工商大学

369. 重庆交通大学

370. 中山大学

371. 中央财经大学

372. 中央美术学院

373. 中央民族大学

374. 中央音乐学院

375. 中原工学院

376. 周口师范学院

Process finished with exit code 0

这里面有你的大学吗?如果扩展,还可以统计哪些是985,哪些是211学校…

简单的中国MOOC大学列表提取 - Python的更多相关文章

  1. python爬虫抓取中国最好大学排名1 清华大学 北京 94.0 100.0 97.70% 清华大学 2 北京大学

    import requests from bs4 import BeautifulSoup import bs4.element r=requests.get("http://www.zui ...

  2. 列表(list) ----python

    Python 列表(List) 序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型 ...

  3. 中国科学技术大学统一身份认证系统CAS

    CAS | Apereohttps://www.apereo.org/projects/cas 中国科学技术大学统一身份认证系统https://passport.ustc.edu.cn/login?s ...

  4. iRSF快速简单易用的实现列表、排序、过滤功能

    IRSF 是由javascript编写,iRSF快速简单易用的实现列表.排序.过滤功能(该三种操作以下简称为 RSF ). iRSF由三个类组成. iRSFSource 数据源 iRSFFilter ...

  5. 量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python)(转)

    量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python) 原文地址:http://blog.csdn.net/u012234115/article/details/728300 ...

  6. 列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 以及join()在python中的用法简介

    列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 使用字符串链接的四种方法都可以创建 字符串拼接一共有四种方法,也可以应用到列表的拼接中 ...

  7. python 列表List - python基础入门(13)

    列表是python开发过程中最常用的数据类型之一,列表俗称:list ,特点如下: 1.列表由一个或者多个数据构成,数据的类型可以不相同也可以相同: 2.列表中的数据需要写在[]中括号内部,数据与数据 ...

  8. Python爬虫实战:2017中国最好大学排名

    抓取内容: 从最好大学网上抓取中国前10的大学排名.大学名称.总分,并数据格式左对齐. http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先 ...

  9. python爬虫学习(二):定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018",并把结果写进txt文件

    在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...

随机推荐

  1. [暴力枚举]Codeforces Vanya and Label

    Vanya and Label time limit per test 1 second memory limit per test 256 megabytes input standard inpu ...

  2. 浏览器与DNS解析过程

    浏览器解析 1.地址栏输入地址后,浏览器检查自身DNS缓存 地址栏输入chrome://net-internals/#dns 查看. 2.浏览器缓存中未找到,那么Chrome会搜索操作系统自身的DNS ...

  3. python之面向对象的成员,方法,属性,异常处理

    一.类的私有成员 1. 类中的私有成员是什么? 私有:只有满足一部分条件的才能使用 私有类的属性 私有对象的属性 私有方法 正常状态 class B: school_name = '老男孩教育' de ...

  4. python之道15

    请实现一个装饰器,限制该函数被调用的频率,如10秒一次(借助于time模块,time.time())(面试题,有点难度,可先做其他) 答案 # 思路 运行不能用 import time def wra ...

  5. 一个完整的机器学习项目在Python中演练(四)

    大家往往会选择一本数据科学相关书籍或者完成一门在线课程来学习和掌握机器学习.但是,实际情况往往d是,学完之后反而并不清楚这些技术怎样才能被用在实际的项目流程中.就像你的脑海中已经有了一块块" ...

  6. 从零开始实现穿衣图像分割完整教程(附python代码演练)

    时装业是人工智能领域很有前景的领域.研究人员可以开发具有一定实用价值的应用.我已经在这里展示了我对这个领域的兴趣,在那里我开发了一个来自Zalando在线商店的推荐和标记服装的解决方案. 在这篇文章中 ...

  7. qq,新浪分享

    var _title,_source,_sourceUrl,_pic,_showcount,_desc,_summary,_site; // 新浪微博分享$('.xlwb-share').on('cl ...

  8. java fork/join简单实践

    我们知道,java8中有并行流,而并行流在后台的实现是通过fork/join池来完成的,例如: List<Integer> a = buildList(); List<Integer ...

  9. 在MVC三层项目中如何使用Log4Net

    --前期准备(添加到队列中) 0-1在新建后的MVC项目中的[Models]中添加一个类,用于处理异常信息,并继承自HandleErrorAttribute public class MyExcept ...

  10. [noip模拟]心<并查集>

    背景描述: 不是一切深渊都是灭亡 不是一切灭亡都覆盖在弱者的头上 ——<这也是一切> 舒婷 有N个透明的盒子, 每个盒子里面有两个不同颜色的球, 总共有M种颜色. Alice和Bob又在玩 ...