简单的中国MOOC大学列表提取 - Python
有些时候我们想知道网页中包含哪些具体的信息,比如如下的这个网页,
http://www.icourse163.org/university/view/all.htm
我们只想知道自己的学校是否在这个列表中,总共又有多少学校在里面。
但是一眼看过去,看不到结果,所以,让我们把这个里面的大学列表文字的方式列出来,因为只有一页,就不用爬虫了,直接右键得到源码,或者Ctrl+u,将文本保存为 ”university_resource.txt“,放到D盘目录下。
好了,接下来,上代码:
from xpinyin import Pinyin def get_university_list(path):
with open(path, 'r') as source_file:
file_in_lines = source_file.readlines() university_list = [] for line in file_in_lines:
if "alt" in line:
if '大学生' in line:
continue
if '大学' in line or '学院' in line:
university = line.split('"')[-2]
university_list.append(university) return university_list, len(university_list) path = "D:\\university_resource.txt" university_list, numbers = get_university_list(path) pinyin_transformer = Pinyin() # 将大学排名按照拼音的字母顺序来排序,用到xpinyin模块
university_list_order = sorted(university_list, key=lambda x: pinyin_transformer.get_pinyin(x, '')) print('总共有{}所大学开设了公开课。大学列表(按照拼音排序)如下:'.format(numbers), '\n')
for serial_number, university in enumerate(university_list_order):
print('{}. {}'.format(serial_number + 1, university))
输出:
总共有376所大学开设了公开课。大学列表(按照拼音排序)如下:
1. 安徽农业大学
2. 安阳工学院
3. 保定学院
4. 北部湾大学
5. 北方工业大学
6. 北方民族大学
7. 北京大学
8. 北京第二外国语学院
9. 北京服装学院
10. 北京工业大学
11. 北京航空航天大学
12. 北京化工大学
13. 北京建筑大学
14. 北京交通大学
15. 北京科技大学
16. 北京联合大学
17. 北京理工大学
18. 北京林业大学
19. 北京师范大学
20. 北京体育大学
21. 北京外国语大学
22. 北京现代音乐研修学院
23. 北京协和医学院
24. 北京信息科技大学
25. 北京邮电大学
26. 北京语言大学
27. 北京中医药大学
28. 北京中医药大学东方学院
29. 滨州医学院
30. 渤海大学
31. 长安大学
32. 长春师范大学
33. 长春中医药大学
34. 长江大学
35. 长沙理工大学
36. 长沙师范学院
37. 长沙学院
38. 常熟理工学院
39. 常州大学
40. 常州工学院
41. 成都大学
42. 成都工业学院
43. 成都理工大学
44. 成都体育学院
45. 成都信息工程大学
46. 成都中医药大学
47. 大连大学
48. 大连工业大学
49. 大连海事大学
50. 大连海洋大学
51. 大连理工大学
52. 电子科技大学
53. 第四军医大学
54. 东北财经大学
55. 东北大学
56. 东北林业大学
57. 东北农业大学
58. 东北师范大学
59. 东华大学
60. 东南大学
61. 对外经济贸易大学
62. 复旦大学
63. 福建江夏学院
64. 福建农林大学
65. 福建师范大学
66. 福建医科大学
67. 福建中医药大学
68. 福州大学
69. 福州外语外贸学院
70. 广东工业大学
71. 广东技术师范大学
72. 广东外语外贸大学
73. 广西大学
74. 广西民族大学
75. 广西医科大学
76. 广州大学
77. 广州美术学院
78. 广州体育学院
79. 广州中医药大学
80. 桂林电子科技大学
81. 桂林理工大学
82. 桂林旅游学院
83. 贵州理工学院
84. 国防科技大学
85. 国家开放大学
86. 国际关系学院
87. 哈尔滨工程大学
88. 哈尔滨工业大学
89. 哈尔滨师范大学
90. 哈尔滨医科大学
91. 海南师范大学
92. 杭州电子科技大学
93. 杭州师范大学
94. 河北工业大学
95. 河北经贸大学
96. 河北科技大学
97. 河北师范大学
98. 合肥工业大学
99. 合肥师范学院
100. 河海大学
101. 黑龙江大学
102. 黑龙江信息技术职业学院
103. 河南城建学院
104. 河南大学
105. 河南科技大学
106. 河南科技学院
107. 河南理工大学
108. 河南农业大学
109. 河南师范大学
110. 河南师范大学新联学院
111. 河南中医药大学
112. 衡阳师范学院
113. 河西学院
114. 华北电力大学
115. 华北电力大学(保定)
116. 华东交通大学
117. 华东理工大学
118. 华东师范大学
119. 华东政法大学
120. 淮阴工学院
121. 淮阴师范学院
122. 华南理工大学
123. 华南师范大学
124. 黄河科技学院
125. 黄淮学院
126. 华侨大学
127. 华中科技大学
128. 华中农业大学
129. 华中师范大学
130. 湖北大学
131. 湖北经济学院
132. 湖北汽车工业学院
133. 湖北文理学院
134. 呼伦贝尔学院
135. 湖南大学
136. 湖南第一师范学院
137. 湖南工业大学
138. 湖南科技学院
139. 湖南理工学院
140. 湖南农业大学
141. 湖南师范大学
142. 江南大学
143. 江苏大学
144. 江苏第二师范学院
145. 江苏海洋大学
146. 江苏警官学院
147. 江苏开放大学
148. 江苏科技大学
149. 江苏科技大学苏州理工学院
150. 江苏理工学院
151. 江苏师范大学
152. 江苏师范大学科文学院
153. 江西财经大学
154. 江西科技学院
155. 江西理工大学
156. 江西师范大学
157. 吉林大学
158. 吉林体育学院
159. 集美大学
160. 暨南大学
161. 景德镇陶瓷大学
162. 金陵科技学院
163. 锦州医科大学
164. 九江学院
165. 开封大学
166. 昆明理工大学
167. 兰州大学
168. 兰州交通大学
169. 辽宁科技学院
170. 辽宁中医药大学
171. 岭南师范学院
172. 陇东学院
173. 洛阳理工学院
174. 洛阳师范学院
175. 闽江学院
176. 闽南理工学院
177. 闽南师范大学
178. 南昌大学
179. 南昌工程学院
180. 南昌工学院
181. 南昌航空大学
182. 南方医科大学
183. 南华大学
184. 南京财经大学
185. 南京财经大学红山学院
186. 南京大学
187. 南京大学金陵学院
188. 南京工程学院
189. 南京工业大学
190. 南京航空航天大学
191. 南京理工大学
192. 南京理工大学泰州科技学院
193. 南京理工大学紫金学院
194. 南京林业大学
195. 南京农业大学
196. 南京森林警察学院
197. 南京审计大学
198. 南京审计大学金审学院
199. 南京师范大学
200. 南京师范大学泰州学院
201. 南京师范大学中北学院
202. 南京特殊教育师范学院
203. 南京体育学院
204. 南京晓庄学院
205. 南京信息工程大学
206. 南京信息工程大学滨江学院
207. 南京医科大学
208. 南京艺术学院
209. 南京邮电大学
210. 南京中医药大学
211. 南开大学
212. 南宁师范大学
213. 南通大学
214. 南通理工学院
215. 内蒙古大学
216. 内蒙古民族大学
217. 宁波大学
218. 宁波工程学院
219. 宁夏大学
220. 平顶山学院
221. 青岛大学
222. 青岛科技大学
223. 青海大学
224. 三江学院
225. 厦门大学
226. 山东财经大学
227. 山东畜牧兽医职业学院
228. 山东大学
229. 山东工商学院
230. 山东水利职业学院
231. 山东体育学院
232. 山东中医药大学
233. 上海财经大学
234. 上海大学
235. 上海对外经贸大学
236. 上海工程技术大学
237. 上海海事大学
238. 上海海洋大学
239. 上海交通大学
240. 上海立信会计金融学院
241. 上海师范大学
242. 上海体育学院
243. 上海外国语大学
244. 上海戏剧学院
245. 上海应用技术大学
246. 汕头大学
247. 山西大学
248. 陕西科技大学
249. 山西农业大学
250. 陕西师范大学
251. 山西师范大学
252. 山西医科大学
253. 沈阳工业大学
254. 沈阳师范大学
255. 深圳大学
256. 首都经济贸易大学
257. 首都师范大学
258. 首都体育学院
259. 四川大学
260. 四川美术学院
261. 四川师范大学
262. 四川音乐学院
263. 宿迁学院
264. 苏州大学
265. 苏州大学文正学院
266. 苏州科技大学
267. 苏州科技大学天平学院
268. 太原工业学院
269. 太原理工大学
270. 泰州学院
271. 天津财经大学
272. 天津大学
273. 天津商业大学
274. 天津师范大学
275. 天津体育学院运动与文化艺术学院
276. 天津医科大学
277. 通化师范学院
278. 同济大学
279. 外交学院
280. 温州大学
281. 温州医科大学
282. 武昌工学院
283. 武昌理工学院
284. 武汉大学
285. 武汉科技大学
286. 武汉理工大学
287. 武汉体育学院
288. 武夷学院
289. 西安电子科技大学
290. 西安工程大学
291. 西安工业大学
292. 湘潭大学
293. 西安航空学院
294. 西安建筑科技大学
295. 西安交通大学
296. 西安科技大学
297. 西安理工大学
298. 西安外国语大学
299. 西安邮电大学
300. 西北大学
301. 西北工业大学
302. 西北农林科技大学
303. 西藏民族大学
304. 西华大学
305. 西华师范大学
306. 西南财经大学
307. 西南大学
308. 西南交通大学
309. 西南石油大学
310. 西南政法大学
311. 邢台学院
312. 新疆财经大学
313. 新余学院
314. 徐州工程学院
315. 徐州医科大学
316. 延安大学
317. 盐城工学院
318. 盐城师范学院
319. 扬州大学
320. 云南财经大学
321. 云南大学
322. 云南师范大学
323. 豫章师范学院
324. 浙江财经大学
325. 浙江传媒学院
326. 浙江大学
327. 浙江大学城市学院
328. 浙江工商大学
329. 浙江工业大学
330. 浙江科技学院
331. 浙江理工大学
332. 浙江农林大学
333. 浙江师范大学
334. 浙江万里学院
335. 浙江音乐学院
336. 浙江中医药大学
337. 郑州大学
338. 郑州工程技术学院
339. 郑州轻工业大学
340. 中北大学
341. 中国传媒大学
342. 中国地质大学(北京)
343. 中国地质大学(武汉)
344. 中国海洋大学
345. 中国计量大学
346. 中国科学技术大学
347. 中国科学院大学
348. 中国矿业大学
349. 中国矿业大学徐海学院
350. 中国矿业大学(北京)
351. 中国农业大学
352. 中国人民大学
353. 中国人民解放军陆军工程大学
354. 中国人民警察大学
355. 中国社会科学院大学
356. 中国石油大学(北京)
357. 中国石油大学(华东)
358. 中国刑事警察学院
359. 中国药科大学
360. 中国医科大学
361. 中国音乐学院
362. 中国政法大学
363. 中南财经政法大学
364. 中南大学
365. 中南林业科技大学
366. 中南民族大学
367. 重庆大学
368. 重庆工商大学
369. 重庆交通大学
370. 中山大学
371. 中央财经大学
372. 中央美术学院
373. 中央民族大学
374. 中央音乐学院
375. 中原工学院
376. 周口师范学院
Process finished with exit code 0
这里面有你的大学吗?如果扩展,还可以统计哪些是985,哪些是211学校…
简单的中国MOOC大学列表提取 - Python的更多相关文章
- python爬虫抓取中国最好大学排名1 清华大学 北京 94.0 100.0 97.70% 清华大学 2 北京大学
import requests from bs4 import BeautifulSoup import bs4.element r=requests.get("http://www.zui ...
- 列表(list) ----python
Python 列表(List) 序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推. Python有6个序列的内置类型 ...
- 中国科学技术大学统一身份认证系统CAS
CAS | Apereohttps://www.apereo.org/projects/cas 中国科学技术大学统一身份认证系统https://passport.ustc.edu.cn/login?s ...
- iRSF快速简单易用的实现列表、排序、过滤功能
IRSF 是由javascript编写,iRSF快速简单易用的实现列表.排序.过滤功能(该三种操作以下简称为 RSF ). iRSF由三个类组成. iRSFSource 数据源 iRSFFilter ...
- 量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python)(转)
量化交易中VWAP/TWAP算法的基本原理和简单源码实现(C++和python) 原文地址:http://blog.csdn.net/u012234115/article/details/728300 ...
- 列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 以及join()在python中的用法简介
列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 使用字符串链接的四种方法都可以创建 字符串拼接一共有四种方法,也可以应用到列表的拼接中 ...
- python 列表List - python基础入门(13)
列表是python开发过程中最常用的数据类型之一,列表俗称:list ,特点如下: 1.列表由一个或者多个数据构成,数据的类型可以不相同也可以相同: 2.列表中的数据需要写在[]中括号内部,数据与数据 ...
- Python爬虫实战:2017中国最好大学排名
抓取内容: 从最好大学网上抓取中国前10的大学排名.大学名称.总分,并数据格式左对齐. http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html 首先 ...
- python爬虫学习(二):定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018",并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
随机推荐
- [状态压缩,折半搜索] 2019牛客暑期多校训练营(第九场)Knapsack Cryptosystem
链接:https://ac.nowcoder.com/acm/contest/889/D来源:牛客网 时间限制:C/C++ 2秒,其他语言4秒 空间限制:C/C++ 262144K,其他语言52428 ...
- 快速理解编码,unicode与utf-8
1.为什么编码,因为cpu只认识数字2.ASCII 一个字符共占7位,用一个字节表示,共128个字符3.那么ASCII浪费了最高位多可惜,出现了ISO-8859-1,一个字节,256个字符,很多协议的 ...
- Java基础语法(7)-数组
title: Java基础语法(7)-数组 blog: CSDN data: Java学习路线及视频 1.数组的概述 数组(Array),是多个相同类型数据按一定顺序排列的集合,并使用一个名字命名,并 ...
- CSS常用属性之选择器
css选择器 序号 选择器 例子 例子描述 1 .class .intro 选择class="intro"的所有元素 2 #id #firstname 选择id="fir ...
- 使用FME对CAD管网数据进行过滤、聚合、中心点替换
1.首先加载CAD数据,并暴露出需要使用到的相关字段.比如:block_number.fme_geometry.fme_color等字段. 2.对一个元素有多种类型部件的需要进行过滤,例如本次的检修井 ...
- coding++:Java 获取request中的参数
第一种: private Map<String,Object> mapParameters(HttpServletRequest request) { //封装查询条件参数 Map< ...
- js 的 new 干了什么
- java面试基础篇-List
一.ArrayList: 底层为数组实现,线程不安全,查询,修改快,增加删除慢, 数据结构:数组以0为下标依次连续进行存储 数组查询元素:根据下标查询就行 数组增加元素:如果需要给index为10的位 ...
- iOS UmbrellaHeader
Lexical or Preprocessor Issue - Umbrella header for module 'xxx' does not include header 'xxx.h' fra ...
- 一篇让你明白什么是浏览器BOM方法的笔记
BOM Browser Object Model 浏览器对象模型 虚拟机 ,任何语言编辑的程序都需要一个虚拟机来执行.如果脱离这个环境就无法运行. 浏览器就是一种虚拟机.用来解析html语言 同一款浏 ...