【python】用python爬取中科院院士简介信息
018/07/09 23:43 
项目名称:爬取中科院871个院士的简介信息
1.爬取目的:中科院871个院士的简介信息


2.爬取最终结果:


3.具体代码如下:
import re # 不用安装(注意!!)
import os # 文件夹等的操作(注意!!)
import time
import requests # http urllib2 url = 'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
html = requests.get(url)
# print(html.status_code) # 状态码200 404 500 502
html.encoding = 'utf-8'
# print(html.text) # 以文本形式返回网页 # 提取数据
# + 一次或多次 大于等于一次
# findall返回的是列表(注意!!)
number = re.findall(
'<a href="/cae/html/main/colys/(\d+).html" target="_blank">', html.text) i = 1 # 这里的i变量是由我创造进行明确区分所抓取的院士的数量的;
for m in number[:871]:
# for m in number[:4]: # 这里控制要爬取的个数
# for m in number[28:88]:
nextUrl = 'http://www.cae.cn/cae/html/main/colys/{}.html'.format(m)
# 再次请求数据
nexthtml = requests.get(nextUrl)
nexthtml.encoding = 'utf-8'
# 注意正则表达式:
# () 提取数据
# . 匹配除了换行\n的任意单个字符
# * 匹配前面的表达式任意次 {1,5}
# ? 如果前面有限定符 非贪婪模式,注意!!!
# 尽量可能少的匹配所搜索的字符串
text = re.findall('<div class="intro">(.*?)</div>', nexthtml.text, re.S) # re.S匹配换行的
text2 = re.sub(r'<p>| | |</p>', '', text[0]).strip() # .strip()清楚空格 # 保存数据
with open(r'E:\02中科院院士信息爬取结果.txt', mode='a+', encoding="utf-8") as f: # 特别注意这里的要以编码utf-8方式打开
f.write('{}. '.format(i) + text2 + '\n')
i += 1 # 不要下载太快
# 限制下载的速度
time.sleep(1)
# 程序运行到这个地方 暂停1s
【python】用python爬取中科院院士简介信息的更多相关文章
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
		转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ... 
- Python爬虫项目--爬取自如网房源信息
		本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http:/ ... 
- 【Python项目】爬取新浪微博个人用户信息页
		微博用户信息爬虫 项目链接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler 1 实现功能 这个 ... 
- python之scrapy爬取某集团招聘信息以及招聘详情
		1.定义爬取的字段items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See do ... 
- Python爬虫项目--爬取某宝男装信息
		本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索&q ... 
- python之crawlscrapy爬取某集团招聘信息以及招聘详情
		针对这种招聘信息,使用crawlscrapy很适合. 1.settings.py # -*- coding: utf-8 -*- # Scrapy settings for gosuncn proje ... 
- python之scrapy爬取某集团招聘信息
		1.创建工程 scrapy startproject gosuncn 2.创建项目 cd gosuncn scrapy genspider gaoxinxing gosuncn.zhiye.com 3 ... 
- Python爬虫之爬取慕课网课程评分
		BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ... 
- python爬取 “得到” App 电子书信息
		前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅 崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ... 
随机推荐
- apache配置局域网访问
			1.配置vhost.conf NameVirtualHost 192.168.2.74:80 <VirtualHost 192.168.2.74:80> DocumentRoot /var ... 
- SQL按时间段统计(5分钟统计一次访问量为例,oracle统计)
			需求:统计当天的访问量,每五分钟采集一次 表结构中有日期字段,类型TIMESTAMP 如果,统计是采用每秒/分钟/小时/天/周/月/年,都非常容易实现,只要to_char日期字段然后group by分 ... 
- es6-promise.auto.js
			使用sweetalert2的IE浏览器报错,导入文件 链接:https://pan.baidu.com/s/1mOcsN_o8m-7I7Rej1NPkiw 提取码:9xsj 
- java基础30问
			Java基础知识30问 1. 面向对象和面向过程的区别 面向过程 优点: 性能比面向对象高,因为类调用时需要实例化,开销比较大,比较消耗资源;比如单片机.嵌入式开发.Linux/Unix等一般采用 ... 
- PowerDesigner 图表导出Excel格式
			快捷方式打开运行界面:ctrl+shift+X '*************************************************************************** ... 
- lintcode_69_二叉树的层次遍历
			二叉树的层次遍历 描述 笔记 数据 评测 给出一棵二叉树,返回其节点值的层次遍历(逐层从左往右访问) 您在真实的面试中是否遇到过这个题? Yes 哪家公司问你的这个题? LinkedIn Airb ... 
- MySQL跟踪SQL&慢查询分析工具
			简介 之前的工作一直使用的SQL SERVER, 用过的都知道,SQL SERVER有配套的SQL跟踪工具SQL Profiler,开发或者定位BUG过程中,可以在操作页面的时候,实时查看数据库执行的 ... 
- Docker自学纪实(三)Docker容器数据持久化
			谈起数据卷 我一直觉得是个枯燥无聊的话题 但是通过今天的实操和阅读 我发现其实并不是 其实就像走夜路 没有光明,第一次都是恐惧 但是如果走的次数多了 或者静下心来去克制恐惧 也许就会驾轻就熟或者等到黎 ... 
- LeetCode969. 煎饼排序
			问题:969. 煎饼排序 给定数组 A,我们可以对其进行煎饼翻转:我们选择一些正整数 k <= A.length,然后反转 A 的前 k 个元素的顺序.我们要执行零次或多次煎饼翻转(按顺序一次接 ... 
- ARM S3C2440 时钟初始化流程
			1.设置lock time 2.设置分频系数 3.设置CPU到异步工作模式 4.设置 FCLK 了解 芯片的时钟原理图,以及寄存器的作用 了解芯片的晶振频率,锁相环,分频系数,以及有哪些时钟 
