【python】用python爬取中科院院士简介信息

018/07/09 23:43
项目名称：爬取中科院871个院士的简介信息

1.爬取目的：中科院871个院士的简介信息

2.爬取最终结果：

3.具体代码如下：

 import re # 不用安装（注意！！）

 import os # 文件夹等的操作（注意！！）

 import time

 import requests # http urllib2

 url = 'http://www.cae.cn/cae/html/main/col48/column_48_1.html'

 html = requests.get(url)

 # print(html.status_code) # 状态码200 404 500 502

 html.encoding = 'utf-8'

 # print(html.text) # 以文本形式返回网页

 # 提取数据

 # + 一次或多次 大于等于一次

 # findall返回的是列表（注意！！）

 number = re.findall(

 '<a href="/cae/html/main/colys/(\d+).html" target="_blank">', html.text)

 i = 1 # 这里的i变量是由我创造进行明确区分所抓取的院士的数量的；

 for m in number[:871]:

 # for m in number[:4]: # 这里控制要爬取的个数

 # for m in number[28:88]:

 nextUrl = 'http://www.cae.cn/cae/html/main/colys/{}.html'.format(m)

 # 再次请求数据

 nexthtml = requests.get(nextUrl)

 nexthtml.encoding = 'utf-8'

 # 注意正则表达式：

 # () 提取数据

 # . 匹配除了换行\n的任意单个字符

 # * 匹配前面的表达式任意次 {1,5}

 # ? 如果前面有限定符 非贪婪模式，注意！！！

 # 尽量可能少的匹配所搜索的字符串

 text = re.findall('<div class="intro">(.*?)</div>', nexthtml.text, re.S) # re.S匹配换行的

 text2 = re.sub(r'<p>|&ensp;|&nbsp;|</p>', '', text[0]).strip() # .strip()清楚空格

 # 保存数据

 with open(r'E:\02中科院院士信息爬取结果.txt', mode='a+', encoding="utf-8") as f: # 特别注意这里的要以编码utf-8方式打开

 f.write('{}. '.format(i) + text2 + '\n')

 i += 1

 # 不要下载太快

 # 限制下载的速度

 time.sleep(1)

 # 程序运行到这个地方 暂停1s

【python】用python爬取中科院院士简介信息的更多相关文章

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
【Python项目】爬取新浪微博个人用户信息页
微博用户信息爬虫项目链接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler 1 实现功能这个 ...
python之scrapy爬取某集团招聘信息以及招聘详情
1.定义爬取的字段items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See do ...
Python爬虫项目--爬取某宝男装信息
本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索&q ...
python之crawlscrapy爬取某集团招聘信息以及招聘详情
针对这种招聘信息,使用crawlscrapy很适合. 1.settings.py # -*- coding: utf-8 -*- # Scrapy settings for gosuncn proje ...
python之scrapy爬取某集团招聘信息
1.创建工程 scrapy startproject gosuncn 2.创建项目 cd gosuncn scrapy genspider gaoxinxing gosuncn.zhiye.com 3 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
python爬取 “得到” App 电子书信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...

随机推荐

DECODE函数简介
在上一篇bolg中讲到ORACLE优化的时候提到DECODE()函数,以前自己用的也比较少,上网查了一下,还挺好用的一个函数,写下来希望对朋友们有帮助哈! https://www.cnblogs.co ...
JQuery 解决按钮上的倒计时问题
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/ ...
HDU 1052 Tian Ji -- The Horse Racing(贪心)
题目来源:1052 题目分析:题目说的权值匹配算法,有点误导作用,这道题实际是用贪心来做的. 主要就是规则的设定: 1.田忌最慢的马比国王最慢的马快,就赢一场 2.如果田忌最慢的马比国王最慢的马慢,就 ...
Spring MVC 接收前端参数的方式
方式一: 普通方式接收 1 @RequestMapping("/index") 2 public String getUserName(String username) { 3 S ...
MySQL中使用group_concat()函数数据被截取（有默认长度限制），谨慎！
最近在工作中遇到一个问题: 我们系统的一些逻辑处理是用存储过程实现的,但是有一天客服反馈说订单下单失败,查了下单牵扯到的产品基础资源,没有问题. 下单的存储过程中有这样两句代码: ; ; ; 执行存储 ...
php-5.6.26源代码 - opcode处理器，“函数调用opcode”处理器，如何调用扩展模块的函数
// opcode处理器 --- ZEND_DO_FCALL_SPEC_CONST_HANDLER实现在 php-5.6.26\Zend\zend_vm_execute.h static int ZE ...
Linux编译移植Qt4的环境_在OMAPL138平台
Linux编译Qt4的环境_OMAPL138 手里有一块创龙OMAPL138的板子,我要在上面成功移植Qt环境和触摸屏幕,这是我第二次进行Linux的Qt环境移植,发现了很多问题,需要重新整理. 我编 ...
cf978E Bus Video System
The busses in Berland are equipped with a video surveillance system. The system records information ...
urllib使用四--urlencode,urlparse,
urllib.urlencode 把字典数据转换为URL编码 # -*- coding: cp936 -*- import urllib params = {'score':100,'name':'爬 ...
6 Django的视图层
视图函数一个视图函数,简称视图,是一个简单的Python 函数,它接受Web请求并且返回Web响应.响应可以是一张网页的HTML内容,一个重定向,一个404错误,一个XML文档,或者一张图片. . ...

【python】用python爬取中科院院士简介信息

【python】用python爬取中科院院士简介信息的更多相关文章

随机推荐

热门专题