使用BeautifulSoup 爬取一个页面上的所有的超链接
# !/usr/bin/python
# -*-coding:utf-8-*- import urllib
from bs4 import BeautifulSoup response = urllib.urlopen("http://www.imau.edu.cn")
html = response.read()
data = html.decode('utf-8')
soup = BeautifulSoup(data)
# print soup.findAll('span') for item in soup.find_all("a"):
if item.string == None:
continue
else:
# print type(item.string) print item.string+":"+item.get("href")
运行代码,电脑上需要安装BeautifulSoup的库
目标网址:www.imau.edu.cn
爬取的结果:
首 页:index.htm
农大概况:ndgk.htm
农大简介:ndgk/ndjj.htm
党政领导:ndgk/dzld.htm
农大校史:http://xsg.imau.edu.cn/
图说农大:tsnd.htm
机构设置:jgsz.htm
纪委、监察审计处 :http://jiwei.imau.edu.cn/
党政办公室(校友会办公室):http://dangban.imau.edu.cn
组织部(统战部、党校):http://zzb.imau.edu.cn
宣传部(新闻中心):http://xcb.imau.edu.cn
工会:http://gonghui.imau.edu.cn
团委(彩虹网):http://rainbow.imau.edu.cn
教务处:http://jwc.imau.edu.cn
人事处:http://rsc.imau.edu.cn
科技处:http://kyc.imau.edu.cn/
研究生院(研究生工作部):http://yjsy.imau.edu.cn
后勤管理处:http://hqc.imau.edu.cn
财务处:http://cwc.imau.edu.cn/
学生工作处(学生工作部):http://xsc.imau.edu.cn
招生就业处:http://zjc.imau.edu.cn/
国有资产管理处:http://gzc.imau.edu.cn
保卫处:http://bwc.imau.edu.cn/
离退休人员工作处:http://laogan.imau.edu.cn
国际交流与合作处(港澳台办公室、中加可持续农业研究与发展中心):http://waiban.imau.edu.cn
动物科学学院 :http://dky.imau.edu.cn/
兽医学院:http://shouyi.imau.edu.cn
农学院:http://nxy.imau.edu.cn
林学院:http://linxue.imau.edu.cn
草原与资源环境学院:http://grass.imau.edu.cn
沙漠治理学院:http://smzl.imau.edu.cn
机电工程学院:http://jidian.imau.edu.cn
水利与土木建筑工程学院:http://sjy.imau.edu.cn
材料科学与艺术设计学院 :http://cyy.imau.edu.cn
经济管理学院 :http://jgy.imau.edu.cn
食品科学与工程学院 :http://spy.imau.edu.cn
计算机与信息工程学院:http://jsj.imau.edu.cn
生命科学学院:http://sky.imau.edu.cn
人文社会科学学院:http://renwen.imau.edu.cn
外国语言学院:http://wy.imau.edu.cn
理学院:http://lxy.imau.edu.cn
能源与交通工程学院:http://nyjtxy.imau.edu.cn
体育教学部:http://tyjxb.imau.edu.cn
马克思主义学院:http://malie.imau.edu.cn
国际教育学院:http://gjjyxy.imau.edu.cn
继续教育学院(中央农业干部教育培训中心农大分院):http://jjy.imau.edu.cn
职业技术学院:http://zy.imau.edu.cn
学报编辑部:http://xuebao.imau.edu.cn
图书馆:http://tsg.imau.edu.cn
档案馆:http://dangan.imau.edu.cn
科技园区管理办公室 :http://kejiyq.imau.edu.cn
信息与网络中心:http://nic.imau.edu.cn
发展研究室(处)(高等教育研究所):http://fzh.imau.edu.cn
基础教育中心:http://jcjy.imau.edu.cn
资产经营公司:http://zichan.imau.edu.cn/
机关党总支:http://jiguan.imau.edu.cn/
后勤党总支:http://houqin.imau.edu.cn
内蒙古农业大学校友会:http://xiaoyou.imau.edu.cn/
农林工程设计研究院:http://nlsjy.imau.edu.cn
农大关工委:http://ggw.imau.edu.cn
农大老教授协会:http://professor.imau.edu.cn
农大学生公寓:http://xsgy.imau.edu.cn
农大医院:http://hospital.imau.edu.cn/
农大附中(附小):http://ps.imau.edu.cn
农大幼儿园:http://yey.imau.edu.cn
内蒙古农牧渔业生物实验研究中心:http://cszx.imau.edu.cn
教学科研:jxky.htm
教学工作:jxky/jxgz.htm
科研动态:jxky/kydt.htm
招生就业:http://zjc.imau.edu.cn/
招生网:http://zhaosheng.imau.edu.cn
就业网:http://job.imau.edu.cn
师生风采:ssfc.htm
院部动态:ybdt.htm
视频专栏:spzl.htm
专题网站:ztwz.htm
网络电视:wlds.htm
数字校报:http://xiaobao.imau.edu.cn
敕勒川网:http://chilechuan.imau.edu.cn
English:http://waiban.imau.edu.cn/
更多>>:index/zhxw.htm
1:javascript:u_u3_icn.changeimg(0)
2:javascript:u_u3_icn.changeimg(1)
3:javascript:u_u3_icn.changeimg(2)
4:javascript:u_u3_icn.changeimg(3)
5:javascript:u_u3_icn.changeimg(4)
6:javascript:u_u3_icn.changeimg(5)
学校举办第十一届大学生“大地母亲”蒙古语诗歌大赛:info/1035/23508.htm
学校举办郝龙彪牺牲十五周年纪念活动:info/1035/23505.htm
我校学生在第十届“挑战杯”全区大学生课外学术科技...:info/1035/23431.htm
自治区“平安校园”创建检查验收组来校进行检查评估:info/1035/23423.htm
学校举办第三届“心悦杯”校园心理微电影大赛:info/1035/23412.htm
内蒙古自治区第一所文化寻力研发中心和基地学校落地...:info/1035/23409.htm
网络电视:校园新闻2017年12月第二十六期(试运行):http://www.imau.edu.cn/info/1402/23404.htm
王万义校长深入教职工党支部宣讲党的十九大精神:info/1035/23398.htm
教育部:中共教育部党组关于印发《高校思想政治工作...:info/1037/23394.htm
动科院师生共同完成的科研论文“大规模全基因组重测...:info/1035/23396.htm
学校与波兰波兹南生命科学大学签署合作意向书:info/1035/23388.htm
学校召开学习贯彻党的十九大精神形势政策报告会:info/1035/23379.htm
更多>>:index/tzgg.htm
关于表彰2017年度优秀通讯员、优秀学生记者...:http://xcb.imau.edu.cn/info/1003/2662.htm
关于发放2017年生源地信用助学贷款的通知:http://zizhu.imau.edu.cn/info/1003/2803.htm
关于尽快完成2016年度档案归档工作的通知:http://dangban.imau.edu.cn/info/1043/2585.htm
关于举办软件正版化培训的通知:http://dangban.imau.edu.cn/info/1043/2584.htm
2017年下半年普通话考试时间通知:http://jwc.imau.edu.cn/info/1114/4236.htm
关于做好2018年春季学期网上选课工作的通知:http://jwc.imau.edu.cn/info/1113/4235.htm
内蒙古农业大学2016—2017年度信息公开报告:http://dangban.imau.edu.cn/info/1043/2582.htm
关于做好2017年度分党委(党总支)书记抓党建...:http://dangban.imau.edu.cn/content.jsp?urltype=news.NewsContentUrl&wbtreeid=1039&wbnewsid=2583
内蒙古农业大学文明校园创建工作实施方案:http://dangban.imau.edu.cn/content.jsp?urltype=news.NewsContentUrl&wbtreeid=1039&wbnewsid=2566
更多>>:index/mtnd.htm
【内蒙古日报】文化寻力研发中心和基地学校在内农大授牌:info/1025/23407.htm
【华夏蒙商网】王召明:执着20载 只为种好一颗草——记蒙草创...:info/1025/23139.htm
【内蒙古足球频道】这个内蒙古小伙厉害了!花式足球玩到国外:info/1025/23113.htm
【内蒙古卫视】探索“三位一体”教学模式,我校云畜牧平台受...:info/1025/23111.htm
【内蒙古日报】透彻深入宣讲 鲜活生动解读:info/1025/23083.htm
使用BeautifulSoup 爬取一个页面上的所有的超链接的更多相关文章
- 初学-BeautifulSoup爬取豆瓣页面
# -*- coding: utf-8 -*-import osimport urllibimport urllib2from bs4 import BeautifulSoup headers = { ...
- python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下 使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
- Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
- Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
- PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集(实战项目二)
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集 目标站点分析 今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
- 利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式
还是设计模式的开卷考试,我想要多准备一点资料,于是写了个爬虫爬取代码与图片,有巧妙地进行格式化进一步处理,最终变为了markdown的格式 import requests from bs4 impor ...
- 用 BeautifulSoup爬取58商品信息
最近对Python爬虫比较迷恋,看了些爬虫相关的教程 于是乎跟着一起爬取了58上面的一些商品信息,并存入到xlsx文件中,并通过xlsxwirter的方法给表格设置了一些格式.好了,直接贴代码吧~ # ...
- Scrapy爬取静态页面
Scrapy爬取静态页面 安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可 终端下: #python2 sudo p ...
- 【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 打开淘宝网站http://www.taobao.com/ 我们可以看到 ...
随机推荐
- Python 6 -- 构建一个Web应用
用Flask Web框架,实现浏览器页面交互.在此之前需要了解web的基本工作流程,可参照https://blog.csdn.net/m0_37466453/article/details/72752 ...
- 【Hbase学习之二】Hbase 搭建
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 hbase-2.1.3 一.单机模 ...
- win10 Xshell5连ubuntu服务器
相当于ubuntu做服务器,win10远程访问,同一局域网下,完全参考度娘 教你怎么使用xshell远程连接linux服务器 ubuntu系统ifconfig -a查看ip地址,添加到主机那里,连接时 ...
- GJP_Project
1. view层作用: 视图层,即项目中的界面 l controller层作用: 控制层, 获取界面上的数据,为界面设置数据; 将要实现的功能交给业务层处理 l service层作用: 业务层, ...
- 转:wcf大文件传输解决之道(1)
首先声明,文章思路源于MSDN中徐长龙老师的课程整理,加上自己的一些心得体会,先总结如下: 在应对与大文件传输的情况下,因为wcf默认采用的是缓存加载对象,也就是说将文件包一次性接受至缓存中,然后生成 ...
- docker Dockerfile指令ADD和COPY的区别,添加目录方法
docker Dockerfile指令ADD和COPY的区别,添加目录方法 ADD指令的功能是将主机构建环境(上下文)目录中的文件和目录.以及一个URL标记的文件 拷贝到镜像中.其格式是: ADD 源 ...
- netperf 网络性能测试
Netperf是一种网络性能的测量工具,主要针对基于TCP或UDP的传输.Netperf根据应用的不同,可以进行不同模式的网络性能测试,即批量数据传输(bulk data transfer)模式和请求 ...
- 如何使用Linux 命令more 查看文本文件
Linux 下有很多实用工具可以让你在终端界面查看文本文件.其中一个就是 more. more 跟我之前另一篇文章里写到的工具 —— less 很相似.它们之间的主要不同点在于 more 只允许你向前 ...
- spark与kafka集成进行实时 nginx代理 这种sdk埋点 原生日志实时解析 处理
日志格式202.108.16.254^A1546795482.600^A/cntv.gif?appId=3&areaId=8213&srcContId=2535575&area ...
- php学习路线(转)
作者:Summer链接:https://www.zhihu.com/question/20034403/answer/135433912来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转 ...