# !/usr/bin/python
# -*-coding:utf-8-*- import urllib
from bs4 import BeautifulSoup response = urllib.urlopen("http://www.imau.edu.cn")
html = response.read()
data = html.decode('utf-8')
soup = BeautifulSoup(data)
# print soup.findAll('span') for item in soup.find_all("a"):
if item.string == None:
continue
else:
# print type(item.string) print item.string+":"+item.get("href")

运行代码,电脑上需要安装BeautifulSoup的库

目标网址:www.imau.edu.cn

爬取的结果:

首    页:index.htm
农大概况:ndgk.htm
农大简介:ndgk/ndjj.htm
党政领导:ndgk/dzld.htm
农大校史:http://xsg.imau.edu.cn/
图说农大:tsnd.htm
机构设置:jgsz.htm
纪委、监察审计处 :http://jiwei.imau.edu.cn/
党政办公室(校友会办公室):http://dangban.imau.edu.cn
组织部(统战部、党校):http://zzb.imau.edu.cn
宣传部(新闻中心):http://xcb.imau.edu.cn
工会:http://gonghui.imau.edu.cn
团委(彩虹网):http://rainbow.imau.edu.cn
教务处:http://jwc.imau.edu.cn
人事处:http://rsc.imau.edu.cn
科技处:http://kyc.imau.edu.cn/
研究生院(研究生工作部):http://yjsy.imau.edu.cn
后勤管理处:http://hqc.imau.edu.cn
财务处:http://cwc.imau.edu.cn/
学生工作处(学生工作部):http://xsc.imau.edu.cn
招生就业处:http://zjc.imau.edu.cn/
国有资产管理处:http://gzc.imau.edu.cn
保卫处:http://bwc.imau.edu.cn/
离退休人员工作处:http://laogan.imau.edu.cn
国际交流与合作处(港澳台办公室、中加可持续农业研究与发展中心):http://waiban.imau.edu.cn
动物科学学院 :http://dky.imau.edu.cn/
兽医学院:http://shouyi.imau.edu.cn
农学院:http://nxy.imau.edu.cn
林学院:http://linxue.imau.edu.cn
草原与资源环境学院:http://grass.imau.edu.cn
沙漠治理学院:http://smzl.imau.edu.cn
机电工程学院:http://jidian.imau.edu.cn
水利与土木建筑工程学院:http://sjy.imau.edu.cn
材料科学与艺术设计学院 :http://cyy.imau.edu.cn
经济管理学院 :http://jgy.imau.edu.cn
食品科学与工程学院 :http://spy.imau.edu.cn
计算机与信息工程学院:http://jsj.imau.edu.cn
生命科学学院:http://sky.imau.edu.cn
人文社会科学学院:http://renwen.imau.edu.cn
外国语言学院:http://wy.imau.edu.cn
理学院:http://lxy.imau.edu.cn
能源与交通工程学院:http://nyjtxy.imau.edu.cn
体育教学部:http://tyjxb.imau.edu.cn
马克思主义学院:http://malie.imau.edu.cn
国际教育学院:http://gjjyxy.imau.edu.cn
继续教育学院(中央农业干部教育培训中心农大分院):http://jjy.imau.edu.cn
职业技术学院:http://zy.imau.edu.cn
学报编辑部:http://xuebao.imau.edu.cn
图书馆:http://tsg.imau.edu.cn
档案馆:http://dangan.imau.edu.cn
科技园区管理办公室 :http://kejiyq.imau.edu.cn
信息与网络中心:http://nic.imau.edu.cn
发展研究室(处)(高等教育研究所):http://fzh.imau.edu.cn
基础教育中心:http://jcjy.imau.edu.cn
资产经营公司:http://zichan.imau.edu.cn/
机关党总支:http://jiguan.imau.edu.cn/
后勤党总支:http://houqin.imau.edu.cn
内蒙古农业大学校友会:http://xiaoyou.imau.edu.cn/
农林工程设计研究院:http://nlsjy.imau.edu.cn
农大关工委:http://ggw.imau.edu.cn
农大老教授协会:http://professor.imau.edu.cn
农大学生公寓:http://xsgy.imau.edu.cn
农大医院:http://hospital.imau.edu.cn/
农大附中(附小):http://ps.imau.edu.cn
农大幼儿园:http://yey.imau.edu.cn
内蒙古农牧渔业生物实验研究中心:http://cszx.imau.edu.cn
教学科研:jxky.htm
教学工作:jxky/jxgz.htm
科研动态:jxky/kydt.htm
招生就业:http://zjc.imau.edu.cn/
招生网:http://zhaosheng.imau.edu.cn
就业网:http://job.imau.edu.cn
师生风采:ssfc.htm
院部动态:ybdt.htm
视频专栏:spzl.htm
专题网站:ztwz.htm
网络电视:wlds.htm
数字校报:http://xiaobao.imau.edu.cn
敕勒川网:http://chilechuan.imau.edu.cn
English:http://waiban.imau.edu.cn/
更多>>:index/zhxw.htm
1:javascript:u_u3_icn.changeimg(0)
2:javascript:u_u3_icn.changeimg(1)
3:javascript:u_u3_icn.changeimg(2)
4:javascript:u_u3_icn.changeimg(3)
5:javascript:u_u3_icn.changeimg(4)
6:javascript:u_u3_icn.changeimg(5)
学校举办第十一届大学生“大地母亲”蒙古语诗歌大赛:info/1035/23508.htm
学校举办郝龙彪牺牲十五周年纪念活动:info/1035/23505.htm
我校学生在第十届“挑战杯”全区大学生课外学术科技...:info/1035/23431.htm
自治区“平安校园”创建检查验收组来校进行检查评估:info/1035/23423.htm
学校举办第三届“心悦杯”校园心理微电影大赛:info/1035/23412.htm
内蒙古自治区第一所文化寻力研发中心和基地学校落地...:info/1035/23409.htm
网络电视:校园新闻2017年12月第二十六期(试运行):http://www.imau.edu.cn/info/1402/23404.htm
王万义校长深入教职工党支部宣讲党的十九大精神:info/1035/23398.htm
教育部:中共教育部党组关于印发《高校思想政治工作...:info/1037/23394.htm
动科院师生共同完成的科研论文“大规模全基因组重测...:info/1035/23396.htm
学校与波兰波兹南生命科学大学签署合作意向书:info/1035/23388.htm
学校召开学习贯彻党的十九大精神形势政策报告会:info/1035/23379.htm
更多>>:index/tzgg.htm
关于表彰2017年度优秀通讯员、优秀学生记者...:http://xcb.imau.edu.cn/info/1003/2662.htm
关于发放2017年生源地信用助学贷款的通知:http://zizhu.imau.edu.cn/info/1003/2803.htm
关于尽快完成2016年度档案归档工作的通知:http://dangban.imau.edu.cn/info/1043/2585.htm
关于举办软件正版化培训的通知:http://dangban.imau.edu.cn/info/1043/2584.htm
2017年下半年普通话考试时间通知:http://jwc.imau.edu.cn/info/1114/4236.htm
关于做好2018年春季学期网上选课工作的通知:http://jwc.imau.edu.cn/info/1113/4235.htm
内蒙古农业大学2016—2017年度信息公开报告:http://dangban.imau.edu.cn/info/1043/2582.htm
关于做好2017年度分党委(党总支)书记抓党建...:http://dangban.imau.edu.cn/content.jsp?urltype=news.NewsContentUrl&wbtreeid=1039&wbnewsid=2583
内蒙古农业大学文明校园创建工作实施方案:http://dangban.imau.edu.cn/content.jsp?urltype=news.NewsContentUrl&wbtreeid=1039&wbnewsid=2566
更多>>:index/mtnd.htm
【内蒙古日报】文化寻力研发中心和基地学校在内农大授牌:info/1025/23407.htm
【华夏蒙商网】王召明:执着20载 只为种好一颗草——记蒙草创...:info/1025/23139.htm
【内蒙古足球频道】这个内蒙古小伙厉害了!花式足球玩到国外:info/1025/23113.htm
【内蒙古卫视】探索“三位一体”教学模式,我校云畜牧平台受...:info/1025/23111.htm
【内蒙古日报】透彻深入宣讲 鲜活生动解读:info/1025/23083.htm

使用BeautifulSoup 爬取一个页面上的所有的超链接的更多相关文章

  1. 初学-BeautifulSoup爬取豆瓣页面

    # -*- coding: utf-8 -*-import osimport urllibimport urllib2from bs4 import BeautifulSoup headers = { ...

  2. python之简单爬取一个网站信息

    requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下 使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...

  3. Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

    Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...

  4. Python爬虫学习之使用beautifulsoup爬取招聘网站信息

    菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...

  5. PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集(实战项目二)

    利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集 目标站点分析 今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...

  6. 利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

    还是设计模式的开卷考试,我想要多准备一点资料,于是写了个爬虫爬取代码与图片,有巧妙地进行格式化进一步处理,最终变为了markdown的格式 import requests from bs4 impor ...

  7. 用 BeautifulSoup爬取58商品信息

    最近对Python爬虫比较迷恋,看了些爬虫相关的教程 于是乎跟着一起爬取了58上面的一些商品信息,并存入到xlsx文件中,并通过xlsxwirter的方法给表格设置了一些格式.好了,直接贴代码吧~ # ...

  8. Scrapy爬取静态页面

    Scrapy爬取静态页面 安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可 终端下: #python2 sudo p ...

  9. 【Python3 爬虫】14_爬取淘宝上的手机图片

    现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律 打开淘宝网站http://www.taobao.com/ 我们可以看到 ...

随机推荐

  1. 【Hbase学习之一】Hbase 简介

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-2.1.3 ...

  2. Second LearningConvolutionalNeuralNetworksforGraphs Experience

    paper +ppt 链接:https://pan.baidu.com/s/1ZLBvv7mP8OoseQ4tnwhr_A 提取码:4amg

  3. MapReduce的map个数调节 与 Hadoop的FileInputFormat的任务切分原理

    在对日志等大表数据进行处理的时候需要人为地设置任务的map数,防止因map数过小导致集群资源被耗光.可根据大表的数据量大小设置每个split的大小. 例如设置每个split为500M: set map ...

  4. SQL优化(转)

    1. 负向条件查询不能使用索引 select * from order where status!=0 and stauts!=1 not in/not exists都不是好习惯 可以优化为in查询: ...

  5. Linux基础命令---文本格式转换fmt

    fmt 将指定文件的内容,按照指定的格式重新排版,结果送到标准输出. 此命令的适用范围:RedHat.RHEL.Ubuntu.CentOS.SUSE.openSUSE.Fedora. 1.语法     ...

  6. SEO三种职位类型:编辑型SEO、技术型SEO、营销型SEO详解

    SEO三种职位类型:编辑型SEO.技术型SEO.营销型SEO详解 网站SEO优化作为营销端的服务之一,这些年也呈现出日新月异的格局.一改过去游兵散将式的小作坊生产模式,不断有力量强大的公司团体加入到这 ...

  7. 算法提高 11-1实现strcmp函数

    问题描述 自己实现一个比较字符串大小的函数,也即实现strcmp函数.函数:int myStrcmp(char *s1,char *s2) 按照ASCII顺序比较字符串s1与s2.若s1与s2相等返回 ...

  8. Ford VCM II Ford VCM2 Diagnostic Tool with Ford IDS v108 Installed On Laptop Ready to Use

    HOW to VCM2 Ford VCM II with Ford IDS v108 Work Well? VCM2 Ford VCM2 Ford diagnostic tool hot sale i ...

  9. struts2 + spring + mybatis 框架整合详细介绍

    struts2 + spring + mybatis  框架整合详细介绍 参考地址: https://blog.csdn.net/qq_22028771/article/details/5149898 ...

  10. SSM整合Mybatis-Spring

    mybatis -Spring 整合 cn.kitty.bean public class Book { private int bookid; private String bookname; pr ...