Beautiful Soup 解析html表格

from bs4 import BeautifulSoup

import urllib.request

doc = urllib.request.urlopen('http://www.bkzy.org/Index/Declaration?intPageNo=1')

doc = doc.read().decode('utf-8')

soup = BeautifulSoup(doc, "html.parser")

school = 0

pro_code = 1

pro_name = 2

xuewei = 3

pdf = 4

# find_all 查到所有tr列表

for tr in soup.find_all('tr',):
　　# 在每个tr找td

    td = tr.find_all('td')

    try:

        print('%s_%s_%s_%s.pdf' % (

            td[school].text.strip(),

            td[pro_code].text.strip(),

            td[pro_name].text.strip(),

            td[xuewei].text.strip())

            ,td[pdf].find('a')['href'])

    except IndexError as e:

        pass

Beautiful Soup 解析html表格的更多相关文章

Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
用Beautiful Soup解析html源码
#xiaodeng #python3 #用Beautiful Soup解析html源码 html_doc = """ <html> <head> ...
爬虫5_python2_使用 Beautiful Soup 解析数据
使用 Beautiful Soup 解析数据(感谢东哥) 有的小伙伴们对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HT ...
Beautiful Soup解析库的安装和使用
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据.它拥有强大的API和多样的解析方式.官方文档:https://www.crummy.co ...
Python Beautiful Soup 解析库的使用
Beautiful Soup 借助网页的结构和属性等特性来解析网页,这样就可以省去复杂的正则表达式的编写. Beautiful Soup是Python的一个HTML或XML的解析库. 1.解析器解析 ...
Beautiful Soup解析网页
使用前步骤: 1.Beautiful Soup目前已经被移植到bs4,所以导入Beautiful Soup时先安装bs4库. 2.安装lxml库:如果不使用此库,就会使用Python默认的解析器,而l ...
爬虫（五）—— 解析库（二）beautiful soup解析库
目录解析库--beautiful soup 一.BeautifulSoup简介二.安装模块三.Beautiful Soup的基本使用四.Beautiful Soup查找元素 1.查找文本.属性 ...
Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页.今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析. (牛小妹在学校折腾了好几天,也没把h ...
Python3编写网络爬虫06-基本解析库Beautiful Soup的使用
二.Beautiful Soup 简介就是python的一个HTML或XML的解析库可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航,搜索,修改分析树等功 ...

随机推荐

springboot2.0以后WebMvcConfigurationSupport代替WebMvcConfigurationAdapter
1:WebMvcConfigurationSupport代替WebMvcConfigurationAdapter https://blog.csdn.net/wilsonsong1024/articl ...
(61)Wangdao.com第十天_JavaScript 立即执行函数
1. 立即执行函数创建完了就执行,只执行完就不再执行了. ( function(){} )(); 例 ( function(a,b){ alert("Hello ,我是一个匿名函数!&qu ...
全排列筛选（java）
蓝桥杯-全排列筛选(java) 蓝桥杯每年必考全排列筛选,一般为填空题: 可以使用for循环暴力破解,但是代码相对较长,也比较乱,不建议使用: 这里使用递归来解决,代码量相对较少,也很好理解: 如下为 ...
一个简单的分布式session框架
该代码只是用来学习原理的,有很多不完善之处. 代码: git@github.com:sicw/EasySpringSession.git 一. 整体设置 1. 实现Filter,封装新的reques ...
微信小程序填坑之page[pages/XXX/XXX] not found.May be caused by
当页面出现 page[pages/XXX/XXX] not found.May be caused by :1. Forgot to add page route in app.json.2. I ...
php composer windows安装
2018年6月22日10:40:49 笔记 1.先下载Composer-Setup.exe,下载地址:http://docs.phpcomposer.com/00-intro.html#Install ...
Overview of .rdp file settings
On this page you will find an overview of most of the available .rdp file settings which can be used ...
JS操作字符串
JS操作字符串 1.函数:split() 把字符串按分隔符分割成数组. 语法:字符串.split(separator,limit); separator:分隔符. 功能:使用一个指定的分隔符把一个字符 ...
关于HTTP协议学习（一）
一,目录结构 B/S 结构定义 URI (统一资源标志符) HTTP 协议 HTTP 请求报文 HTTP 响应报文 HTTP Methods HTTP Status Code 二,B/S,C/S 结构 ...
kubernetes in action - Volumes
Volume解决Kubernetes的存储的问题对于Pod使用的存储,抽象为volume,volume伴随着Pod的创建而创建,消失而同时消失,不能单独的创建这样的好处,是存储的塑胶不会因为某个c ...

Beautiful Soup 解析html表格

Beautiful Soup 解析html表格的更多相关文章

随机推荐

热门专题