1 三种信息类型的简介

xml : extensible markup language

与html非常相似

现有html后有xml

xml是html发展来的 扩展 通用

json  类型

javascript object notation

有类型的键值对 表达的方式

一个key对应多个值

"key1":["asas",''asas'']

嵌套使用

"name":{

  "newname":“北京理工大学”

  "oldname":"延安自然科学院"

}

yaml   (yaml ain't markup language) :)

name: 北京理工大学  无类型的

通过缩写表示所属的相关关系(嵌套)

name:
  oldname:xxxxx

  newname:sasas

通过减号表达并列关系

name :

-xxxxxx

-asasasas

竖线表示整块数据

text:|

asdadsssssssssssssdsd

sdadasdasdasdasdasd

asdasd

#表示注释

xml 世界上最早的通用信息标记语言 ,可拓展性好

json 信息有类型,适合程序处理,简介

yaml 信息无类型 文本型息比例最好,可读性好

xml  internet上的交互与流动

json 程序对借口的使用,云端   但是无注释

yaml 各类系统的配置文件 有注释易读

2 信息提取的一般方法

方法一:完整解析信息的标记形式,需要表及解析器 列如 bs4的标签书遍历

繁琐慢;

方法二:无视标记信息,直接提取关键信息,利用文本查找

准确性与内容相关

融合方法:结合形式解析与搜索方法

例:

提取html上所有的URL链接

1.找到所有的a标签

2.找到a标签中的href?

form bs4 import BeautifulSoup

soup=BeautifulSoup(demo,"html.parser")

for link in soup.find_all("a"):

   print(link.get("href"))

3基于BeautifulSoup的内容查找

方法find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型,存储查找的结果

soup.find_all("a”)

soup,find_all(["a","b"]) 同时查找ab标签

for tag in soup.find_all(True):

  print(tag.name)

可以打印该soup中的所有tag信息

import re

for tag in soup.find_all(re.compile("b")):

  print(tag.name)

打印以b开头的

attrs

查找p标签中带有course属性值的的

soup.find_all("p","course")

//soup.find_all("p",attrs={"ssdsd":"dssds})

也可以约定是某一个属性为XX

soup.find_all(id="link1")

#id属性为link1

import re //利用正则表达式

recursive 表示是否对所有子孙都搜索 默认为TRUE

soup.find_all("a")

string 对标签中的字符穿检索的属性

例:
soup.find_all(string="Basic python")

也可以用正则表达式

简短形式

<tag>() 等价于 <tag>.find_all()

soup(...)等价于 soup.find_all()

7个拓展方法

find  只返回一个结果 字符串类型

find_parents 只在先辈节点中搜索,返回一个列表

find_parent 只在黔北节点中搜索,返回结果 字符串类型一个

find_next_siblings只在后续平行节点中搜索,返回列表类型

find_next_sibling 同上只返回一个 字符串类型

find_previous_siblings

find_previsou_sibling 同上

差不多

PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)的更多相关文章

  1. Python网络爬虫与信息提取

    1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...

  2. 第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

  3. 第三次作业-Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 过程. 5.写一篇不少于100 ...

  4. 第三次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 第一周 Requests库的爬 ...

  5. Python网络爬虫与信息提取笔记

    直接复制粘贴笔记发现有问题 文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...

  6. 【学习笔记】PYTHON网络爬虫与信息提取(北理工 嵩天)

    学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime    Text集成ide:Pychar ...

  7. Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  8. PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)

    scrapy 常用命令 startproject  创建一个新的工程 scrapy startproject <name>[dir] genspider    创建一个爬虫         ...

  9. Python网络爬虫与信息提取(二)—— BeautifulSoup

    BeautifulSoup官方介绍: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 官方 ...

随机推荐

  1. Python-线程(2)

    目录 GIL全局解释器锁 GIL 与 Lock 多进程 VS 多线程 死锁现象 递归锁 信号量 Semaphore 线程队列 GIL全局解释器锁 在Cpython解释器中,同一个进程下开启的多线程,同 ...

  2. PAT甲级——A1008 Elevator

    The highest building in our city has only one elevator. A request list is made up with N positive nu ...

  3. python学习笔记3.1_数据读取常用函数参数

    一.read_table/read_csv常用函数参数 1.path:表明文件系统位置的字符串.url或文件型对象 2.sep或delimiter:用于分隔每行字段的字符序列或正则表达式 3.head ...

  4. <scrapy爬虫>基本知识-修改链接-中间件

    rules = ( Rule(LinkExtractor(allow=r'/films/\d+'),process_links='deal_links' ,callback='parse_maoyan ...

  5. 不同版本springboot上传文件大小设置

    参考原文:https://blog.csdn.net/awmw74520/article/details/70230591 Spring Boot 1.3.x或者之前 multipart.maxFil ...

  6. 比特承诺 Bit Commitment

    Introduction-A story  Alice:股票经纪人 Bob:股民   Alice:你的钱交给我,我替你买股票,我专业,挣钱多!   Bob:怎么证明?   Alice:我们上月买进的1 ...

  7. C语言中常用的字符串处理函数总结

    C语言中字符串处理函数备注 此文仅用于自己研究和记录 字符串处理函数 1. char *gets(char *s); #include<stdio.h> 功能: 从标准输入读入字符,并保存 ...

  8. virtualbox 启动虚拟机提示Cannot load R0 module

    Cannot load R0 module C:\Program Files\Oracle\VirtualBox/VBoxDDR0.r0: SUPR3LoadModule: supLoadModule ...

  9. 玩转xargs

    xargs命令可以把标准输入数据转换成命令行参数.也可以将单行或多行文本输入转换成其他格式,是构建单行命令的重要组件之一. xargs命令应该紧跟在管道操作符之后,以stdin作为主要的源数据流,使用 ...

  10. 使用git命令将本地项目推送到远程仓库

    将本地项目推送到远程仓库 这里先放一张图, 有助于理解git命令 1. 在GitHub上新建一个仓库 注意不要勾选自动生成README.md文件, 否则会产生某些问题, README.md文件到时可以 ...