Python——爬虫——数据提取

一、XML数据提取

　　（1）定义：XML指可扩展标记语言、标记语言，标签需要我们自行定义

　　（2）设计宗旨：是传输数据，而非显示数据，具有自我描述性

　　（3）节点关系：　父：每个元素及属性都有一个父、

　　　　　　　　　　　子：每个元素可能有0个或者多个子

　　　　　　　　　　同胞：拥有相同的父的节点

　　　　　　　　　　先辈：父的父

　　　　　　　　　　　后代：子的子

　　（4）XPath：是在XML中查找信息的语言，可以对XML文档元素和属性进行遍历

　　（5）XMLQuire是开源的XPath表达式编辑工具，Chrome插件是XPath Helper，Firefox插件Xpath Checker

　　（6）lxml的主要功能是如何解析和提取HTML/XMl数据，安装：pip install lxml，官方文档：lxml.de/index.html，lxm可以自动修正html代码

　　（7）文件读取

from lxml import etree

#读取外部文件

html = etree.parse('/hello.html')

result = etree.tostring(html,pretty_print=True)

　　（8）获取相应的标签　

from lxml import etree

#读取外部文件

html = etree.parse('/hello.html')

result = etree.tostring(html,pretty_print=True)

#获取<li>标签

result = html.xpath('//li')

#获取<li>标签的所有class属性

result = html.xpath('//li/@class')

#获取li标签下hre为link1.html的a标签

result = html.xpath('//li/a[@href="link1.html"]')

#获取li标签下的span标签

result = html.xpath('//li/span')

#获取最后一个li的a的href

result = html.xpath('//li[last()]/a/@href')

#获取倒数第二个元素内容

result = html.xpath('//li[last()-1]/a')

#获取class值为bold的标签名

result = html.xpath('//*[class="blod"]')

二、CSS选择器（BeautifulSoup）

　　（1）BeautifulSoup用来解析HTML比较签单，目前使用的BeautifulSoup4，安装为：pip install BeautifulSoup4

　　（2）引用　　

from bs4 import BeautifulSoup

　　（3）四大对象种类

　　　　1.Tag：HTMl中的一个个标签

from bs4 import BeautifulSoup

soup = BeautifulSoup(html)

result = soup.title

result = soup.head

result = soup.a

result = soup.p

#它的两个重要属性 name he attrs

soup.name

#[document]

soup.head.name

#对于其他内部标签，输出的值便为标签本身的名称

soup.p.attrs

#把p标签的所有属性打印出来，得到一个字典

soup.p['class']

#传入属性的名称，等同于 soup.p.get('class')

soup.p['class'] = "newclass"

#修改值

del soup.p['class']

#删除值

　　　　2.NavigableString，获取标签的内容

soup.p.string

　　　　3.BeautifulSoup：特殊的Tag对象

　　　　4.Comment：特殊的NavigableString对象

#将tag的子节点以列表的方式输出

soup.head.contents

#输出的方式为列表，可以用列表的索引获取他的某一个元素

soup.head.contents[0]

#.children，返回的不是list，可以用遍历获取所有的子节点

soup.head.children

for child in soup.body.children:

    print(child)

#.descendants对所有子孙节点进行递归循环

for child in soup.body.descendants:

    print(child)

　　（5）搜索文档树

　　　　1.find_all*（name,attrs,recursive,text,**kwargs）

　　（6）CSS选择器　soup.select()

#通过标签查找

soup.select（'tilte’）

#通过类名查找

soup.select('.sister')

#通过ID名查找

soup.select('#link1')

#组合查找

soup.select('p #link1')

#直接子标签查找

soup.select("head > title")

#属性查找

soup.select('a[class="sister"]')

#获取内容

for title in soup.select('title')

    print(title.get_text())

三、JSON数据提取

Python——爬虫——数据提取的更多相关文章

Python 爬虫数据提取
一下子运行七八十个 select 将会是什么样的体验呢? 业务部门提供了一个需要,要求从爬虫数据中提取出88家的数据, 并且也提供了一个excel表格,如下图: 这个时候我们可以通过拍卖行,拍卖时 ...
python爬虫数据提取之bs4的使用方法
Beautiful Soup的使用 1.下载 pip install bs4 pip install lxml # 解析器官方推荐 2.引用方法 from bs4 import BeautifulS ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
【学习】Python进行数据提取的方法总结【转载】
链接:http://www.jb51.net/article/90946.htm 数据提取是分析师日常工作中经常遇到的需求.如某个用户的贷款金额,某个月或季度的利息总收入,某个特定时间段的贷款金额和笔 ...
爬虫数据提取之JSON与JsonPATH
数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适 ...

随机推荐

Java学习笔记之——LinkedList
LinkedList 底层结构:链表 1. API: 除了ArrayList中有的方法以外,LinkedList还有几个扩展方法 void addFirst(E e) 在该列表开头插入指定的元素. v ...
import提升导致Fundebug报错：“请配置apikey”
摘要: 解释一下"请配置apikey"报错的原因. 部分Fundebug用户使用import来导入js文件时,出现了"请配置apikey"的报错,这是由于imp ...
Ambari Agent 源码分析
一.ambari-agent 启动方式 Ambari-Agent的启动脚本为/etc/init.d/ambari-agent.该脚本主要实现了start,stop,status,restart,res ...
windows10 企业版完整激活
windows10 企业版完整激活 cmd管理员运行 1. 以管理员身份执行cmd命令,然后输入以下命令: slmgr.vbs /upk 由于Win10正式版允许在命令提示符界面使用"Ct ...
Docker for Win10中文乱码问题
environment:win10 docker+centos7+nginx1.9.9 issue:在docker运行nginx(centos),volume本地html目录挂载到nginx的htm ...
Android开发如何轻松实现基于Tesseract的Android OCR应用程序
介绍此应用程序使用Tesseract 3的Tesseract OCR引擎,该引擎通过识别字符模式( https://github.com/tesseract-ocr/tesseract )来工作. ...
linux下编译opencv
1.安装cmake:sudo apt-get install cmake 2.下载opencv-2.4.10.zip,解压 3.编译opencv cd /home/opencv-2.4.10 mkdi ...
dede 采集到数据后，发布日期变为本地日期解决方法
找到dede目录下的co_export.php 大概在170行左右 //获取时间和标题 $pubdate = $sortrank = time(); $title = $row->title; ...
Asp.Net登陆记住用户功能实现
1.效果和原理原理是利用Asp.net的Cookies.选中CheckBox,把输入的用户名和密码用Cookies存储起来,设置过期时间7天,超过时间自动清除Cookie信息. 2.前台代码 < ...
RabbitMQ权限控制原理
我们在使用MQ搭建系统的时候,经常要开放队列给外接系统访问.外接系统的稳定性是不可控的.为了防止外接系统不稳定导致误操作破坏了MQ的配置或数据,需要对MQ做比较精细的权限控制. 我的需求是这样的: 我 ...

Python——爬虫——数据提取

Python——爬虫——数据提取的更多相关文章

随机推荐

热门专题