python bs4 BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装

命令：pip install beautifulsoup4

解析器

主要的解析器,以及它们的优缺点如下：

安装命令：

pip install lxml
pip install html5lib

requests

requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
安装命令：pip install requests
推荐使用 response.content.deocde() 的方式获取响应的html页面

pandas

安装命令：pip install pandas
基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

数据结构：

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
Time- Series：以时间为索引的Series。
DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
Panel ：三维的数组，可以理解为DataFrame的容器。

使用

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

Tag：Tag 对象与XML或HTML原生文档中的tag相同，tag中最重要的属性: name和attributes

从网页中获取指定标签、属性值，取值方式：

通过标签名获取：tag.name tag对应的type是<class 'bs4.element.Tag'>
通过属性获取：tag.attrs
获取标签属性：tag.get('属性名') 或 tag['属性名']

功能标签

stripped_strings：输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
标准输出页面：soup.prettify()

查找元素：

find_all(class_="class") 返回的是多个标签
find(class_="class") 返回一个标签
select_one() 返回一个标签
select() 返回的是多个标签
soup = BeautifulSoup(backdata,'html.parser')　　#转换为BeautifulSoup形式属性
soup.find_all('标签名'，attrs{'属性名':'属性值'} ) #返回的是列表
limitk 控制 find_all 返回的数量
recursive=Flase 返回tag的直接子元素

demo

import sys

import io

import requests

from bs4 import BeautifulSoup as bs

import pandas as pd

import numpy as np

from py_teldcore import sqlserver_db as db

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"

def get_soap():

    try:

        r = requests.get(url)

        soap = bs(r.text, "lxml")

        return soap

    except Exception as e:

        print(e)

        return "Request Error"

def save2cvs(data, path):

    result_weather = pd.DataFrame(data, columns=['date', 'tq', 'temp', 'wind'])

    result_weather.to_csv(path,  encoding='gbk')

    print('save weather sucess')

def save2mssql(data):

    sql = "Insert into Weather(date, tq, temp, wind) values(%s, %s, %s, %s)"

    data_list = np.ndarray.tolist(data)

    # sqlvalues = list()

    # for data in data_list:

    #     sqlvalues.append(tuple(data))

    sqlvalues = [tuple(iq) for iq in data_list]

    try:

        db.exec_sqlmany(sql, sqlvalues)

    except Exception as e:

        print(e)

def get_data():

    soap = get_soap()

    print(soap)

    all_weather = soap.find("div", class_="wdetail").find("table").find_all("tr")

    data = list()

    for tr in all_weather[1:]:

        td_li = tr.find_all("td")

        for td in td_li:

            s = td.get_text()

            data.append("".join(s.split()))

    res = np.array(data).reshape(-1, 4)

    return res

if __name__ == "__main__":

    data = get_data()

    save2mssql(data)

    print("save2 Sqlserver ok!")

参考资料

python bs4 BeautifulSoup的更多相关文章

【爬虫】python之BeautifulSoup用法
1.爬虫网络爬虫是捜索引擎抓取系统的重要组成部分.爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份.通过分析和过滤HTML 代码,实现对图片.文字等资源的获取. 2.pytho ...
Python配合BeautifulSoup读取网络图片并保存在本地
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...
Python -bs4介绍
https://cuiqingcai.com/1319.html Python -BS4详细介绍Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.在应用过程中有很多模块是 ...
【python】BeautifulSoup的应用
from bs4 import BeautifulSoup#下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容(以后内容中简称为爱丽丝的文档): html_doc = ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
Python【BeautifulSoup解析和提取网页数据】
[解析数据] 使用浏览器上网,浏览器会把服务器返回来的HTML源代码翻译为我们能看懂的样子在爬虫中,也要使用能读懂html的工具,才能提取到想要的数据 [提取数据]是指把我们需要的数据从众多数据中挑 ...
Python Download Image (python + requests + BeautifulSoup)
环境准备 1 python + requests + BeautifulSoup 页面准备主页面: http://www.netbian.com/dongman/ 图片伪地址: http://www ...
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台 By 子敬叔叔最近在学习麦好的<机器学习实践指南案例应用解析第二版>,在安装学习环境的时候 ...
Python库-BeautifulSoup
sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser") 方法 1.sp.title 返回网页标题 2.sp.te ...

随机推荐

Python实现网络图形化界面多人聊天室 - Linux
网络图形化界面多人聊天室 - Linux Windows版本:https://www.cnblogs.com/noonjuan/p/12078524.html 在Python实现网络多人聊天室基础上, ...
BILIBILI之滑块验证
bilibili的滑动验证码图片比较好玩,和前一篇不大一样. 采用canvas方法,分析发现只找到一个图片,不过,可以通过设置display截图方式获得2张图(完整图片,带缺口的图片),取得图片后接下 ...
uiView获取指定子view
判断对象类型 -(BOOL) isKindOfClass: classObj判断是否是这个类或者这个类的子类的实例 -(BOOL) isMemberOfClass: classObj 判断是否是这个类 ...
Spring Security教程(二)
上一篇博客中,Spring Security教程(一),我把用户信息和权限信息放到了xml文件中,这是为了演示如何使用最小的配置就可以使用Spring Security,而实际开发中,用户信息和权限信 ...
libevent笔记6：ssl bufferevent
Libevent另外提供了基于openssl的bufferevent来支持ssl,通过特殊的ssl bufferevent来对数据进行加密. ps:本文不对openssl相应的接口做介绍因为不熟 SS ...
c# winform button文字偏了
winform button文字偏了,解决方案来自疯狂青蛙: http://www.cnblogs.com/cadlife 要用这个属性
volatile 和内存屏障
接下来看看volatile是如何解决上面两个问题的: 被volatile修饰的变量在编译成字节码文件时会多个lock指令,该指令在执行过程中会生成相应的内存屏障,以此来解决可见性跟重排序的问题. 内存 ...
AVLMap平衡二叉树
public class AVLMap<K, V> implements Iterable<AVLEntry<K, V>> { private int size; ...
storm单节点问题（转载）
一.storm nimbus 单节点问题概述 1.storm集群在生产环境部署之后,通常会是如下的结构: 从图中可以看出zookeeper和supervisor都是多节点,任意1个zookeeper节 ...
WPF 营销管理平台
利用空闲时间计划开发一款开源的营销商城平台,项目写的不够规范,有需要可以看看项目介绍: 前端使用 WPF,采用MVVM模式后端数据库采用的sqlite 依靠本地化运行后期可能会采用WebA ...

python bs4 BeautifulSoup

python bs4 BeautifulSoup的更多相关文章

随机推荐

热门专题