一、概述

Python库之网络爬虫
Python库之Web信息提取
Python库之Web网站开发
Python库之网络应用开发

二、Python库之网络爬虫

2.1 Requests

Requests: 最友好的网络爬虫功能库，http://www.python-requests.org/

提供了简单易用的类HTTP协议网络爬虫功能
支持连接池、SSL、Cookies、HTTP(S)代理等
Python最主要的页面级网络爬虫功能库

import requests

r = requests.get('https://api.github.com/user', auth=('user', 'pass'))

r.status_code

r.headers['content-type']

r.encoding

r.text

2.2 Scrapy

Scrapy: 优秀的网络爬虫框架，Python数据分析高层次应用库，https://scrapy.org

提供了构建网络爬虫系统的框架功能，功能半成品
支持批量和定时网页爬取、提供数据处理流程等
Python最主要且最专业的网络爬虫框架

2.3 pyspider

pyspider: 强大的Web页面爬取系统，http://docs.pyspider.org

提供了完整的网页爬取系统构建功能
支持数据库后端、消息队列、优先级、分布式架构等
Python重要的网络爬虫类第三方库pyspider: 强大的Web页面爬取系统

三、Python库之Web信息提取

3.1 Beautiful Soup

Beautiful Soup: HTML和XML的解析库，https://www.crummy.com/software/BeautifulSoup/bs4

提供了解析HTML和XML等Web信息的功能
又名beautifulsoup4或bs4，可以加载多种解析引擎
常与网络爬虫库搭配使用，如Scrapy、requests等

3.2 Re

Re: 正则表达式解析和处理功能库，https://docs.python.org/3.6/library/re.html

提供了定义和解析正则表达式的一批通用功能
可用于各类场景，包括定点的Web信息提取
Python最主要的标准库之一，无需安装

3.3 Python-Goose

Python-Goose: 提取文章类型Web页面的功能库，https://github.com/grangier/python-goose

提供了对Web页面中文章信息/视频等元数据的提取功能
针对特定类型Web页面，应用覆盖面较广
Python最主要的Web信息提取库

from goose import Goose

url = 'http://www.elmundo.es/elmundo/2012/10/28/espana/1351388909.html'

g = Goose({'use_meta_language': False,'target_language':'es'})

article = g.extract(url=url)

article.cleaned_text[:150]

四、Python库之Web网站开发

4.1 Django

Django: 最流行的Web应用框架，https://www.djangoproject.com

提供了构建Web系统的基本应用框架
MTV模式：模型(model)、模板(Template)、视图(Views)
Python最重要的Web应用框架，略微复杂的应用框架

4.2 Pyramid

Pyramid: 规模适中的Web应用框架，https://trypyramid.com/

提供了简单方便构建Web系统的应用框架
不大不小，规模适中，适合快速构建并适度扩展类应用
Python产品级Web应用框架，起步简单可扩展性好

# 10行左右Hello Word程序

from wsgiref.simple_server import make_server

from pyramid.config import Configurator

from pyramid.response import Response

def hello_world(request):

    return Response('Hello World')

if __name__ == '__main__':

    with Configurator() as config:

        config.add_route('hello', '/')

    config.add_view(hello_world, route_name='hello')

    app = config.make_wsgi_app()

    server = make_server('0.0.0.0', 6543, app)

    server.serve_forever()

4.3 Flask

Flask: Web应用开发微框架，http://flask.pocoo.org

提供了最简单构建Web系统的应用框架
特点是：简单、规模小、快速
Django > Pyramid > Flask

from flask import Flask 

app = Flask(__name__) 

@app.route('/')

def hello_world():

    return 'Hello, World!'

五、Python库之网络应用开发

5.1 WeRoBot

WeRoBot: 微信公众号开发框架，https://github.com/offu/WeRoBot

提供了解析微信服务器消息及反馈消息的功能
建立微信机器人的重要技术手段

# 对微信每个消息反馈一个Hello World

import werobot

robot = werobot.WeRoBot(token='tokenhere')

@robot.handler

def hello(message):

    return 'Hello World!'

5.2 aip

aip: 百度AI开放平台接口，https://github.com/offu/WeRoBot

提供了访问百度AI服务的Python功能接口
语音、人脸、OCR、NLP、知识图谱、图像搜索等领域
Python百度AI应用的最主要方式

5.3 MyQR

MyQR: 二维码生成第三方库，https://github.com/sylnsfar/qrcode

提供了生成二维码的系列功能
基本二维码、艺术二维码和动态二维码

六、单元小结

6.1 从Web解析到网络空间

Requests、Scrapy、pyspider
Beautiful Soup、Re、Python-Goose
Django、Pyramid、Flask
WeRobot、aip、MyQR

062 Python必备库-从Web解析到网络空间的更多相关文章

Python必备库
Python必备库 --default-timeout=100避免网络延迟错误:-U给管理员权限. Python基础库 pip --default-timeout=100 install -U pyg ...
全栈Python 必备库
强大的库: 转自:微信公众号 Python最棒的地方之一,就是大量的第三方库,覆盖之广,令人惊叹.Python 库有一个缺陷就是默认会进行全局安装.为了使每个项目都有一个独立的环境,需要使用工具vir ...
060 Python必备库-从数据处理到人工智能
目录一.概述 1.1 从数据处理到人工智能二.Python库之数据分析 2.1 numpy 2.2 pandas 2.3 scipy 三.Python库之数据可视化 3.1 matplotlib ...
063 Python必备库-从人机交互到艺术设计
目录一.概述二.Python库之图形用户界面 2.1 PyQt5 2.2 wxPython 2.3 PyGObject 三.Python库之游戏开发 3.1 PyGame 3.2 Panda3D ...
python 常用库收集
读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都 ...
python常用库
本文由伯乐在线 - 艾凌风翻译,Namco 校稿.未经许可,禁止转载!英文出处:vinta.欢迎加入翻译组. Awesome Python ,这又是一个 Awesome XXX 系列的资源整理,由 ...
Python常用库大全
环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具. pyenv – 简单的 Python 版本管理工具. Vex – 可以在虚拟环境中执行命令. v ...
python的库小全
环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具. pyenv – 简单的 Python 版本管理工具. Vex – 可以在虚拟环境中执行命令. v ...
python 三方库
---------------- 这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护.内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理. ...

随机推荐

org.apache.spark.logging类报错
一,1 在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行. 但是在后期使用 ...
Javaweb表格加载---DataTable
Datatables是一款jquery表格插件.它是一个高度灵活的工具,可以将任何HTML表格添加高级的交互功能. 使用 jQuery Datatable 构造数据列表,并且增加或者隐藏相应的列,已达 ...
studio无限轮播
<?xml version="1.0" encoding="utf-8"?> <RelativeLayout xmlns:android=&q ...
git语句（后续补充）
如果你是windows用户,需要下载一个git应用程序,一路点就行,没有什么需要注意的地方安装完成后在任一文件夹内右键都有显示,单击git bash here即可简易的命令行入门教程: Git 全 ...
Oracle 12cR1 RAC集群安装（一）--环境准备
基本环境操作系统版本 RedHat6.7 数据库版本 12.1.0.2 数据库名称 testdb 数据库实例 testdb1.testdb2 (一)安装服务器硬件要求配置项目参数要求网卡每台 ...
pickle 基础用法
def save_obj_to_file(path, target_obj): file = open(path,'wb') pickle.dump(target_obj) file.close() ...
决策树ID3原理及R语言python代码实现（西瓜书）
决策树ID3原理及R语言python代码实现(西瓜书) 摘要: 决策树是机器学习中一种非常常见的分类与回归方法,可以认为是if-else结构的规则.分类决策树是由节点和有向边组成的树形结构,节点表示特 ...
HelloDjango 第 09 篇：让博客支持 Markdown 语法和代码高亮
作者:HelloGitHub-追梦人物文中涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库为了让博客文章具有良好的排版,显示更加丰富的格式,我们使用 Markdown 语法来书 ...
Centos知识
1.看系统的版本: cat /etc/redhat-release 2.看内核版本: uname -r 3.查看系统是32位还是64位 uname - m 4.磁盘: 磁盘分区有主分区.扩展分区和逻辑 ...
Flume日志采集框架的使用
文章作者:foochane 原文链接:https://foochane.cn/article/2019062701.html Flume日志采集框架安装和部署 Flume运行机制采集静态文件到h ...

062 Python必备库-从Web解析到网络空间