读书笔记--用Python写网络爬虫02--数据抓取
01 - 10
01 - Ticket驱动开发
提倡无论是提交应用程序还是基础设施的代码,所有的任务都需要先创建一个ticket,然后在开展工作的同时,同步更新ticket的状态和信息。
Ticket的关闭,也就是表明了对应工作内容的完成。
02 - PCDA循环与DevOps
PDCA循环是一种管理方法,主要用于在企业和商业活动中进行持续生产改善,并采取相应的控制措施。
这一方法将业务分为Plan(计划)、Do(执行)、Check(检查)和Act(处理)四个阶段来进行,在执行改善措施之后,又回到Plan(计划)阶段,如此循环往复。
- P (Plan) 计划:包括方针和目标的确定,以及活动规划的制定。
- D (Do) 执行:根据已知的信息,设计具体的方法、方案和计划布局;再根据设计和布局,进行具体运作,实现计划中的内容。
- C (Check) 检查:总结执行计划的结果,分清哪些对了,哪些错了,明确效果,找出问题。
- A (Act)处理:对总结检查的结果进行处理,对成功的经验加以肯定,并予以标准化;对于失败的教训也要总结,引起重视。对于没有解决的问题,应提交给下一个PDCA循环中去解决。
以上四个过程不是运行一次就结束,而是周而复始的进行,一个循环完了,解决一些问题,未解决的问题进入下一个循环,阶梯式上升。
全面质量管理活动的全部过程,就是质量计划的制订和组织实现的过程,这个过程就是按照PDCA循环,不停顿地周而复始地运转的。
关于PDCA的现代观点
- P(Planning)——包括三小部分:目标(goal)、实施计划(plan)、收支预算(budget)。
- D(design)——设计方案和布局。
- C(4C)——4C管理:Check(检查)、Communicate(沟通)、Clean (清理)、Control(控制)。
- A(2A)——Act(执行,对总结检查的结果进行处理)、Aim(按照目标要求行事,如改善、提高)。
与DevOps的关系
实施DevOps需要以PDCA的方式循环进行,在DevOps中,敏捷开发方法是实现PDCA循环的方法之一。
也就是说,DevOps是融合在业务中的持续性的改善和实践,而不是为了一次性完成所有的改善。
03 - 组织形式与DevOps
康威定律:设计系统的组织,其产生的设计等同于组织的沟通结构。
通过引入DevOps的工具和文化,能够使系统架构和组织结构同时发生变化。
04 - 在DevOps中应用Docker
构建功能单一的轻量级容器镜像
- 容器以功能为单位进行分割,内容精简,缩小镜像
- 容器之间尽量松耦合,消除容器内部对环境的依赖因素,提高通用性
- 容器镜像本身不应保存与具体环境相关的信息
05 - From Traditional to Future
06 - DevOps技能图谱
- https://github.com/TeamStuQ/skill-map/blob/master/data/map-DevOps.md
- https://www.infoq.cn/article/the-must-know-checklist-for-devops-and-sre
- https://www.infoq.cn/article/NpBtkovq8idXk-Z0yoby
不同成长阶段对技能的需求是不同的,无法准确用一张图来表示合适的内容。
大而全的技能图谱,不是为具体实施场景所准备的,而且里面甚至包括了过时的信息,不适合作为了解的途径。
这种技能图谱中的很多知识点、工具和技能其实不是现在就必须掌握的,重点是要掌握实际实施所必须的最少必要知识,先开展工作,然后在后期工作中按照需求、循序渐进地接触和使用。。
什么都想接触都想了解,效果必然很差,浪费时间和精力。
07 - 分支策略
制定分支的创建规则和使用规则,避免随意创建新分支导致的分支混乱、难以区分和回溯等问题。
- 在什么时候需要使用分支?
- 在什么时候合并到哪个分支?
- 在不同的环境中分别使用哪个分支?
- 在修改bug或者添加新功能时使用哪个分支?
- ......
08 - DevOps几个关键点
- 系统思考(将开发、测试、运维等环节之间的流程视为一条管道,从整体分析、定位和解决问题)
- 增强反馈回路
- 培养不断试验和学习的文化
- 积极传播信息促进团队和个人成长
09 - 信息共享与管理
只有积极地传播和共享信息,才能推进DevOps的实施,提高团队的战斗力
- 传统的方式:以文件形式存储在一台共享服务器上,存在难于搜索内容、无法获知更改信息和文件实时状态等问题
- Web方式:Wiki、Confluence、看板等,易于创建和修改,能够快速准确找出所需信息
- 代码库方式:信息文件存储在代码库,能够准确获知信息内容的状态和变化,以及历史信息
10 - 管理工作技术化
- 需求失真,不透明,太抽象,需求管理混乱:明确唯一入口、团队共商共建、可视化、数据化等
- 代码质量差:代码扫描自动化、在CI环节限制、评审策略化等
- 测试反复,人力资源缺失:测试自动化、采用高效工具RobotFramework,Postman等
- 版本零散、分支混乱、发布环境不一致:明晰的管理策略(代码、分支、环境)
- 流程臃肿、数据繁杂,难以查看:可视化流程和数据
- ......
11 - 20
11 - DevOps和Agile
如果说Agile是内功和心法的话,那么DevOps则是力量与招式。
Agile描述了一套价值观,却没有显式的把方法论体系化,而DevOps定义了一套方法论,把价值观蕴含在其实践中。
12 - DevOps标准与认证
《研发运营一体化(DevOps)能力成熟度模型》
- 由工信部直属单位中国信息通信研究院牵头
- 云计算开源产业联盟、高效运维社区和 DevOps 时代社区联合发起
- 携手国内互联网、电信、金融等行业领先企业百余位专家共同编制
- 全球首个 DevOps 标准,已在联合国直属标准化组织 ITU-T、中国工信部、中国通信标准化协会(CCSA)正式立项。
13 - 九问DevOps
“问题”一定是着某种具体的“目的与需求”来提问的,关于答案,没有正不正确,只有“合不合适”。
- 你对DevOps的理解是什么?
- 你认为DevOps的发展趋势是怎样的?
- 如果让你来组织或者引导一个DevOps项目的实施,你如何开展工作?
- 你将如何去说服或引领关键人(例如决策者、管理者、最终使用者、反对者等)赞同并支持建立DevOps机制?
- DevOps项目的实施后,落地了工具和方法,如何去评价DevOps的成效?
- 你获取和更新DevOps信息的途径和方式有哪些?最常用的是什么?
- 一套DevOps系统建立后,你认为如何保证这套系统的健康稳定的运转?
- 你在实施或运维DevOps过程中,遇到最大的困难是哪方面的?如何解决的?具体的方法是怎么?
- 你在推动和建立DevOps的过程中,投入最多精力和时间的是哪方面?为什么?
14 - CI Pipeline
读书笔记--用Python写网络爬虫02--数据抓取的更多相关文章
- 读书笔记--用Python写网络爬虫01--网络爬虫简介
Wiki - Web crawler 百度百科 - 网络爬虫 1.1 网络爬虫何时使用 用于快速自动地获取网络信息,避免重复性的手工操作. 1.2 网络爬虫是否合法 网络爬虫目前人处于早期的蛮荒阶段, ...
- python写的爬虫工具,抓取行政村的信息并写入到hbase里
python的版本是2.7.10,使用了两个第三方模块bs4和happybase,可以通过pip直接安装. 1.logger利用python自带的logging模块配置了一个简单的日志输出 2.get ...
- 读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫 作者: [澳]理查德 劳森(Richard Lawson) 原版名称: web scra ...
- 用Python写网络爬虫 第二版
书籍介绍 书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
- python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
- PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
- 笔记之《用python写网络爬虫》
1 .3 背景调研 robots. txt Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站 ...
- Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
- python写网络爬虫的环境搭建
网上找了好多资料,都不全,通过资料的整理,包括自己的测试,终于把环境打好了,真是对于一个刚接触爬虫的人来说实属不易,现在分享给大家,若有不够详细之处,希望各位网友能补充. 第一步,下载python, ...
随机推荐
- Android Camera Api的心得
(一) 前言最近看Camera的api,觉得写的真的不错.现在翻译过来,给大家分享分享,译文可能不太好,大家将就着看哈. (二) 正文1. CameraCamera是Android framework ...
- 从零深入 tomcat
1.tomcat的安装使用 tomcat是实现了J2EE标准的最简单轻巧的WEB服务器,所以使用tomcat必须安装JDK咯! ① 安装JDK并设置环境变量: ②设置tomcat的环境变量: 这两小步 ...
- 服务器修改 ssh 22端口
我们首先修改配置文件,让ssh 通知支持2个端口访问 ,22 和 23456 端口. Port 22 Port 23456 为什么要这样: 万一我用 23456端口替换了22端口,但是 23456正好 ...
- 转 :Vim文件编码识别与乱码处理
Vim文件编码识别与乱码处理 在 Vim 中,有四个与编码有关的选项,它们是:fileencodings.fileencoding.encoding 和 termencoding.在实际使用中,任 ...
- ANSI X9.8标准 PIN xor PAN获取PIN BlOCK
ANSI X9.8标准 PIN xor PAN获取PIN BlOCK 之前看到几篇介绍,把ANSI说成16个字节,真心扯淡,各种误人子弟,真正的ANSI算法其实是8个字节,具体格式如下: (1) AN ...
- apk反汇编之smali语法
类型 Dalvik的字节码中拥有两个主要的类型:基类和引用类型.引用类型 引用类型是对象和数组,其他的一切都是基类 基类被一个简单的字符描述.我没有提出这些缩写词———他们实际以字符串的形式存储于 ...
- Chapter 1 First Sight——8
It took only one trip to get all my stuff upstairs. 就一趟我就把所有的东西搬到楼上了. I got the west bedroom that fa ...
- service引用
已引用 attachmentManager 为例 ApplicationContext applicationContext = WebApplicationContextUtils.getWebAp ...
- CultureInfo中重要的InvariantCulture
CultureInfo简述 CultureInfo类位于System.Globalization命名空间内,这个类和这个命名空间许多人都不了解也认为不需要太多了解,实际上,你写的程序中会经常间接得使用 ...
- Android4.4KitKat支持u盘功能
Android4.4KitKat支持u盘功能 作者: 发布日期:2014-05-14 23:16:13 我来说两句(0) 0 Tag标签:功能 Android U 盘功能实现和分析 u 盘功能实 ...