如何Docker化任意一个应用

网上有很多关于如何将应用Docker化的教程,为什么我还要再写一个呢?
我见过的大部分教程都是限定在某种特定技术(例如Java或者Python),可能无法满足读者的需求。同时,这些教程也没有说清楚关于Dev和Ops团队之间建立明确约定所涉及到的所有相关方面(这正是容器化的精髓所在)。
我根据最近的经验总结了以下一些步骤。它是一份细节清单,包含了其他指南中忽略的内容。
声明:这不是一份新手指南。我建议读者先掌握一些如何设置和使用docker的基础知识,并且创建和运行一些容器之后,再来阅读。
让我们开始吧。
一、选择基础镜像
每种对应技术几乎都有自己的基础镜像,例如:
如果不能直接使用这些镜像,我们就需要从基础操作系统镜像开始安装所有的依赖。
外面有很多教程使用的都是Ubuntu(例如 ubuntu:16.04)作为基础镜像,这不能算有问题,但是我建议优先考虑Alpine镜像:
https://hub.docker.com/_/alpine/
它是一个非常小的基础镜像(大约只有5MB)。
注意:在基于Alpine的镜像中无法使用“apt-get”命令,Alpine系统有自己的软件包仓库和包管理工具。详细请参考:
https://wiki.alpinelinux.org/wiki/Alpine_Linux_package_management
https://pkgs.alpinelinux.org/packages
二、安装必要软件包
这个步骤通常比较琐碎,有一些容易忽略的细节:
- apt-get update和apt-get install命令应该写在一行(如果使用Alpine则对应的是apk命令)。这不是常见的做法,但是在Dockerfile中应该要这么做,否则“apt-get update”命令产出的临时层可能会被缓存,导致构建时没有更新包信息(参见 https://forums.docker.com/t/dockerfile-run-apt-get-install-all-packages-at-once-or-one-by-one/17191 这个讨论)。
- 确认是否只安装了实际需要的软件(尤其是这个容器会在生产环境中运行)。我看见过有人在他们的镜像中安装了vim和其他开发工具。
如果有必要,针对构建、调试和开发环境创建不同的Dockerfile。这不仅仅关系到镜像大小,还涉及到安全性、可维护性等等。
三、添加自定义文件
一些优化Dockerfile的小提示:
- 理解COPY和ADD指令的区别,详见:https://docs.docker.com/develop/develop-images/dockerfile_best-practices/#add-or-copy。
- (尽可能)遵照文件系统惯例来存放文件:http://www.pathname.com/fhs/。例如针对解释型应用程序(如Python),使用/usr/src目录。批量查询排名
- 检查添加文件的属性。如果需要可执行权限,没有必要在镜像上新建一个层(通过“RUN chmod +x …”指令),只需要在代码仓库的源文件上修正这些属性即可。即使开发平台是Windows,也可以参照下文给文件增加可执行权限:https://stackoverflow.com/questions/21691202/how-to-create-file-execute-mode-permissions-in-git-on-windows。
四、定义容器运行时的用户权限
现在可以休息一下,阅读下这篇不错的的文章:Understanding how uid and gid work in Docker containers。
读完这篇文章,我们会了解:
- 仅当应用程序需要访问用户或组数据(/etc/passwd或/etc/group)时,才需要在容器启动时指定固定的用户ID。
- 尽可能避免容器以root权限运行。
不幸的是,不少热门应用程序镜像需要用特定的用户id来运行(例如Elastic Search需要uid:gid = 1000:1000)。尽量不要在写出这样的镜像……
五、定义暴露的端口
这也是一个微不足道的小操作,但是不要为了暴露特权端口(例如80)而将容器以root权限运行。如果有这样的需求,可以让容器暴露一个非特权端口(例如8080),然后在启动时进行端口映射。
关于特权端口和非特权端口的不同:https://www.w3.org/Daemon/User/Installation/PrivilegedPorts.html。
六、定义入口点(entrypoint)
普通方式:直接运行可执行文件。
更好的方式:创建一个“docker-entrypoint.sh”脚本,可以用来通过环境变量来配置容器的入口点(具体请参照下一节)。
这是一个非常普遍的做法,这里有一些例子:
https://github.com/elastic/elasticsearch-docker/tree/master/build/elasticsearch/bin
https://github.com/docker-library/postgres/tree/de8ba87d50de466a1e05e111927d2bc30c2db36d/10
七、定义一种配置方式
基本上每个应用程序都需要参数化。基本上有两条路可以遵循:
- 使用应用程序特定的配置文件:该方式需要通过文档说明配置文件的格式、字段、放置位置等等(当运行环境比较复杂,例如应用程序跨越不同的技术,则不太合适)。
- 使用(操作系统)环境变量:简单而有效。
如果读者认为这种方式不够现代,记住这也是12-factors推荐的方式:
https://12factor.net/zh_cn/config
这并不意味着我们可以抛开所有的配置文件,并对应用程序进行重构,去除配置文件机制。只需要通过envsubst命令来替换配置文件模板(这个流程需要在docker-entrypoint.sh文件中完成,因为这需要在运行时完成)。
例如:
https://docs.docker.com/samples/library/nginx/#using-environment-variables-in-nginx-configuration
这种方式可以将应用程序的配置文件封装在容器内部,无须让使用者了解这些细节。
八、外部化数据
关于数据存储有一条黄金法则:绝对不要将任何持久化数据保存到容器内。
容器的文件系统被设计成临时和短暂的。因此任何由应用程序生成的内容、数据文件和处理结果都应该保存到挂载的卷或者操作系统绑定挂载点上(既将宿主机操作系统的目录挂载到容器中)。
对于挂载卷我不太有经验,因此我个人更倾向于将数据保存到绑定挂载点(bind mounts)。这些挂载点一般通过类似Salt Stack这样的配置管理工具仔细的在宿主机上创建。
这里说的“仔细创建”,主要包括下面几个步骤:
- 在宿主机操作系统上创建非特权用户(和组)。
- 所有需要绑定目录的所有者都是该用户。
- 根据使用场景给授权(仅针对这个特定的用户和组,其他用户无权访问)。
- 容器也以该用户运行。
- 此时容器就可以完全控制这些目录。
九、确保处理好日志
前面关于“持久性数据”没有一个明确的定义,日志在这里就是灰色地带。我们该如何处理它们呢?
如果这是一个新的应用程序,并且希望它能够坚持docker约定,就不应该将日志写入文件。应用程序应该使用标准输出和标准错误输出日志。和之前推荐使用环境变量一样,这也是12-factors之一:
https://12factor.net/zh_cn/logs
Docker会自动捕捉应用程序的标准输出,并可以通过“docker logs”命令查看:
https://docs.docker.com/engine/reference/commandline/logs/
当然还有一些实际场景下会遇到问题。例如运行一个简单的nginx容器,至少会有两种不同的日志文件:
- HTTP访问日志(Access Logs)
- 错误日志(Error Logs)
对于这种日志按照特定结构输出的应用,可能不太适合将它们的日志输出到标准输出。这个例子中,只需要按照前面一节中说的处理好持久化问题,并确保正确配置文件的轮转。
十、轮转日志和其他仅追加文件
如果应用程序将日志写到文件,或者会无限追加内容到文件,就需要关注这些文件的轮转(rotation),这对于防止服务器空间耗尽非常有用(尤其是GDPR和其他数据安全条例出来之后)。
如果使用绑定挂载,我们可以依靠宿主机的一些工具来实现文件轮转功能,例如logrotate(文档参见https://linux.die.net/man/8/logrotate)。
最近我找到的一个简单且完整的例子:
https://www.aerospike.com/docs/operations/configure/log/logrotate.html
另外一个例子:
如何Docker化任意一个应用的更多相关文章
- Docker学习总结(6)——通过 Docker 化一个博客网站来开启我们的 Docker 之旅
通过 Docker 化一个博客网站来开启我们的 Docker 之旅 这篇文章包含 Docker 的基本概念,以及如何通过创建一个定制的 Dockerfile 来 Docker 化Dockerize一个 ...
- nginx的docker化部署
nginx的docker化有一个隐藏的坑,就是其默认的配置目录(/etc/nginx)需要先从容器中拷贝出来. 拉取镜像 docker pull nginx 启动容器 docker run -d -- ...
- 一步步创建第一个Docker App —— 2. 创建 Docker化 主机
原文:https://docs.docker.com/engine/getstarted-voting-app/node-setup/ 部署voting app的第一步,是为集群节点(swarm no ...
- Docker化运维方式讲解
应用迁移需求 应用运维需要考虑的一个重要问题就是迁移, 在不同机器.机房.环境间迁移.迁移的原因有很多, 比如硬件过保(硬件故障), 机房迁移, 应用扩缩容等. 应用迁移的核心需求是: 简单.迁移操作 ...
- FastDfs集群docker化部署
初识分布式文件系统FastDFS- 1.分布式与集群的区别 区别:集群是个物理形态,分布式是个工作方式.只要是一堆机器,就可以叫集群,他们是不是一起协作着干活,这个谁也不知道:一个程序或系统,只要运行 ...
- 从头认识一下docker-附带asp.net core程序的docker化部署
从头认识一下docker-附带asp.net core程序的docker化部署 简介 在计算机技术日新月异的今天, Docker 在国内发展的如火如荼,特别是在一线互联网公司, Docker 的使用是 ...
- CI Weekly #9 | 揭秘阿里 Docker 化实践之路
2017年悄然而至,对 flow.ci 你有什么新的期待呢?新的一年,flow.ci会越来越强大好用,希望继续得到你的支持与反馈.最近,我们做了如下的「功能优化」与「问题修复」,看看有没有你想要的: ...
- 老司机实战Windows Server Docker:2 docker化现有iis应用的正确姿势
前言 上一篇老司机实战Windows Server Docker:1 初体验之各种填坑介绍了安装docker服务过程中的一些小坑.这一篇,我们来填一些稍大一些的坑:如何docker化一个现有的iis应 ...
- Docker化tomcat 并且使用maven热部署
今天没事干 就把自己的tomcat docker化并且使用maven实现热部署 特别记录一下~ 1.首先进行centos7的安装 就不在记录了 注意的是最好使用centos7 因为docker 依赖 ...
随机推荐
- 【MongoDB】 windows下建立双机主从
[双机配置] 服务端: 两台 Dell R730 双路E5 服务器 使用一个内网环境,网段20, ping 测试互通 主服ip: 192.168.20.176: 27017 从服ip: 192.168 ...
- Oracle数据库文件导出为CSV格式的方法
1 安装PLSQL Developer,并连接Oracle数据库. 2 执行sql语句,将要导出的表格显示出来. select * from table名; 3 如下点击导出查询结果,选择数据格式,即 ...
- python绘制五角星
问题描述: python中运用turtle图形模块绘制五角星 问题分析: turtle绘制图形时,得知图形中重要点的坐标非常重要. 于是,绘制五角星问题转化成为一个数学问题,计算五个顶点坐标即可. 已 ...
- Windows7 系统安装
转载请标明本文链接:(https://www.cnblogs.com/softwarecb/p/11773811.html) 目前微软已经停止支持Windows 7,而且由于芯片组更新的原因,新的硬件 ...
- html/css中BFC的开启、关闭、作用
什么是BFC BFC是什么并不重要.重要的是开启它干嘛?以及如何开启它 根据W3C的标准,在页面中元素都一个隐含的属性叫做Block Formatting Context(块级 格式化 环境)简称BF ...
- SpringBoot(八) -- SpringBoot与Docker
一.Docker简介 Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源.Docker可以让开发者打包他们的应用以及依赖到一个轻量级,可移植的容器中,然后发布到任何流行 ...
- mysql-介绍、下载安装以及软件基本管理
一.mysql介绍 mysql是一个关系型数据库管理系统,它是一个基于socket编写的C/S架构的软件. 客户端软件: mysql自带:如mysql命令,mysqldump命令等. python模块 ...
- python学习第四十四天斐波那契数列和yield关键词使用
斐波那契数列是数学中的常见的算法,第一个第二个不算,从第三个开始,每个数的都是前面两个数的和,使用yield关键词把生成的数列保存起来,调用的时候再调用,下面举例说明一下 def fab(max): ...
- Python内建函数enumerate()用法及在for循环应用
Python 内建函数enumerate() 由于这个单纯很长,不容易记住,用法还是比较广泛的,下面讲述Python内建函数enumerate()用法. 1,实例 enumerate(sequence ...
- Asp.net中GridView使用详解(很全,很经典)
http://blog.csdn.net/hello_world_wusu/article/details/4052844 Asp.net中GridView使用详解 效果图参考:http://hi.b ...