https://www.jianshu.com/p/c0ad13e0be85

关键字:DockerPython

原始镜像

封装一个Python 3.7的环境并且安装Python依赖包实现一个机器学习算法预测任务,Dockerfile如下

FROM python:3.7
MAINTAINER xxx
ENV PIPURL "https://mirrors.aliyun.com/pypi/simple/"
COPY ./requirements.txt /home
WORKDIR /home
RUN pip install -i ${PIPURL} --default-timeout=1000 -r requirements.txt

requirements.txt如下

jieba==0.40
numpy==1.18.0
pymongo==3.1.1
PyMySQL==0.10.0
pysolr==3.8.1
PyYAML==5.3.1
scikit-learn==0.22.2.post1
scipy==1.4.1
xgboost==1.0.2

构建镜像

$ docker build -t test/test:v1 .

查看镜像大小有1.58个G

$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
test/test v1 17b88b5e4b7f 2 minutes ago 1.58GB

大在哪里排查

docker history可以查看镜像构建的过程,使用格式化查看并且对Size进行倒序查看

$ docker history --format "{{.Size}} {{.CreatedBy}}" -H=false 17b88b5e4b7f | sort -t ' ' -k 1 -n -r
672415434 RUN /bin/sh -c pip install -i ${PIPURL} --de…
528779103 /bin/sh -c set -ex; apt-get update; apt-ge…
151980558 /bin/sh -c apt-get update && apt-get install…
124119398 /bin/sh -c #(nop) ADD file:513c5d5e501279c21…
41623591 /bin/sh -c set -eux; wget -O python.tar.xz…
18952123 /bin/sh -c set -ex; if ! command -v gpg > /…
18484074 /bin/sh -c set -eux; apt-get update; apt-g…
10699182 /bin/sh -c set -eux; apt-get update; apt-g…
10173436 /bin/sh -c set -eux; wget -O get-pip.py "$…
141 COPY ./requirements.txt /home # buildkit
32 /bin/sh -c set -eux; for src in idle3 pydoc…
0 WORKDIR /home
0 MAINTAINER xxx
0 ENV PIPURL=https://mirrors.aliyun.com/pypi/s…
0 /bin/sh -c #(nop) ENV PYTHON_VERSION=3.7.16
0 /bin/sh -c #(nop) ENV PYTHON_SETUPTOOLS_VER…
0 /bin/sh -c #(nop) ENV PYTHON_PIP_VERSION=22…
0 /bin/sh -c #(nop) ENV PYTHON_GET_PIP_URL=ht…
0 /bin/sh -c #(nop) ENV PYTHON_GET_PIP_SHA256…
0 /bin/sh -c #(nop) ENV PATH=/usr/local/bin:/…
0 /bin/sh -c #(nop) ENV LANG=C.UTF-8
0 /bin/sh -c #(nop) ENV GPG_KEY=0D96DF4D4110E…
0 /bin/sh -c #(nop) CMD ["python3"]
0 /bin/sh -c #(nop) CMD ["bash"]

其中--format "{{.Size}} {{.CreatedBy}}"是使用GO的模板只输出Size和CreatedBy两列,-H关闭将Size的单位去除,sort -t ' ' -k 1 -n -r表示根据空格分割后以第一列作为数值倒序排列。从结果来看CMDENVWORKDIRMAINTAINER这些操作都没有大小,只有COPYRUN以及其他环境准备的执行命令造成了镜像体积变大。

(1)pip install依赖包

共计672MB,进入镜像

$ docker run -it e602098faafe /bin/bash

pip 安装的依赖都在/usr/local/lib/python3.7/site-packages下查看各个包占用大小

root@241937acc2aa:/usr/local/lib/python3.7/site-packages# du -s ./* |sort -nr
204416 ./xgboost
92252 ./scipy
80728 ./numpy
43164 ./jieba
29644 ./sklearn
13012 ./pip
2964 ./setuptools
2088 ./joblib
1652 ./_yaml.cpython-37m-x86_64-linux-gnu.so
1224 ./pymongo
...

加起来大概466MB,还差206MB不知道被什么占用了,另外从依赖包来看xgboost比较大200m,scipy和numpy比较大加起来也差不多200m

(2)安装一系列autoconf automake bzip2 dpkg-dev file g++ gcc imagemagick libbz2-dev libc6-dev libcurl4-openssl-dev libdb-dev libevent-dev libffi-dev libgdbm-dev libglib2.0-dev libgmp-dev libjpeg-dev libkrb5-dev liblzma-dev libmagickcore-dev libmagickwand-dev libmaxminddb-dev libncurses5-dev libncursesw5-dev libpng-dev libpq-dev libreadline-dev libsqlite3-dev libssl-dev libtool libwebp-dev libxml2-dev libxslt-dev libyaml-dev make patch unzip xz-utils zlib1g-dev..

共计500m,不知道是怎么进来的,可能有些有用有些没用

(3)安装一系列git mercurial openssh-client subversion procps ...

共计150m,不知道是怎么进来的,这些版本控制的东西对我应用没啥用

(4)ADD file:513c5d5e501279c21a05c1d8b66e5f0b02ee4b27f0b928706d92fd9ce11c1be6

共计120m,是第一层镜像源


瘦身策略

(1)不产生pip缓存文件或者删除pip缓存文件

pip install占用空间比site-package下的实际空间大出200MB,怀疑是.cache/pip下的pip缓存文件导致,该文件有199MB

root@ea2784eace4d:~/.cache# du -sh pip/
199M pip/

在pip时使用--no-cache-dir不使用缓存,改变以下Dockerfile代码

RUN pip install --no-cache-dir -i ${PIPURL} --default-timeout=1000 -r requirements.txt

重新构建之后镜像大小下降到1.37GB下降大概200MB

$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
test/test v4 32a596269bf0 39 seconds ago 1.37GB

再进入容器发现已经没有~/.cache/pip文件夹

$ docker run -it 32a596269bf0 /bin/bash
root@f1526275c8af:/home# cd
root@f1526275c8af:~# cd .cache
(2)Python源瘦身

docker:3.7在仓库中的版本有

python       3.7-slim     22bf9d1adb34   3 days ago       123MB
python 3.7-alpine 807a8b5dd4df 6 days ago 46.9MB
python 3.7-buster 98c2e7c177c7 6 days ago 879MB
python 3.7 4d9a42ad20a7 6 days ago 905MB

slim: 瘦身版,省略许多不常用的依赖,故而它变得很小,但是如果需要一些不常用的依赖时,需要自己安装,如需体积较小的镜像时用slim 版本制作,有一定安装难度
alpine: 包含了在 Linux 上运行 Python 所需要的最小环境,它使用 Alpine 作为系统。因为它最小,所以只能直接运行纯 Python 代码。任何需要编译 C 代码或动态链接库的 Python 仓库都不能直接使用,需要自己安装依赖,需要花费大量时间来安装系统依赖,收益不大,最终镜像的大小与 slim 版本的基本相同
buster: 此类镜像使用Debian10作为系统,包含了所有 CPython 所需要的依赖,如果环境难以安装选择buster 镜像,最终制作完成通常比 slim 大不少
default: 使用Debian的bullseye做为默认镜像基础系统

下面改为用slim作为源镜像,修改Dockerfile如下

FROM python:3.7-slim
MAINTAINER xxx
RUN echo 'deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bullseye main contrib non-free' > /etc/apt/sources.list && \
echo 'deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bullseye-updates main contrib non-free' >> /etc/apt/sources.list && \
echo 'deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bullseye-backports main contrib non-free' >> /etc/apt/sources.list && \
apt-get update && \
apt-get install -y \
g++ \
make \
cmake \
libcurl4-openssl-dev
ENV PIPURL "https://mirrors.aliyun.com/pypi/simple/"
COPY ./requirements.txt /home
WORKDIR /home
RUN pip install --no-cache-dir -i ${PIPURL} --default-timeout=1000 -r requirements.txt

手动安装了g++,make,cmake等环境,重新构建镜像结果如下

$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
test/test v8 7dc43999c361 27 minutes ago 893MB

直接从1.37GB下降到893MB,测试一下里面的py包都可以运行

(3)apt 安装中使用 --no-install-recommends

apt install 命令来安装某些包时,它会安装一些不需要的推荐包,使用--no-install-recommends避免这个情况,修改Dockerfile如下

apt-get install -y --no-install-recommends \
g++ \
make \
cmake \
libcurl4-openssl-dev

其中-y:yes,在命令行交互提示中,直接输入 yes,新构建的镜像大小如下,从893MB降低到881MB又宰掉12MB

$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
test/test v9 2192fccb9858 13 minutes ago 881MB
(4)清理apt install缓存

apt-get clean 命令清除遗留在 /var/cache 中的已取回的包文件的本地仓库,rm -rf /var/lib/apt/lists删除缓存的源信息,删除之可以继续降低空间占用,修改Dockerfile如下

RUN echo 'deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bullseye main contrib non-free' > /etc/apt/sources.list && \
echo 'deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bullseye-updates main contrib non-free' >> /etc/apt/sources.list && \
echo 'deb https://mirrors.tuna.tsinghua.edu.cn/debian/ bullseye-backports main contrib non-free' >> /etc/apt/sources.list && \
apt-get update && \
apt-get install -y --no-install-recommends \
g++ \
make \
cmake \
libcurl4-openssl-dev && \
apt-get clean && \
rm -rf /var/lib/apt/lists/*

再次构建后查看镜像的大小,从881MB降低到862MB,又再掉19MB

$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
test/test v10 59e37a627394 43 seconds ago 862MB
(5)多阶段构建

多个FROM语句,每个FROM指令都可以使用不同的基础镜像,第一阶段使用buster作为源,把依赖包全部安全正确安装进来,再第二阶段以slim作为源,再把第一阶段的仅仅和运行相关的依赖全部COPY过来

FROM python:3.7-buster as base-image
MAINTAINER xxx
ENV PIPURL "https://mirrors.aliyun.com/pypi/simple/"
COPY ./requirements.txt /home
WORKDIR /home
RUN pip install --no-cache-dir -i ${PIPURL} --default-timeout=1000 -r requirements.txt FROM python:3.7-slim
COPY --from=base-image /usr/local/bin /usr/local/bin
COPY --from=base-image /usr/bin /usr/bin
COPY --from=base-image /usr/lib/x86_64-linux-gnu/libgomp.so.1 /usr/lib/x86_64-linux-gnu/libgomp.so.1
COPY --from=base-image /usr/local/lib/python3.7/site-packages /usr/local/lib/python3.7/site-packages

docker语法:

标志 --from=<name> 将从 from 指定的构建阶段中寻找源文件

重新build之后只有650MB,和862MB相比继续下降212M

$ docker images
REPOSITORY TAG IMAGE ID CREATED SIZE
test/test v12 a14124089863 5 minutes ago 650MB
(6)Xgboost瘦身

Xgboost包占用了200MB,网上查到从源码下载编译安装只需要50MB,但是测试没有安装成功,下次再测

(7)其他方法

网上还有其他方法,包括
1.使用 Docker Squash 减小镜像大小
2.使用 .dockerignore 文件,将不需要的文件不进入镜像
3.在 RUN 之后放置 COPY
4.将几个RUN语句合并在一行中,这样可以减少层数


docker镜像大小取舍

由于同一台机器上的 docker Image 是可以共享的,要快速启动并运行项目,没有空间限制,许多 Python 项目需要跑在同一台机器上时,default 或 buster 是最好的选择。如果愿意花时间去调试依赖并且对镜像大小有追求时,slim 和 alpine 都是好的选择。

[转帖]Docker:Python环境Docker镜像瘦身的更多相关文章

  1. docker镜像瘦身思路

    docker镜像瘦身思路 一.简介 docker镜像太大,带来了以下几个问题: 存储开销 这块影响其实不算很大,因为对服务器磁盘来说,15GB的存储空间并不算大,除非用户服务器的磁盘空间很紧张 部署时 ...

  2. Docker系列之镜像瘦身(五)

    前言 本节我们来讲讲在我们在构建镜像过程中不出问题,同时使得最后所构建的镜像文件大小尽可能最小,温馨提示:文中大图均可点击放大查看详细信息. 缓存(cache) Docker的优势之一在于提供了缓存, ...

  3. Docker容器镜像瘦身的三个小窍门(转)

    [转自:http://dockone.io/article/8174] 在构建Docker容器时,我们应尽可能减小镜像的大小.使用共享层的镜像尺寸越小,其传输和部署速度越快. 不过在每个RUN语句都会 ...

  4. 三个技巧帮助Docker镜像瘦身

    在构建Docker容器时,应该尽量想办法获得体积更小的镜像,因为传输和部署体积较小的镜像速度更快. 但RUN语句总是会创建一个新层,而且在生成镜像之前还需要使用很多中间文件,在这种情况下,该如何获得体 ...

  5. docker nginx-php容器镜像瘦身优化

    1. 在安装好php环境的容器,参考上面贴出的链接那篇文章的部分,做好基础工作: #创建工作目录 mkdir /rootfs #进入工作目录 cd /rootfs #创建基础目录 mkdir -p b ...

  6. (原) ubuntu下用pycharm2016.1专业版配docker编译环境(docker Interpreter)

    一:先创建docker-machine 先创建docker machine.我主机上的虚拟机是virtualbox.$ docker-machine create --driver virtualbo ...

  7. 我可以减肥失败,但我的 Docker 镜像一定要瘦身成功!

    作者|徐伟 来源|尔达 Erda 公众号 ​ 简介 容器镜像类似于虚拟机镜像,封装了程序的运行环境,保证了运行环境的一致性,使得我们可以一次创建任意场景部署运行.镜像构建的方式有两种,一种是通过 do ...

  8. Docker Python 例子

    版权所有,未经许可,禁止转载 章节 Docker 介绍 Docker 和虚拟机的区别 Docker 安装 Docker Hub Docker 镜像(image) Docker 容器(container ...

  9. 测试环境docker化实践

    测试环境对于任何一个软件公司来讲,都是核心基础组件之一.测试环境伴随着发展也从单一的几套环境发展成现在的任意的docker动态环境+docker稳定环境环境体系.期间环境系统不断的演进,去适应集群扩张 ...

  10. Python环境搭建、python项目以docker镜像方式部署到Linux

    Python环境搭建.python项目以docker镜像方式部署到Linux 本文的项目是用Python写的,记录了生成docker镜像,然后整个项目在Linux跑起来的过程: 原文链接:https: ...

随机推荐

  1. Spring源码学习笔记7——Spring bean的初始化

    一丶前言 上篇中我们了解了Spring bean的实例化--存在方法覆盖的使用CGLIB动态代理生成子类,反之反射调用构造函数.实例化后bean中的字段都是默认值,接下来就是对bean的属性进行填充, ...

  2. 车机必备软件-小白点EasyTouch(类似苹果的悬浮球,返回,清理垃圾,杀进程)

    简介 有些小伙伴升级车机后,由于部分软件打开后处于全屏状态无法返回,这里我教大家如何解决.解决办法就是:在车机上安装这款小白点软件,这款软件体积小巧,不占内存,操作也十分方便,它能帮助你快速回到主屏幕 ...

  3. 物联网常见协议之Amqp协议及使用场景解析

    摘要:本文围绕AMQP协议,为大家详细解析AMQP协议.核心技术亮点.多协议之间的对比以及使用实践. 本文分享自华为云社区<物联网常见协议之Amqp协议及使用场景解析>,作者:张俭. 引言 ...

  4. 你正在调试XXX的发布版本,如果在启用 仅我的代码 的同时,使用通过编译器优化的发布版本

    仅我的代码"警告 你正在调试 XXX.dll 的发布版本.如果在启用"仅我的代码"的同时使用通过编译器优化的发布版本,调试体验会降级(例如,将不会命中断点) 停止调试禁用 ...

  5. MySQL 创建存储过程注意项

    MySQL server version for the  right syntax to use near 'IF' MySQL server version for the right synta ...

  6. 跟着老猫来搞GO,系好安全带,准备发车!

    为什么想要开篇这么一个系列博客主题? 我想有很多小伙伴想要问我这个,其实主要有以下几个原因. 在粉丝面前丢脸了 之前写过几篇关于java分布式系统的一些坑,然后就有小伙伴挺崇拜的,认为老猫啥都会,甚至 ...

  7. 【Redis】面试题 GEO地理位置信息

    目录 面试 1 http协议详情,http协议版本,http一些请求头 2 GET请求和POST请求的区别 3 如何实现服务器给客户端发送消息,websocket是什么? 4 悲观锁和乐观锁,如何实现 ...

  8. C 与 C++ 区别

    C 与 C++ 区别 本文介绍 C 与 C++ 之间重要的或者容易忽略的区别.尽管 C++ 几乎是 C 的超集,C/C++ 代码混用一般也没什么问题,但是了解 C/C++ 间比较重要区别可以避免碰到一 ...

  9. L2-020 功夫传人 (25分)

    分析: ⽤⼆维数 组v存储师⻔谱系关系,v[i]表示编号为i的师傅所拥有的徒弟,如果徒弟个数等于0, 也就是说这是个得道者,那么v[i][0]保存放⼤的倍数,⽽且⽤visit[i] = true标记当 ...

  10. 7 Englishi 词根

    1.跟直播,跟复习课,完成作业 2. 基础差加餐,听录播 3.如何听课 4.单词学习反复多次 如何记笔记 语块的汉语意思 单词的记忆方式和固定表达 俩种方式记忆单词 语块关联记忆 基础词根词缀(6节课 ...