绿色记忆 » Virtualization

Kata Containers学习笔记

Alex — Tue, 04 Dec 2018 06:55:40 +0000

简介

Kata Containers是基于Intel Clear Container + Hyper runV实现的轻量级的虚拟机，能够无缝的集成到容器生态系统中。Kata和Container一样轻量、快速，同时具有传统虚拟化的安全优势，Kata和Docker的OCI规范、K8S的CRI接口兼容。

安全性

迁移到容器云需要面临的一个重要挑战就是安全问题。多租户环境下，不安全负载和受信任负载在一起运行。Kata利用基于硬件的隔离，实现容器/Pod的安全边界，解决了传统容器架构共享内核的安全缺陷（提权漏洞）。使用Kata，你可以在单个K8S集群中服务多个租户。

兼容性

支持工业标准，包括OCI容器格式、K8S的CRI接口。

遗留系统支持

这是虚拟化的优势，即允许使用任意的客户机操作系统，允许设备穿透访问。

架构

Kata包含Agent、Runtime、Proxy、Shim、Kernel、Hypervisor等组件。

kata-agent

运行在虚拟机内部，负责创建容器环境和进程。

kata-proxy

运行在宿主机上，负责协调和Agent的交互。

kata-ksm-throttler

可选的工具，用于监控容器，去除重复内存，以最大化容器部署密度。

kata-runtime

容器管理器调用此组件，该组件提供操控容器的高层接口，提供了CLI。该组件和OCI、CRI-O、Containerd兼容。

kata-shim

运行在宿主机上的进程，为了兼容OCI规范而存在。垫片在宿主机上代表工作负载（运行在虚拟机）处理标准的IO、信号。

Hypervisor

使用QEMU 2.11。

Kernel

QEMU使用Linux内核来启动客户机镜像。

安装

前置条件检查

宿主机必须支持KVM：

apt-get install ubuntu-virt-server

kvm-ok
# INFO: /dev/kvm exists
# KVM acceleration can be used

如果宿主机本身就是虚拟机，则宿主机的宿主机应当开启嵌套虚拟化：

cat /sys/module/kvm_intel/parameters/nested
# Y

安装Kata组件

echo "deb http://download.opensuse.org/repositories/home:/katacontainers:/release/xUbuntu_$(lsb_release -rs)/ /" > /etc/apt/sources.list.d/kata-containers.list
curl -sL http://download.opensuse.org/repositories/home:/katacontainers:/release/xUbuntu_$(lsb_release -rs)/Release.key | sudo apt-key add -
apt update && apt -y install kata-runtime kata-proxy kata-shim

执行下面的命令，检查当前环境是否具备运行Kata的条件：

kata-runtime kata-check

如果一切正常，应当没有错误日志。

Docker集成

添加Runtime

创建配置文件：

[Service]
Type=simple
ExecStart=
ExecStart=/usr/bin/dockerd -D --default-runtime runc --add-runtime kata-runtime=/usr/bin/kata-runtime

重启Docker：

systemctl daemon-reload 
systemctl restart docker.service
docker info | grep runtime
# Runtimes: kata-runtime runc

测试

执行下面的命令，以Kata作为Runtime创建容器：

docker run -d --name ubuntu --runtime kata-runtime docker.gmem.cc/ubuntu:16.04 sleep 3600

容器运行起来之后，你可以看到QEMU进程qemu-lite-system-x86_64。

K8S集成

Kata是OCI兼容的容器运行时，不能直接和K8S的CRI API交互。因此，想集成K8S，先要安装一个支持CRI - OCI适配的CRI实现，可供选择的有 CRI-O、 CRI-containerd。

CRI-O方案

CRI-O是基于OCI的CRI实现。

安装skopeo

skopeo是一个命令行工具，支持对容器镜像、仓库进行各种操作。skopeo支持OCI镜像以及Docker v2镜像格式。skopeo可以和支持API v2的镜像仓库进行交互。

和Docker不同，skopeo不需要运行守护程序即可完成以下操作：

在多种存储机制之间拷贝镜像，例如从一个仓库拷贝到另外一个
查看远程镜像的属性，包括它的层，而不需要预先拉取到本地
从仓库中删除镜像
支持向仓库提供身份凭证信息

执行下面的命令安装：

add-apt-repository ppa:projectatomic/ppa
apt-get update
apt-get install skopeo-containers -y

安装runc

这是一个轻巧的CLI工具，可以基于OCI规范产生和运行容器进程。

pushd /usr/bin
wget https://github.com/opencontainers/runc/releases/download/v1.0.0-rc6/runc.amd64
mv runc.amd64 runc
chmod +x runc

CRI-O可以支持多种运行时，可以将runc作为默认运行时，让kata作为不受信任负载的运行时。

构建crio

crio没有提供预编译的二进制文件，你需要自己编译。首先安装Go的SDK并初始化工作区：

wget https://dl.google.com/go/go1.11.4.linux-amd64.tar.gz
tar zxf g1.11.4.linux-amd64.tar.gz
mv go $HOME/Go/sdk/1.11.4
mkdir -p $HOME/Go/workspaces/default
export GOROOT=$HOME/Go/sdk/1.11.4
export GOPATH=$HOME/Go/workspaces/default
export PATH=$PATH:$GOROOT/bin

然后构建crictl：

go get github.com/kubernetes-incubator/cri-tools/cmd/crictl
cd $GOPATH/src/github.com/kubernetes-incubator/cri-tools
git checkout release-1.12
make
make install

然后从源码构建crio：

apt install -y libglib2.0-dev libseccomp-dev  libgpgme11-dev  libdevmapper-dev make git gcc go-md2man

go get -d github.com/kubernetes-sigs/cri-o
cd $GOPATH/src/github.com/kubernetes-sigs/cri-o
git checkout release-1.12
make install.tools
make
make install

# 生成并安装配置文件
make install.config

配置crio

修改配置文件中的以下字段：

[crio.image]
registries = ['docker.io']

[crio.runtime]
manage_network_ns_lifecycle = true
# 不受信任的负载用Kata运行
runtime_untrusted_workload = "/usr/bin/kata-runtime"
# 默认认为负载是受信任的
default_workload_trust = "trusted"
log_level = "info"

注意，CRI-O默认使用的运行时是runc。

创建Systemd服务定义：

Description=OCI-based implementation of Kubernetes Container Runtime Interface
Documentation=https://github.com/kubernetes-sigs/cri-o

[Service]

Environment="HTTP_PROXY=http://10.0.0.1:8087"
Environment="HTTPS_PROXY=http://10.0.0.1:8087"

ExecStart=/usr/local/bin/crio
Restart=on-failure
RestartSec=5

[Install]
WantedBy=multi-user.target

启动crio服务

systemctl daemon-reload
systemctl enable crio
systemctl start crio

使用下面的命令检测crio是否正常运行：

crictl --runtime-endpoint unix:///var/run/crio/crio.sock version

# Version:  0.1.0
# RuntimeName:  cri-o
# RuntimeVersion:  1.14.0-dev
# RuntimeApiVersion:  v1alpha1

配置kubelet

--container-runtime=remote --runtime-request-timeout=15m --container-runtime-endpoint=unix:///var/run/crio/crio.sock

重新加载配置，重启kubelet后，在K8S主节点上可以看到容器运行时变为cri-o：

NAME       AGE     VERSION   OS-IMAGE             KERNEL-VERSION           CONTAINER-RUNTIME
jade       6m18s   v1.12.1   Ubuntu 16.04.1 LTS   4.4.0-66-generic         cri-o://1.14.0-dev
# xenial-101 77d     v1.12.1   Ubuntu 16.04.3 LTS   4.13.0-41-generic        docker://1.13.1
# xenon      9d      v1.12.1   Ubuntu 16.04.4 LTS   4.15.0-34-generic        docker://18.6.1

拉取镜像

使用如下命令尝试拉取必备的镜像：

crictl pull docker.gmem.cc/k8s/kube-apiserver:v1.12.1          
crictl pull docker.gmem.cc/k8s/kube-controller-manager:v1.12.1 
crictl pull docker.gmem.cc/k8s/kube-scheduler:v1.12.1          
crictl pull docker.gmem.cc/k8s/kube-proxy:v1.12.1              
crictl pull docker.gmem.cc/k8s/pause:3.1                       
crictl pull docker.gmem.cc/k8s/etcd:3.2.24
crictl pull docker.gmem.cc/k8s/coredns:1.2.2
crictl pull k8s.gcr.io/pause:3.1
crictl pull docker.gmem.cc/calico/node:v3.2.3
crictl pull docker.gmem.cc/calico/cni:v3.2.3
crictl pull docker.gmem.cc/calico/kube-controllers:v3.2.3

运行Pod

kube-proxy等Daemonset管理的Pod会自动在所有节点上运行，你可以使用如下命令查看本机运行的Pod：

# 查看Pod
crictl pods
# POD ID              CREATED             STATE               NAME                             NAMESPACE           ATTEMPT
# 6914a958097c2       25 minutes ago      Ready               speaker-qkng4                    metallb-system      0

# 查看容器
crictl ps
# CONTAINER ID        IMAGE      CREATED             STATE               NAME

如果默认运行时是runc，则此时看不到Kata容器：

kata-runtime list
# NONE

我们可以创建一个标注为“不受信任”的Pod，这样CRI-O将会以Kata作为运行时来运行它：

kubectl label node jade k8s.gmem.cc/allow-untrusted-workload=true

cat <
上述Pod运行起来后，你可以在节点上看到Kata容器、QEMU进程。 
配置文件
CRI-O配置
[crio]

# 注意，存储配置默认从 /etc/containers/storage.conf 读取
# 根目录，包括容器、镜像都存放在此
root = "/var/lib/containers/storage"
# 状态信息的根目录
runroot = "/var/run/containers/storage"
# 存储驱动
storage_driver = "overlay"

# 使用文件锁还是内存锁
file_locking = true

# 文件锁的位置
file_locking_path = "/run/crio.lock"


# kubelet/gRPC接口相关配置
[crio.api]

# 守护程序监听的AF_LOCAL接口
listen = "/var/run/crio/crio.sock"
# 流服务器监听的IP地址
stream_address = "127.0.0.1"
# 流服务器监听的端口
stream_port = "0"
# 流服务器是否启用TLS
stream_enable_tls = false
# 流服务器TLS证书配置
stream_tls_cert = ""
stream_tls_key = ""
stream_tls_ca = ""


# 使用哪些OCI运行时，如何管理这些OCI运行时
[crio.runtime]
# 管理网络命名空间的生命周期
manage_network_ns_lifecycle = true

# 为每个容器设置的默认ulimit，如果不指定从CRI-O守护进程继承
# 示例：nofile=1024:2048
default_ulimits = [
]

# 运行受信任工作负载的OCI运行时的路径，未来该属性将废弃
runtime = ""

# 默认运行时的名称，此名称定义在运行时映射配置项（Runtime mapping）中
default_runtime = "runc"

# 未来该属性将废弃，使用crio.runtime.runtimes代替此属性
# 此属性相当于在crio.runtime.runtimes中创建一个名为untrusted的运行时处理器
runtime_untrusted_workload = "/usr/bin/kata-runtime"

# 未来该属性将废弃 
# 工作负载的默认受信任级别，默认值trusted，可选untrusted。CRI-O根据信任级别选择适当的运行时
# kubelet可以将工作负载标记为不受信任或受信任
default_workload_trust = "trusted"

# 用于监控OCI运行时的公共二进制文件位置
conmon = "/usr/local/libexec/crio/conmon"

# 公共环境变量
conmon_env = [
        "PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin",
]

# 使用使用SELinux来隔离工作负载
selinux = false

# 默认的安全配置文件位置
seccomp_profile = "/etc/crio/seccomp.json"

# CRI-O默认的AppArmor配置的名称
apparmor_profile = "crio-default"

# 使用的CGroups管理机制
cgroup_manager = "cgroupfs"

# 容器默认特性列表
default_capabilities = [
        "CHOWN",
        "DAC_OVERRIDE",
        "FSETID",
        "FOWNER",
        "NET_RAW",
        "SETGID",
        "SETUID",
        "SETPCAP",
        "NET_BIND_SERVICE",
        "SYS_CHROOT",
        "KILL",
]

# 容器默认sysctls列表
default_sysctls = [
]

# 额外的设备列表
# 格式：device-on-host:device-on-container:permissions，例如/dev/sdc:/dev/xvdc:rwm
additional_devices = [
]

# OCI钩子目录，其中的钩子会自动执行
hooks_dir = [
]


# 每个容器默认挂载的文件
default_mounts_file = ""

# 容器中最大允许的线程数量
pids_limit = 1024

# 容器日志的最大尺寸
log_size_max = -1

# 容器退出文件存放位置
container_exits_dir = "/var/run/crio/exits"

# 容器Attach套接字的存放位置
container_attach_socket_dir = "/var/run/crio"

# 如果设置为true则所有容器运行在只读模式
read_only = false

# 日志输出级别
log_level = "info"

# 到宿主机的UID映射，格式containerUID:HostUID:Size，逗号分隔
uid_mappings = ""
# 到宿主机的UID映射，格式containerGID:HostGID:Size，逗号分隔
gid_mappings = ""

# 认为终止容器操作超时的最小时间
ctr_stop_timeout = 0

# 容器运行时映射表
[crio.runtime.runtimes.runc]
  runtime_path = "/usr/bin/runc"
[crio.runtime.runtimes.untrusted]
  runtime_path = "/usr/bin/kata-runtime"


# 管理OCI镜像的配置
# 默认从/etc/containers/registries.conf读取镜像仓库信息
[crio.image]
# 拉取镜像使用的默认传输协议
default_transport = "docker://"

# K8S pause镜像
pause_image = "k8s.gcr.io/pause:3.1"
pause_command = "/pause"

# 执行一个策略文件，此文件用于决定是否信任拉取的镜像
# 默认策略，例如/etc/containers/policy.json通常足够
signature_policy = ""

# 拉取非全限定名称的镜像时，从什么仓库拉取
registries = ['docker.io']


# CNI配置
[crio.network]
# CNI配置文件所在目录
network_dir = "/etc/cni/net.d/"
# CNI二进制文件所在目录
plugin_dir = "/opt/cni/bin/"
常用命令
crictl



子命令
说明




images
列出镜像


pull
拉取镜像，默认配置的默认传输是docker://，因此可以直接使用docker pull语法拉取Docker镜像：

crictl pull --creds USERNAME[:PASSWORD] NAME[:TAG|@DIGEST]



inspecti
查看一个或多个镜像的状态：

crictl inspecti  docker.gmem.cc/ubuntu:16.04



imagefsinfo
查看镜像的文件系统信息


stats
显示容器用量信息，包括CPU、内存、磁盘、INODES


ps
列出容器


info
显示容器运行时的信息：

crictl info 4ae949f913362 
{
  "status": {
    "conditions": [
      {
        "type": "RuntimeReady", # 运行时状态
      },
      {
        "type": "NetworkReady", # 网络状态
      }
    ]
  }
}



create
创建新容器 


update
更新运行中的容器


start
启动已经存在的容器


stop
停止容器


exec 
在容器中执行命令：crictl exec -it 4ae949f913362 sh


inspect
查看一个或多个容器的状态


logs
查看容器日志


pods
列出Pod


runp
运行一个新的Pod：crictl runp pod-config.yaml


stopp
停止一个Pod，注意必须传入Pod的ID而不是名称


rmp
删除一个Pod，注意必须传入Pod的ID而不是名称

子命令	说明
images	列出镜像
pull	拉取镜像，默认配置的默认传输是docker://，因此可以直接使用docker pull语法拉取Docker镜像： crictl pull --creds USERNAME[:PASSWORD] NAME[:TAG\|@DIGEST]
inspecti	查看一个或多个镜像的状态： crictl inspecti docker.gmem.cc/ubuntu:16.04
imagefsinfo	查看镜像的文件系统信息
stats	显示容器用量信息，包括CPU、内存、磁盘、INODES
ps	列出容器
info	显示容器运行时的信息： crictl info 4ae949f913362 { "status": { "conditions": [ { "type": "RuntimeReady", # 运行时状态 }, { "type": "NetworkReady", # 网络状态 } ] } }
create	创建新容器
update	更新运行中的容器
start	启动已经存在的容器
stop	停止容器
exec	在容器中执行命令： crictl exec -it 4ae949f913362 sh
inspect	查看一个或多个容器的状态
logs	查看容器日志
pods	列出Pod
runp	运行一个新的Pod： crictl runp pod-config.yaml
stopp	停止一个Pod，注意必须传入Pod的ID而不是名称
rmp	删除一个Pod，注意必须传入Pod的ID而不是名称

The post Kata Containers学习笔记 appeared first on 绿色记忆.

CoreOS知识集锦

Alex — Wed, 12 Oct 2016 10:28:13 +0000

简介

CoreOS是一个轻量级的Linux操作系统，CoreOS的自动化、安全性、可扩容性特征，让其非常适用于集群化的部署场景。

与其它的发行版不同，CoreOS没有包管理器，它倾向于在容器（例如Docker）中运行应用程序。CoreOS对流行的容器系统提供了开箱即用的支持。

CoreOS可以在云服务（例如EC2、GCE）、虚拟化平台（VMware、OpenStack、KVM）、裸金属值上运行。

Ignition

这是CoreOS提供的新的VM初始化机制，用于代替cloud-config。

Ignition能够执行磁盘分区、分区格式化、写入文件、配置用户、配置网络、创建RAID阵列等初始化操作。Ignition的运行时机非常的早，它在systemd启动之前、任何永久存储挂载之前即被调用。

在VM第一次（也仅仅是第一次）启动时，Ignition会从文件系统、URL、Hypervisor bridge读取JSON格式的配置文件，并将配置应用到VM。

运行CoreOS

即使是学习阶段，也最好创建3台CoreOS的集群，那样更容易认识CoreOS的特性。为了让CoreOS集群正常启动，你需要提供“点火配置”（ Ignition config ），或者通过user_data提供一个cloud-config。

libvirt/cloud-config

本节记录基于libvirt创建CoreOS客户机的详细过程。

获取镜像

我们可以下载CoreOS官网提供的qcow2格式的镜像，此镜像适用于QEMU：

wget https://stable.release.core-os.net/amd64-usr/current/coreos_production_qemu_image.img.bz2

下载完毕后，解压镜像到

/home/alex/Vmware/KVM/coreos-20/vda.qcow2

备用，默认扩展名是img，手工改成qcow2。

Config drive

为了配置CoreOS实例，我们需要在宿主机上创建一个目录，此目录中包含一些配置信息。此目录最终映射将为客户机上的一个文件系统。执行以下命令：

mkdir -p /home/alex/Vmware/KVM/coreos-20/cloud-config/openstack/latest/
touch /home/alex/Vmware/KVM/coreos-20/cloud-config/openstack/latest/user_data

user_data是cloud config格式的配置文件，它提供了客户机运行时所需要的定制化信息。我们至少需要在其中配置SSH Key以便（初次）登录到CoreOS中：

#cloud-config

ssh_authorized_keys:
 - ssh-rsa AAAAB3NzaC1yc2EAAAABJQAAAIBlsU4YrAi ... EIokU+jOd0MrsnOwQn9wJbov8Xhyw==

定义Domain

我们可以使用类似下面的命令来定义CoreOS的Domain：

virt-install --import --name coreos-20 --ram 1024 --vcpus 1
             --disk path=/home/alex/Vmware/KVM/coreos-20/vda.qcow2,format=qcow2,bus=virtio 
             --filesystem /home/alex/Vmware/KVM/coreos-20/cloud-config/,config-2,type=mount,mode=squash

或者，在常规的Domain XML配置文件中，添加devices的子元素：

登录到CoreOS

默认情况下，CoreOS会尝试通过DHCP来获得自身的网络配置，我们可以在启动Domain后立即查看控制台，CoreOS的IP地址会打印在上面。执行下面的命令登录到CoreOS：

ssh -i path-to-key core@ip-of-coreos

登录成功后，你可以为core用户设置密码，或者执行其它操作。

完整libvirt配置


    coreos-20
    1024
    1
    
        hvm
    
    
        
    
    
        SandyBridge
    
    
    destroy
    restart
    destroy
    
        /usr/bin/qemu-system-x86_64

libvirt/Ignition-config

当前推荐的配置CoreOS的方式是Ignition，但是目前libvirt没有对Ignition的直接支持，需要引入QEMU特有的配置片断。

Ignition配置为JSON格式，示例：

{
  "ignition": {
    "config": {},
    "timeouts": {},
    "version": "2.1.0"
  },
  "networkd": {},
  "passwd": {
    "users": [
      {
        "name": "core",
        "sshAuthorizedKeys": [
          "ssh-rsa AAAAB3NzaC1yc2EAAAABJQAAAIBlsU4YrAif8Oh4Qdcq1SuF+CbPdr5T3DE3zzeYGG8nkcDMt/9dEjT8eHTMW+4BzCoIfYrIWIprJoykMnhZONBXnoXc/541tqU6MqF0ZRF0QlzSq6VLLLebG3zz+avdJSNLMAvolCLczP536EIokU+jOd0MrsnOwQn9wJbov8Xhyw=="
        ]
      }
    ]
  },
  "storage": {
    "files": [
      {
        "filesystem": "root",
        "group": {},
        "path": "/etc/hostname",
        "user": {},
        "contents": {
          "source": "data:,coreos-21",
          "verification": {}
        }
      }
    ]
  },
  "systemd": {}
}

libvrit Domain配置示例：

...

注意：QEMU 2.0版本不支持 -fw_cfg，手工构建最新版本可以支持。

The post CoreOS知识集锦 appeared first on 绿色记忆.

Docker学习笔记

Alex — Tue, 20 Oct 2015 07:10:08 +0000

基础知识

简介

Docker是一个容器化软件，所谓容器化即操作系统级别的虚拟化（Operating-system-level virtualization）。比起硬件虚拟化：

容器更加轻量，它不需要运行独立操作系统，因而减少了磁盘（操作系统文件占用GB+空间）、CPU（进程调度、硬件模拟等额外消耗）等基础资源的消耗，可扩容性更强
容器性能更高，虚拟硬件导致的低性能问题不复存在
容器启动非常迅速（小于1秒），普通VM启动时间可能需要1分钟
更加适合部署松耦合、分布式、弹性的微服务

容器化软件允许在同一个操作系统内核下存在多个相互隔离的用户空间实例，这些实例即被称为容器（Container）。从这些容器的所有者/用户的角度来看，它们就像是一个独立的服务器一样。除了隔离机制之外，容器化软件通常提供资源管理功能，限制一个容器的活动对其它容器的影响。

内核中用于支持容器化的特性：

名字空间机制，用于实现容器的隔离。名字空间包括：
1. pid名字空间，不同空间中的PID可以重复
2. net名字空间，管理多个网络协议栈的实例
3. ipc名字空间，管理和访问IPC资源
4. mnt名字空间，管理文件系统的挂载点
控制组（Cgroups），用于控制容器的资源用量
UnionFS，联合文件系统

构建（Build）、分发（Ship）、运行（Run）是Docker提出的宣传口号，它的目标就是高效的完成这三件事，提高开发、测试、运维的效率：

Docker将应用程序和它的运行环境（例如依赖、库）打包到一起，屏蔽不同运行环境的差异，实现可移植部署
Docker让应用程序在一个被隔离的容器中运行，多个应用程序可以依赖相互冲突的库却不相互干扰（尽管它们运行在单个内核中）

下图阐述了Docker和硬件虚拟化的区别：

使用流程

从用户的角度来看，使用Docker的典型工作流如下：

将应用程序代码及其依赖纳入到Docker容器中
1. 编写一个Dockerfile，描述执行环境，并拉取代码
2. 如果应用程序依赖于外部应用（例如MySQL、Redis），你需要在某个仓库（例如Docker Hub）中找到它们。某些收费的外部应用可以在Docker Store中找到
3. 在Docker Compose file中引用应用程序，以及上面的那些外部应用，让他们能够同时运行
4. 利用Docker Machine，在一个虚拟主机上构建、运行你的容器
如果需要，为你的解决方案配置网络、存储
可选的，上传你的构建结果到仓库（私有、Docker官方），与团队成员协作
如果出现扩容（scale）需求，考虑使用Swarm集群，通过Universal Control Plane你可以方便的管理Swarm集群
最终，利用Docker Cloud将容器镜像部署到自有服务器或者云上

核心概念

概念	说明
Dockerfile	一段文本，Docker读取其中的指令以便自动化的构建Docker镜像。你可以在Dockerfile中声明任何命令
Docker Compose	一个工具，用来定义多容器（Multi-container）的Docker应用程序。你可以编写Composefile，来配置你的应用程序所依赖的服务，并通过单个命令来启动所有这些服务
Docker Engine	Docker的核心组件，它负责创建Docker镜像、运行Docker容器从1.12版本开始，Docker引擎支持Swarm mode 包括三个组件： Docker守护程序，即dockerd REST风格的接口，dockerd暴露的API Docker命令行，通过REST API和dockerd通信，对其进行控制
Docker Image	Docker镜像是一个文件系统 + 参数集，供Docker运行容器时使用。镜像本身不包含状态任何人可以通过Docker镜像的方式来创建、分享软件首次使用镜像时，会从仓库下载，之后，除非镜像的源码改变，不会再次下载
Layer	层，或者叫镜像层（Image layer），是指对镜像的一个变更，或者指一个中间镜像（intermediate image）。之所以叫层，和UFS（联合文件系统）有关，UFS允许：其包含的文件和目录可以分布在多个其它文件系统中，这些文件/目录（称为Branches）可以被叠加（overlay）形成单个新的文件系统在Dockerfile中指定的指令，例如FROM/RUN/COPY，会导致先前的镜像发生变化，因而导致创建新的层层有利于缩短构建的时间，Dockerfile发生变化后，变化之前的中间镜像不需要重新构建，可以作为缓存使用
Docker Container	Docker容器是Docker镜像的运行时实例容器的行为取决于镜像如何被配置，可能是简单的执行一条命令，也可能是启动数据库这样的复杂服务
Docker Hub	一种服务，用于构建、管理镜像。其角色类似于Maven仓库或者PyPI 在Docker Hub上你可以很轻松下载到大量已经容器化的应用镜像，即拉即用。这些镜像中，有些是Docker官方维护的，更多的是众多开发者自发上传分享的你可以将Github账号绑定到Docker Hub账号，并配置自动生成镜像的功能。这样，当Github中代码更新时，Docker镜像会自动更新
Docker Trusted Registry	DTR，企业级的Docker镜像存储方案，其角色类似于Docker Hub的私服
Docker Cloud	一种服务，能够构建、测试、部署镜像到你的主机上
Docker Universal Control Plane	UCP，管理Docker宿主机的集群，让它们整体上表现的像是单台机器
Docker Machine	一个工具，使用它你可以：在Windows或者Mac平台上安装、运行Docker 基于命令docker-machine准备、管理多台Docker宿主机。管理行为包括：启动/停止/重启宿主机、升级Docker客户端和Daemon、配置Docker客户端，等等准备Swarm集群当前，只有通过Docker Machine，你才能在Mac或者Windows上运行Docker。同时它也是管理大量基于各种Linux变体的宿主机的便捷方法
libcontainer	封装了名字空间、控制组、UnionFS的库，提供容器运行时基础功能

安装配置

本章主要介绍Ubuntu 14.04 LTS下安装、配置Docker的步骤。

安装

你需要安装64bit的操作系统，内核的最低版本是3.10。为了支持aufs存储驱动，最好安装额外的内核包：

sudo apt-get update
sudo apt-get install linux-image-extra-$(uname -r) linux-image-extra-virtual

添加Docker项目的APT源：

sudo echo  "deb https://apt.dockerproject.org/repo ubuntu-trusty main" > /etc/apt/sources.list.d/docker.list
# 添加GPG Key
sudo apt-key adv --keyserver hkp://p80.pool.sks-keyservers.net:80 --recv-keys 58118E89F3A912897C070ADBF76221572C52609D
sudo apt-get update
# 可以查看当前系统支持的Docker引擎版本
apt-cache policy docker-engine

安装Docker引擎并启动Docker守护程序：

sudo apt-get install docker-engine
sudo service docker start

验证安装是否成功：

# 通知Docker引擎，将hello-world镜像载入到新建的容器中
docker run hello-world

# 执行下面的命令显示系统中容器的列表
docker ps -a
# 执行下面的命令显示系统中镜像的列表
docker images

上述命令将下载一个测试目的的Docker镜像，并在一个容器中运行。该镜像会打印一条消息，然后退出。

升级与删除

执行下面的命令，来升级或者删除Docker：

# 升级
sudo apt-get upgrade docker-engine

# 删除
sudo apt-get purge docker-engine
sudo apt-get autoremove --purge docker-engine
# 上面的命令不会删除镜像、容器、卷或者用户创建的配置文件，你需要手工删除：
rm -rf /var/lib/docker

Windows和Mac

Docker最初是为Linux开发的，在Windows/Mac系统中，你可以借助Docker Machine来运行Docker。

从1.13开始，Windows和Mac具有基于原生虚拟化机制的Docker实现，不再依赖于Docker Machine。在Windows下，Docker基于Microsoft Hyper-V；在Mac下则基于HyperKit。

Mac下命令自动完成

为Bash添加自动完成支持：

brew install bash-completion
brew tap homebrew/completions

在.bash_profile中添加：

if [ -f $(brew --prefix)/etc/bash_completion ]; then  
    . $(brew --prefix)/etc/bash_completion
fi

添加Docker的自动完成脚本：

pushd /usr/local/etc/bash_completion.d  
ln -s /Applications/Docker.app/Contents/Resources/etc/docker.bash-completion  
ln -s /Applications/Docker.app/Contents/Resources/etc/docker-machine.bash-completion  
ln -s /Applications/Docker.app/Contents/Resources/etc/docker-compose.bash-completion

配置

执行一些必要的配置，可以让Ubuntu和Docker更好的一起工作。Docker配置文件默认为/etc/default/docker。

创建Docker组

Docker的守护程序绑定到Unix套接字（而不是TCP/IP套接字）。默认的，该套接字的所有者是root，其它用户要访问它必须sudo。为此，Docker守护程序总是以root身份运行。

为了避免在调用

docker

命令时必须sudo，可以创建一个名为docker的UNIX组，并把你的用户添加到该组中。Docker守护程序启动时会为该组赋予读写权限

执行以下命令：

sudo groupadd docker
sudo usermod -aG docker $USER
# 用户$USER需要重新登录

调整内存和swap审计

当运行Docker时，你可能会看到类似下面的消息：

WARNING: Your kernel does not support cgroup swap limit.
WARNING: Yourkernel does not support swap limit capabilities. Limitation discarded.

在主机上启用内存和swap审计，可以避免该消息：

修改

/etc/default/grub

，设置内核选项：

GRUB_CMDLINE_LINUX="cgroup_enable=memory swapaccount=1"

更新GRUB：
```
sudo update-grub
```
重新启动系统

注意：启用后，即使不使用Docker，也会消耗额外1%左右的内存、降低10%左右的性能。

启用UFW转发

如果在Docker的宿主机上使用UFW，你需要额外的配置——由于UFW的默认行为是丢弃所有转发（路由）包，这会导致Docker无法正常工作。执行以下修改：

修改配置文件/etc/default/ufw，设置
```
DEFAULT_FORWARD_POLICY="ACCEPT"
```
重新加载配置文件：
```
sudo ufw reload
```
允许针对Docker的入站连接：
```
sudo ufw allow 2375/tcp
```

配置DNS

Ubuntu及其衍生的桌面版Linux，通常会自动设置/etc/resolv.conf，将127.0.0.1作为默认DNS，同时网络管理器启用dnsmasq，将DNS请求代理给真实的DNS服务器

在这样的配置下，启动Docker容器会导致如下警告：

WARNING: Local (127.0.0.1) DNS resolver found in resolv.conf and containers
can't use it. Using default external servers : [8.8.8.8 8.8.4.4]

出现此错误是因为Docker容器不能使用本地DNS服务器127.0.0.1，因此它默认使用了谷歌的DNS服务器

要避免此警告，依次执行：

修改
```
/etc/default/docker
```
设置
```
DOCKER_OPTS="--dns 10.0.0.1"
```
，其中10.0.0.1替换为你的内网DNS服务器。注意
```
--dns
```
选项可以指定多次，对应多个备选DNS服务器
重新启动Docker守护程序：
```
sudo service docker restart
```

你也可以修改网络管理器配置，/etc/NetworkManager/NetworkManager.conf，禁用dnsmasq：

# 注释掉：
dns=dnsmasq

设置自启动

14.10以下的版本，已经自动通过upstart配置Docker为自启动。15.04版本开始，Ubuntu使用systemd作为启动/服务管理器，你需要执行：

sudo systemctl enable docker

改变存储目录

默认情况下，Docker将/var/lib/docker作为基目录，并在其子目录下存储下载的镜像，以及运行过的容器，可以为Docker序指定选项-g以改变基目录：

DOCKER_OPTS=" -g /home/alex/Vmware/docker"

你也可以使用符号链接来改变镜像的位置。

为Docker Hub指定Mirror

国内访问Docker Hub比较缓慢，可以使用DaoCloud提供的Mirror（需要1.3.2+）。注册DaoCloud的账号后，进入仪表盘页面，点击“加速器”链接，在新的页面上会显示类似下面的命令：

curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://0aa2e1e9.m.daocloud.io

以root身份执行上面的命令后，文件/etc/docker/daemon.json被修改，添加以下内容：

{"registry-mirrors": ["http://0aa2e1e9.m.daocloud.io"]}

你也可以手工修改/etc/default/docker文件，设置DOCKER_OPTS，追加：

DOCKER_OPTS= "  --registry-mirror http://0aa2e1e9.m.daocloud.io"

此外，也可以注册阿里云开发者账号，获得自己的Mirror URL。

独立于守护进程运行

默认的，当Docker守护程序退出时，所有正在运行的容器被自动关闭。自1.12开始，你可以配置守护程序，让容器在守护程序退出后保持运行状态。

要启用该特性，可以使用选项

sudo dockerd --live-restore

，或者在/etc/docker/daemon.json中配置：

{
    "live-restore": true
}

该特性于Swarm模式不兼容。

Docker入门

构建镜像

whalesay是Docker官方提供的一个学习用镜像，运行此镜像，可以在屏幕上显示一头鲸和一句话：

# docker/whalesay为镜像名
# cowsay为执行的命令，boo-boo为命令行参数，即鲸说的那句话
docker run docker/whalesay cowsay boo-boo

本节我们以whalesay镜像为基础，学习创建自己的Docker镜像

编写Dockerfile

在前面的章节我们提到过，Dockerfile用于描述镜像如何被构建。创建镜像的第一步就是编写Dockerfile。

新建一个目录作为构建镜像的上下文目录，所谓上下文目录，意味着构建过程所需的全部文件都位于其中：

mkdir mywhalesay
cd mywhalesay

touch Dockerfile

编辑Dockerfile文件，添加以下内容：

# FROM关键字说明当前镜像基于哪个镜像来构建
FROM docker/whalesay:latest

# RUN关键字用于在构建时执行任意命令，这里安装fortunes，能够随机的输出名人名言
# 能够正常使用apt-get是因为docker/whalesay FROM ubuntu:14.04
RUN apt-get -y update && apt-get install -y fortunes

# CMD关键字用来指定镜像被加载后执行的命令，现在这头鲸会自顾自的引用名言了
CMD /usr/games/fortune -a | cowsay

执行构建

在上下文执行下面的命令以构建镜像：

docker build -t mywhalesay .

构建过程中控制台会打印详细过程，说明如下：

# 发送构建上下文给守护程序检查，确保构建需要的文件完备
# Sending build context to Docker daemon 2.048 kB
# 第一步，加载镜像docker/whalesay到临时容器，后续RUN关键字就是在修改此容器
Step 1 : FROM docker/whalesay:latest
 ---> 6b362a9f73eb   # 这里显示的是镜像ID
# 第二步，在临时容器中运行命令，安装新软件，这导致容器的文件系统发生改变，与其镜像变得不同
Step 2 : RUN apt-get -y update && apt-get install -y fortunes
 ---> Running in f8c9dec97efc  # 这里显示的是容器ID
Processing triggers for libc-bin (2.19-0ubuntu6.6) ...
 ---> 17c653933644
# 移除前面的临时容器
Removing intermediate container f8c9dec97efc
# 第三步，固化前面临时容器对docker/whalesay的改变，作为新的镜像fd35a325caf4
# 创建新的临时容器，尝试运行CMD关键字指定的命令
Step 3 : CMD /usr/games/fortune -a | cowsay
 ---> Running in 8ae48258f958  
 ---> fd35a325caf4  # 新的镜像
Removing intermediate container 8ae48258f958
# 构建完毕
Successfully built fd35a325caf4

运行新镜像

构建过程不会对上下文目录进行修改，构建好的镜像自动存放到/var/lib/docker目录下。可以运行命令查看：

docker images
# REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE
# mywhalesay          latest              c779eaff986e        2 minutes ago       275 MB
# docker/whalesay     latest              6b362a9f73eb        17 months ago       247 MB

好了，看看这头智慧鲸都说了些什么吧：

docker run mywhalesay

使用Docker Hub

首先你需要注册一个账号，然后创建一个仓库（Repository），这里的仓库类似于Git仓库，它以你的Docker Hub用户名作为默认的名字空间，例如gmemcc/mywhalesay。

打标签

标签（tag）是用于区分镜像变体的一种方法。

利用tag命令，你可以把一个本地镜像关联到Docker Hub仓库。首先，查询镜像的ID：

docker images 
# REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE
# mywhalesay          latest              baa64efc0f1d        6 minutes ago       275 MB

为之前构建的本地镜像mywhalesay打标签：

docker tag baa64efc0f1d gmemcc/mywhalesay:latest
# 可以删除本地镜像
docker rmi -f baa64efc0f1d

输入Docker Hub账号密码以登录：

docker login

PUSH操作

使用push子命令，可以把本地镜像推送到Docker Hub上的仓库中：

docker push gmemcc/mywhalesay

推送完毕后，可以到仓库主页去看看Tags选项卡，会出现一个lastest标签。

PULL操作

在运行容器、构建镜像时，只要所需镜像在本地不存在，都会执行pull子命令拉取镜像。你也可以手工的拉取镜像：

docker pull gmemcc/mywhalesay

搭建Docker私服

为了方便企业内部Docker镜像的管理，你可以搭建Docker私服（registry server）。最简单的私服例子如下：

docker run -d -p 5000:5000 --restart=always -h registry --network local --dns 172.21.0.1  --ip 172.21.0.4 --name registry registry:2
# 如果宿主机是ARM平台，考虑使用镜像 budry/registry-arm
# 否则你会收到错误 docker: no supported platform found in manifest list.

现在，你可以从Docker Hub上拉取镜像，并tag到私服中：

docker pull ubuntu
docker tag ubuntu localhost:5000/ubuntu

然后，推送镜像到私服：

docker push localhost:5000/ubuntu

之后，你可以再把镜像拉取下来：

docker pull localhost:5000/ubuntu

存储

默认情况下，私服中的数据存放在Docker卷中，此卷位于宿主机文件系统中。要改变存放位置，可以指定选项：

--volume /path/on/host:/var/lib/registry

外部访问

要想其它宿主机能访问私服，最好启用TLS，其配置类似于Web服务器的SSL配置：

# 创建密钥对
openssl genrsa -out zircon.local.key 4096
openssl req -new -x509 -days 3650 -text -key zircon.local.key -out zircon.local.crt

# 把证书复制到特定目录
mkdir -p /etc/docker/certs.d/docker.gmem.cc
sudo cp zircon.local.crt /etc/docker/certs.d/zircon.local\:5000/domain.crt
# 非本机：
scp alex@zircon.local:~/Vmware/docker/registry/certs/zircon.local.crt /etc/docker/certs.d/zircon.local\:5000/domain.crt

# 可选：全局启用证书
cp zircon.local.crt /usr/share/ca-certificates/
# 启用zircon.local的证书
sudo dpkg-reconfigure ca-certificates
# 需要重启服务
sudo service docker restart

# 重新运行私服
docker run -d -p 5000:5000 --restart=always --name registry \
 -v /home/alex/Vmware/docker/registry/certs:/certs \
 -e REGISTRY_HTTP_TLS_CERTIFICATE=/certs/zircon.local.crt \
 -e REGISTRY_HTTP_TLS_KEY=/certs/zircon.local.key \
 registry:2

这样，在网络中的机器都可以使用域名zircon.local代替localhost来访问私服了。

Mac版本的Docker目前无法访问自签名的私服，需要配置：

"insecure-registries":["zircon.local"]

使用letsencrypt证书

只需要注意把cert.pem、chain.pem合并到一起，作为证书即可：

cd /etc/letsencrypt/live/docker.gmem.cc/
cp privkey.pem domain.key
cat cert.pem chain.pem > domain.crt
chmod 777 domain.crt
chmod 777 domain.key

访问控制

除了启用TLS，你可能还需要进行用户身份验证。首先，在宿主机上建立一个目录，并生成密码文件：

cd /home/alex/Vmware/docker/registry/
mkdir auth
# 生成密码，输出到宿主机文件
docker run --entrypoint htpasswd registry:2 -Bbn user passwd > auth/htpasswd

然后，运行私服：

docker run -d -p 5000:5000 --restart=always --name registry \
  -v /home/alex/Vmware/docker/registry/auth:/auth \
  -e "REGISTRY_AUTH=htpasswd" \
  -e "REGISTRY_AUTH_HTPASSWD_REALM=Registry Realm" \
  -e REGISTRY_AUTH_HTPASSWD_PATH=/auth/htpasswd \
  -v /home/alex/Vmware/docker/registry/certs:/certs \
  -e REGISTRY_HTTP_TLS_CERTIFICATE=/certs/zircon.local.crt \
  -e REGISTRY_HTTP_TLS_KEY=/certs/zircon.local.key \
  registry:2

现在你可以登录到私服了：

docker login docker.gmem.cc

管理容器

要运行容器，首先要获得相应的镜像。运行容器时，如果镜像在本地不存在，Docker会自动到仓库下载。默认的仓库是Docker Hub。执行docker run命令可以启动一个容器：

# 不指定tag，默认使用lastest
docker run ubuntu
# 指定tag
docker run ubuntu:lastest
docker run ubuntu:14.04

基本用法

将镜像加载到容器中后，相当于得到一个预装了某些软件的操作系统。例如对于ubuntu镜像，你可以：

# 像使用普通虚拟机一样使用容器：

# 调用echo命令
docker run ubuntu /bin/echo 'Hello world'

# 交互式的命令行
# -t 在容器内分配Terminal或者伪TTY
# -i 启动一个交互式的连接
docker run -t -i ubuntu /bin/bash

# -d 在后台运行容器（daemonize）。启动后，Docker会输出当前容器的ID
docker run -d ubuntu /bin/sh -c "while true; do echo hello world; sleep 1; done"
# 216dd35d275a6c6e1e548232bdd9db7cab8a6b2f9078367a3c842762dc458c1a

# 查看正在运行的容器，由于容器ID太长，难以记忆，因此Docker会为每一个容器生成一个名字，例如gloomy_bohr。这个名字可以修改
docker ps
# CONTAINER ID IMAGE     COMMAND                  CREATED          STATUS         PORTS    NAMES
# 216dd35d275a  ubuntu   "/bin/sh -c 'while tr"   9 seconds ago    Up 8 seconds            gloomy_bohr

# 查看所有已创建的容器，不管容器是否正在运行
docker ps --all

# 指定容器名称，容器名称必须具有唯一性
docker run --name webserver training/webapp python app.py 

# 查看容器运行日志，打印标准输出
docker logs gloomy_bohr

# 在任何时候，你可以附到一个运行中的容器，grab其标准输入/输出
docker attach gloomy_bohr

# 停止容器。超时容器未停止，则发送SIGKILL信号
docker stop gloomy_bohr

# 启动容器
docker start gloomy_bohr

# 在一个正在运行的容器中执行命令
docker exec gloomy_bohr ping 8.8.8.8
# 连接到容器，交互式的执行命令
docker exec -it ubuntu-16.04

# 查看容器内运行的进程
docker top gloomy_bohr
# 以JSON格式打印容器的详细配置信息
docker inspect gloomy_bohr

# 删除容器
# -f 即使正在运行，也将容器删除
docker rm -f gloomy_bohr

上面的每个docker命令调用，实际上都在使用Docker客户端。Docker是基于Go语言开发的，执行

version

子命令可以查看客户端、服务器的版本。

运行网络应用

Docker的主要应用场景在服务器端，而后者运行的程序大多是网络应用。这里我们使用training/webapp这个镜像来说明如何在容器中运行Web服务器：

# -P 自动将容器中的监听端口映射到宿主机的某个端口
docker run -d -P --name web training/webapp python app.py
# 执行下面的命令查看端口如何映射
docker ps -l
# PORTS  端口映射情况位于该列
# 0.0.0.0:32769->5000/tcp   宿主机的32769端口映射到容器的5000端口

# -p 手工指定端口映射，宿主机的80端口映射的哦容器的5000端口
docker run -d -p 80:5000 training/webapp python app.py

# 查询端口映射
docker port hungry_payne 5000

# 查看Web应用日志
# -f的效果类似于tail -f
docker logs -f hungry_payne

管理网络

利用网络驱动（network drivers），Docker为容器提供了网络支持。网络驱动主要有两类：bridge、overlay。默认随着Docker引擎一起安装了三个网络：

docker network ls
# NETWORK ID          NAME                DRIVER              SCOPE
# f160b7cc8b94        bridge              bridge              local               
# fc47bb582730        host                host                local               
# 5ac20f3697f3        none                null                local

除非明确指定，新启动的容器总是使用bridge这个网络。

执行network inspect子命令可以查看一个网络的详细信息，包括它为各连接到的容器分配的IP地址：

执行：

docker network inspect bridge

，结果如下：

[
    {
        "Name": "bridge",
        "Id": "f160b7cc8b94b782e5fed8b2e50e72f14ad205917540b1dc464f509f7eb11dec",
        "Scope": "local",
        "Driver": "bridge",
        "EnableIPv6": false,
        "IPAM": {
            "Driver": "default",
            "Options": null,
            "Config": [
                {
                    "Subnet": "172.17.0.0/16",
                    "Gateway": "172.17.0.1"
                }
            ]
        },
        "Internal": false,
        /* 连接到此网络的容器的集合 */
        "Containers": {
            "87afe74d233dcd2e6caf2d569c785b0457123d4ad25f1c1bd9850576ba3afd1c": {
                "Name": "web",
                "EndpointID": "e8a0db5f066fd13bc2cb432f375582cb92e445a982a0ed667d26d92adb19550f",
                "MacAddress": "02:42:ac:11:00:02",
                "IPv4Address": "172.17.0.2/16",
                "IPv6Address": ""
            }
        },
        "Options": {
            "com.docker.network.bridge.default_bridge": "true",
            "com.docker.network.bridge.enable_icc": "true",
            "com.docker.network.bridge.enable_ip_masquerade": "true",
            "com.docker.network.bridge.host_binding_ipv4": "0.0.0.0",
            "com.docker.network.bridge.name": "docker0",
            "com.docker.network.driver.mtu": "1500"
        },
        "Labels": {}
    }
]

要把一个容器从网络中移除，可以执行：

# 把web从网络bridge中移除
docker network disconnect bridge web

创建网络

要创建一个简单的网络，可以执行：

docker network create -d bridge newbridge

类似的，再不需要时，可以删除自定义网络：

docker network rm newbridge

注意：名为bridge的默认网络不能被删除。

添加容器到网络

如果不希望容器使用默认网络，可以在运行容器的时候指定--network参数：

docker run -d --network=newbridge --name db training/postgres
# 获得容器的IP地址
docker inspect --format='{{range .NetworkSettings.Networks}}{{.IPAddress}}{{end}}' db

Docker允许在运行时将容器添加到任意多个网络：

docker network connect bridge db

管理数据卷

所谓数据卷（Data volumes），是一个或者多个容器中特定的目录，这些目录绕过容器的联合文件系统（UFS，可以将不同物理位置合并mount到Linux目录树的同一位置），数据卷的一系列特性有利于数据的持久化、共享：

数据卷在容器被创建时初始化，如果容器使用的基础镜像在数据卷的挂载点上包含数据，则这些数据被拷贝到新初始化的数据卷中。注意：当挂载宿主机目录作为数据卷时，拷贝行为不发生
数据卷可以被多个容器共享，或者被重用
对数据卷的更改是直接进行的
当你升级基础镜像时，对数据卷的修改不被包含其中
即使容器本身被删除，数据卷依然存在，数据卷独立于容器的生命周期

注意：作为挂载点的容器目录，其原有的文件全部不可见，不会进行Overlay。

添加数据卷

要添加匿名数据卷，可以在启动容器时指定-v参数：

# 在容器的/webapp位置创建一个匿名数据卷
docker run -d -P --name web -v /webapp training/webapp python app.py

在制作镜像时，你可以用VOLUME指令声明一个或者多个数据卷，任何基于此镜像的容器，自动添加这些数据卷。

定位数据卷

匿名数据卷在宿主机上以目录的形式存在，要定位此目录，可以执行inspect子命令：

/* docker inspect web的部分输出 */
"Mounts": [
    {
        "Name": "356707e2ddc02715db78b958b623707c2475f66258c14b68de48f0e29188bc0f",
        /* 在宿主机上的存放位置 */
        "Source": "/mnt/c3d88ac1-b4d5-4cdd-86b4-4255aba9ddb1/docker/volumes/35670b68de.../_data",
        "Destination": "/webapp",
        "Driver": "local",
        "Mode": "",
        "RW": true,
        "Propagation": ""
    }
]

挂载宿主机目录

你也可以把任意宿主机目录挂载为数据卷，映射到容器的目录树中，仍然使用-v参数：

# 宿主机目录/src/webapp被挂载到容器的/webapp
# 容器中的挂载点必须总是指定绝对路径
# 宿主机目录可以指定绝对路径，也可以指定一个名称，Docker引擎依据此名称创建/引用命名卷
docker run -d -P --name web -v /src/webapp:/webapp training/webapp python app.py

上面的例子中，如果容器的基础镜像已经包含了/webapp目录，则它会被宿主机的/src/webapp覆盖，但是容器从基础镜像得到的/webapp中的内容不会被删除，一旦数据卷被卸载，则/webapp中的内容恢复原样。

挂载宿主机文件

挂载单个宿主机文件也被支持：

-v ~/.bash_history:/root/.bash_history

挂载共享存储

除了挂载宿主机的本地目录，你也可以挂载共享存储为数据卷，Docker通过Volume plugins来支持iSCSI、NFS、FC等共享存储。使用共享存储的好处是它们是不依赖于主机的。

你可以在启动容器时，即时的在共享存储上创建命名卷（named volume）：

# --volume-driver 指定卷驱动，可选
# my-named-volume为新创建的卷的名字
docker run -d -P  --volume-driver=flocker   -v my-named-volume:/webapp  
    --name web training/webapp python app.py

或者，先手工创建命名卷，然后引用命名卷：

docker volume create -d flocker -o size=20GB my-named-volume
docker run -d -P -v my-named-volume:/webapp

例子中的flocker是一个专为Docker设计的数据卷管理工具。flocker管理的数据卷可以位于集群中的任何主机上，而不是绑定到某台宿主机。

注意：

命名卷对应/var/lib/docker/volumes/my-named-volume/_data目录。该目录会自动创建
容器A、B共享一个命名卷，则A的写入B可以看到
A使用 -v my-named-volume:/data，则data中原有（镜像自带）的文件可以在my-named-volume中看到

挂载为只读

数据卷可以挂载为只读：

-v /src/webapp:/webapp:ro #添加:ro后缀

备份/恢复

可以参考下面的命令，来备份一个数据卷：

# --volumes-from  引用来自dbstore的数据卷/dbdata
# -v 挂载宿主机当前目录到/backup
# 容器启动后，使用tar命令，将/dbdata的内容压缩，存放到/backup，亦即宿主机的当前目录
# tar完成后，容器停止，备份完毕
docker run --rm --volumes-from dbstore -v $(pwd):/backup ubuntu tar cvf /backup/backup.tar /dbdata

使用类似的方法，可以首先数据卷的恢复。跨宿主机联用备份/恢复，可以实现数据卷迁移。

删除数据卷

默认情况下，容器删除后，其挂载的数据卷会被保留。一般的，你可以指定：当容器被删除后，自动清理匿名卷：

# --rm示意自动清理匿名卷/foo
# 挂载到/bar的命名卷awesone不会被清理
docker run --rm -v /foo -v awesome:/bar busybox top

数据卷可以通过--volumes-from选项被其它容器引用，这种情况下，创建/引用数据卷的全部容器被删除之前，数据卷是无法删除的。要在删除容器时，同时删除数据卷，可以指定-v选项，例如

# 删除db3的同时，删除其使用的数据卷。注意，db3必须是最后一个使用它引用的所有数据卷的容器
docker rm -v db3

数据卷容器

如果需要在多个容器之间共享持久化数据，或者期望在非持久化容器中使用持久化数据，最好的方法是创建命名数据卷容器——仅仅为了提供共享数据卷的容器，并在其中挂载数据卷供其它容器引用。

首先创建一个命名的容器，但是不需要它执行任何命令：

# 创建一个名为dbstore的容器，其包含一个数据卷/dbdata
docker create -v /dbdata --name dbstore training/postgres /bin/true
# 注意 -v 非常重要，如果不声明-v，则此容器的目录不会暴露出去
docker run -v /jdk --name jdk docker.gmem.cc/jdk:7u80

然后，你可以利用选项--volumes-from，在其它容器中挂载dbstore的/dbdata目录：

docker run -d --volumes-from dbstore --name db1 training/postgres
# 再创建一个容器，与db1共享来dbstore的/dbdata。两个容器的共享卷的挂载路径一致
docker run -d --volumes-from dbstore --name db2 training/postgres

这样启动db1、db2后，如果postgres镜像包含/dbdata目录，它将被来自dbstore的数据卷mask掉，仅dbstore的/dbdata对于db1、db2可见。

选项--volumes-from 可以指定多次，这样你可以联合使用来自多个容器的数据卷。

选项--volumes-from可以通过链式的结构扩展——链条上的后面的容器可以使用前面任意容器声明的数据卷：

# 由于db1使用了dbstore的数据卷/dbdata
# 因此db3也可以使用
docker run -d --name db3 --volumes-from db1 training/postgres

注意，提供数据卷的容器不需要处于运行状态。

共享存储陷阱

多个容器共享一个数据卷时，可能导致数据破坏，这是由并发的写操作导致的。并发写操作可能来自于容器或者宿主机。

镜像

基本镜像

所谓基本镜像（Base image），一般是指没有父镜像的镜像。此类镜像打包一个空白的操作系统。制作基本镜像的步骤依赖于你想打包的Linux发行版。

使用Tar创建完整镜像

一般情况下，你可以在这样的Linux操作系统下完成基本镜像的创建——该操作系统就是你希望打包的Linux发行版。

某些工具可以简化镜像的创建，例如Debootstrap可以安装一个Debian/Ubuntu的基本操作系统到一个目录中。使用该工具的示例：

# 下载Ubuntu 16.04（xenial）基本操作系统到xenial目录
sudo debootstrap xenial xenial

# tar -C切换工作目录 -c 创建压缩文件
# 压缩结果通过管道传递给docker import
# import子命令创建一个空白文件系统镜像，然后把Tar的内容导入进去
# ubuntu:16.04 创建一个名为ubuntu的仓库，Tag为16.04
sudo tar -C xenial -c . | docker import - ubuntu:16.04

其它创建基本镜像的脚本，可以参考Create a base image

扩展scratch镜像

scratch是Docker保留的名称，它不是一个镜像，你也不能把任何仓库命名为scratch。scratch可以作为构建基本镜像的起点：

FROM scratch
ADD hello /
CMD ["/hello"]

多体系结构支持

该主题包含以下关注点：

如何透明的依据体系结构，自动拉取镜像。这个需求可以通过镜像清单（Manifest）满足，清单包含同一功能的镜像（例如Alpine:3.10）对应到多个体系结构的版本。拉取镜像时，不管是什么平台，都使用alpine:3.10这个名字，Docker会自动拉取匹配体系结构的镜像
如何去构建其它体系结构的镜像，这个将是本节的主题

binfmt_misc

如果你使用了桌面版本的Docker，或者使用高于4.8+内核的Linux，你可以直接在x86_64的机器上，运行各种其它体系结构的镜像。

在Linux上启用Docker与QEMU集成的方式：

docker run --rm --privileged linuxkit/binfmt:v0.8

# 正常情况下，不会报错，并且
ls -1 /proc/sys/fs/binfmt_misc/qemu-*
# 出现：
# /proc/sys/fs/binfmt_misc/qemu-aarch64
# /proc/sys/fs/binfmt_misc/qemu-arm
# /proc/sys/fs/binfmt_misc/qemu-ppc64le
# /proc/sys/fs/binfmt_misc/qemu-riscv64
# /proc/sys/fs/binfmt_misc/qemu-s390x

重启Docker守护进程后，可以看到默认Builder支持多种平台：

docker buildx ls

# BEFORE:
# NAME/NODE DRIVER/ENDPOINT STATUS  PLATFORMS
# default * docker                  
#   default default         running linux/amd64, linux/386


# AFTER:
NAME/NODE DRIVER/ENDPOINT STATUS  PLATFORMS
default * docker                  
  default default         running linux/amd64, linux/arm64, linux/riscv64, linux/ppc64le, linux/s390x, linux/386, linux/arm/v7, linux/arm/v6

buildx

这是一个Docker CLI插件，可以通过BuildKit进行Docker镜像的构建。使用buildx，你可以为不同体系结构构建镜像，并合并在一个镜像清单中，不需要作Dockerfile或源代码上的变动。

buildx把工作委托给builders：

# 列出现有的builders
docker buildx ls

# 创建本地builder:
docker buildx create --use --name local default
# 注意，docker驱动使用守护进程中的代理设置，但是docker-container不使用。此外由于builder容器
# 不是CLI创建的，因此~/.docker下设置的代理也不会变为容器的环境变量
# 目前支持创建builder时指定代理设置
docker buildx create 
                     # 使用哪种驱动
                     #   docker  使用编译到Docker守护进程中的BuildKit库，体验和原先的docker build相似
                     #   docker-container 在容器中启动BuildKit
                     #   kubernetes
                     --driver docker-container \
                     # 这些代理貌似也没什么价值，sh到builder容器中代理生效。但是Dockerfile中的命令，例如
                     # apk却不会使用这些代理，因此对构建过程没有价值
                     --driver-opt env.HTTP_PROXY=http://10.0.0.1:8088 \
                     --driver-opt env.HTTPS_PROXY=http://10.0.0.1:8088 \
                     --driver-opt network=host   \
                     --driver-opt '"env.NO_PROXY='$NO_PROXY'"'   \
  --use --name proxied default


# 添加远程builder：
docker context create arm --docker "host=tcp://10.0.0.90:2376"
docker context use arm
docker buildx use arm

# 切换使用的builder：
docker buildx use default

要使用buildx发起镜像构建，执行命令：

docker buildx build .

buildx将使用BuildKit引擎进行构建，不需要设置

DOCKER_BUILDKIT=1

环境变量。

buildx支持docker build的所有特性，包括19.03引入的输出配置、内联build缓存、指定目标platform。此外，buildx还支持manifest、分布式缓存、导出为OCI格式等docker build不支持的特性。

buildx可以在不同配置下运行，每个配置称为driver。默认使用编译到Docker守护进程中的BuildKit库，此驱动称为docker，该驱动使用你本地的Docker守护进程，并提供和docker build相似的体验。此外，你还可以使用docker-container驱动，它在容器中启动BuildKit。

驱动docker的输出，自动在docker images列表中可见。对于其它驱动，输出到何处需要

--output

来指定。

通过创建新的builder实例，可以得到隔离的构建环境（不改变共享的Docker守护进程的状态），在CI中较为有用。你甚至可以在远程Docker守护进程上创建多个builder，形成builder farm，并随意在这些builder之间切换。

Docker 19.03引入了类似Kubectl的context特性，可以为一个远程Docker守护进程的API端点提供一个名称。对于每个context，buildx会生成一个默认的builder实例。

多体系结构镜像构建

docker buildx build --platform linux/amd64,linux/arm64 .

将buildx作为默认builder

执行命令：

docker buildx install

，则docker build命令变为docker buildx的别名，这就意味着docker build自动使用docker buildx进行构建。

执行

docker buildx uninstall

移除别名。

Dockerfile

Docker读取Dockerfile中的指令以构建新的镜像，Dockerfile中的指令说明了镜像应该如何一步步的被构建。

Dockerfile与镜像构建

执行

docker build

命令，可以从一个Dockerfile、一个上下文构建镜像。构建过程是由Docker守护程序（而不是客户端）执行的，客户端（docker build命令）做的第一件事情就是把整个上下文发送给守护程序。

所谓上下文，是指定PATH（宿主机本地目录）或者URL（Git存储库）中的文件集合。上下文会被递归的处理，即子目录被包含在上下文中。在大部分情况下，最好将空白目录作为上下文，其中仅包含一个Dockerfile和构建过程必备的文件。

要使用上下文中的文件，你必须编写特定的指令，例如COPY。你可以在上下文目录中添加一个

.dockerignore

来排除某些文件、目录以提高构建性能。

按照约定，在上下文根目录中的名为Dockerfile的文件被作为“Dockerfile”，但是你可以指定任意文件作为“Dockerfile”：

docker build -f /path/to/a/Dockerfile .

你可以为正在构建的镜像指定仓库（Repository）:标签（tag），如果构建成功，镜像将被存放到相应的仓库:标签：

docker build -t gmemcc/myapp .
# 指定多个仓库/标签也是允许的
docker build -t gmemcc/myapp:1.0.2 -t gmemcc/myapp:latest .

Docker守护程序会逐条的执行Dockerfile中的指令，如果必要，将指令的执行结果提交到正在构建的那个新的镜像中去。在最终输出镜像ID之前，守护程序会自动清理客户端发送的上下文。

需要注意的是，每条指令都是独立的执行的，因此

RUN cd /tmp

这样的指令不会对下一条指令的“工作目录”产生影响。

为了提高构建的性能，Docker会重用中间的（intermediate ）镜像（所谓缓存）。当使用缓存时，Docker会在控制台打印

Using cache

字样。

Dockerfile格式

Dockerfile中只有注释、指令两类元素：

# Comment
INSTRUCTION arguments

指令名称大小写不敏感，通常使用全大写。第一条指令必须是FROM，指定基础镜像。以#开头的行通常被作为注释看待，除非它是合法的解析器指令（parser directive）。

解析器指令

解析器指令（directive）影响Dockerfile中其它行的处理方式，该指令不会增加额外的层，也不会显示为构建步骤。

解析器指令的语法类似于一种特殊的注释：

# directive=value

，单个指令仅能被使用一次。一旦处理过任何注释、空行、指令（instruction），Docker就不再尝试分析任何解析器指令，因此解析器指令必须位于Dockerfile的最开始处。

解析器指令同样是大小写不敏感的，但是通常都使用全小写。在解析器指令之后，通常留有空白行。编写解析器指令时不得使用行连接符（\）

目前支持的解析器指令包括：

解析器指令	说明
escape	设置Dockerfile中用来转义的前导字符，默认\。示例： # escape=` 转义前导字符可以用于行内转义，也可以转义换行符。这允许一个指令（instruction）跨越多行注意：对于 RUN 指令，转义仅仅会在行尾发生，即仅转义换行符一般在Windows上会将转义字符设置为`，因为反斜杠是Windows的路径分隔符

解析器指令

说明

escape

设置Dockerfile中用来转义的前导字符，默认\。示例：

# escape=`

转义前导字符可以用于行内转义，也可以转义换行符。这允许一个指令（instruction）跨越多行

注意：对于

RUN

指令，转义仅仅会在行尾发生，即仅转义换行符

一般在Windows上会将转义字符设置为`，因为反斜杠是Windows的路径分隔符

变量替换

使用

ENV

指令可以声明环境变量，在Dockerfile中你可以声明Bash风格的变量替换：

$variable_name

或者

${variable_name}

。除了这两种基本格式以外，还可以使用某些Bash修饰符：

```
${variable:-word}
```
，如果设置了环境变量variable，表达式的结果是$variable，否则是word
```
${variable:+word}
```
，如果设置了环境变量variable，表达式的结果是word，否则是空串

以下指令支持变量替换：ADD、COPY、ENV、EXPOSE、LABEL、USER、WORKDIR、VOLUME、STOPSIGNAL。在1.4+，当ONBUILD与前述指令一起使用时，也支持环境变量。

注意：环境变量的值在同一个指令中保持不变，考虑下面的片断：

ENV abc=hello
ENV abc=bye def=$abc   # def值为hello而不是bye
ENV ghi=$abc           # ghi值为bye

.dockerignore

Docker客户端发送上下文到守护程序之前，会读取上下文根目录下名为.dockerignore的文件。如果此文件存在，则客户端会依据其中声明的规则来排除掉上下文中的部分文件或者目录。使用.dockerignore可以避免过多的、敏感的文件到守护程序，并被ADD/COPY命令复制到镜像中。

此文件中的每行是一个UNIX glob风格的匹配Pattern，上下文根目录被作为此Pattern的根目录，下面是一些示例：

Pattern	排除
# comment	注释，被忽略
/temp	根目录的任意直接子目录中，任何以temp开头的目录或者文件
//temp*	根目录的任意孙子目录中，任何以temp开头的目录或者文件
temp?	根目录值中任意以temp开头，后面附加一个任意字符的目录或者文件
*/.go	任意以.go结尾的文件。**匹配0-N个目录
*.md !README.md	根目录中任何.md文件，除了README.md，!用于为排除指定例外

FROM指令

指令格式：

FROM 
FROM :
FROM @

# --platform  如果image是多平台的镜像，则此参数选择该镜像的特定平台版本
#             默认自动选择匹配构建目标平台的版本

# AS 为该build stage命名，名字可以被后续的stage引用
FROM [--platform=]  [AS ]

用于指定正在构建镜像的Base镜像：

该指令必须是Dockerfile中第一个非注释指令
该指令可以在一个Dockerfile中出现多次，用于构建多个镜像
tag、digest可选，如果不指定，自动使用latest

多Stage构建

一个Dockerfile中可以包含多个FROM指令，这叫多Stage构建。下面是一个例子：

ARG ARCH

# 第一个stage，构建出二进制文件
FROM golang:1.13 as builder
WORKDIR /workspace
RUN CGO_ENABLED=0 GOOS=linux GOARCH=$ARCH GO111MODULE=on go build -a -o pause pause.go

# 第二个stage，构建出镜像
FROM docker.gmem.cc/tcnp/alpine-${ARCH}:3.11
WORKDIR /
#    用名字来引用前面的stage，复制出其中的文件
COPY --from=builder /workspace/pause .
ENTRYPOINT ["/pause"]

使用变量

如上面的例子所示，FROM中可以使用在第一个FROM指令之前出现的ARG中定义的构建时变量。

MAINTAINER指令

指令格式：

MAINTAINER

。用于指定生成的镜像的Author字段

RUN指令

该指令具有两种格式：

# shell格式，command在Shell中运行，默认/bin/sh -c或者 cmd /S /C
RUN 
RUN ["executable", "param1", "param2"]

# 示例：
RUN ["/bin/bash", "-c", "echo hello"]

该指令在当前intermediate镜像之上新建一层，并在其中执行任意命令，然后提交结果。提交结果后形成的新intermediate镜像被下一个指令使用。

运行RUN指令时触发分层（Layering）符合Docker的核心理念——提交（Commit）操作想对廉价，并且可以从镜像历史的任意位置（任意一层）创建容器。分层也是构建过程中镜像缓存的基础。

使用exec格式可以避免Shell字符串相关的陷阱，也可以在Base镜像中没有/bin/sh程序的情况下执行命令。使用exec格式时需要注意：

由于exec格式不调用Shell，因此也不会发生变量替换：

# $HOME不会被替换
RUN [ "echo", "$HOME" ]
# $HOME会被替换，因为虽然是exec格式，但是它调用了sh
RUN [ "sh", "-c", "echo $HOME" ]

exec指令的参数必须是规范化的JSON数组，所以：
1. 字符串必须使用双引号包围
2. 字符串中的反斜杠必须JavaScript语法转义，即
```
\\
```

使用shell格式时，你可以使用

让命令跨越多行。

RUN指令导致的镜像缓存不会自动失效，要禁用缓存，可以在构建时指定

--no-cache

选项。ADD指令可以导致RUN的缓存失效。

可以用SHELL指令，设置shell格式的RUN指令所使用的Shell程序，其它几个具有exec格式/shell格式区分的指令，也受到SHELL指令的影响。

CMD指令

该指令具有三种格式：

# exec格式，推荐的格式
CMD ["executable","param1","param2"]
# 用作ENTRYPOINT的默认参数
CMD ["param1","param2"]
# shell格式
CMD command param1 param2

Dockerfile中仅能包含一个CMD指令，如果指定了多个CMD指令则仅最后一个有效。该指令的主要意图是为执行容器（executing container）提供默认值（defaults），这些默认值可以包含一个可执行文件，与ENTRYPOINT指令联用时，则仅仅包含执行选项。

使用CMD指令时要注意：

CMD不会在构建阶段做任何事情
如果用CMD为ENTRYPOINT提供默认参数，则这两个指令的参数均为规范化的JSON数组
exec、shell格式调用的注意点，参考RUN指令

如果使用了CMD指令，并且运行容器时没有指定需要执行的命令，则CMD中的命令会被执行。要让容器每次都运行同一个程序，应当联合使用ENTRYPOINT、CMD。

LABEL指令

指令格式：

LABEL = = = ...

该指令为镜像添加元数据（metadata），每个标签是一个键值对。如果需要为镜像添加多个标签，最好在单个LABEL指令中完成。下面是一些示例：

# 如果键/值中包含空格，可以用引号包围
LABEL "Author Name"="Alex Wong"
# 可以使用反斜杠跨行
LABEL description="Hello \
There !"

镜像会继承来自FROM镜像的标签，如果当前镜像的某个标签的键与FROM镜像冲突，则当前的覆盖FROM的。

使用

docker inspect

命令可以查看一个镜像的所有标签。

EXPOSE指令

指令格式：

EXPOSE  [...]

该指令声明容器在运行时侦听的端口。该指令并不会让容器和宿主机之间发生端口映射，要真正映射（发布）端口，必须在创建容器时使用选项：

使用-p参数运行镜像，指定发布的端口范围
使用-P参数，发布所有EXPOSE声明的端口

ENV指令

该指令支持两种格式：

# 为单个变量（key）设置单个值（value）。第一个空格之后的全部内容被作为值看待，即使其中包含空格、引号
ENV  
# 允许设置多个环境变量
ENV = ...

设置构建过程、运行期间均可见的环境变量，这些环境变量对任何后代Dockerfile都可用。

部分Dockerfile指令或者指令的某种形式，支持引用环境变量，语法和Bash一致。

在运行期间，可以使用docker inspect查看环境变量。在命令行中，可以使用

--env =

覆盖环境变量设置。

ADD指令

该指令支持两种格式：

# src是上下文中的目录或者远程URI；dest为镜像中的目录
ADD ... 
# 用于路径中包含空格的情况
ADD ["",... ""]

拷贝本地目录、文件或者远程文件URI，将它们加入到容器文件系统的dest位置。注意以下几点：

可以指定多个src，src中可以包含*、?等通配符
如果src是目录、文件，必须指定相对于上下文根的相对路径，src目录/文件必须位于上下文内部。/something、../something均非法
当src是目录时，其内部所有内容，包括文件系统元数据都被拷贝。但是目录本身不被拷贝
当src是一个本地压缩文件时，它被解压为一个目录，然后拷贝到dest
当src是本地目录（包括解压后的压缩文件）时，覆盖到dest的行为类似于tar -x
当src是远程URI时：
1. 如果dest以/结尾，则文件名从URI中推定，保存为/
2. 如果dest不以/结尾，则文件保存为dest
dest指定容器中的绝对路径。如果使用相对路径，则相对于WORKDIR
当dest以/结尾时，被看作目录，否则看作一般文件。如果dest不存在，会被自动创建
容器中所有的新文件，以UID=GID=0创建
如果src为远程URI，则dest的模式被设置为600。如果通过HTTP协议获取远程文件，则Last-Modified头用于设置dest中文件的mtime
mtime不会影响缓存判断
当通过stdin读取Dockerfile并构建时：
```
docker build - < somefile
```
，由于没有构建上下文，因此ADD指令必须使用基于URI的src。如果somefile是一个压缩包（tar.gz），则压缩包中根目录被作为构建上下文，而根目录中须有Dockerfile文件
由于ADD不支持身份认证，因此远程URI需要身份验证时，你必须使用RUN wget/curl代替ADD
如果src的内容发生变化，ADD会导致所有后续指令对应的Layer缓存失效

示例：

# 拷贝上下文根目录中所有hom开头的文件到镜像的/mydir/目录下
ADD hom* /mydir/
# 拷贝上下文目录中home.txt之类的文件，e可以是任何单字符
ADD hom?.txt /mydir/

# 拷贝到相对路径 $WORKDIR/relativeDir/下
ADD test relativeDir/

COPY指令

该指令支持两种格式：

COPY ... 
# 用于路径中包含空格的情况
COPY ["",... ""]

拷贝文件或者目录到容器文件系统中。注意点类似于ADD，但是COPY不理解远程URI也不处理压缩文件。

ENTRYPOINT指令

该指令支持两种格式：

# 推荐的exec格式，参数以JSON数组传递。该方式不会调用Shell命令，因此不会发生参数替换等行为
ENTRYPOINT ["executable", "param1", "param2"]
# shell格式，阻止传参。可以使用环境变量。容器运行时调用/bin/sh -c "command param1 param2"
ENTRYPOINT command param1 param2

使用入口点，可以如同使用可执行文件那样运行一个镜像。docker run时，镜像名后面的所有参数，都作为参数传递给ENTRYPOINT指定的命令/可执行文件，并且覆盖CMD中指定的默认参数。当镜像名和可执行文件名一致的时候，dock run看起来就好像在执行一个文件，而不是运行镜像。

shell格式的调用，阻止CMD指定的默认参数和dock run指定的参数。但是这种格式下可执行文件将作为/bin/sh -c的子命令运行，这导致可执行文件的PID不是1并且不能接收UNIX信号。你的可执行文件将无法接收docker stop发送来的SIGTERM信号。

如果该指令使用多次，则仅仅最后一个被使用。

你可以使用

--entrypoint

选项覆盖ENTRYPOINT，但是只能指定执行的程序：

# 以命令bash作为入口点，覆盖默认的入口点，将--version作为bash的参数
docker run -it --rm  --entrypoint bash docker.gmem.cc/maven:3.5.2 --version

exec格式入口点示例

使用该格式，可以方便的设置容器执行的默认命令及其稳定的默认参数：

ENTRYPOINT ["top", "-b"]

然后，可以联用CMD指令，设置可覆盖的默认参数：

CMD ["-c"]

下面的例子，在前台（PID为1）运行Apache服务器：

FROM debian:stable
RUN apt-get update && apt-get install -y --force-yes apache2
EXPOSE 80 443
VOLUME ["/var/www", "/var/log/apache2", "/etc/apache2"]
# -D FOREGROUND 不去fork出子进程
ENTRYPOINT ["/usr/sbin/apache2ctl", "-D", "FOREGROUND"]

你可以使用任何脚本作为入口点可执行程序的启动脚本，为了确保底层可执行文件能够接收UNIX信号，必须使用exec命令替换进程：

ENTRYPOINT ["/usr/bin/start-postgres.sh"]

#!/bin/bash
set -e
# 如果第一个参数是postgress，则启动postgress服务
if [ "$1" = 'postgres' ]; then
    # 初始化，改变目录所有权
    chown -R postgres "$PGDATA"
    # 初始化数据库
    if [ -z "$(ls -A "$PGDATA")" ]; then
        gosu postgres initdb
    fi
    # 使用exec、管理员权限运行postgres。exec确保postgres进程PID=1，能够接收UNIX信号
    exec gosu postgres "$@"
fi
# 否则，运行参数指定的程序
exec "$@"

如果需要进行清理工作，可以在入口点脚本中编写trap语句：

# 捕获多种信号，然后执行引号中的脚本，停止Apache服务
trap "stopping apache /usr/sbin/apachectl stop" HUP INT QUIT TERM
# 在后台启动Apache服务，这种服务无法接收信号
usr/sbin/apachectl start
echo "Press ENTER to exit"
read
# 回车后，也可以停止Apache服务
echo "stopping apache"
/usr/sbin/apachectl stop

shell格式入口点示例

这种方式指定的入口点，将在Shell中（默认 /bin/sh -c）执行指定的程序，能够进行变量替换。该方式会忽略CMD指令和docker run image 后面的参数。

为了确保长时间运行的入口点程序能够正确接收docker stop发来的UNIX信号，应当使用exec来执行目标程序，例如：

ENTRYPOINT exec top -b

VOLUME指令

指令格式：

VOLUME ["/mount/point"]
VOLUME  /mount/point1 /mount/point2

在镜像中创建一个挂载点，并将其标记为“承载来自宿主机、其它容器的外部卷”。

在构建阶段，你可以往挂载点写入数据，然后再声明VOLUME指令，这样数据会持久化在镜像中：

RUN echo "Hello Docker!" > /mount/point/greetings
# 后声明VOLUME
VOLUME /mount/point
# 再此之后对/mount/point进行任何改动，都会被丢弃

在docker run时，容器会在/mount/point挂载新的卷，并且把greetings文件拷贝到此卷中。

USER指令

指令格式：

USER username-or-uid

，指定RUN,CMD,ENTRYPOINT指令以什么身份运行。

在我机器上尝试MySQL镜像时，设置USER为mysql，生效的ID为999，而mysql用户的真实ID是118。直接设置USER为118，没有问题。

WORKDIR指令

指令格式：

WORKDIR /path/to/workdir

指定RUN, CMD, ENTRYPOINT, COPY,ADD指令的工作目录，你可以多次使用该指令，并且可以使用相对（于上一个WORKDIR）路径。示例：

ENV PREFIX /usr/local
# 可以使用环境变量
WORKDIR $PREFIX/bin
# 下面的指令导致工作目录变为/usr/local/bin/python
WORKDIR python

ARG指令

指令格式：

ARG [=] #该指令可以声明多次，也可以指定一个默认值

该指令定义一个构建时变量。变量的值可以通过

docker build --build-arg =

指定、覆盖。如果用户通过build-arg传递没有通过ARG声明的变量，构建会失败。

ARG定义的变量，对Dockerfile当前行之后的指令生效。ARG变量不会持久化到镜像中。

使用ENV、ARG都可以向RUN指令传递变量，如果这两个指令声明同名的变量，则ENV总是覆盖ARG。

以下ARG是Docker预定义的，不需要声明即可使用：http_proxy、https_proxy、ftp_proxy、no_proxy以及这4个变量的全大写版本。

示例

ARG JAR_FILE
ADD target/$JAR_FILE /app.jar

对缓存的影响

如果ARG的值在下一次构建时发生了修改，则第一次使用它定义的变量的那个指令对应的Layer缓存失效。

ONBUILD指令

指令格式：

ONBUILD [INSTRUCTION]

为镜像添加一个触发器指令（ trigger instruction），该指令会在当前镜像被作为其它构建的Base镜像时执行。ONBUILD指定的指令会在子镜像构建时、在子镜像的构建上下文中立即执行，就好像把该指令直接插入到FROM指令后面一样。

所有构建指令都可以通过ONBUILD注册为触发器。

当你制作一个专用于被扩展的Base镜像ONBUILD很有用。举例来说，假设你构建了一个Pyhton的应用编译环境（Base镜像），它要求被构建的Python源码被放置在特定的目录，并在之后调用编译脚本。你无法在构建Base镜像的时候使用ADD、RUN完成前述的工作，因为Base镜像的构建者并不知道源码在哪——每个具体应用程序的源码位置都不同。这时，ONBUILD可以帮助你：

构建Base镜像时，当遇到ONBUILD时，Docker在镜像元数据中添加一条触发器数据。ONBUILD中的指令不会影响Base镜像的构建
在Base镜像构建完毕后，所有触发器的列表（对应多个ONBUILD）被存放到镜像的元数据清单（manifest）中，以OnBuild为Key。你可以对Base镜像执行docker inspect查看触发器列表
构建子镜像时，执行FROM指令时，ONBUILD触发器会按照它们在Base镜像中的声明顺序，依次执行，指有它们全部执行成功，子镜像才会继续构建，否则在FROM指令处失败
子镜像构建完毕后，ONBUILD触发器从子镜像的元数据中移除，这意味着孙子镜像不会感知到ONBUILD触发器

下面是一个具体的例子：

# 将子镜像的构建上下文拷贝到临时容器的特定位置
ONBUILD ADD . /app/src
# 构建Python应用程序，结果的结果固化在子镜像中
ONBUILD RUN /usr/local/bin/python-build --dir /app/src

构建子镜像时，只需要把Python程序源码放在上下文目录中，构建完毕后，子镜像的容器就直接可以使用与子镜像同时构建的Python程序了。

使用ONBUILD时需要注意：

不支持ONBUILD ONBUILD...
不支持ONBUILD FROM或者ONBUILD MAINTAINER

STOPSIGNAL指令

指令格式：

STOPSIGNAL signal

，指定为了让容器退出时，向其发送的信号。支持信号名称或者数字，例如SIGKILL、9。

HEALTHCHECK指令

该指令支持两种格式：

# 在容器内运行一个命令以检测容器的健康状况
# command 要么是一个Shell命令字符串，要么是一个JSON数组
HEALTHCHECK [OPTIONS] CMD command
# 在CMD之前，可以指定以下选项：
--interval=DURATION   # 默认30s，第一次运行健康检测，于容器启动后DURATION秒后，以后每隔DURATION秒检测一次
--timeout=DURATION    # 默认30s，如果健康检测命令超过DURATION秒没有完成，则认为执行失败
--retries=N           # 默认3， 健康检测命令连续失败的最大次数，超过此次数，认定容器处于unhealthy状态

# 禁用任何从Base镜像继承来的健康检测指令
HEALTHCHECK NONE

该指令告知Docker，如何确认容器仍然在正常工作。正常工作不仅仅要求进程在运行，还要求特定于具体应用的检测可以通过（例如对于Web应用，能够正常处理HTTP登录请求）。

当指定了该指令后，在normal status之外，还多了一个health status。该状态的初始值为starting，当健康检测通过后，变为healthy；当检测不通过、或者若干次检测失败后，变为unhealthy。

command的退出状态用于判断容器是否健康：0 表示健康；1表示不健康；2为暂不使用的保留值。command的输出到stdout/stderr的信息，可以通过docker inspect命令查看到。

每个Dockerfile仅支持一个HEALTHCHECK指令，如果指定了多个，只有最后一个生效。

SHELL指令

指令格式：

SHELL ["executable", "parameters"]

用于覆盖那些使用shell格式的指令所使用的默认Shell：

Linux下默认Shell为
```
["/bin/sh", "-c"]
```
Windows下默认Shell为
```
["cmd", "/S", "/C"]
```

在Windows平台上该指令很有用，因为Windows提供了两个常用却完全不同的Shell：cmd和powershell。

SHELL指令可以出现多次，每次均覆盖之前的取值。

多阶段构建

你可以在Dockerfile中使用多个FROM语句，每个FROM触发一个新的构建阶段（Stage）。你可以选择性的把某些构建从一个阶段拷贝到另外一个，而把任何不需要引入最终镜像的文件丢弃 —— 例如构建工具、依赖包。

下面是一个例子：

FROM golang:1.7.3
WORKDIR /go/src/github.com/alexellis/href-counter/
RUN go get -d -v golang.org/x/net/html  
COPY app.go .
RUN CGO_ENABLED=0 GOOS=linux go build -a -installsuffix cgo -o app .

FROM alpine:latest  
RUN apk --no-cache add ca-certificates
WORKDIR /root/
# --from表示从前面的stage拷贝
COPY --from=0 /go/src/github.com/alexellis/href-counter/app .
CMD ["./app"]

这个例子的第一阶段使用Go SDK构建源码，第二阶段则将第一阶段中的文件拷贝过来。

除了使用序号，你还可以通过名称来引用Stage：

命名Stage

FROM golang:1.7.3 as builder
...
FROM alpine:latest 
COPY --from=builder /go/src/github.com/alexellis/href-counter/app .

中止构建

你可以仅仅执行一部分Stage，然后就停止构建：

# 执行到builder这个stage即停止
docker build --target builder -t alexellis2/href-counter:latest .

外部镜像作为Stage

任何一个镜像都可以作为Stage使用，从中拷贝文件：

COPY --from=nginx:latest /etc/nginx/nginx.conf /nginx.conf

最佳实践

为了编写易用、有效的Dockerfile，Docker官方发布了若干条最佳实践。如果你要构建官方镜像，则必须遵守这些实践。

朝生暮死的容器

容器的生命周期应该尽可能的短暂，创建、启动、停止、删除应当消耗最小化的时间。这意味着你应该尽可能的通过Dockerfile把内容放在镜像内。

使用.dockerignore文件

大部分情况下，可以把Dockerfile放置在空白的目录中，后续仅在此目录中存放构建镜像时所必须的文件。

如果目录中包含一些你需要排除出构建过程的目录/文件，可以编写一个.dockerignore文件，其格式类似于 .gitignore。

避免安装不必要的包

尽可能少的安装Linux软件包，这样可以降低镜像的大小、构建过程的耗时

一个容器一个进程

大部分情况下，你应该在单个容器中运行仅单个程序（例如Web服务、DB服务）。将应用程序解耦到不同容器中可以更好的实现容器重用、水平扩展。

当一个程序依赖于另外一个时，可以使用容器链接（container linking）。

最小化层数

应当十分谨慎的考虑Dockerfile使用的层数（Number of layers），在Dockerfile可读性（可维护性）和最小化层数之间寻求平衡。

排序命令行参数

尽可能的按照字典序对参数（特别是apt安装的软件包参数）进行排序，这样可以避免后续维护者添加重复的安装包。

构建缓存

在构建镜像时，Docker会遍历你的Dockerfile的指令，检查完这些指令后，它会到缓存中寻找已经构建的镜像，而不是构建“重复”镜像。要避免使用缓存，可以在docker build时指定

--no-cache=true

参数。

如果使用缓存，你必须明白它是如何寻找“重复”镜像的：

选取与当前Dockfile使用同一Base镜像的缓存镜像列表，遍历此列表，如果某个条目的构建指令与当前Dockerfile完全一致，则该条目可能是“重复镜像”
对于ADD、COPY指令，目标文件集合被检查并计算Checksum（不包含修改时间、最后访问时间信息），如果某个缓存镜像条目对应的ADD、COPY指令操控的文件集合的Checksum与前面的Checksum一致，则该条目匹配“重复”镜像

当找不到匹配的镜像时，Docker将从头开始，构建一个新镜像。

指令相关的建议

指令	最佳实践
FROM	如果可能，使用Docker官方仓库作为基本镜像的来源，推荐使用debian:latest，因为此镜像作为一个完整发行版，一直并很好的控制并保持最小化（目前150MB）
LABEL	可以为镜像添加标签，以便更好的按照项目来组织镜像、记录License信息、辅助自动化。对于每个标签，以LABEL指令开头，后面跟随一个或者多个键值对信息。下面是一些示例： # 在同一行中声明多个标签 LABEL cc.gmem.version="0.0.1-beta" cc.gmem.release-date="2015-02-12" # 除了使用引号包围含有空格的字符串以外，还可以使用转义的方式： LABEL vendor=Gmem\ Studio
RUN	为了可读性、可维护性，应该把复杂的RUN语句编写在多行中，并用反斜杠分隔 apt-get 大部分RUN指令都是调用apt-get来安装软件包的。注意避免使用upgrade、dist-upgrade子命令，因为某些基本的软件包不能在非特权容器中升级。应当总是同时使用update子命令和install子命令，例如： RUN apt-get update && apt-get install pkg-bar 因为单独使用RUN apt-get update指令，会导致软件包元信息驻留Docker缓存，以后的构建可能不更新软件包元信息。当然，你也可以指定软件包版本，这也可能避免上述缓存问题一个RUN指令规范例子如下： # 在同一个指令中完成update和install RUN apt-get update && apt-get install -y \ # 按字典序排列软件包，便于维护 aufs-tools \ build-essential \ curl \ dpkg-sig \ ruby1.9.1 \ ruby1.9.1-dev \ s3cmd=1.1.* \ # 指定软件包版本 && rm -rf /var/lib/apt/lists/* # 清理apt缓存，减少镜像尺寸。 # 注：Docker官方提供的Debian/Ubuntu镜像自动运行apt-get clean，因此不需要这里的rm命令
CMD	该指令用于运行镜像中包含的软件，调用格式一般为： CMD ["executable", "param1", "param2"…] 对于那些作为服务的软件，应该让它在前端执行（而不是在fork出的子进程中执行），例如运行Apache时应该使用指令 CMD ["apache2","-DFOREGROUND" 对于大部分其它软件，CMD指令应该给出一个交互式的Shell，例如 CMD ["perl", "-de0"] 、 CMD ["python"]
EXPOSE	该指令声明容器用来监听外部连接的端口，你应该使用约定俗成的端口： # 暴露一个端口范围 EXPOSE 7000-8000 # 暴露一个端口 EXPOSE 8080
ENV	可以使用该指令更新PATH环境变量的值，以简化软件的调用。例如： ENV PATH /usr/local/nginx/bin:$PATH 可以让Nginx通过简单的指令 CMD [“nginx”] 运行。某些软件需要环境变量的设置，亦可通过该指令完成
ADD COPY	两者功能类似，COPY应该更优先使用，因为它比ADD简单直观。COPY仅支持将本地文件拷贝到容器内这样的基本操作，而ADD则支持一些高级特性：解压本地Tar到容器中远程URL支持最常见的需要使用ADD的场景是解压文件到镜像中： ADD rootfs.tar.xz /. 如果在Dockerfile中存在多个步骤需要复制文件，不要把它们合并到单个COPY指令中。这样做的原因还是缓存，分开COPY可以减少不必要的缓存失效
ENTRYPOINT	该指令最佳应用场景是设置镜像的main命令，让容器像一个可执行文件那样运行。你可以配合使用CMD指令，来指定main命令的默认选项： ENTRYPOINT ["s3cmd"] CMD ["--help"] 这样，你就可以运行镜像，而不指定需要执行的命令： # 这里的s3cmd是镜像名，而不是s3cmd命令 docker run s3cmd # 效果上等同于docker run s3cmd s3cmd --help # 你也可以传递任何其它选项 docker run s3cmd ls s3://gmem 由于镜像名、命令名相同，省略了其中之一的效果，就好像docker run在直接执行一个命令也可以将ENTRYPOINT设置为一个脚本文件的路径： ENTRYPOINT ["/docker-entrypoint.sh"] ，此脚本中的 $@ 对应docker run imgname后面的整个参数数组
VOLUME	使用该指令暴露所有数据库的存储区域、配置文件的存储、以及容器创建的文件/目录，总之，所有容易变化的文件系统部分，都应该使用该指令暴露
USER	如果容器运行的服务不需要特权，则应该使用该指令指定一个非root用户，但是注意要在Dockerfile中预先添加这样的用户，例如： RUN groupadd -r postgres && useradd -r -g postgres postgres 注意：自动分配的UID/GID在多次的镜像构建之间并不保持唯一，因此你最好手工指定UID/GID 避免安装/使用sudo，因为其不确定的TTY、信号转发行为会导致一些问题。如果必须使用类似于sudo的功能，可以安装gosu
WORKDIR	为了简洁、明确，使用WORKDIR指令时，应该总是使用绝对路径。应该使用WORKDIR来代替任何 RUN cd … && do-sth 风格的指令

存储驱动

要有效利用Docker的存储机制，首先需要搞清楚它是如何构建、存储镜像的，然后要理解镜像是如何被容器使用的。

镜像与层

一个镜像文件由一系列层层叠加的、只读的层（Layers）构成，这些层共同组成了镜像的根文件系统。Docker的存储驱动负责管理这些层，对外提供单一的文件系统视图。

当你创建一个容器时，Docker会在镜像的层叠之上，添加一个薄的、可读写的容器层（container layer）。容器运行过程中对文件系统的任何更改（增加、修改、删除文件），都持久化到容器层中。

所有镜像、容器的层都位于本地文件系统中，由存储驱动管理。在Linux下，默认存储目录为/var/lib/docker/。

下图是基于Ubuntu:15.04的容器的文件系统层叠示意图：

内容寻址存储

Docker从1.10开始，引入了一个新的内容寻址存储（Content addressable storage，CAS）模型。该模型提供了在磁盘上寻址镜像、层数据的全新方法。在此之前，镜像、层数据使用随机的UUID来引用和存储，CAS则使用内容哈希值（content hash）来引用镜像、层数据。

CAS增强了安全性，内置了防止ID冲突的机制，并且能在pull、push、load、save操作后保证数据完整性。它也提供了更好的层共享机制——允许很多镜像自由的共享层，即时这些层来自不同的构建。

使用CAS后，所有层的ID均变成基于其内容的哈希值。但是，容器的ID仍然是随机的UUID。

这一变化导致，从老版本的Docker升级到1.10后：

既有镜像需要迁移：由于层ID的生成规则发生变化，老版本Docker从仓库Pull下来的镜像的ID必须重新生成。新版本的Docker守护程序在初次运行时会自动执行这一迁移操作。迁移操作完毕后，所有镜像、标签具有新的secure IDs。如果本地镜像非常多，迁移操作可能消耗很长的时间才能完成，这期间Docker守护程序无法响应外部请求

容器与层

从存储角度来看，镜像与容器的主要区别就在于后者的Layer栈顶部包含一个薄的可读写层。当容器创建后，该读写层一同创建；当容器删除后，该读写层也被删除；容器运行时，所有对文件系统的变更都落到这个读写层中。

由于一个镜像的所有容器具有自己的可读写层，因而它们能够安全的共享底层的镜像。Docker的存储驱动负责管理所有的层（不管是镜像还是容器的），如何管理取决于具体的驱动，但是两个关键技术是通用的：1、可层叠镜像层（stackable image layers）；2、copy-on-write

copy-on-write策略

这个策略在软件系统中很常见。例如在操作系统中，两个使用相同数据块的进程，可以安全共享数据块的单份拷贝。只有当其中一个进程需要对共享数据进行修改（而另外一个进程不进行修改）时，才需要共享数据的额外拷贝。

Docker同时对镜像、容器使用此CoW策略，以便节约存储空间并缩短容器启动时间。CoW依赖于存储驱动的支持，不是所有驱动支持CoW。

共享：更小的镜像

执行pull/push子命令时，Docker客户端会报告其操作的Layer：

docker pull ubuntu:15.04
# 9502adfba7f1: Pull complete 
# 4332ffb06e4b: Pull complete 
# 2f937cc07b5f: Pull complete 
# a3ed95caeb02: Pull complete 
# Digest: sha256:2fb27e433b3ecccea2a14e794875b086711f5d49953ef173d8a03e8707f1510f
# Status: Downloaded newer image for ubuntu:15.04

可以看到，拉取Ubuntu镜像时，实际上下载了4个Layer，它们共同组成了完整的系统镜像。

如果使用AUFS驱动，在1.10版本之前，Layer以其ID为目录名，存放在本地存储的子目录/var/lib/docker/aufs/layers中。

不管Docker引擎的版本是多少，相同的Layer都会被共享，而不是重新拉取。

拷贝：高效的容器

前面提到，对容器文件系统的所有修改都写在一个薄的顶部层中，来自镜像的层都是只读的，这意味着多个容器可以共享一个镜像。

当容器修改了一个文件后，Docker利用存储引擎来执行CoW策略，具体细节取决于引擎。对于AUFS、OverlayFS这两种存储引擎来说，CoW的大概步骤如下：

从顶层向下，逐层寻找，定位到被修改的文件
将找到的文件拷贝（Copy-up）到顶部的可写层
修改位于可写层中的文件副本

Copy-up操作可能带来重大的性能影响，影响程度取决于存储驱动。但是过大的文件、过多的层、过深的目录树都会加重影响程度。不过Copy-up操作对一个文件至多发生一次。

CoW让容器共享镜像，这一方面让容器本身的尺寸很小，另一方面则让容器高效的创建、执行，因为不需要牵涉到太多的I/O操作。

数据卷与存储驱动

当容器被删除后，所有没有存储在数据卷（Data volume）中的数据都会被删除。数据卷是宿主机上的一个目录或者文件，它被直接挂载到容器的目录树中。

多个容器可以共享数据卷，但是要注意并发修改的问题。

数据卷不受存储驱动的控制，对其进行的I/O操作绕过存储驱动，直接由宿主机执行，其速度和宿主机上普通I/O操作一样快。

存储驱动选型

可拔插存储驱动架构

为了基于实际运行环境选择最好的驱动，Docker设计了可拔插的存储驱动架构。存储驱动基于一个Linux文件系统或者卷管理器，它们可以自由的实现镜像/容器Layer的管理。

在决定使用哪种驱动后，你需要设置Docker守护程序的启动参数。修改/etc/default/docker中的DOCKER_OPTS，添加

--storage-driver=

选项。

注意一个Docker守护程序同时只能使用一种存储驱动。执行命令：

docker info | grep "Storage Driver"
# Storage Driver: aufs

可以看到当前使用的存储驱动。上例中的aufs为存储驱动的名称，存储技术与存储驱动名称对照表如下：

存储技术	存储驱动名称	说明
OverlayFS	overlay overlay2	内核的一部分，速度最快的UnionFS。支持页共享缓存，多个容器访问同一个文件时，可共享相同的页面缓存，因而其内存利用效率很高 overlay2是overlay的升级版，在4.0内核之后，添加额外的特性，防止过多的索引节点（inode）消耗
AUFS	aufs	Ubuntu/Debian系统默认的存储驱动，历史悠久、稳定允许容器之间共享公共库的内存，因此如果有千百个相同的容器，其内存效率比较高
Btrfs	btrfs
Device Mapper	devicemapper	Redhat/Fedora系统默认的存储驱动 Device Mapper是内核中支持LVM的通用设备映射机制，它为块设备驱动提供了一个模块化的内核架构基于块设备而非文件系统，内置配额支持，其它驱动则不支持
VFS	vfs
ZFS	zfs

共享存储与存储驱动

许多企业使用SAN、NAS之类的共享存储技术以提高性能和可靠性，或者实现Thin Provisioning（避免预分配过多的容量）、数据复制、压缩等高级特性。

Docker存储驱动、数据卷均可以在这些共享存储系统之上工作，但是Docker不能直接与底层的共享存储技术集成。你需要选择与共享存储技术匹配的存储驱动。

存储驱动对比

Overlay与Overlay2

OverlayFS是目前使用比较广泛的层次文件系统，实现简单，读写性能较好，并且稳定。

与OverlayFS相关的存储驱动有两个：overlay、overlay2。前者的缺陷包括inode耗尽和commit performance，后者就是为了解决这两个问题而生，但是需要4.0或者更高版本的Linux内核。

AUFS驱动

AUFS是第一个出现的Docker驱动，它非常稳定，在生产环境下有很多部署案例，并且社区支持很好。AUFS的优势包括：

容器启动时间短
存储利用效率高
内存利用效率高

对于PaaS或者其它需要高密度容器实例的应用场景，AUFS是很好的选择。但是由于CoW策略，第一次写文件操作可能带来很大的开销。

由于AUFS不在Linux内核主线中，因此某些发行版不会自带AUFS，需要手工下载和安装。

安装与配置

要验证当前系统是否支持AUFS，可以执行命令：

cat /proc/filesystems | grep aufs

如果上述命令没有输出，先确保你的内核版本高于3.13，并参考如下命令安装：

sudo apt-get install linux-image-extra-$(uname -r) linux-image-extra-virtual

安装完毕后，修改Docker守护程序的参数：

sudo dockerd --storage-driver=aufs

上面的参数修改不是持久化的，要永久的修改，需要打开Docker配置文件，添加：

DOCKER_OPTS="--storage-driver=aufs"

镜像分层与共享

AUFS是一种联合文件系统（UFS），它管理单个Linux宿主机上的多个目录，并将其叠加在一起，在单个挂载点形成统一的视图。与UnionFS、OverlayFS类似，AUFS是一种union mounting实现。AUFS管理的每个Linux宿主机目录称为联合挂载点（union mount point）或者分支（branch）。

AUFS的思想与Docker的Layer机制天然吻合——每个branch对应一个镜像/容器的Layer。Copy-up操作实质上就是在宿主机文件系统的不同目录之间复制文件。

容器读写

由于AUFS在文件级别上操作，这意味着，即使在仅仅修改文件一小部分的情况下，CoW操作也需要复制整个文件。因此，当写入一个体积很大的文件时，AUFS会遭遇一次性的性能问题。

当删除文件时，AUFS在顶层Layer添加一个所谓without文件，该文件命名为

.wh.filename

，用来标记目标文件在容器中被删除。

本地存储

使用AUFS时，镜像、容器的文件默认被存放到dockerd所在机器的/var/lib/docker/aufs/目录下。

网络配置

默认网络

安装Docker之后，会自动创建bridge、none、host这三个网络，可以通过命令

docker network ls

查看。如果启动容器时不指定

--network

参数，默认使用bridge网络，bridge在宿主机网络栈中映射为docker0。none表示容器不连接到任何网络，其本地网络设备仅仅lo这个环回网卡。host网络则把容器添加到宿主机网络栈中，在容器中执行ifconfig你会看到输出与宿主机一致。

在三个默认网络中，通常你只会和bridge做交互。这些网络不能被删除，因为Docker本身需要使用。

你可以创建其它自定义网络，并在不需要的时候删除它们。

自定义网络

为了更好的隔离容器，可以创建自定义网络。利用Docker提供的网络驱动，你可以创建桥接（Bridged）、重叠（Overlay）、MACVLAN等类型的网络。

自定义网络可以创建多个，每个容器也可以加入到多个网络中。容器仅仅能在网络内部而不能跨网络通信。当容器连接到多个网络时，其外网连接性由第一个（词法序）具有外部连接能力的网络提供。

桥接网络

Linux内核支持虚拟网桥，可以连接多个网络接口，功能类似于交换机。

在自定义网络中，桥接是最简单的一种。添加到桥接网络的容器，必须位于同一台宿主机上。网络中的所有容器可以相互通信，但是这些容器不能访问外部网络。

与Docker0不同，自定义桥接网络不支持--link。但是你可以暴露/发布容器的端口，这样桥接网络的一部分可以被外部访问。自定义桥接网络嵌入了DNS服务器，容器之间可以通过名字访问。

当你需要基于单宿主机建立一个简单的网络时，可以考虑自定义桥接网络。

桥接网络的示例：

docker network create -d bridge --subnet=172.21.0.0/16 --gateway=172.21.0.99 local

docker_gwbridge

这个特殊的本地桥接网络，在以下两种情况下，由Docker自动创建：

当你初始化或者加入到一个swarm时，Docker创建docker_gwbridge，以便跨主机的进行swarm节点之间的通信
如果容器所加入的任何网络都不具有外部连接性，Docker把容器连接到docker_gwbridge

你可以提前手工创建docker_gwbridge网络，进行定制化配置。

当使用overlay网络时，docker_gwbridge总是存在。

覆盖网络

利用Overlay网络可以跨越多台宿主机组网。

基于swarm

在swarm模式下运行Docker引擎时，你可以在管理节点上创建overlay网络，这种网络不需要外部的key-value存储。

swarm可以让overlay网络仅仅对需要它以提供一个服务的swarm节点可用。当你创建一个使用overlay网络的服务时，管理节点会自动扩展overlay网络以覆盖运行服务的节点。

下面的命令示例如何在swarm管理节点创建overlay网络，并在服务中使用它：

# 创建一个overlay网络
docker network create --driver overlay --subnet 10.0.9.0/24 my-multi-host-network
# 创建一个Nginx服务，并把刚刚创建的网络扩展到运行Nginx服务的那些节点
docker service create --replicas 2 --network my-multi-host-network --name my-web nginx

注意：这种overlay网络对docker run启动的容器是不可用的，目标容器必须是swarm模式服务的一部分。

基于swarm模式的overlay网络默认具有安全保证。swarm节点使用gossip协议来交换overlay网络的信息，并且使用GCM模式的AES算法加密gossip协议，管理节点默认每12小时更换密钥。

如果要加密容器通过overlay网络交换的信息，需要使用选项：

docker network create --opt encrypted --driver overlay  nw

上述命令将自动为参与到overlay网络的节点创建IPSEC通道，这些通道也使用GCM模式的AES算法，每12小时更换密钥。

基于外部KV存储

此方式的overlay网络与swarm模式的overlay网络不兼容。主要用于需要考虑兼容性的场景。

当不在swarm模式下使用Docker引擎时，启用overlay网络依赖于外部key-value存储的支持，这些存储包括Consul、Etcd、ZooKeeper。你需要手工安装这些存储，并确保它们可以和Docker宿主机自由通信。

宿主机必须开启4789、7946端口。如果启用加密的overlay网络（--opt encrypted）则需要允许protocol50(ESP)流量。此外KV服务也需要暴露端口。

各宿主机上的Docker引擎守护程序，需要配置dockerd选项以支持overlay网络：

选项	说明
--cluster-store=PROVIDER://URL	指名KV服务的位置
--cluster-advertise=HOST_IP\|HOST_IFACE:PORT	指定用于集群的宿主机网络接口
--cluster-store-opt=KEY-VALUE OPTIONS	指定KV服务的配置项

Macvlan网络

这种网络不同于overlay，可以把容器直接暴露到物理网络中。

首先，创建网络：

# 设置目标网卡为混杂模式
sudo ip link set virbr0 promisc on
# parent指定桥接到的宿主机网卡，以及子网信息
docker network create -d macvlan --subnet=10.0.0.0/8 --gateway=10.0.0.5  -o parent=virbr0 virbr0

然后，运行容器：

docker run -it --rm --network=virbr0 --ip=10.0.0.100 ubuntu:14.04

注意，如果不指定IP，则容器的IP会从当前网段的192.168.0.2开始分配，不管是否被占用。

网络别名

--link与出站解析

连接到默认桥接网络，且以--link选项创建容器时：

可以解析其它容器的名字为IP
可以为其它容器指定任意别名：
```
--link=CONTAINER-NAME:ALIAS
```
安全容器连接，即--icc=false
环境变量注入

当使用自定义桥接网络时，上述特性默认启用，不需要额外的选项。并且你可以：

基于网络内嵌的DNS服务器进行容器名到IP的解析
使用--link（仅用来）指定别名

link选项的示例：

# 创建容器，连接到isolated_nw，并且当前容器访问container5时可以使用别名c5
docker run --network=isolated_nw -itd --name=container4 --link container5:c5 busybox
# 在连接到某个网络时，也可以指定link选项
docker network connect --link container5:foo local_alias container4

--network-alias

与--link不同，该选项可以指定当前容器在网络中的别名，网络中的其它容器都可以使用该别名：

docker run --network=isolated_nw -itd --name=container6 --network-alias app busybox

多个容器可以声明相同的别名，这种情况下，其中一个容器（随机）会响应DNS解析。当该容器宕掉后，其它同名容器自动响应解析。这个特性可以用来实现简单的高可用性。

自定义网络中的DNS

自定义网络中的容器的DNS查找行为与默认bridge网络不同，处于向后兼容的目的，后者的行为与旧版本保持一致。

自1.10版本开始，Docker守护程序嵌入了DNS服务，此服务支持基于容器link、name、net-alias配置的DNS查找。容器还可以通过--dns等选项来指定外部DNS服务器，当内嵌DNS服务器无法解析某个主机名时，会转给外部DNS处理。

资源限制

默认情况下，容器不被施加资源限制，可以使用宿主机内核调度器允许的最大资源。Docker提供了控制内存、CPU、块I/O用量限制的方法。

内存

你可以为容器施加硬性内存限制，确保容器不占用超过特定值的用户/系统内存。你也可以施加软性限制，允许容器按需使用内存，但当特定条件（例如内核检测到宿主机内存过低）发生时，限制容器内存占用。

内存限制通过docker run命令的选项给出，这些选项的值都是正整数，后面可以跟着b/k/m/g等单位：

选项	说明
-m --memory	限制容器能够使用的最大内存量，最小值4m
--memory-swap	该容器可以被交换到磁盘的内存的量
--memory-swappiness	0-100之间，允许宿主机交换出容器使用的匿名页的百分比
--memory-reservation	指定一个小与-m的软限制，当Docker检测到宿主机存在内存争用、内存低下情况时，限制容器使用不超过此数值的内存
--kernel-memory	限制容器能够使用的最大内核内存，最小值4m。注意内核内存不能被换出
--oom-kill-disable	默认情况下内存溢出错误发生后，Docker会杀死容器中的进程，此选项禁用该默认行为

CPU

默认的，容器可以无限制的使用CPU时钟周期。Docker提供了若干选项，对容器的CPU使用进行限制。这些选项支持CFS调度器，自1.13开始实时调度器也支持某些选项。

CFS相关选项

CFS是用于大部分Linux进程的调度器，Docker提供以下容器选项：

选项	说明
--cpus	指定容器可以使用多少CPU资源。如果宿主机具有2个CPU，你可以设置该选项为1.5表示容器最多使用1个半CPU的运算能力 --cpus=1.5和配置--cpu-period="100000" --cpu-quota="150000"等价
--cpu-period	指定CFS调度周期数
--cpu-quota	指定CFS调度配额数
--cpuset-cpus	限制容器能够使用的CPU核心，0-3表示可以使用第1-4个CPU核心，1,3表示可以使用第二个、第四个
--cpu-shares	默认值1024，设置更大或者更小的值，可以调整容器可以访问的CPU时钟周期的相对权重如果足够的空闲CPU周期存在，此选项不会限制容器的CPU使用在Swarm模式下，该选项不会限制容器被调度

实时调度器相关选项

自1.13版本开始，Docker支持配置容器使用实时调度器。作为前提条件，宿主机内核选项CONFIG_RT_GROUP_SCHED必须开启。

要使用实时调度器运行容器，需要设置dockerd选项

--cpu-rt-runtime

来指定在某个运行周期内，为实时任务保留的毫秒数。对于默认的10000微秒周期，设置--cpu-rt-runtime=95000意味着至少保留5000微秒给非实时任务使用。

相关配置选项：

选项	说明
--cap-add	授予容器CAP_SYS_NICE特性，这样容器可以提升进程的nice值、设置实时调度策略、设置CPU关联性（affinity）
--cpu-rt-runtime	在Docker守护程序的实时调度周期内，容器最多可以使用的微秒数
--ulimit	容器的最大实时优先级

多进程容器

典型的容器在启动时，仅仅会发动一个进程——例如Apache或者SSH守护进程。要在容器中运行多个服务，你可以编写脚本，或者使用进程管理工具。

Supervisor是一个流行的进程管理工具，使用它可以更加方便的控制、管理、重启容器中的进程。本章以一个例子来说明如何使用Supervisor来管理容器中的多个服务。

Dockerfile

# 安装Supervisor和两个服务
RUN apt-get update && apt-get install -y openssh-server apache2 supervisor
# 守护进程需要的目录
RUN mkdir -p /var/lock/apache2 /var/run/apache2 /var/run/sshd /var/log/supervisor
# 复制Supervisor配置文件到容器上下文
COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf
# 暴露端口
EXPOSE 22 80
# 容器启动时执行supervisord
CMD ["/usr/bin/supervisord"]

Supervisor配置文件

该配置文件内容如下：

; 第一段，配置Supervisor本身
; nodaemon提示Supervisor以交互式运行，而不是守护式。这样可以确保它可以正常接收信号
[supervisord]
nodaemon=true

; 以下的每个段，分别定义一个需要被控制的服务
[program:sshd]
command=/usr/sbin/sshd -D

[program:apache2]
command=/bin/bash -c "source /etc/apache2/envvars && exec /usr/sbin/apache2 -DFOREGROUND"

运行时度量

docker stats

该命令可以实时监控容器的CPU、内存、网络、块I/O资源的占用情况。

控制组Cgroup

Linux容器所依赖的内核机制——控制组（Cgroups），不仅仅支持跟踪进程组，还暴露了度量CPU、内存、块I/O的接口。

控制组通过一个伪文件系统

/sys/fs/cgroup

暴露，每一个子目录对应了一种Cgroup层次（子系统）。某些老的系统挂载位置可能有不同，你可以执行

grep cgroup /proc/mounts

命令以查看。

在每个子系统内部，可以存在多级子目录。这些目录的最深处，会包含1-N个伪文件，其中包含了统计信息。

查看文件/proc/cgroups可以查看系统中已经支持的Cgroup层次。输出中包含Cgroup子系统名称、包含的组数量等信息。

查看文件/proc/$PID/cgroup可以查看某个进程所属的Cgroup。输出 / 表示没有划分到特定的Cgroup，/lxc/pumpkin可能意味着进程属于容器pumpkin的成员。

内存度量

子系统memory提供内存的统计信息。由于memory控制组会增加一定的overhead，因此某些发行版默认情况下禁用了它。你可能需要添加内核参数：

cgroup_enable=memory swapaccount=1

该子系统对应的伪文件是memory.stat。不包含total_前缀的数据项，与当前Cgroup中的进程有关，包含total_d前缀的数据项，则与当前Cgroup、所有子代Cgroup中的进程有关。

常用数据项列表如下：

度量	说明
cache	使用的系统缓存量，这些缓存代表映射到块文件系统中的内存页。当你读写文件（open/write/read系统调用）、进行内存映射（mmap系统调用）、挂载tmpfs时，该数据项值增加
rss	没有映射到块文件系统的内存页，包括栈、堆、匿名内存映射
mapped_file	Cgroup中进程映射的内存的量
pgfault, pgmajfault	Cgroup中进程触发页错误（page fault）、页major fault的次数当进程访问不存在（例如访问无效地址，这可能导致进程接收附带Segmentation fault消息的SIGSEGV信号进而被杀死）、或者被保护（进程读取当前已经被换出的页）的虚拟内存空间时，会触发页错误 Major错误在内核真实的从磁盘读取页时发生
swap	Cgroup中进程当前使用的交换文件大小
active_anon, inactive_anon	被内核识别为活动、非活动的匿名内存的量。所谓匿名内存是指没有和磁盘页关联的内存页一开始的状态是活动的，内核会定期扫描内存，并把某些页标记为非活动。一旦这些页再次被访问，立即重新标记为活动。当内存不足需要交换出磁盘时，非活动页被交换出 rss = active_anon + inactive_anon - tmpfs
active_file, inactive_file	被内核识别为活动、非活动的非内存的量 cache = active_file + inactive_file + tmpfs
unevictable	不可交换出磁盘的内存用量。某些敏感信息，例如密钥，会被mlock保护，防止被交换到磁盘上
memory_limit, memsw_limit	不是真正的度量信息，而是应用到Cgroup的资源限制。前者为物理内存用量限制，后者为物理内存+Swap

CPU度量

该子系统对应的伪文件是cpuacct.stat，包含容器中进程累计的CPU使用信息。user、system分别表示用户空间、系统空间中代码消耗的时间。时间的单位为jiffies，在X86上通常为10ms。

块I/O度量

度量	说明
blkio.sectors	Cgroup中进程读取/写入的512字节的扇区总数
blkio.io_service_bytes	Cgroup中进程读取/写入的字节数，每个设备包含4个数据，分别对应同步/异步的读/写
blkio.io_serviced	Cgroup中进程读取/写入操作次数，每个设备包含4个数据，分别对应同步/异步的读/写
blkio.io_queued	Cgroup中进程发起的、正在排队的I/O操作数量。如果Cgroup没有执行任何I/O操作，则计数为0，如果Cgroup正在执行IO操作，计数可能为0——例如正在空闲设备上执行纯同步操作注意此计数是一个相对值。可以用来判断哪个容器在给IO系统施加压力

网络度量

Cgroup没有直接暴露网络度量信息。尽管内核可以计算出一个Cgroup中进程收发的网络包数量，但是意义不大。你可能需要基于网络接口的度量，因为lo接口上的流量没有太大价值。

单个Cgroup中的进程可以属于多个网络名字空间（ network namespace），多个网络名字空间意味着多个lo甚至eth0，这导致难以收集Cgroup的网络流量。

你可以基于iptables规则设置计数器，然后使用命令获取度量。

获取网络接口级别的度量信息是可能的，因为每个容器都关联了宿主机上的一个虚拟以太网接口。但是难以知道这些接口和容器的对应关系。

命令

ip netns exec

允许你在宿主机上，进入任意网络名字空间，执行任意命令。这意味着宿主机可以进入容器的网络名字空间。参考如下命令：

# $CID为容器ID，TASKS为容器下进程的PID列表
TASKS=/sys/fs/cgroup/devices/docker/$CID*/tasks
PID=$(head -n 1 $TASKS)
# 创建后面命令需要的符号连接
mkdir -p /var/run/netns
ln -sf /proc/$PID/ns/net /var/run/netns/$CID
# 在容器的网络名字空间下执行netstat命令
ip netns exec $CID netstat -i

容器所属的Cgroup

对于每一个容器，在每一个Cgroup子系统中均会创建一个与之对应的组。

如果使用最近版本的LXC工具，Cgroup名字为lxc/$container_name。

对于使用Cgroup的Docker容器，Cgroup路径为/sys/fs/cgroup/$subsystem/docker/$longid/，其中longid为容器完整的ID。

Swarm

简介

要使用Swarm模式，你可以安装1.12版本以上的Docker。Swarm模式用于管理Docker引擎的集群。你可以使用Docker CLI来创建Swarm、部署应用服务到Swarm、管理Swarm的行为。

特性列表

集成到Docker引擎的集群管理功能

你可以直接使用Docker CLI来管理Swarm，不需要额外的软件或者组件

去中心化设计

Docker引擎在运行时来处理节点角色的特殊化——Manager还是Worker，而不是在部署期间。你可以用单个镜像来部署整个Swarm

声明式服务模型

Docker引擎基于一种声明式的途径来定义你的应用栈中各种服务的期望状态。例如你可以声明式的描述由三个组件构成的应用：前端Web服务、消息队列服务、数据库

扩容（Scaling）

对于每一个服务，你可以声明你期望运行的任务数（Tasks）。当Scale up/down时Docker引擎会自动add/remove任务，以维持期望的状态

期望状态协调（Desired state reconciliation）

Swam管理节点会持续监控集群的状态，并且尽可能消除当前状态与期望状态之间的差别。例如，假设你定义一个运行容器10个实例的服务，而一台运行2个实例的宿主机宕机了，此时管理节点会自动创建两个实例代替之，并把实例分配给可用的Worker节点

跨主机网络支持

你可以为服务创建Overlay网络，管理节点会在初始化、更新应用程序时，自动为容器分配对应Overlay网络上的IP地址

服务发现

管理节点为Swarm中的每个服务分配唯一的DNS名称，你可以通过Swarm中内嵌的DNS进行服务查找

负载均衡

你可以选择暴露服务的端口给外部的负载均衡器。在内部，Swarm允许你指定如何在节点之间分发服务

安全性

Swarm中节点之间的通信基于TLS认证和加密。你可以使用自签名根证书

滚动更新（Rolling updates）

你可以增量的更新节点上的服务，Swarm允许控制不同节点集上服务部署的延迟。如果出现异常情况，你可以把一个Task回滚到上一个版本

关键概念

Swarm

基于SwarmKit构建的、内嵌在Docker引擎中的集群管理和编排机制。参与到Swarm集群中的Docker引擎运行在Swarm模式。要切换到Swarm模式，你可以新建一个Swarm、或者加入一个既有的Swarm

Swarm也可以指代基于上述机制的Docker引擎（或者叫节点）集群，你在Swarm中部署服务。CLI和Docker API包含管理节点、部署和编排服务的命令

在普通模式下，你执行容器命令；在Swarm模式下，你编排服务。在同一个Docker引擎下，你可以同时运行独立容器、Swarm服务

Node

节点即参与到Swarm中的Docker引擎。你可以在单台物理机器上运行一个或者多个节点。通常生产环境下Swarm由跨越多台物理机器的节点组成

要部署应用到Swarm，你需要把服务定义（service definition）到管理节点。管理节点负责分发称为任务（Task）的工作单元给Worker节点

管理节点也负责执行服务编排、集群管理功能，以维持集群处于期望的状态。管理节点们会推举一个Leader节点来主导编排工作

Worker节点接收、执行管理节点派发的任务，默认情况下管理节点也像Worker节点一样运行服务，但是你可以将其配置为Manager-only节点。Worker节点上运行着一个代理（Agent），此代理负责报告分配给Worker的Task的状态到Manager，这样Manager就可以维持期望状态

Service & Task

所谓Service，是关于需要在Worker节点上执行的Tasks的定义。服务是Swarm系统的核心结构，也是用户和Swarm交互的主要切入点

当定义服务时，你可以指定使用什么镜像，以及当运行容器时需要执行什么命令

在复制服务（ replicated services）模型下，Manager节点会基于你在期望状态中设置的Scale，分发一定数量的复制Task

对于全局服务（global services），Swarm在集群中每个可用节点上，运行此服务的单个Task

Task使用一个容器，并在其中执行特定的命令。Task是Swarm的原子调度单元。前面提到过，Swarm根据Service的Scale设定决定Task的数量并分发。分发的Task只能在某个节点上运行或者失败，而不能转移到其它节点

负载均衡

Swarm基于入口负载均衡（ingress load balancing ）暴露对外服务。你可以为服务配置PublishedPort，如果不指定Swarm可以自动分配30000-32767之间的端口

诸如云负载均衡器之类的外部组件，可以访问Swarm集群中任意节点的PublishedPort以使用服务，不管节点是否运行服务的Task。所有节点都会自动把入口连接路由到运行了Task的节点

Swarm基于内部负载均衡（internal load balancing）将请求分配给服务的实例，其依据是服务的DNS名称。Swarm内置的DNS组件会自动的给所有Service分配DNS条目

起步

硬件和网络

准备三台宿主机，一台用作Manager，其它的用作Worker。Swarm中所有节点都必须能够访问Manager的IP地址。以下端口必须开启：

端口	类型	说明
2377	TCP	此端口用于集群管理通信
7946	TCP/UDP	用于Overlay网络的流量传输
4789	UDP	用于容器入口路由网

创建Swarm

默认的，Swarm模式是禁用的。你可以创建新Swarm、加入既有Swarm，以使当前节点进入Swarm模式。

确保Docker引擎守护程序正在运行，然后登录到Manager节点，执行：

docker swarm init --advertise-addr 10.0.0.1

这样当前节点就称为新建Swarm集群的管理节点了。管理节点使用通知地址（advertise address）来允许集群中其它节点访问Swarmkit API以及Overlay网络，因此IP地址10.0.0.1必须可以被所有其它节点访问到。如果宿主机具有单个IP地址，你可以不指定--advertise-addr，反之则必须指定。

执行docker info，可以看到当前Swarm的基本信息；执行docker node ls则可以看到集群中的节点列表。

添加节点

首先在Manager节点上执行：

# 获取Worker的加入令牌
docker swarm join-token worker --quiet
# 输出  SWMTKN-1-5evgfnqh3xw67rtqucyq3cctxb929sqwfczv8s1gtz0cptpe5m-84evs0quy124fql5zcyxp7ppe

# 获取Manager的加入令牌
docker swarm join-token manager --quiet

登录到用作Worker节点的宿主机，执行：

docker swarm join --token SWMTKN-1-...-... 10.0.0.1:2377

作为工作节点加入时，swarm join子命令会执行以下操作：

把目标节点的Docker引擎切换到Swarm模式
向管理节点请求一个TLS证书
基于宿主机名来命名节点
通过管理节点的通知地址、基于令牌加入目标节点到集群中
设置目标节点的可用性为Active，使之能够接收Task
扩展ingress overlay网络，使之覆盖当前节点

作为管理节点加入时，执行的操作与上面类似。新的管理节点状态为Reachable，但是Swarm的Leader不变。

所谓令牌，是加入Swarm时需要的一个字符串，作为管理节点/工作节点加入时的令牌是不一样的。管理节点的令牌要特别注意保护。当发生以下情况下，考虑使用join-token子命令更改（rotate）令牌：

令牌被意外泄漏，例如签入到版本控制系统
如果怀疑某个节点被入侵
如果期望禁止任何可能的新节点加入到Swarm
建议最多每6个月更换令牌

下面的命令示例如何更换工作节点令牌：

docker swarm join-token  --rotate worker

查看节点

在管理节点上运行

docker node ls

可以查看Swarm中所有节点的基本信息。

输出的AVAILABILITY列表示节点的可用性：

可用性	说明
Active	调度器可以分配任务给此节点
Pause	调度去不会分配新任务给此节点，但是既有的任务会保持运行
Drain	调度去不会分配新任务给此节点，并且节点上正在运行的任务会被停止，重新分配到Active节点上运行

输出的MANAGER STATUS表示节点参与Raft consensus的情况：

管理节点状态	说明
Leader	此节点是主管理节点，负责所有Swarm管理工作、编排决定
Reachable	此节点参与Raft consensus，如果当前的主管理节点宕机，此节点有望晋升
Unavailable	此节点无法和其它管理节点通信。这种情况下你要么重新添加一个管理节点，要么提升一个工作节点为管理节点

部署服务

所谓服务就是在特定镜像上执行的命令，而任务即服务的实例，任务的数量即服务的replicas个数。

在管理节点上运行：

docker service create --replicas 4 --name ping ubuntu:14.04 ping 10.0.0.1

即可创建在Ubuntu 14.04上运行ping命令的服务，这个服务有4个实例（Task）。

执行下面的命令可以查看任务执行的概要信息：

docker service ls

# ID            NAME  REPLICAS  IMAGE         COMMAND
# 48qbjfwd8u8r  ping  1/4       ubuntu:14.04  ping 10.0.0.1

如果想让服务对Swarm外部可见，你需要暴露特定的端口。

你可以设置服务的环境变量、工作目录、运行身份：

docker service create --name ping --env MYVAR=myvalue --workdir /tmp  --user my_user  ...

使用--secret选项，可以授予服务对Docker管理的Secret的访问权。

查看服务

可以执行以下命令查看服务执行的详细信息：

docker service inspect --pretty  ping
docker service ps  ping

扩容服务

在管理节点上执行下面的命令，可以动态的修改服务的任务数量：

docker service scale ping=1

删除服务

在管理节点上执行下面的命令可以删除服务：

docker service rm ping

注意，尽管服务被删除，执行Task的容器可能还需要一段时间执行清理工作

滚动更新

所谓滚动更新，是指逐步的更新服务的每个实例。下面的例子演示如何从Redis 3.0.6滚动更新到Redis 3.0.7。

首先创建服务：

docker service create  --replicas 3   --name redis   --update-delay 10s  --update-parallelism 1 redis:3.0.6

选项--update-delay定义了更新一个/一组任务的延迟时间，你可以使用10m30s这样的形式。默认情况下是一个接着一个的更新，要每次更新多个Task可以使用选项--update-parallelism。

默认情况下，当正在更新的任务状态变为RUNNING后，调度器会调度下一个任务的更新，此步骤一直执行直到所有任务都被更新，如果更新过程中任何一个任务返回FAILED状态，则调度器暂停更新。选项--update-failure-action可以改变此行为。

执行下面的命令把Redis版本更改为3.0.7：

docker service update --image redis:3.0.7 redis

# 更新步骤：
# 1、停止第1个任务
# 2、调度此任务的更新操作
# 3、启动被更新过的任务
# 4、如果新任务返回RUNNING，继续更新下一个任务
# 5、如果新任务返回FAILED，暂停更新

要重启被暂停的更新，可以执行：

docker service update redis

回滚服务

如果更新后的服务工作不正常，你可以回滚到前一个版本：

# --rollback 回滚服务
# --update-delay 0s 立即回滚
docker service update --rollback --update-delay 0s my_web

Overlay网络

当Swarm中的几个服务需要相互通信时，可以使用Overlay网络。

首先，在Swarm模式下的管理节点上创建Overlay网络：

docker network create --driver overlay my-network

这样，所有管理节点都可以访问该Overlay网络了。创建服务：

docker service create  --replicas 3 --network my-network --name my-web nginx

这样，所有运行my-web服务的Task的节点，都被Overlay网络覆盖。

Drain节点

前面例子中的Worker节点，其可用性（availability）都是ACTIVE。Manager节点可以向ACTIVE派发任务。

某些时候（例如需要维护节点硬件），需要把可用性设置为DRAIN。DRAIN阻止管理节点派发新的任务，并且，停止DRAIN节点上正在运行的任务，在可用的ACTIVE节点上启动对应数量的任务副本。

执行下面的命令可以查看节点可用性：

docker node ls

# ID                           HOSTNAME  STATUS  AVAILABILITY  MANAGER STATUS
# 5imye5fakqgdd7jg6erkize8a    coreos    Ready   Active        
# ap7gwtam1jjqvp3h4arco6vdz *  Zircon    Ready   Active        Leader
# bfini24kw83rzrh2e5cb33g8f    Jade      Ready   Active

执行下面的命令可以设置DRAIN：

# 可以使用HOSTNAME或者ID
docker node update --availability drain  coreos

维护完成后，重新设置为ACTIVE：

docker node update --availability active coreos

入口路由网

为了让外部资源能够轻松的访问Swarm中的服务，Docker引擎提供了方便的端口暴露机制。所有Swarm节点均参与到一个入口路由网（Ingress Routing Mesh），此路由网允许Swarm中的任意节点接收某个服务暴露端口的请求——甚至在节点没有运行此服务的任务的情况下。路由网负责把对暴露端口的请求路由到活动的服务容器中。

要正常使用入口路由网，需要确保TCP/UDP端口7946、UDP端口4789开放。当然，Swarm服务暴露的端口也需要被外部资源（例如负载均衡器）正常访问。

暴露端口

要暴露端口，可以在创建服务时使用

--publish PUBLISHED-PORT:TARGET-PORT

选项。其中TARGET-PORT是运行服务实例（Task）的容器监听的端口，PUBLISHED-PORT则是Swarm对外暴露的端口。示例：

# 暴露端口8080，此端口自动转发给my-web服务运行节点上的80端口
docker service create --name my-web  --publish 8080:80 --replicas 2  nginx

对于已经存在的服务，可以在更新时指定

--publish-add PUBLISHED-PORT:TARGET-PORT

选项来新增暴露端口。

暴露的端口，默认是TCP端口，可以使用以下格式指定TCP或者UDP端口：

# TCP
--publish 53:53
--publish 53:53/tcp
# TCP和UDP
--publish 53:53/tcp -p 53:53/udp 
# UDP
--publish 53:53/udp

直接暴露端口

使用入口路由网的端口暴露机制，可能不满足应用需求。你可能需要根据应用程序状态来决定如何路由请求，或者你需要对路由处理过程进行完全的控制。

要直接暴露服务所在运行的节点上的端口，可以使用

--publish mode=host

选项。如果不和

--mode=global

联用该选项，将难以知晓哪些节点运行了服务。

更新镜像

在1.13版本之后，在服务创建之后你可以使用

service update --image

更改服务基于的镜像。较老的版本则只能重新创建服务。

每个镜像Tag对应了一个摘要（Digest），就像Git的Hash一样。某些标签，例如latest，其指向的摘要会改变。当你运行service update --image时，管理节点根据Tag到Docker Hub或者本地私服查询。如果：

管理节点能够把Tag解析为Digest，则指示工作节点使用Digest对应的镜像来重新部署任务
1. 如果工作节点已经缓存了此Digest对应的镜像，则使用之
2. 否则，从Docker Hub或者私服拉取镜像
  1. 如果拉取成功，基于新镜像部署任务
  2. 否则，服务在工作节点上部署失败。Docker会尝试重新部署任务（可能在其它节点）
管理节点不能够正常解析Tag，则指示工作节点使用Tag对应的镜像重新部署任务
1. 如果工作节点已经缓存了此Tag对应的镜像，则使用之
2. 否则，从Docker Hub或者私服拉取镜像
  1. 如果拉取成功，基于新镜像部署任务
  2. 否则，服务在工作节点上部署失败。Docker会尝试重新部署任务（可能在其它节点）

切换服务模式和Scale

可以使用--replicas选项设置服务的需要的任务数：

docker service create --name my_web --replicas 3 nginx

可以使用--mode选项设置服务是全局模式还是复制模式：

docker service create --name myservice --mode global alpine top

为服务预留内存和CPU

选项

--reserve-memory

和

--reserve-cpu

用于声明服务要求的空闲内存、CPU数量。如果节点不满足条件，则不会被分配任务。

挂载配置

你可以为Swarm服务创建两种类型的挂载：volume、bind。要创建挂载，指定--mount选项，如果不指定--type，默认类型为volume。

卷挂载（volume）是当运行任务的容器被移除后，仍然存在的存储。要利用既有的卷时，通常使用此类型的挂载：

docker service create  --mount src=VOLUME-NAME,dst=CONTAINER-PATH --name myservice IMAGE

# 在部署期间（调度器分发任务后、启动容器前）创建一个卷挂载：
docker service create --mount type=volume,src=VOLUME-NAME,dst=CONTAINER-PATH,volume-driver=DRIVER,\
    volume-opt=KEY0=VALUE0,volume-opt=KEY1=VALUE1  --name myservice IMAGE

绑定挂载（Bind）映射到运行服务容器的宿主机。在Swarm初始化容器前，宿主机路径必须存在。示例：

# 挂载为读写
docker service create --mount type=bind,src=HOST-PATH,dst=CONTAINER-PATH --name myservice IMAGE
# 挂载为只读
docker service create --mount type=bind,src=HOST-PATH,dst=CONTAINER-PATH,readonly --name myservice IMAGE

绑定挂载很有用，但是也可能很危险：

由于任务可能被分配到任何满足条件的节点上，而绑定挂载要求路径预先存在
调度器可能在任何时候重新分配某个任务

管理节点

管理节点负责以下集群管理工作：

维护集群状态
调度服务
提供Swarm模式的HTTP API端点服务

基于Raft（一种算法），管理节点维护整个Swarm、所有运行中服务的一致性内部状态。

在测试环境下，你可以使用单管理节点，但是，一点此节点宕机，你需要重新创建Swarm才能恢复。

为了利用Swarm的容错特性，最好建立奇数节点数的管理节点。如果有多个管理节点，Swarm可以自动从管理节点宕机中恢复，没有downtime。当总计3个管理节点时，可以容忍1个宕机；当5个管理节点时，可以容忍2个宕机；当N个管理节点时，可以容忍(N-1)/2个管理节点宕机。Docker推荐每个Swarm中有7个管理节点。

工作节点

工作节点的唯一任务就是执行容器。默认的，管理节点同时也是工作节点。

要阻止派发任务给管理节点，可以将后者的可用性设置为Drain，调度器会优雅的停止Drain上运行的任务并且在其它节点上重新调度。

服务如何工作

要在Swarm模式下部署应用程序，你需要创建一个“服务”。通常情况下，服务是某个较大应用程序的上下文中的某个“微服务“，例如HTTP服务、数据库服务、或者任何形式的可执行程序。

当创建服务时，你需要指定使用什么镜像，以及在基于此镜像的容器中运行什么命令。你可以同时指定：

Swarm暴露的端口，这使得服务对外可用
让服务可以与Swarm中其它服务进行通信的Overlay网络
CPU和内存限额、预留
滚动更新策略
服务的复制（replicas）份数

服务/任务/容器

当你在Swarm中部署服务时，Swarm接受你给出的服务定义（service definition），作为目标服务的期望状态（desired state ）。之后，Swarm调度服务，形成在节点上运行的一个或N个任务。每个任务独立于集群中其它节点运行。

下面是具有三个Replica的HTTP服务的例子：

容器是一个被隔离的进程，在Swarm模式的模型中，每个任务调用仅一个容器。任务就好像是一个插槽，调度器将容器插入其中。一旦容器开始运行，调度器将任务设置为RUNNING状态；如果容器未通过健康检查、停止运行，则任务也被终结。

任务和调度

任务是Swarm调度的原子单元。当你通过创建/更新服务来声明服务的期望状态时，编排器（orchestrator）识别出被调度任务的期望状态——当你声明保持3个HTTP服务一直运行，编排器就会创建三个任务。

任务是一个插槽，调度器产生容器进程并填充到插槽。容器是任务的实例。任务是一种单向的机制，它从：已分配（assigned）、已准备（prepared）、正在运行（running）等一系列状态单向的前进。如果某个任务未通过健康检查或者终结，任务及其容器被编排器移除，新的副本任务以及对应的容器被创建，以满足期望状态。

Swarm模式底层组件包括了一般性用途的调度器、编排器。服务、任务的抽象实现，不理解容器这个概念。理论上你可以实现在非容器中运行的服务。

下图说明Swarm模式如何接受用户创建服务的请求，如何调度服务：

悬挂服务

可以配置服务未悬挂的（pending），这样Swarm中没有节点可以运行该服务的任务。如果你仅仅需要防止服务被部署，只需要Scale到0，而不是尝试让服务进入pending状态。

下列情况下，服务会变为pending：

如果所有节点被paused或者drained，那么新创建的服务会保持pending状态，直到某个节点可用。在实际情况下，第一个可用的节点会获得所有任务
你可以为任务保留一定量的内存，如果Swarm中所有节点都没有足够的内存，则服务保持pending状态

复制/全局服务

从部署份数的角度来看，服务可以分为复制（replicated）、全局（global）两种。

复制服务，由指定数量的任务构成。全局服务则在每个节点运行单个任务。

管理敏感数据

Swarm模式下，我们可以使用Docker secrets管理敏感数据。所谓Secret是指一块数据，存放密码、SSH私钥、SSL证书或者其它不应该通过网络传递、明文存放在Dockerfile中的信息。

Docker Compose

Compose是用于定义、运行多容器Docker应用程序的工具。通过编辑一个Compose文件，你可以配置应用程序的服务组件，然后，只需要单条命令，你就可以创建、启动所有需要的服务。

使用Compose通常包括以下三大步骤：

使用Dockerfile定义应用程序的环境，以便可以在任何地方重现
在文件docker-compose.yml中定义构成应用的服务组件，以便它们可以在一个隔离的环境下运行
最后，执行
```
docker-compose up
```
启动整个应用

特性列表

单个宿主机上的多个隔离环境

Compose使用工程名称（project name）来隔离环境，你可以在几个上下文中使用工程名称：

在开发机上，创建单个环境的多个副本
在持续集成（CI）服务器上，为了防止构建之间的相互干扰，你可以把构建号设置为工程名称
在共享主机/开发主机上，用于防止可能使用相同服务名的不同项目的相互干扰

工程名称默认为工程的目录名，你可以使用-p选项或者 COMPOSE_PROJECT_NAME 环境变量设置工程名称

在创建容器时保留卷数据

Compose会保留你的服务使用的所有卷。当执行docker-compose up时，如果发现某个容器之前运行过，则将其卷复制给新容器实例，确保你在卷中的数据不丢失

仅重建变化了的容器

Compose会缓存用于创建容器的配置信息，当你重启一个没有变化的服务时，它的容器会被重用，而不是重新创建

支持变量

你可以在Compose文件中设置变量，以便为不同的运行环境定义服务组合

应用场景

Compose的典型应用场景包括：

开发环境

在开发软件时，能够在隔离环境中运行应用程序，并与之交互很关键。Compose很适合创建这样的环境

Compose文件能够配置应用程序的所有依赖（数据库、消息队列、缓存、WebService，等等）。通过一条命令，你可以为每个依赖启动一个或者多个容器

自动化测试环境

自动化测试套件是CI的重要组成部分。自动化的段对端测试要求一个运行环境，Compose可以方便的创建、销毁隔离的测试环境

部署环境

Compose典型的应用场景在开发、测试工作流中。但是，你也可以用Compose部署应用到远程Docker——包括单个Docker引擎或者整个Swarm集群

安装

Compose可以在macOS、Windows或者64位Linux上运行。在Linux上的安装步骤可以参考：

sudo curl -L "https://github.com/docker/compose/releases/download/1.11.2/docker-compose-$(uname -s)-$(uname -m)" \
    -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose

# 查看版本
docker-compose --version

Docker Machine

使用Docker Machine，你可以：

在Windows或者Mac上安装、运行Docker。在1.12之前，DM是唯一在Windows/Mac上运行Docker的途径，之后这两个平台有了Native的Docker实现
划分/管理多台远程Docker宿主机。可以自动在宿主机上划分虚拟机，并在虚拟机上安装Docker
划分/管理Docker Swarm集群

Docker Machine是一套工具，它允许你在虚拟主机上安装Docker引擎，以及通过docker-machine命令来管理宿主机（Machine，通常是虚拟机，这些虚拟机通常由DM创建）。你可以使用DM在非Linux系统、公司网络、数据中心、云端来创建Docker宿主机。

使用docker-machine命令，你可以启动、查看、停止受管理的宿主机，升级Docker客户端/守护程序。

安装

Linux

执行以下命令下载并安装：

curl -L https://github.com/docker/machine/releases/download/v0.10.0/docker-machine-`uname -s`-`uname -m` >/tmp/docker-machine
chmod +x /tmp/docker-machine
sudo cp /tmp/docker-machine /usr/local/bin/docker-machine

# 执行命令查看版本信息
docker-machine version

起步

使用DM运行容器

步骤通常为：

创建一个新的（或者启动既有的）宿主机
切换环境到宿主机
使用Docker客户端创建、载入、管理容器

创建宿主机

使用下面的命令创建新的宿主机：

# 在不支持Hyper-V的老Windows下或者在Mac下，使用virtualbox驱动
# 在支持Hyper-V的Windows下，使用hyperv驱动
docker-machine create --driver virtualbox default

注意，在Linux下需要VirtualBox预先被安装。

使用命令

docker-machine ls

可以列出现有的虚拟机。

使用下面的命令，可以切换环境变量，指向新创建的宿主机：

# 这个命令用于获取环境变量，这些环境变量导致当前Shell的连接目标改变
docker-machine env default
# 输出
# export DOCKER_TLS_VERIFY="1"
# export DOCKER_HOST="tcp://172.16.62.130:2376"
# export DOCKER_CERT_PATH="/home/alex/.docker/machine/machines/default"
# export DOCKER_MACHINE_NAME="default"

# 执行下面的命令，切换到default这台宿主机
eval "$(docker-machine env default)"

现在，你可以针对宿主机进行操作了。要停止或者启动宿主机，可以：

docker-machine stop default
docker-machine start default

连接到宿主机

你也可以连接到既有的宿主机，好处是，管理这台宿主机是，不需要每次提供URL：

docker-machine create --driver none --url=tcp://10.0.0.1:2376 fedora-10

宿主机必须预先配置，支持基于TLS的连接。

安全性

Docker安全性

检查Docker安全性时，有4个主要方面需要考虑：

内核本身的安全性：名字空间的支持、Cgroups
Docker守护程序本身的攻击面（attack surface ）
容器配置的漏洞，这些漏洞可能是默认就附带的，或者用户定制而引入的
内核中固化的安全特性，这些特性如何与容器交互

内核名字空间

Docker容器与LXC容器很类似，它们具有相似的安全特性。当你启动容器时，Docker会为容器创建一系列的名字空间和控制组。

名字空间提供第一级的、最直接的隔离性——容器中运行的进程看不到，甚至不能影响到其它容器、宿主机中运行的进程。内核名字空间机制从2.6.15 - 2.6.26版本开始引入，目前已经非常稳定。

每个容器具有自身的网络栈（network stack），这意味着容器不具有其它容器套接字、网络接口的访问权限。当然，如果宿主机正确的配置，容器之间可以基于各自的网络接口进行交互，就像与外部主机一样。

控制组

Cgroups是Linux容器的另一个关键组件，它实现了资源审计和限额，并提供很多有价值的度量信息。利用控制组，可以让容器获得公平的CPU、内存、磁盘I/O等资源。Cgroups能够有效的防范某些DoS攻击。Cgroups于2.6.24被合并到内核。

守护进程攻击面

通过Docker运行容器，意味着需要运行Docker守护程序，后者需要Root权限。只有受信任用户才应该被允许控制守护程序。

由于Docker允许在宿主机、容器之间共享目录，这意味着容器可能任意的修改宿主机文件系统。

当在服务器上运行Docker时，推荐宿主机仅仅运行Docker，而把所有其它服务（除了SSH服务器这类管理工具）都放在容器中运行。

内核能力

默认的，Docker以一组受限的能力（capabilities）来启动容器。能力把root/非root划分为细粒度的访问控制系统。需要绑定到1024-端口的进程不再需要root权限，而仅需要被授予net_bind_service能力。

容器也不需要被授予真正的root权限。事实上，容器中的root用户缺陷受到很大的限制，例如：

禁止任何mount操作
禁止访问原始套接字（避免包嗅探）
禁止某些文件系统操作，例如创建新设备节点、修改文件所有权、修改属性
禁止模块加载操作

由于这些限制的存在，即使攻击者获得容器的root权限，也难以进行严重的破坏。

你可以增加、删除容器的能力，以提升功能或安全性。

其它内核特性

能力（capabilities）仅仅是现代Linux内核提供的众多安全特性之一。其它已知的著名安全系统包括：TOMOYO、AppArmor、SELinux、GRSEC等，它们都可以和Docker协作。

考虑以下建议：

可以基于GRSEC、PAX来运行内核。这样会增加额外的安全检查（编译时、运行时）并防御很多缺陷。不需要针对Docker的配置，因为这些安全特性是系统级的
如果你使用的发行版提供了针对Docker容器的安全模型模板（security model templates），你可以使用它们
你可以使用某种访问控制系统，定义自己的安全策略

从1.10开始，用户名字空间被Docker直接支持。这一特性允许容器中的root用户直接映射到容器外部的非0 UID的任何用户，进而减少安全风险。这一特性默认没有开启。

保护守护进程套接字

默认的，Docker通过非网络化的Unix套接字运行，你也可以基于HTTP套接字与之通信。

如果你期望通过网络安全的访问Docker，应当启用TLS。这样，在守护程序端，仅仅通过CA认证的客户端才允许连接；在客户端，则仅仅允许向通过CA认知的服务器发起连接。

在守护程序上启用TLS的示例：

dockerd --tlsverify --tlscacert=ca.pem --tlscert=server-cert.pem --tlskey=server-key.pem -H=0.0.0.0:2376

在客户端上启用TLS的示例：

docker --tlsverify --tlscacert=ca.pem --tlscert=cert.pem --tlskey=key.pem  -H=127.0.0.1:2376 version

使用受信任镜像

在使用Docker的过程中，我们常常需要从/到Docker Hub或者私服pull/push镜像。内容信任（Content trust）机制允许验证数据的完整性、镜像的发布者，不论你是从什么渠道获得镜像。

理解Docker中的信任

内容信任机制可以强制客户端在与远程服务（Hub或私服，registry）交互时，进行客户端签名和镜像Tag验证。该机制默认情况下是禁用的，要启用，可以设置环境变量

DOCKER_CONTENT_TRUST

为1。

一旦内容信任被启用，镜像发布者就可以对自己的镜像进行签名。镜像的消费者则可以确保镜像是来自发布者，未经篡改。

每一个镜像记录由以下字段唯一的标识：

[REGISTRY_HOST[:REGISTRY_PORT]/]REPOSITORY[:TAG]

。一个镜像仓库（REPOSITORY）可以具有多个标签，镜像构建者可以使用仓库+标签的组合多次构建并更新镜像。

内容信任与TAG部分关联，每个REPOSITORY具有一组供发布者签名镜像TAG的密钥。单个REPOSITORY中可以包含签名、未签名的TAG。对于启用内容信任的消费者，未签名的TAG是不可见的。

子命令push、build、create、pull、run与内容信任机制交互。例如，当你执行docker pull someimage:latest时，仅当someimage:latest被正确签名时，命令才会成功。除了指定TAG，你也可以直接指定签名Hash：

docker pull someimage@sha256:d149ab53f8718e987c3a3024bb8aa0e2caadf6c0328f1d9d850b2a2a67f2819a

与镜像标签信任管理相关的是一系列的签名密钥。当第一次使用到内容信任功能时，密钥被创建。这些密钥包括：

作为内容信任根的离线密钥，该密钥属于发布镜像的组织或个人，必须被客户端妥善的秘密保存，丢弃此密钥将非常难以恢复
签名仓库、标签的密钥，该密钥与一个镜像仓库关联，使用该密钥可以pull/push模板仓库的任何标签，保存在客户端
服务器管理的密钥，例如时间戳密钥。保存在服务器端

典型内容信任操作

除了通过环境变量来全局性的启用内容信任之外，你还可以在调用docker命令时指定

--disable-content-trust

来临时的禁用内容信任：

docker build --disable-content-trust -t gmemcc/nottrusttest:latest
docker pull --disable-content-trust gmemcc/nottrusttest:latest
docker push --disable-content-trust gmemcc/nottrusttest:latest

推送签名内容

当你第一次推送受信任内容时，Docker会提示你：

警告你，新的root密钥将被创建
提示输入root密钥的密码
在~/.docker/trust目录生成root密钥
提示输入仓库密钥的密码
在~/.docker/trust目录生成仓库密钥

拉取签名内容

如果启用内容信任机制，没有被签名的镜像是无法拉取的。

自动化构建

要使用自动化脚本来执行镜像TAG签名，你需要设置环境变量：

DOCKER_CONTENT_TRUST_ROOT_PASSPHRASE 根密钥的密码
DOCKER_CONTENT_TRUST_REPOSITORY_PASSPHRASE 仓库密钥的密码

常用命令

参考Engine(docker) CLI。

docker

本质上此命令行通过REST API和守护程序通信，和守护程序一样。该命令支持HTTP_PROXY、HTTPS_PROXY，并且优先使用后者。

子命令	说明
build	基于Dockerfile构建镜像格式： docker build [OPTIONS] PATH \| URL \| - 选项： --build-arg value 设置构建时（容器运行时看不到）变量，例如环境变量 --cgroup-parent string 容器的父Cgroup组 --cpu-period int 限制CFS周期 --cpu-quota int 限制CFS配额 -c, --cpu-shares int 限制CPU权重 --cpuset-cpus string 限制允许在哪些CPU上执行 --cpuset-mems string 限制允许使用哪些内存条 --disable-content-trust 禁止镜像验证，默认true -f, --file string 可选的Dockerfile名称 --force-rm 总是移除中间容器 --isolation string 容器隔离计数 --label value 在镜像上设置元标签 -m, --memory string 设置内存限制 --memory-swap string 内存和交换文件限制 --no-cache 在构建镜像时不使用缓存 --pull 总是尝试拉取更新版本的镜像 -q, --quiet 禁止输出内容，仅在成功时打印镜像ID --rm 在成功构建后，移除中间容器，默认true --shm-size string /dev/shm的大小，默认64MB -t, --tag value 为镜像设置标签 --ulimit value Ulimit选项
info	查看Docker守护程序的基本信息
images	列出本地可用的镜像格式： docker images [OPTIONS] [REPOSITORY[:TAG]] 选项： -a, --all 显示所有镜像，默认情况下中间镜像被隐藏 --digests 显示摘要 -f, --filter value 根据条件过滤输出 --format string 依据Go语言模板指定输出的格式化方式 --no-trunc 不截断输出 -q, --quiet 安静模式，仅显示容器ID，不显示表头示例： docker images # 列出所有镜像 docker images java # 列出所有Repository为java的镜像 docker images java:8 # 同时限定Repository和tag
rmi	示例： # 删除所有镜像 docker rmi `docker images -q` # 删除无标签镜像 docker rmi $(docker images \| grep "^" \| awk "{print $3}")
commit	把容器的变更提交到一个新的镜像中格式： docker commit [OPTIONS] CONTAINER [REPOSITORY[:TAG]] 选项： -a, --author string 镜像作者信息，例如Alex -c, --change value 为新镜像应用Dockerfile指令 -m, --message string 提交注释 -p, --pause 在提交期间暂停容器示例： # 提交为镜像，并修改环境变量、入口点、暴露端口 docker commit --change "ENV DEBUG true" CONTAINER_ID REGISTRY/REPO:TAG -c 'CMD ["apachectl", "-DFOREGROUND"]' -c 'EXPOSE 80'
run	从一个镜像创建容器并运行指定的命令格式： docker run [OPTIONS] IMAGE [COMMAND] [ARG...] 选项： --add-host value 添加自定义的主机:IP地址映射 -a, --attach 关联STDIN、STDOUT或者STDERR --blkio-weight value 块I/O相对权重，10-1000之间 --blkio-weight-device value 块I/O设备相对权重 --cap-add value 添加Linux特性（capabilities） --cap-drop value 去除Linux特性（capabilities） --cgroup-parent string 为容器指定父cgroup --cidfile string 输出容器ID到目标文件 --cpu-percent int CPU占用百分比，仅Windows --cpu-period int 限制容器使用的CFS周期 --cpu-quota int 限制容器使用的CFS配额 -c, --cpu-shares int 限制容器使用的CPU相对权重 --cpuset-cpus string 限制容器可以使用的CPU的序号，例如0-3, 0,1 --cpuset-mems string 限制容器可以使用的内存的变号，例如0-3, 0,1 -d, --detach 在后端运行容器，并打印容器的ID --detach-keys 设置解除终端与容器关联的快捷键 --device value 添加一个宿主机设备给容器 --device-read-bps value 以字节/秒为单位限制容器读取一个设备的速度 --device-read-iops value 以次数/秒为单位限制容器读取一个设备的速度 --device-write-bps value 以字节/秒为单位限制容器写入一个设备的速度 --device-write-iops value 以次数/秒为单位限制容器写入一个设备的速度 --disable-content-trust 跳过镜像安全性验证 --dns value 指定容器使用的DNS服务器 --dns-opt value 设置容器的DNS选项 --dns-search 设置自定义的DNS查找域 --entrypoint 覆盖镜像默认的入口点（ENTRYPOINT）配置 -e, --env value 设置环境变量，示例： -e "LIMIT=10" --env-file value 从文件中读取环境变量 --expose value 暴露一个端口，作用类似于Dockfile中的expose命令。从1.5开始，支持暴露一组端口，例如 --expose=7000-8000 --group-add value 指定额外需要加入的组 --health-cmd string 指定容器健康状态检查的命令 --health-interval duration 容器健康状态检查间隔 --health-retries int 报告为不健康之前重新检查的次数 --health-timeout duration 一次健康检查最多执行的时间 -h, --hostname string 容器的主机名 -i, --interactive 即使没有关联到终端，也保持容器的标准输入打开 --io-maxbandwidth string 系统驱动器最大IO带宽限制，仅Windows --io-maxiops uint 系统驱动器最大IOPS限制，仅Windows --ip string 设置容器的IPv4地址 --ip6 string 设置容器的IPv6地址 --ipc string 容器使用的IPC名字空间，设置为host则与宿主机共享IPC名字空间 --isolation string 容器隔离技术 --kernel-memory string 内核内存限制 -l, --label value 为容器指定标签（元数据） --label-file value 从逗号分隔符文件中读取标签 --link value 链接到其它容器，可以允许docker0网络中两个容器通信 --link-local-ip value 设置容器的IPv4/IPv6 link-local地址 --log-driver string 容器的日志驱动（Logging driver）。可选None不显示日志；Json-file默认值，以JSO格式记录日志；Syslog把日志输出到系统日志文件；journald、fluentd、splunk、gelf、awslogs --log-opt value 容器日志驱动的选项 --mac-address string 设置容器的MAC地址 -m, --memory string 设置容器的内存用量限额 --memory-reservation string 设置容器的内存用量软限制 --memory-swap string 设置交换文件限额，-1表示不限制 --memory-swappiness int 微调容器的swappiness，0-100之间 --name string 为容器分配名称 --network string 连接容器到指定的网络 --network-alias value 为容器指定目标网络范围内的别名 --no-healthcheck 禁止容器特定的健康状态检查 --oom-kill-disable 禁止内存溢出Killer --oom-score-adj int 微调宿主机的OOM参数，-1000到1000之间 --pid string PID 使用的名字空间类型，取值host则与宿主机共享PID名字空间 --pids-limit int 微调容器的PIDs限制 --privileged 为容器授予扩展的权限 -p, --publish value 发布容器暴露的端口到宿主机，value格式宿主机端口:容器端口 -P, --publish-all Publish 随机的发布容器暴露的端口到宿主机，通过--expose指定或者在Dockerfile中以EXPOSE指定的任意端口都会被发布。宿主机的端口范围由/proc/sys/net/ipv4/ip_local_port_range这个内核参数确定，默认32768-61000之间 --read-only 以指定方式挂载容器的根文件系统 --restart string 设置容器退出时的重启/宿主机开机后的启动策略，默认no。On-failure当容器命令返回非0时重启，Always 自动重启，并且总是随着守护程序启动，Unless-stopped类似于Always，但是不随着守护程序启动 --rm 在容器退出时自动删除它 --runtime string 设置容器使用的运行时间 --security-opt value 设置安全选项 --shm-size string Size 设置/dev/shm的大小，默认64MB --sig-proxy 代理接收到的信号给容器进程 --stop-signal string 用于退出容器的信号，默认SIGTERM --storage-opt value 容器的存储驱动选项，devicemapper、overlay2等支持 --sysctl value 容器的Sysctl选项 --tmpfs value 挂载一个tmpfs目录 -t, --tty 为容器分配一个伪终端 --ulimit value 设置Ulimit选项 -u, --user string 设置容器执行身份，格式[:] --userns string 设置使用的用户名字空间 --uts string 设置使用的UTS名字空间，设置为host则与宿主机使用相同的hostname和domain -v, --volume value 挂载一个卷 --volume-driver string 可选的卷驱动 --volumes-from value 从指定的容器挂载卷 -w, --workdir string 设置容器的工作目录示例： # 交互式的运行一个容器，分配伪终端，在退出时删除容器 docker run -i -t --rm --name=temp ubuntu:14.04 # 指定存储驱动选项 docker run --storage-opt size=120G ubuntu # 挂载一个虚拟内存文件系统，并指定选项 docker run --tmpfs /run:rw,noexec,nosuid,size=65536K # 指定环境变量（命令行、文件） docker run -e NAME=VAL --env-file=path-to-file # 挂载其它容器定义的卷，指定ro/rw docker run --volumes-from CONTAINER_ID:rw # 修改容器hosts文件 docker run --add-host=zircon:10.0.0.1 # 限制容器的资源用量 type=softlimit[:hardlimit] docker run --ulimit nofile=1024:1024
create	创建，但不启动容器格式： docker create [OPTIONS] IMAGE [COMMAND] [ARG...]
start	启动一个现有的容器格式： docker start [OPTIONS] CONTAINER [CONTAINER...] 选项： -a, --attach 关联容器的标准输入/输出到当前终端，并转发信号 -i, --interactive 关联容器的标准输入到当前终端 --detach-keys string 覆盖解除终端与容器关联的快捷键序列示例： # 交互式启动容器，并关联当前终端到该容器 docker start -i -a ubuntu
stop	停止一个运行中的容器格式： docker stop [OPTIONS] CONTAINER [CONTAINER...] 选项： -t, --time int 强制杀死前，等待的秒数，默认10
kill	杀死一个或者多个容器格式： docker kill [OPTIONS] CONTAINER [CONTAINER...] 选项： -s, --signal string 用于杀死容器的信号，默认KILL
attach	关联当前终端到运行中的容器，之后你可以按Ctrl+P , Ctrl+Q解除关联（保持容器运行）格式： docker attach [OPTIONS] CONTAINER 选项： --detach-keys string 覆盖解除终端与容器关联的快捷键序列 --sig-proxy 代理接收到的信号给容器进程 --no-stdin 不关联标准输入示例： # 执行此命令后，容器进入前台运行 docker attach ubuntu
exec	在运行中的容器里执行命令选项： --detach,-d 后台模式运行 --env,-e 设置环境变量 -i 交互模式，保持标准输入打开 -t 分配伪终端示例： docker exec -d touch /etc/config
rm	删除容器格式： docker rm [OPTIONS] CONTAINER [CONTAINER...] 选项： -f, --force 强制删除，如果目标容器正在运行则发送SIGKILL信号 -l, --link 移除指定的链接 -v, --volumes 移除容器关联的卷示例： # 删除所有容器 docker rm `docker ps --no-trunc -aq` # 删除所有停止的容器 docker ps --filter "status=exited" --quiet \| xargs --no-run-if-empty docker rm
ps	列出现有的容器格式： docker ps [OPTIONS] 选项： -a, --all 显示所有容器，包括已经停止的 -f, --filter value 过滤输出 --format string 依据Go语言模板指定输出的格式化方式 -n, --last int 显示最后int个创建的容器 -l, --latest 显示最后一个创建的容器 -q, --quiet 安静模式，仅显示容器ID，不显示表头 -s, --size 打印总的空间占用示例： # 显示已经退出的所有容器的ID docker ps --filter "status=exited" --quiet
logs	抓取一个容器的日志格式： docker logs [OPTIONS] CONTAINER 选项： --details 显示额外信息 -f, --follow 跟随日志输出 --since string 显示指定时间戳之后的日志 --tail string 显示末尾N行日志 -t, --timestamps 显示时间戳示例： # 跟踪日志输出 docker logs -f ubuntu # 要删除容器的日志，参考如下脚本： Linux only rm $(docker inspect $1 \| grep -G '"LogPath": ""' \| sed -e 's/."LogPath": "//g' \| sed -e 's/",//g');
cp	从容器中复制文件到宿主机，或者从宿主机拷贝文件到容器格式： docker cp [OPTIONS] CONTAINER:SRC_PATH DEST_PATH\|- docker cp [OPTIONS] SRC_PATH\|- CONTAINER:DEST_PATH 示例： docker cp apache2:/usr/lib/php5/20131226 /home/alex/Docker/projects/apache2/usr/lib/php5/
stat	显示容器的资源使用情况格式： docker stats [OPTIONS] [CONTAINER...] 选项： -a, --all显示所有容器 --no-stream 仅打印一次统计信息，然后立即退出而不是刷新
network	网络相关子命令通用网络选项： --internal 禁止通过网络进行外部访问 --ipv6 启用IPv6支持桥接网络选项： com.docker.network.bridge.name Linux网桥的名称 com.docker.network.bridge.enable_ip_masquerade，--ip-masq 启用IP遮掩 com.docker.network.bridge.enable_icc，--icc 启用或禁止跨容器连接性（Inter Container Connectivity） com.docker.network.bridge.host_binding_ipv4 ，--ip 绑定容器暴露的端口时，使用的宿主机IP com.docker.network.driver.mtu，--mtu 设置最大传输单元示例： # 列出可用的网络 docker network ls # 查看网络bridge的详细信息，包括连接到网络的容器信息 docker network inspect bridge # 将容器连接到已经存在的网络，连接后容器立刻可以和网络中的其它容器通信 docker network connect isolated_nw container2 # 断开容器到网络的连接 # -f表示强制断开，可以解决stale endpoints问题 docker network disconnect -f isolated_nw container2 # 创建一个名为isolated_nw的桥接网络，如果不指定dirver默认使用bridge docker network create --driver bridge isolated_nw # 创建网络并提供参数 docker network create --subnet 172.30.0.0/16 \ --opt com.docker.network.bridge.name=docker_gwbridge \ --opt com.docker.network.bridge.enable_icc=false \ docker_gwbridge # Bridge网络仅支持单个子网，overlay则支持多个 # 强烈建议显式的指定子网 docker network create -d overlay \ --subnet=192.168.0.0/16 \ --subnet=192.170.0.0/16 \ --gateway=192.168.0.100 \ --gateway=192.170.0.100 \ --ip-range=192.168.1.0/24 \ --aux-address="my-router=192.168.1.5" --aux-address="my-switch=192.168.1.6" \ --aux-address="my-printer=192.170.1.5" --aux-address="my-nas=192.170.1.6" \ my-multihost-network # 使用 -o来指定选项 docker network create \ -o "com.docker.network.bridge.host_binding_ipv4"="172.23.0.1" my-network # 移除网络，仅当没有容器连接到网络时，才能移除 docker network rm isolated_nw
load	从TAR加载镜像，格式： # 选项 # -i 指定输入TAR的路径，如果不指定从STDIN读取 docker load [OPTIONS] 示例： # 解压并从标准输入加载 gunzip -c busybox.tar.gz \| docker load
save	保存一个或者多个镜像到TAR归档文件，镜像的层次历史保留格式： # 选项 -o 指定输出文件路径，不指定则输出到STDOUT docker save [OPTIONS] IMAGE [IMAGE...] 示例： # 保存到标准输出，然后压缩 docker save busybox:1.30.1 \| gzip -c > busybox.tar.gz
import	从TAR归档文件导入内容，创建一个扁平的文件系统镜像格式： # 选项： # -c 应用Dockerfile指令到新创建的镜像 docker import [OPTIONS] file\|URL\|- [REPOSITORY[:TAG]]
export	导出一个容器的文件系统为TAR归档文件，镜像层次历史丢失格式： # 选项 -o 指定输出文件路径，不指定则输出到STDOUT docker export [OPTIONS] CONTAINER
swarm init	初始化Swarm集群格式： docker swarm init [OPTIONS] 选项： --advertise-addr 通知地址，格式ip[:port] --cert-expiry duration 证书有效期，默认2160h0m0s --dispatcher-heartbeat duration 分发器心跳时间，默认5s --external-ca value 指定一个或者多个证书签名端点 --force-new-cluster 强制从当前状态创建新集群 --listen-addr value 监听地址，默认0.0.0.0:2377 --task-history-limit int 任务历史存留限制，默认5
swarm join	以Worker或/和Manager身份加入到集群格式： docker swarm join [OPTIONS] HOST:PORT 选项： --advertise-addr 通知地址，格式ip[:port] --listen-addr value 监听地址，默认0.0.0.0:2377 --token string 用于进入集群的令牌
swarm join-token	管理加入集群使用的令牌格式： docker swarm join-token [-q] [--rotate] (worker\|manager) -q, --quiet 仅仅显示令牌 --rotate 轮换令牌
swarm update	更新Swarm集群格式： docker swarm update [OPTIONS] 选项： --cert-expiry duration 证书有效期，默认2160h0m0s --dispatcher-heartbeat duration 分发器心跳时间，默认5s --external-ca value 指定一个或者多个证书签名端点 --task-history-limit int 任务历史存留限制，默认5
swarm leave	离开一个Swarm集群，仅用于Worker 格式： docker swarm leave [OPTIONS] 选项： --force 强制离开集群，忽略警告
node demote	把一个或者多个节点降级为Worker 格式： docker node demote NODE [NODE...]
node inspect	查看一个或者多个节点的详细信息格式： docker node inspect [OPTIONS] self\|NODE [NODE...] 选项： -f, --format string 基于给定的模板进行格式化 --pretty 优化输出（不以JSON格式显示）
node ls	列出集群中的节点格式： docker node ls [OPTIONS] 选项： -f, --filter value 基于给定的选项过滤输出 -q, --quiet 仅仅显示ID
node promote	把一个或者多个节点提升为Manager 格式： docker node promote NODE [NODE...]
node rm	从Swarm中移除一个或者多个节点格式： docker node rm [OPTIONS] NODE [NODE...] 选项： --force 强制移除活动节点
node ps	列出节点上运行的Tasks 格式： docker node ps [OPTIONS] self\|NODE 选项： -f, --filter value 基于给定的选项过滤输出 --no-resolve 不把ID映射为名称
node update	更新一个节点格式： docker node update [OPTIONS] NODE 选项： --availability string 节点可用性：active/pause/drain --label-add value 以key=value的形式添加节点标签 --label-rm value 移除一个节点标签（如果存在） --role string 设置节点的角色：worker/manager
service create	创建一个新服务格式： docker service create [OPTIONS] IMAGE [COMMAND] [ARG...] 选项： --constraint value 设置约束 --container-label value 设置容器标签 --endpoint-mode string 端点模式dnsrr或者vip -e, --env value 设置环境变量 -l, --label value 设置服务标签 --limit-cpu value 限制CPU，默认0.000 --limit-memory value 限制内存，默认 0 B --log-driver string 服务的日志驱动 --log-opt value 日志驱动选项 --mode string 服务模式，replicated（默认）或者 global --mount value 附加一个挂载到服务 --name string 服务的名称 --network value 加入的网络 -p, --publish value 暴露一个端口，pubPort:targetPort格式 --replicas value 任务的数量，默认0 --reserve-cpu value 保留CPU，默认0.000 --reserve-memory value 保留内存，默认 0 B --restart-condition string 何时自动重启，none, on-failure, any --restart-delay value 重启尝试的延迟 --restart-max-attempts value 放弃前重试的重启次数 --restart-window value 用于评估重启策略的窗口 --stop-grace-period value 在杀死容器前，等待的时间 --update-delay duration 更新之间的延迟时间 --update-failure-action string 更新失败后的动作，pause或continue --update-parallelism uint 同时更新的Task的最大数量，默认1，0表示全部同时更新 -u, --user string 用户名或者UID --with-registry-auth 发送registry认证详细信息给Swarm代理 -w, --workdir string 设置容器工作目录
service inspect	查看一个或者多个服务的详细信息格式： docker service inspect [OPTIONS] SERVICE [SERVICE...] 选项： -f, --format string 基于给定的模板进行格式化 --pretty 优化输出（不以JSON格式显示）
service ps	列出服务包含的任务格式： docker service ps [OPTIONS] SERVICE 选项： -f, --filter value 基于给定的选项过滤输出 --no-resolve 不把ID映射为名称
service ls	列出服务格式： docker service ls [OPTIONS] 选项： -f, --filter value 基于给定的选项过滤输出 --no-resolve 不把ID映射为名称
service rm	移除一个或者多个服务格式： docker service rm [OPTIONS] SERVICE [SERVICE...]
service scale	扩容一个或者多个服务格式： docker service scale SERVICE=REPLICAS [SERVICE=REPLICAS...]
service update	更新一个服务格式： docker service update [OPTIONS] SERVICE 选项：参考service create子命令
system df	查看Docker的磁盘占用情况
system prune	删除停止的容器、无人使用的网络、dangling镜像、构建缓存选项： -a 同时删除没有容器使用的镜像
volume create	创建一个卷，卷可以被容器消费，并存储数据到其中格式： docker volume create [OPTIONS] [VOLUME] 选项： --driver, -d 指定卷驱动名称，默认local --label 为卷添加元数据 --name 设置卷的名称，不指定则随机名称。在不同驱动之间，名称不能重复。使用同一种驱动、同一个名称，被认为是卷重用，不会报错 --opt, -o 驱动特定的选项示例： # 创建一个名为hello的卷 docker volume create hello # 创建一个100MB的tmpfs卷 docker volume create --driver local --opt type=tmpfs \ --opt device=tmpfs --opt o=size=100m,uid=1000 foo # 创建一个映射到NFS服务192.168.1.1的/path/to/dir目录的卷 docker volume create --driver local --opt type=nfs \ --opt o=addr=192.168.1.1,rw--opt device=:/path/to/dir foo # 挂载卷到容器的/world目录，注意挂载点必须是绝对路径 docker run -d -v hello:/world busybox ls /world
volume inspect	显示一个或者多个卷的详细信息格式： docker volume inspect [OPTIONS] VOLUME [VOLUME...]
volume ls	列出可用的卷格式： docker volume ls [OPTIONS] 选项： --filter, -f 过滤条件 --format 使用Go语言模板优化输出 --quiet, -q 仅显示卷名称
volume prune	移除所有不被使用的卷格式： docker volume prune [OPTIONS] 选项： --force, -f 强制删除不提示
volume rm	删除一个或多个卷格式： docker volume rm [OPTIONS] VOLUME [VOLUME...] 选项： --force, -f 强制删除不提示
manifest	当前是Docker客户端的试验特性。用于管理清单（manifest）或清单列表所谓清单，是关于镜像的信息，包括层、大小、摘要值。docker manifest命令可以在清单中增加镜像所针对的操作系统、体系结构的信息清单列表则是通过指定1或多个镜像名称来创建的层列表。典型情况下，清单列表是基于一组功能相同、针对不同os_arch的镜像当拉取镜像时，Docker会检查返回的清单信息，如果发现是支持multi arch的清单列表对象，则在列表中自动寻找匹配当前体系结构的镜像注意：客户端，需要在~/.docker/config.json中设置 "experimental": "enabled"
manifest inspect	查看镜像清单、或者清单列表的信息格式： docker manifest inspect [OPTIONS] [MANIFEST_LIST] MANIFEST 示例： // 查看镜像的清单，获取os_arch信息 // docker manifest inspect hello-world --verbose { "Ref": "docker.io/library/hello-world:latest", "Digest": "sha256:f3b3b28a45160805bb16542c9531888519430e9e6d6ffc09d72261b0d26ff74f", "SchemaV2Manifest": { "schemaVersion": 2, "mediaType": "application/vnd.docker.distribution.manifest.v2+json", "config": { "mediaType": "application/vnd.docker.container.image.v1+json", "size": 1520, "digest": "sha256:1815c82652c03bfd8644afda26fb184f2ed891d921b20a0703b46768f9755c57" }, "layers": [ { "mediaType": "application/vnd.docker.image.rootfs.diff.tar.gzip", "size": 972, "digest": "sha256:b04784fba78d739b526e27edc02a5a8cd07b1052e9283f5fc155828f4b614c28" } ] }, "Platform": { "architecture": "amd64", "os": "linux" } }
manifest create	创建一个本地清单列表，用于后续的标注、推送。清单的存放位置为： ${HOME}/.docker/manifests/$(REGISTRY_DOMAIN)_$(REGISTRY_PREFIX)_$(IMAGE)-$(VERSION) 要删除清单，删除上述文件即可。此外你也可以在push的时候指定--purge来删除本地清单清单必须和镜像一同推送到镜像仓库，否则拉取镜像时会提示找不到manifest 格式： docker manifest create MANIFEST_LIST MANIFEST [MANIFEST...] 选项： -a, --amend 修改现有清单列表 --insecure 支持和不安全仓库通信示例： # 你需要指定一组成员镜像，来创建清单列表 # 清单列表名字，任何平台的客户端都使用该名字拉取镜像 docker manifest create docker.gmem.cc/coolapp:v1 \ docker.gmem.cc/coolapp-ppc64le-linux:v1 \ docker.gmem.cc/coolapp-arm-linux:v1 \ docker.gmem.cc/coolapp-amd64-linux:v1 \ docker.gmem.cc/coolapp-amd64-windows:v1
manifest annotate	为本地镜像清单标注额外的信息，设置清单列表中的某个清单对应的体系结构、操作系统格式： docker manifest annotate [OPTIONS] MANIFEST_LIST MANIFEST 选项： --arch 标注架构 --variant 标注架构变体 --os 标注操作系统 --os-features 标注操作系统特性示例： # 将清单列表中的某个镜像的体系结构标注为arm docker manifest annotate docker.gmem.cc/coolapp:v1 \ docker.gmem.cc/coolapp-arm-linux --arch arm
manifest push	将镜像清单列表推送到仓库格式： docker manifest push [OPTIONS] MANIFEST_LIST 选项： -p, --purge 推送后删除本地清单 --insecure 支持和不安全仓库通信示例： docker manifest push docker.gmem.cc/coolapp:v1

docker-machine

子命令	说明
active	显示哪些宿主机是活动的
config	打印一个宿主机的连接配置
create	创建一个宿主机
env	打印用于准备连接到目标宿主机的Shell命令
inspect	显示一个宿主机的详细信息
ip	获取一个宿主机的IP地址
kill	杀死一个宿主机
provision	重新provision现有的宿主机
regenerate-certs	为一个宿主机准备TLS证书
restart	重启一个宿主机
rm	移除一个宿主机
ssh	通过SSH登录宿主机或者执行命令
scp	在宿主机之间复制文件
start	启动一个宿主机
status	获取宿主机状态
stop	停止一个宿主机
upgrade	升级宿主机的Docker到最新版本
url	获取一个宿主机的URL
version	查看DM的版本信息

docker-compose

子命令	说明
build	构建或者重新构建服务
bundle	从Compose创建一个Docker分布式应用程序束（Distributed Application Bundle，ADB）
config	验证并查看Compose文件
create	创建服务
down	停止并移除容器、网络、镜像、卷
events	从容器接收实时事件
images	列出镜像
kill	杀死容器
logs	查看容器的日志
pause	暂停服务
port	打印一个端口绑定的公共端口
ps	列出容器
pull	拉取服务镜像
push	推送服务镜像
restart	重启服务
rm	移除停止的容器
run	运行一次性命令
scale	扩充或减小一个服务的容器数量
stop	停止服务
top	显示运行中的进程
unpause	从暂停中恢复服务
up	创建并启动容器

dockerd

建议参数

{
  "live-restore": true,
  "log-driver": "json-file",
  "log-opts": {
    "max-size": "50m",
    "max-file": "5"
  }
}

容器网络

容器网络模型CNM

Docker通过libnetwork实现了此模型，CNM的架构如下：

其中：

网络沙盒：提供容器的网络栈，包括网络接口、路由表、DNS配置、Iptables等。实现技术包括Linux网络命名空间、FreeBSD Jail等
每个沙盒中可以包含来自多个网络的端点（Endpoint），端点是连接网络沙盒和后端网络的桥梁，实现技术包括Veth对、tap/tun设备、OVS内部端口等
容器网络（Backend Network）：一组可以相互通信的端点的集合。对应的实现技术可以是Linux Bridge、VLAN等

此外，CNM还依赖于另外两个对象来完成Docker网络管理：

Network Controller：对外提供分配、管理网络的APIs
Drivers：负责一种网络的管理，包括IPAM

CNM的原生实现是Libnetwork，是Docker团队从Docker核心中分离出来的网络相关功能。

默认情况下，Docker使用Veth对的方案：

创建一个docker0网桥，如果没有容器运行，则此网桥是down状态
创建一个Veth对，一端接到网桥docker0，另外一端放在容器网络命名空间中，作为eth0
属于同一网络的容器，都会连接到docker0，因此可以相互通信

组网方案

隧道方案

隧道网络也叫overlay网络，在IaaS网络中就被大量使用。

优势：几乎不依赖基础网络架构，只要3层互联即可。

劣势：

随着节点规模的增加，复杂度随之升高
封包二次包装，网络问题定位麻烦，而且影响性能

基于覆盖网络的插件包括：

Weave，基于VXLAN
Open vSwitch（OVS）：基于VXLAN + GRE，性能方面损失较为严重
flannel：支持自研UDP封包（性能较差，性能损失50%+），以及Linux内核的VXLAN（性能损失20-30%）

路由方案

隧道方案解决的问题是，主机之间无法直接传递容器IP的封包。如果解决路由的问题，就可以避免二次包装的性能损失。

基于路由的方案包括：

Calico，基于BGP，支持细致的ACL控制，混合云友好
Macvlan，隔离性好，性能最优，需要二层网络，大多数云服务商不支持，难以实现混合云
Metaswitch，容器内部分配一个路由只想宿主机地址，性能接近原生

常见问题

零散问题

如何获取docker容器的runc配置文件

位置在：/run/containerd/io.containerd.runtime.v1.linux/moby/$CONTAINER_ID/config.json

如果进入容器的/tmp目录

如果容器正在运行，可以通过nsenter进入。

如果容器已经死掉，可以通过命令：

docker inspect 3b7227ffdb88 | grep UpperDir

得到UpperDir，然后进入UpperDir，即可在tmp子目录中看到容器修改后的/tmp目录的内容。

dockerd日志在哪

老版本Ubuntu：

/var/log/upstart/docker.log

使用Systemd的：

sudo journalctl -fu docker.service

CentOS：

/var/log/daemon.log | grep docker

同时监听TCP/UDS

DOCKER_OPTS=" -H 10.0.0.1:2376 -H unix:///var/run/docker.sock"
# 测试 docker -H 10.0.0.1:2376 ps

使用代理-容器

要让启动的容器自动设置代理环境变量，可以：

{
    "proxies": {
        "default": {
                "httpProxy": "http://10.0.0.1:8087",
                "httpsProxy": "http://10.0.0.1:8087",
                "noProxy": "localhost,127.0.0.1,172.21.*,172.17.*,172.27.*,192.168.*,10.0.*"
            }
        }
    }
}

然后启动容器，你就可以看到对应的环境变量了.

使用代理-守护进程

docker pull等操作是发生在守护进程中的，需要按此节的说明设置

必须配置Docker的配置文件，命令行直接设置代理无效：

# Ubuntu适用
export http_proxy="http://10.0.0.1:8088"
export https_proxy="http://10.0.0.1:8088"

如果使用Fedora，则：

mkdir -p /etc/systemd/system/docker.service.d

[Service]
Environment="HTTP_PROXY=http://10.0.0.1:8088/"

刷出变更并重启服务：

systemctl daemon-reload
systemctl restart docker

报image not found

可能原因是没有登陆到私服

报证书过期

报错信息：certificate has expired or is not yet valid docker

如果测试wget/curl等命令没问题，可能是由于Docker使用的代理导致。

docker-proxy占用CPU高

由于NAT（Docker端口映射）导致。默认情况下Docker使用用于空间代理docker-proxy来处理NAT，性能较低。可以设置dockerd参数禁用：

dockerd ... --userland-proxy=false

挂载卷性能差

Mac OS下可能存在此问题，解决方案：

docker run -v /Users/alex/project:/project:cached alpine command

x509: certificate signed by unknown authority

进行docker login时出现此错误，可以把目标仓库的证书拷贝到

/etc/docker/certs.d/

下，以仓库域名为子目录。

如果使用Let's Encrypt签名的证书，务必使用完整证书链。

iptables: No chain/target/match by that name docker

在CentOS下，启动firewalld后，新创建Docker容器并进行端口映射会出现此错误。重启Docker即可。

网络命名空间

无法在宿主机看到

如果无法在宿主机上通过

ip netns list

看到容器的网络命名空间，可以调用命令：

ln -s /var/run/docker/netns  /var/run/netns

内核参数调优

--sysctl

从1.12开始支持，该参数可以直接传递sysctl变量：

docker run --sysctl net.ipv4.ip_forward=1

用于配置命名空间化的内核参数（namespaced kernel parameters）。

注意，仅仅被Docker加入白名单的内核参数可以调整，否则你会收到错误：sysctl '***' is not whitelisted。白名单包括：

kernel.sem、kernel.shmall、kernel.shmmax、kernel.shmmni、kernel.shm_rmid_forced
fs.mqueue.***
net.***

此外，被调整的内核参数还必须是：

在容器中可见，例如net.core.rmem_max
支持命名空间化，有些配置是全局的，不支持命名空间化

网络参数调优

如果使用--net=host，则使用宿主机的网络栈，直接使用宿主机的内核参数，不需要特殊操作。

无法启动守护进程

msg="[graphdriver] prior storage driver aufs failed: driver not supported"

sudo rm /var/lib/docker/aufs -rf

无法访问外部网络

原因未知，可能和Docker的NAT存在问题，重启Docker后解决。

LVS相关的RST

症状

访问某通过LVS暴露的接口，20%几率出现Connection Reset By Peer。进一步检查发现：

此问题和Docker本身无关，但凡客户端通过NAT访问的，都有几率出现
curl测试，有几率出现卡死，但是目标接口速度很快

分析

当卡死时，最终提示：curl: (56) Recv failure: Connection timed out，Docker宿主机抓包如下：

可以看到发送HTTP请求后，出现重传，随后即RST。LVS发来的TCP Dup ACK中的SLE、SRE（选择性ACK时，已经Ack的字节范围，提示对方不再传输这些范围的数据）很不正常。在客户端禁用SACK后，问题消失：

net.ipv4.tcp_sack = 0
net.ipv4.tcp_dsack = 0
net.ipv4.tcp_fack = 0

值得注意的是：在NATed的客户端来看，是服务器主动RST，在NAT设备来看，是它主动RST，并谎报给NATed客户端说服务器进行了重置。

构建镜像时的问题

构建镜像时Dockerfile中的apt-get命令时报错：Could not resolve 'archive.ubuntu.com'

可能是DNS配置错误导致的，执行以下步骤修复：

修改/etc/default/docker，设置正确的Docker守护程序选项，例如：
```
DOCKER_OPTS="--dns 178.79.131.110 --dns 8.8.8.8"
```
重启Docker守护程序：
```
sudo service docker restart
```
重新构建，指定no-cache选项，强制Docker镜像重新获取DNS：
```
docker build --no-cache=true ...
```

时区如何设置

RUN rm /etc/localtime && ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

部分基础镜像没有/usr/share/zoneinfo目录，需要手工拷贝/etc/localtime文件

如何编写入口点脚本

两个简单原则：

能够处理挂断信号。需要注意，docker stop / docker kill只会向PID为1的容器进程发送信号
能够阻止脚本退出

示例：

#!/usr/bin/env bash

# 捕获挂断信号，执行清理
sighdl() {
    service myservice stop
    TERM_FLAG=1
}
trap sighdl HUP INT PIPE QUIT TERM

# 启动服务
service myservice start

# 防止脚本退出的命令
while [ "$TERM_FLAG" != "1" ] ; do :; done

如果防止脚本退出的命令调用了其它程序，例如：

tail -f /var/log/myservice.log

，会出现一个子进程，虽然上述脚本的PID为1，但是子进程不会收到信号，因而容器仍然卡在那不会退出。

一个生产环境中入口点脚本的例子：Kurento的入口点脚本

如何扁平化镜像

层次过多的文件系统，不但访问效率较低，而且占用更大的磁盘空间。可以export容器并import为镜像，这样产生的镜像只有一个层次：

docker export container-name | docker import - image:tag

Swarm模式相关问题

节点运行服务报错：No such image

在管理节点上预先登录到Docker Hub或者私服，然后：

docker service create --with-registry-auth   # 添加该选项
  --replicas 10 --network overlay --name ping docker.gmem.cc/ubuntu:14.04 ping 10.0.0.1

运行容器时的问题

如何进入无法启动的容器

有些情况下，因为配置错误，容器启动后立即退出。如果想通过Shell交互式的查问题，可以：

# 提交为临时镜像
docker commit mongo-c6 tempimg

# 使用Bash作为入口点进入
docker run --entrypoint=bash -it --rm  tempimg

# 解决完问题后，删除临时镜像
docker rmi tempimg

如何删除孤儿卷

# 列出孤儿卷
docker volume ls -qf dangling=true

# 删除所有孤儿卷
docker volume rm $(docker volume ls -qf dangling=true)

挂载卷的权限问题

使用

docker -v

命令把宿主机上不存在的目录挂载到容器指定位置时：

自动以root身份创建不存在的目录
容器中目录的所有者为root，即使目录本来存在（而被覆盖）且所有者不是root

这种行为会导致潜在的无权访问的问题。

解决办法：容器中的用户，和宿主机的用户，以ID对应。因此，你可以预先创建宿主机目录，并chown给容器中需要使用此目录的用户的ID。

无法捕获信号

最好确保你的应用程序的PID为1，如果Entrypoint Spawn的子进程中运行应用程序，则Entrypoint必须能够捕获信号并执行适当的命令来停止应用程序进程。

无法捕获信号的常见原因：

使用了Shell风格的Entrypoint，这种情况下，入口点变为/bin/sh的子进程，无法收到信号。你需要：

# 不要用这种形式
ENTRYPOINT "/entrypoint.sh" arg1 arg2
# 用下面的形式
ENTRYPOINT ["/entrypoint.sh", "arg1", "arg2"]

入口点调用了应用程序，但是没有替换当前进程。你需要以exec方式调用目标应用程序，例如：
```
exec /jdk/bin/java $JAVA_OPTS -cp app.jar $JAVA_MAIN_CLASS $JAVA_MAIN_ARGS
```
虽然使用exec替换进程，但是不是替换入口点进程。例如引入了管道：
```
# 这会导致在子Shell中进行
exec java | grep ... 
```
可能没有捕获信号并正确处理

Ubuntu相关

升级到CE 18后无法启动容器

报错：OCI runtime create failed: container_linux.go:348: starting container process caused "process_linux.go:297: copying bootstrap data to pipe caused \"write init-p: broken pipe\"": unknown

解决办法：

sudo apt-get install docker-ce=18.06.1~ce~3-0~ubuntu

Alpine相关

exec user process caused no such file or directory

以Alpine作为基础镜像，运行动态链接的Go应用程序，出现此报错。

原因是，应用程序动态链接到了 GNU libc。Alpine的musl libc库提供了对GNU libc的部分兼容性，可用于尝试解决此问题：

apk add libc6-compat

CentOS相关

配置文件和命令

Docker配置信息可能位于：

/usr/lib/systemd/system/docker.service

Docker服务相关命令：

systemctl daemon-reload
systemctl restart docker

软件包缺失的问题

add-apt-repository

apt-get install software-properties-common

The post Docker学习笔记 appeared first on 绿色记忆.

KVM和QEMU学习笔记

Alex — Mon, 17 Aug 2015 06:22:32 +0000

简介

虚拟化基础知识

关于Hypervisor

Hypervisor，即虚拟机监管程序（virtual machine monitor ，VMM）。它可以是电脑上的软件、固件或者硬件，用于建立和执行虚拟机。拥有Hypervisor后，你可以执行一个或者多个虚拟机。这些虚拟机称为客户机（guest machine），相应的Hypervisor所在机器称为宿主机（host machine）。

传统的虚拟化技术都是基于Hypervisor的，它们被分为两类：

bare-metal Hypervisor：裸机监管程序，直接运行在硬件上
Hosted Hypervisor：被宿主监管程序，Hypervisor运行在操作系统之上，就像一个应用程序一样

特权级别和虚拟化类型

X86处理器定义了定义了0-3个特权级，数字越小，权限越高。

对于Linux来说，在没有虚拟化的情况下，内核态对应了0级，用户态对应3级。

传统的虚拟化技术都是在宿主机、客户机之间加一个Hypervisor。因此，当在Linux上运行Linux虚拟机时，两个内核都需要运行在0级。根据解决此冲突（对于Host来说整个Client是用户程序）的方式的不同，虚拟化被分为3种类型：

虚拟化类型	说明
半虚拟化	Paravirtualization。此类型的特点是： Hypervisor运行在内核态，对应0级特权客户机的内核不运行在内核态，内核被修改，需要在0级执行的特权指令转调Hypervisor 客户机上的用户程序运行在3级
非硬件辅助全虚拟化	Full Virtualization without Hardware Assist。此类型的特点是： Hypervisor运行在内核态 Hypervisor位客户机提供一个模拟的CPU 客户机内核不需要修改，运行在模拟CPU上的0级 Hypervisor对客户机的CPU指令进行转译，变成正式CPU的指令
硬件辅助全虚拟化	Full Virtualization with Hardware Assist。由Intel VT或AMD-V实现，此类型的特点是： Hypervisor运行在新的-1级别客户机内核直接运行在真实CPU的0级

KVM

KVM，即基于内核的虚拟机（Kernel-based Virtual Machine），是构建于支持虚拟化扩展（Intel VT 或者 AMD-V）的x86平台、Linux操作系统之上的，完整虚拟化解决方案。使用KVM，你可以运行多个Linux或者Windows系统镜像，这些虚拟机拥有私有的虚拟化设备，包括网卡、磁盘、显卡等。

KVM主要包含两个内核组件：

可加载的内核模块 kvm.ko，负责核心的虚拟化基础功能
针对处理器的模块：kvm-intel.ko或者kvm-amd.ko

从2.6.20版本的Linux内核开始，KVM的内核组件就被包含在其中。从QEMU 1.3开始，KVM的用户空间组件被包含在其中。要查看你的机器是否支持KVM，可以执行：

lsmod | grep kvm

QEMU

QEMU是一个基于通用目的开源仿真器/虚拟器软件。它可以模拟：

CPU
Intel e1000 PCI等网卡
基于PCI IDE接口的硬盘、光驱
软驱
串口
AC97兼容声卡以及其它声卡
PS/2 键盘鼠标
VGA显卡

等多种外围设备。QEMU最多支持255 CPU的SMP。

当作为仿真器（Emulator，模拟器）使用时，它可以在真实机器（例如你的x86_64台式机）上模拟一台机器 + 操作系统 + 程序，而这台模拟的机器的体系结构（例如ARM板）与宿主机器不同。

而作为虚拟器（Virtualizer）使用时，它可以在宿主机器上直接执行客户机（虚拟机）的代码，因而虚拟机的性能接近于宿主机。QEMU通过下列方式之一来支持虚拟化：

在XEN监管程序（Hypervisor）之上执行
在支持KVM的Linux操作系统下运行。使用KVM时QEMU可以虚拟化x86、PowerPC、S390客户机

注意Emulator和Virtualizer的区别，最重要的一点是客户机的代码是直接执行（意味着宿主和客户机体系结构兼容），还是模拟执行，后者的效率要低得多。很多同学喜欢在PC上玩街机游戏，这也是通过模拟器（例如Winkawaks）实现的。

和Vmware、VirtualBox 之类的虚拟机管理软件不同，QEMU不提供图形化的管理界面。你可以使用第三方的图形前端，例如qtemu，但是命令行的丰富性让QEMU更适合在服务器上使用。

QEMU与KVM

单纯靠QEMU来模拟一系列硬件，因为存在指令转译，性能一般很差。而KVM可以基于Intel-VT、AMD-V实现硬件辅助的CPU虚拟化，客户机指令直接在真实CPU上运行。因此结合KVM可以很好的提高QEMU的CPU性能。另一方面KVM仅仅提供CPU的虚拟化，它无法构建一台完整的虚拟机。因此QEMU和KVM整合的需求就很明显了。

qemu-kvm项目就是来整合QEMU和KVM的，此项目在1.3.0版本开始正式合并到QEMU项目的master上。qemu-kvm（qemu-system-***）利用ioctl调用/dev/kvm，将有关CPU的部分交由KVM去做。

如果KVM内核模块存在、且CPU支持，你可以通过下面的选项启用KVM支持：

# 启用基于KVM的虚拟化加速
-enable-kvm

周围硬件的性能

CPU的性能问题解决了，但是QEMU模拟的其它硬件也存在同样的低效问题，于是Virtio被引入了。

Virtio是libvirt的一部分，它是一个关于网络、磁盘等设备的虚拟化标准，在此标准中客户机的设备驱动知道自己运行在虚拟化环境中，因而这些驱动可以和Hypervisor进行直接交互，获得接近于Native驱动的性能。

较新版本的Linux发行版都已经把Virtio编译进内核，因而客户机可以直接使用Virtio驱动。

与其它虚拟化技术的比较

Xen

KVM和XEN都是基于Hypervisor的虚拟化技术。它们的区别包括：

Xen是裸机监管程序，而KVM某种程度上把Linux内核变成了Hosted Hypervisor
Xen的整体性能高于KVM，但是I/O略差
KVM要求CPU必须支持虚拟化技术，但Xen则没有此限制。这个限制在当前的硬件条件下，基本不是问题
KVM的优势是它对Linux内核的整合程度，KVM本质上就是一个内核模块，因此你可以很容易的升级内核

VirtualBox

VirtualBox是标准的2类Hypervisor，KVM与它的区别包括：

VirtualBox它与商用软件Vmware Workstation一样，都以图形界面为主，适合个人用户。但是在商用环境下，大部分虚拟机都是Headless的（不需要图形界面），此时VirtualBox的GUI则是劣势，GUI浪费了资源
VirtualBox支持大量的宿主操作系统，例如Windows、Linux、Mac OS X。而KVM显然仅支持Linux
一般情况下，轻量级的KVM的性能要比VirtualBox好的多

关于LXC

LXC即Linux容器（Containers），这是一种操作系统层（传统虚拟机是硬件层）虚拟化技术，要由liblxc库及其多语言绑定、一系列控制容器的工具组成。LXC将整个应用，包括：软件本身代码、所需库、支撑软件，打包为一个“容器”。通过Linux内核的特性，可以实现容器与系统之间的隔离，这些特性包括：

内核命名空间（IPC、uts、mount、pid、network、user）
Apparmor（限制每个应用程序访问的资源）和SELinux配置
Seccomp（提供应用程序沙盒机制）策略
Chroots（通过pivot_root调用）
cgroups，即控制组（control groups），用来限制、控制、分离进程组的资源（CPU、内存、磁盘等），此特性最初的名字就叫“进程容器”

通过LXC，你可以创建尽可能接近标准Linux的环境，同时不需要独立的内核。

基于LXC的虚拟化技术和KVM相比，区别如下：

LXC的优势在于轻量化和高性能，但是隔离性不高
LXC支持任何体系结构，例如x86、ARM、PowerPC等

LXD

LXD基于LXC，可以认为是一个Container的Hypervisor，LXD一般创建自包含的操作系统用户空间。也就是说，LXD容器内运行的是一个操作系统，虽然存在用户空间和内核空间隔离，但是这个操作系统和宿主系统共享一个内核。

有测试数据表明：LXD相比KVM可以减少50+%的延迟；LXD启动实例的速度比KVM块90+%

Docker

近年来非常流行的容器软件，与LXD最大的不同是，Docker打包应用程序+自包含的文件系统，而不是操作系统用户空间。每个Docker容器，仅仅包含一个应用程序。曾经Docker也是基于lxc技术的，但是现在它使用自己的库ibcontainer。

Docker中的文件系统、网络都是抽象的，而LXD直接使用宿主机的文件系统、网络，LXD可以方便的设置IP地址。

Docker比起LXD更加轻量，可以实现更高的部署密度。

安装和配置

使用随系统自带的KVM

大部分的Linux发行版已经内置了KVM内核模块以及用户空间工具，使用这些内置组件是最容易、推荐的方式：

KVM内核模块现在是Linux内核的一部分，除非你使用的是精简过的内核
用户空间组件，软件包名称一般是qemu-kvm或者kvm，例如：
1. Ubuntu下可以执行
```
apt-get install qemu-kvm
```
  安装
2. CentOS下可以执行
```
yum install kvm
```
  安装
客户机驱动：Linux客户机的驱动包含在内核中；Windows客户机的驱动需要下载

手工构建KVM

安装QEMU的依赖包：

sudo apt-get install gcc libsdl1.2-dev zlib1g-dev libasound2-dev linux-kernel-headers pkg-config libgnutls-dev libpci-dev

下载用户空间组件：

QEMU 1.3或者更老版本的，在Sourceforge下载
新版本，在QEMU官网下载

注意：2.6.29以上版本的内核，可以和任何版本的qemu-kvm搭配使用。

构建和安装用户空间组件

tar xzf qemu-kvm-release.tar.gz
cd qemu-kvm-release
./configure --prefix=/usr/local/kvm
make
sudo make install

构建和安装KVM内核模块

如果你使用旧版本内核，或者内核精简了KVM，则需要此步骤：

tar xjf kvm-kmod-release.tar.bz2
cd kvm-kmod-release 
./configure
make 
sudo make install

启用内核模块

# 对于Intel CPU
sudo /sbin/modprobe kvm-intel
# 对于AMD CPU
sudo /sbin/modprobe kvm-amd

构建QEMU

从3.0.0开始QEMU的版本大跃进，每年major版本增加1，目前已经是5.x版本。

下载和构建

wget https://download.qemu.org/qemu-5.1.0.tar.xz
tar xvJf qemu-5.1.0.tar.xz 
cd qemu-5.1.0/
./configure
make

配置项说明

./configure --help

# 方括号中是默认值

Standard options:
  --prefix=PREFIX          install in PREFIX [/usr/local]
  --interp-prefix=PREFIX   where to find shared libraries, etc.
                           use %M for cpu name [/usr/gnemul/qemu-%M]
  # 目标列表，默认所有
  # xxx-softmmu 生成qemu-system-xxx，用于运行xxx架构下的虚拟机
  # xxx-linux-user 生成qemu-xxx，用于模拟运行xxx架构下的应用程序，可以配合binfmt_misc和Docker联用
  --target-list=LIST       set target list (default: build everything)
                           Available targets: aarch64-softmmu alpha-softmmu 
                           arm-softmmu avr-softmmu cris-softmmu hppa-softmmu 
                           i386-softmmu lm32-softmmu m68k-softmmu 
                           microblazeel-softmmu microblaze-softmmu 
                           mips64el-softmmu mips64-softmmu mipsel-softmmu 
                           mips-softmmu moxie-softmmu nios2-softmmu 
                           or1k-softmmu ppc64-softmmu ppc-softmmu 
                           riscv32-softmmu riscv64-softmmu rx-softmmu 
                           s390x-softmmu sh4eb-softmmu sh4-softmmu 
                           sparc64-softmmu sparc-softmmu tricore-softmmu 
                           unicore32-softmmu x86_64-softmmu xtensaeb-softmmu 
                           xtensa-softmmu aarch64_be-linux-user 
                           aarch64-linux-user alpha-linux-user armeb-linux-user 
                           arm-linux-user cris-linux-user hppa-linux-user 
                           i386-linux-user m68k-linux-user 
                           microblazeel-linux-user microblaze-linux-user 
                           mips64el-linux-user mips64-linux-user 
                           mipsel-linux-user mips-linux-user 
                           mipsn32el-linux-user mipsn32-linux-user 
                           nios2-linux-user or1k-linux-user 
                           ppc64abi32-linux-user ppc64le-linux-user 
                           ppc64-linux-user ppc-linux-user riscv32-linux-user 
                           riscv64-linux-user s390x-linux-user sh4eb-linux-user 
                           sh4-linux-user sparc32plus-linux-user 
                           sparc64-linux-user sparc-linux-user 
                           tilegx-linux-user x86_64-linux-user 
                           xtensaeb-linux-user xtensa-linux-user
  --target-list-exclude=LIST exclude a set of targets from the default target-list

Advanced options (experts only):
  --cross-prefix=PREFIX    use PREFIX for compile tools []
  --cc=CC                  use C compiler CC [cc]
  --iasl=IASL              use ACPI compiler IASL [iasl]
  --host-cc=CC             use C compiler CC [cc] for code run at
                           build time
  --cxx=CXX                use C++ compiler CXX [c++]
  --objcc=OBJCC            use Objective-C compiler OBJCC [cc]
  --extra-cflags=CFLAGS    append extra C compiler flags QEMU_CFLAGS
  --extra-cxxflags=CXXFLAGS append extra C++ compiler flags QEMU_CXXFLAGS
  --extra-ldflags=LDFLAGS  append extra linker flags LDFLAGS
  --cross-cc-ARCH=CC       use compiler when building ARCH guest test cases
  --cross-cc-flags-ARCH=   use compiler flags when building ARCH guest tests
  --make=MAKE              use specified make [make]
  --install=INSTALL        use specified install [install]
  --python=PYTHON          use specified python [/usr/bin/python3]
  --sphinx-build=SPHINX    use specified sphinx-build []
  --smbd=SMBD              use specified smbd [/usr/sbin/smbd]
  --with-git=GIT           use specified git [git]
  --static                 enable static build [no]
  --mandir=PATH            install man pages in PATH
  --datadir=PATH           install firmware in PATH/qemu
  --docdir=PATH            install documentation in PATH/qemu
  --bindir=PATH            install binaries in PATH
  --libdir=PATH            install libraries in PATH
  --libexecdir=PATH        install helper binaries in PATH
  --sysconfdir=PATH        install config in PATH/qemu
  --localstatedir=PATH     install local state in PATH (set at runtime on win32)
  --firmwarepath=PATH      search PATH for firmware files
  --efi-aarch64=PATH       PATH of efi file to use for aarch64 VMs.
  --with-confsuffix=SUFFIX suffix for QEMU data inside datadir/libdir/sysconfdir [/qemu]
  --with-pkgversion=VERS   use specified string as sub-version of the package
  --enable-debug           enable common debug build options
  --enable-sanitizers      enable default sanitizers
  --enable-tsan            enable thread sanitizer
  --disable-strip          disable stripping binaries
  --disable-werror         disable compilation abort on warning
  --disable-stack-protector disable compiler-provided stack protection
  --audio-drv-list=LIST    set audio drivers list:
                           Available drivers: oss alsa sdl pa
  --block-drv-whitelist=L  Same as --block-drv-rw-whitelist=L
  --block-drv-rw-whitelist=L
                           set block driver read-write whitelist
                           (affects only QEMU, not qemu-img)
  --block-drv-ro-whitelist=L
                           set block driver read-only whitelist
                           (affects only QEMU, not qemu-img)
  --enable-trace-backends=B Set trace backend
                           Available backends: dtrace ftrace log simple syslog ust
  --with-trace-file=NAME   Full PATH,NAME of file to store traces
                           Default:trace-
  --disable-slirp          disable SLIRP userspace network connectivity
  --enable-tcg-interpreter enable TCG with bytecode interpreter (TCI)
  --enable-malloc-trim     enable libc malloc_trim() for memory optimization
  --oss-lib                path to OSS library
  # 为指定CPU构建
  --cpu=CPU                Build for host CPU [x86_64]
  --with-coroutine=BACKEND coroutine backend. Supported options:
                           ucontext, sigaltstack, windows
  --enable-gcov            enable test coverage analysis with gcov
  --gcov=GCOV              use specified gcov [gcov]
  --disable-blobs          disable installing provided firmware blobs
  --with-vss-sdk=SDK-path  enable Windows VSS support in QEMU Guest Agent
  --with-win-sdk=SDK-path  path to Windows Platform SDK (to build VSS .tlb)
  --tls-priority           default TLS protocol/cipher priority string
  --enable-gprof           QEMU profiling with gprof
  --enable-profiler        profiler support
  --enable-debug-stack-usage
                           track the maximum stack usage of stacks created by qemu_alloc_stack
  --enable-plugins
                           enable plugins via shared library loading
  --disable-containers     don't use containers for cross-building
  --gdb=GDB-path           gdb to use for gdbstub tests [/usr/bin/gdb]

Optional features, enabled with --enable-FEATURE and
disabled with --disable-FEATURE, default is enabled if available:

  system          all system emulation targets
  user            supported user emulation targets
  linux-user      all linux usermode emulation targets
  bsd-user        all BSD usermode emulation targets
  docs            build documentation
  guest-agent     build the QEMU Guest Agent
  guest-agent-msi build guest agent Windows MSI installation package
  pie             Position Independent Executables
  modules         modules support (non-Windows)
  module-upgrades try to load modules from alternate paths for upgrades
  debug-tcg       TCG debugging (default is disabled)
  debug-info      debugging information
  sparse          sparse checker
  safe-stack      SafeStack Stack Smash Protection. Depends on
                  clang/llvm >= 3.7 and requires coroutine backend ucontext.

  gnutls          GNUTLS cryptography support
  nettle          nettle cryptography support
  gcrypt          libgcrypt cryptography support
  auth-pam        PAM access control
  sdl             SDL UI
  sdl-image       SDL Image support for icons
  gtk             gtk UI
  vte             vte support for the gtk UI
  curses          curses UI
  iconv           font glyph conversion support
  vnc             VNC UI support
  vnc-sasl        SASL encryption for VNC server
  vnc-jpeg        JPEG lossy compression for VNC server
  vnc-png         PNG compression for VNC server
  cocoa           Cocoa UI (Mac OS X only)
  virtfs          VirtFS
  mpath           Multipath persistent reservation passthrough
  xen             xen backend driver support
  xen-pci-passthrough    PCI passthrough support for Xen
  brlapi          BrlAPI (Braile)
  curl            curl connectivity
  membarrier      membarrier system call (for Linux 4.14+ or Windows)
  fdt             fdt device tree
  kvm             KVM acceleration support
  hax             HAX acceleration support
  hvf             Hypervisor.framework acceleration support
  whpx            Windows Hypervisor Platform acceleration support
  rdma            Enable RDMA-based migration
  pvrdma          Enable PVRDMA support
  vde             support for vde network
  netmap          support for netmap network
  linux-aio       Linux AIO support
  linux-io-uring  Linux io_uring support
  cap-ng          libcap-ng support
  attr            attr and xattr support
  vhost-net       vhost-net kernel acceleration support
  vhost-vsock     virtio sockets device support
  vhost-scsi      vhost-scsi kernel target support
  vhost-crypto    vhost-user-crypto backend support
  vhost-kernel    vhost kernel backend support
  vhost-user      vhost-user backend support
  vhost-vdpa      vhost-vdpa kernel backend support
  spice           spice
  rbd             rados block device (rbd)
  libiscsi        iscsi support
  libnfs          nfs support
  smartcard       smartcard support (libcacard)
  libusb          libusb (for usb passthrough)
  live-block-migration   Block migration in the main migration stream
  usb-redir       usb network redirection support
  lzo             support of lzo compression library
  snappy          support of snappy compression library
  bzip2           support of bzip2 compression library
                  (for reading bzip2-compressed dmg images)
  lzfse           support of lzfse compression library
                  (for reading lzfse-compressed dmg images)
  zstd            support for zstd compression library
                  (for migration compression and qcow2 cluster compression)
  seccomp         seccomp support
  coroutine-pool  coroutine freelist (better performance)
  glusterfs       GlusterFS backend
  tpm             TPM support
  libssh          ssh block device support
  numa            libnuma support
  libxml2         for Parallels image format
  tcmalloc        tcmalloc support
  jemalloc        jemalloc support
  avx2            AVX2 optimization support
  avx512f         AVX512F optimization support
  replication     replication support
  opengl          opengl support
  virglrenderer   virgl rendering support
  xfsctl          xfsctl support
  qom-cast-debug  cast debugging support
  tools           build qemu-io, qemu-nbd and qemu-img tools
  bochs           bochs image format support
  cloop           cloop image format support
  dmg             dmg image format support
  qcow1           qcow v1 image format support
  vdi             vdi image format support
  vvfat           vvfat image format support
  qed             qed image format support
  parallels       parallels image format support
  sheepdog        sheepdog block driver support
  crypto-afalg    Linux AF_ALG crypto backend driver
  capstone        capstone disassembler support
  debug-mutex     mutex debugging support
  libpmem         libpmem support
  xkbcommon       xkbcommon support
  rng-none        dummy RNG, avoid using /dev/(u)random and getrandom()
  libdaxctl       libdaxctl support

第一台虚拟机

要创建虚拟机，首先要创建一个虚拟磁盘，然后从光驱启动此虚拟机：

mkdir -p ~/Vmware/KVM

# 以qcow2格式创建一个16G的虚拟磁盘，注意，默认不会预先分配空间
qemu-img create -f qcow2 ~/Vmware/KVM/centos7-base.img 16G

# 指定光盘镜像，从光驱启动虚拟机
# -hda 第一块硬盘的镜像
# -cdrom 光驱的镜像，你可以把宿主的/dev/cdrom传入，这样可以使用物理光驱
# -boot 指定启动顺序，d表示第一个光驱，c表示第一块硬盘
# -m 为虚拟机分配多少内存，默认单位M，默认128M
qemu-system-x86_64 -enable-kvm -hda ~/Vmware/KVM/centos7-base.img  -boot d -m 512
                   -cdrom ~/Software/OS/CentOS-7-x86_64-Minimal-1503-01.iso

上述命令执行完毕之后，会弹出一个窗口，该窗口相当于虚拟机的显示器。你可以在其中完成操作系统的安装。安装完毕后，执行下面的命令，即可启动虚拟机：

qemu-system-x86_64 -enable-kvm -hda ~/Vmware/KVM/centos7-base.img -m 512

后续几个章节，我们深入学习客户机硬件的定制，以满足不同应用场景的需要、提高客户机的性能。

配置CPU

使用选项

-cpu

选项可以选择客户机使用的CPU，执行

qemu-system-x86_64 -cpu help

可以列出QEMU支持的CPU名称、可用的CPUID标记。

你可以这样配置一个CPU：

-cpu SandyBridge,+erms,+smep,+fsgsbase,+pdpe1gb,+rdrand,+f16c,+osxsave,+dca,+pcid,+pdcm,\
     +xtpr,+tm2,+est,+smx,+vmx,+ds_cpl,+monitor,+dtes64,+pbe,+tm,+ht,+ss,+acpi,+ds,+vme

+表示启用CPU特性，如果要禁用CPU特性，可以使用

。

SMP配置

所谓对称多处理（Symmetrical Multi-Processing），是指在一个计算机上汇集了一组处理器，各处理器共享内存子系统以及总线结构。在PC机上QEMU最多可以模拟255个CPU。

你可以这样配置SMP：

-smp 1,sockets=1,cores=1,threads=1

。这个配置表示主板上有一个CPU插槽、1个CPU、每个CPU具有1核心、每个核心具有1个硬件线程（超线程）。

配置磁盘

你可以在宿主机上创建一个磁盘镜像文件，然后供客户机使用。客户机磁盘I/O都将针对此文件。镜像文件可以有几种格式。

Raw镜像

这种镜像的特点是格式简单，性能较好。

你的文件系统（例如Ext3）必须支持稀疏文件（sparse file），才能避免不必要的磁盘空间占用。稀疏文件是一种高效使用磁盘空间的技术，当文件大小很大，而其绝大部分块都是空白（未使用）的时，可以基于文件元数据来表示那些空白的块（而不是真实的硬盘空间）。

创建Raw镜像：

qemu-img create -f raw hda.img 1G

# 查看镜像信息
qemu-img info hda.img 
# image: hda.img
# file format: raw
# virtual size: 1.0G (1073741824 bytes)
# disk size: 0

你也可以使用dd命令产生Raw镜像，例如：

# 产生非稀疏文件：块大小1MB，写入1024个块，虚拟大小1G，实际大小1G
dd if=/dev/zero of=hda.img bs=1024k count=1024
# 产生稀疏文件：块大小1MB，写入0个块，虚拟大小1G，实际大小0
dd if=/dev/zero of=hda.img bs=1024k count=0 seek=1024

qcow2镜像

qcow2镜像的动态增长的，即使文件系统不支持稀疏文件，它也会尽可能的小。qcow2支持Copy-on-write、镜像、压缩、加密。

正是由于qcow2支持Copy-on-write，我们才可以使用backing file——用一个镜像保存针对另外一个镜像的改变，而后面那个镜像不需要被改动。这是多虚拟机公用一个Base镜像，以及Snapshot的基础。

qcow2原理

qcow2镜像文件的结构如下图所示：

qcow2镜像文件由一个头、几张表、数据簇组成。所有数据都存放在数据簇（Data Clusters）中，每个数据簇是512字节的扇区。为了方便管理这些数据簇，qcow2建立了两级表：L1、L2。其中L1表的条目指向L2表，而L2表的条目指向数据簇。

要定位数据，需要3个偏移量构成的数组：

通过位于Header中的L1表指针 +offset[0]，得到L2表的指针
L2表指针 + offset[1]，得到数据簇指针
数据簇指针 + offset[2]，得到目标数据的指针

创建qcow2镜像

你可以这样创建一个qcow2镜像：

qemu-img create -f qcow2 hda-back.img 16G

转为backing file

然后，在未来某个时刻把它作为backing file使用：

qemu-img create -f qcow2 -o backing_file=hda-back.img hda.img

压缩、加密和扩展

镜像hda.img在一开始是空白的，所有数据都是从hda-back.img中获取，一旦发生写入操作，hda.img就开始有数据而hda-base.img保持不变。

使用下面的命令可以压缩一个qcow2镜像：

qemu-img convert -c -f qcow2 -O qcow2 hda.img hda.compressed.img

使用下面的命令可以为一个qcow2镜像设加密：

qemu-img convert -o encryption -f qcow2 -O qcow2  hda.img hda.encrypted.img
# 提示输入密码

使用压缩镜像启动虚拟机时，必须在Monitor中输入密码才可以。

使用下面的命令，可以扩展一个qcow2镜像的大小：

qemu-img resize hda.img +10G

注意：扩大得到的空间，不会被分区或者格式化。

清理空白

要移除镜像中的spare space，直接qcow2-to-qcow2转换即可，压缩（-c）可选：

qemu-img convert -O qcow2 source.qcow2 shrunk.qcow2

变基rebase

rebase操作用于改变一个镜像的backing镜像：

# -u 表示unsafe模式，在此模式下，仅仅改变backing文件的路径，不对文件内容进行检查
#    用于backing文件移动的情况
# -p 表示safe模式，在此模式下，执行真正的rebase操作。backing文件的内容可能和之前
#    不同，qemu-img会小心处理，确保VM可见的内容不变。为达成这一点，新旧backing
#    文件的差异，会合并到被改变镜像中
                    # 格式
qemu-img rebase -u  -f qcow2   
  # 新的backing文件位置                                      新backing文件格式
  -b /home/alex/Vmware/libvirt/images/sdd/xenial-base.qcow2 -F qcow2 
  # 被处理镜像文件
  /home/alex/Vmware/libvirt/images/sdd/xenial-100.qcow2

格式转换

你可以把一个镜像的格式在Raw和qcow2之间进行转换：

# 把Raw格式的hda.img转换为qcow2格式的hda.qcow2
qemu-img convert -f raw -O qcow2 hda.img hda.qcow2

使用快照

快照（Snapshot）是Copy-on-write的一种应用。QEMU支持两种快照：

内部快照（internal snapshot）：在qcow2镜像的snapshot table中维护的快照，所有快照都存放在一个镜像文件中
外部快照（external snapshot）：与Backing file很类似，在外部文件中创建新的镜像，原先的镜像只读

内部快照

内部快照的原理是：

创建一个Snapshot后，在Snapshot Table中新增一项，复制L1 Table
当L2 Table或者Data Cluster发生改变，则把改变前的数据复制一份（Copy-on-write），由新创建的Snapshot的L1 Table来管理
L2 Table或者Data Cluster的变化，直接写到原始位置
要删除快照，很简单，直接把Snapshot Table对应项、以及复制的L1-L2-DS删除即可
要加载快照，则需要依据L1-L2-DS信息，将其合并到镜像的L1-L2-DS信息中

可以使用Monitor来创建、加载、删除内部快照：

# 保存一个内部快照
(qemu) savevm snapshot-1

qemu-img info hda.img
# 输出如下：
#Snapshot list:
#ID        TAG                 VM SIZE                DATE       VM CLOCK
#1         snapshot-1             112M 2016-09-07 18:05:48   00:00:21.536
#Format specific information:
#    compat: 1.1
#    lazy refcounts: false

# 加载内部快照
(qemu) loadvm snapshot-1

# 删除内部快照
(qemu) delvm snapshot-1

外部快照

外部快照与内部快照相反：内部快照是原数据变化，外部快照则是新文件变化。

可以使用Monitor来管理外部快照：

snapshot_blkdev ide0-hd0 snapshot.img qcow2

配置客户机磁盘

有了磁盘镜像文件后，你需要为qemu-system-*指定参数，给客户机增加磁盘。有几种不同的配置方式：

# 最简单的方式
-hda hda.img 

# 使用-drive配置块设备，可以指定if为virtio来提升性能
-drive file=hda.img,index=0,media=disk,if=virtio

# 使用-device配置通用设备
-drive file=hda.img,if=none,id=virtio-disk0,format=qcow2,cache=none 
# 可以指定virtio-blk-pci来提升性能
-device virtio-blk-pci,scsi=off,bus=pci.0,addr=0x4,drive=virtio-disk0,bootindex=1

配置网络

QEMU中的网络，包含两部分的内容：

客户机使用的虚拟网络设备
和上述虚拟设备通信的网络后端，这些后端负责把虚拟设备的数据包发到宿主机的网络中

要创建一个网络后端，可以指定如下选项：

# TYPE为后端类型：user、tap、bridge、socket、vde等
# id为一个标识符，将虚拟网络设备和网络后端关联在一起
# 如果客户机有多个虚拟网络设备，则每一个都需要自己的网络后端
-netdev TYPE,id=NAME,...

QEME支持多种网络后端。

USER后端

如果没有指定网络选项，QEMU默认会模拟单张Intel e1000 PCI网卡，该网卡基于user后端（SLIRP）连接到宿主机：

# 不指定网络
qemu 
# 等价配置。自0.12开始废弃的配置方式 -net nic相当于-device DEVNAME；-net TYPE相当于-netdev TYPE
qemu -hda disk.img -net nic -net user
# 等价配置。-netdev指定网络后端，-device指定虚拟网络设备，后者通过netdev字段引用后端的ID
qemu -netdev user,id=network0 -device e1000,netdev=network0

在客户机看来：

本身的IP地址被分配为 10.0.2.15+
分配IP的虚拟DHCP为 10.0.2.2
虚拟DNS服务器为 10.0.2.3
虚拟Samba服务器为 10.0.2.4，客户机可以通过此服务器访问宿主机的文件系统

用户模式网络可以很方便的访问网络资源。但是它有很多限制：

默认的，它运作方式类似于防火墙，且不允许任何入站流量。这个限制可以通过端口重定向解决
仅仅支持TCP、UDP协议，对于ICMP则不支持
性能比较差

为了支持入站请求，你可以使用端口重定向（Redirecting ports）——把针对宿主机某个端口的请求转发给客户机的某个端口。映射后，客户机可以对外提供SSH、HTTP等服务：

# 把宿主机的7080端口重定向到客户机的80端口；把宿主机的7022端口重定向到客户机的22端口
qemu-system-x86_64 -redir tcp:7080::80 -redir tcp:7022::22 -hda ~/Vmware/KVM/centos7-base.img -m 512 

# 从宿主机SSH到客户机
ssh root@127.0.0.1 -p 7022

你可以不使用默认的10.0.2网段：

-netdev user,id=network0,net=192.168.5.0/24,dhcpstart=192.168.5.9

客户机OS配置

依据客户机安装的操作系统，可能需要进行一些配置，才能正常使用网络。以CentOS 7 Minimal + 用户模式网络为例，需要修改以下配置文件：

NETWORKING=yes
# 如果不使用IPV6
NETWORKING_IPV6=no

# 如果不使用IPV6
IPV6INIT=no
# 开机启动此网卡，默认不启动
ONBOOT=yes

网关、DNS不需要设置。修改完这些配置文件后，重启客户机网络：

/etc/init.d/network restart

。然后执行

yum update

测试一下能否正常联网（不要使用ping测试）

TAP后端

QEMU的TAP后端利用宿主机的TAP设备，为客户机提供完整的桥接网络支持，如果外部需要使用标准端口连接到客户机，或者多个客户机需要相互通信，可以使用该方式。 TAP后端还具有以下优势：

非常好的性能
可以配置以支持各种网络拓扑

但是，你需要在宿主机上进行网络拓扑的配置，而且各种系统的配置不同。

使用TAP后端前，你需要确认你的宿主机的内核支持TAP网络接口：

/dev/net/tun

文件存在则说明支持。如果没有这样的文件，可以尝试手工创建：

sudo mkdir /dev/net
sudo mknod /dev/net/tun c 10 200
sudo /sbin/modprobe tun

基于TAP的私有桥接网络

如果你想创建几个客户机之间的私有网络，可以使用该方式。未参与进来的客户机、真实网络无法看到此网络。

如果你不是root，则你需要

/dev/kvm

的读写权限。

首先，添加一个以太网桥设备：

sudo ip link add br0 type bridge
# 也可以使用：sudo brctl addbr br0添加网桥
# 要删除网桥，执行： ip link delete br0
# 注意：网桥会在重启后消失

# 启用此网桥
sudo ip link set br0 up

# 为网桥分配IP地址
sudo ip addr add 10.0.0.1 dev br0

# 在宿主机添加一条直接路由，便于它能和客户机通信
sudo ip route add 10.0.0.0/8 dev br0

创建一个创建TAP设备并桥接到网桥的脚本：

#!/bin/sh

switch=br0

if [ -n "$1" ];then
        # tunctl -u `whoami` -t $1
        # 添加一个tap设备，在我的机器上不需要，原因见下面
        # ip tuntap add $1 mode tap user `whoami`
        # 不知道从什么时候开始，QEMU会在执行此脚本之前就创建好tap设备，因此会报下面的错误
        # ioctl(TUNSETIFF): Device or resource busy
        # 启动tap设备
        ip link set $1 up
        # brctl addif $switch $1
        # 将网桥和tap设备进行桥接
        ip link set $1 master $switch
        exit 0
else
        echo "Error: no interface specified"
        exit 1
fi

创建一个生成随机MAC地址的脚本：

#!/bin/bash
# generate a random mac address for the qemu nic
printf 'DE:AD:BE:EF:%02X:%02X\n' $((RANDOM%256)) $((RANDOM%256))

启动客户机的脚本：

#!/bin/bash
# $1 base name of virtual disk
# $2 memory size
# $3 tap device id

mac=`/usr/bin/qemu-genmac`
src=/usr/bin/qemu-ifup
sudo qemu-system-x86_64 -enable-kvm -device e1000,netdev=$3,mac=$mac -netdev tap,id=$3,script=$src,downscript=no \
                        -hda ~/Vmware/KVM/$1.img -m $2

为上面的脚本文件添加可执行权限：

sudo chmod +x /usr/bin/qemu-ifup-br0
sudo chmod +x /usr/bin/qemu-genmac
sudo chmod +x /usr/bin/qemu-start-br0

执行下面的命令，启动一台客户机（或者更多虚拟机，但是命令中的tap0要更换为不同的名字）：

/usr/bin/qemu-start centos7-base 512 tap0

修改客户机的IP地址，使用10.0.0.0/8网段：

TYPE=Ethernet
BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=no
NAME=ens3
UUID=d9f47102-b177-4a27-ae98-86f6939d6680
DEVICE=ens3
ONBOOT=yes
IPADDR=10.0.0.10
PREFIX=8
GATEWAY=10.0.0.1

好了，你现在可以互相ping客户机和宿主机，应该可以正常连通了。

私有桥接下访问互联网

上一节介绍的这种基于TAP的私有桥接网络，可以让客户机、宿主机相互连通，但是客户机无法访问互联网。

要解决此问题，你可以选择以下方法之一：

让客户机通过宿主机暴露的HTTP/SOCKS代理上网

配置宿主机的路由规则，设置好源地址转换即可：

# 宿主机需要启用IP转发功能，这样它就可以像路由器那样中转IP封包了
sudo sysctl -w net.ipv4.ip_forward=1 
# 对客户机网段进行源地址转换
sudo iptables -t nat -A POSTROUTING  -s 10.0.0.0/255.0.0.0 ! -d 10.0.0.0/255.0.0.0 -j MASQUERADE

公共桥接网络

此方式和私有桥接网络类似，主要区别是，除了TAP设备桥接到网桥之外，以太网卡（例如eth0）也桥接到网桥（例如br1）。

你可以通过发行版的配置文件来配置网桥：

# 注意网络管理器组件的影响
# 去掉 auto eth0，改为：
auto br1

# 配置br1
iface br1 inet dhcp
    bridge_ports    eth0
    bridge_stp      off
    bridge_maxwait  0
    bridge_fd       0
    # 这里附加上原来属于eth0的配置

或者基于脚本来配置：

sudo ip link add br1 type bridge
sudo ip link set br1 up
sudo ip link set eth0 master br1 

# DHCP
sudo killall dhclient && sudo ip addr flush dev eth0
sudo dhclient br1

无论用哪种方式，都应该注意到eth0的IP地址需要转移给br1，这样才能确保网络正常运作——br1必须在链路层接收到相关ARP请求，并决定是否需要转发给客户机，eth0没有这种转发能力。

如果eth0所在网络是基于DHCP的，那么客户机配置为DHCP后，会自动获取公共IP地址。否则，需要手工设置客户机的IP地址。

基于TAP的桥接的简化配置

现在QEMU支持自动桥接TAP设备到宿主机的一个网桥，因此你不再需要编写脚本，修改网络后端为bridge即可：

-netdev bridge,id=tap0,br=br0

注意，使用上述选项时，QEMU需要读取配置文件/etc/qemu/bridge.conf，你只需在此文件中添加一行代码：

allow br0

你可以编写如下脚本自动创建网桥、配置iptables规则。示例：

# Create private bridge link for QEMU
/sbin/ip link add br0 type bridge
/sbin/ip link set br0 up
/sbin/ip addr add 10.0.0.1 dev br0
/sbin/ip route add 10.0.0.0/8 dev br0
# NAT for 10.0.0.0/8
/sbin/iptables -t nat -A POSTROUTING  -s 10.0.0.0/255.0.0.0 ! -d 10.0.0.0/255.0.0.0  -j MASQUERADE


# Create public bridge link for QEMU
/sbin/ip link add br1 type bridge
/sbin/ip link set br1 up
/sbin/ip link set eth0 master br1 
/usr/bin/killall dhclient && /sbin/ip addr flush dev eth0
/sbin/dhclient br1

macvtap直连

建议和libvirt一起使用macvtap。

基于libvirt的桥接

在使用libvirt时，客户机（Domain）的网络接口配置可以简化为：

基于libvirt虚拟局域网的桥接

可以使用libvrit的虚拟局域网，这样宿主机上不会为客户机创建专门的tap设备，那些手工编写的脚本也全都不需要了。虚拟网络配置示例：


  default
  9bae4de8-ca58-48c5-ba58-109aebf8b954

客户机（Domain）的网络接口配置示例：

另外，libvirt的虚拟网络提供了DHCP功能，因此客户机的IP地址不需要静态设置。

其它配置

SMBIOS

SMBIOS即DMI表，存放了X86系统硬件信息，这个表依据DMI type分为数十个段，type0是BIOS、type1是系统信息、type2是主板信息……

QEMU支持模拟这些信息，例如：

# 设置客户机的type1信息
-smbios type=1,manufacturer=OpenStack Foundation,product=OpenStack Nova,version=2011,serial=8059dfb4,uuid=1f8ee7f308

内存

要设置客户机的内存容量，可以使用

-m

，默认单位MB。

客户机没必要占据着空闲的内存不用，因此我们一般启用内存实际大小的动态调整功能，例如：

-device virtio-balloon-pci,id=balloon0,bus=pci.0,addr=0x5

半虚拟化和virtio

在本文的第一章，谈到周围硬件性能的时候，我们提及了virtio——它是规定了虚拟设备的前端驱动与宿主机硬件的后端驱动之间通信接口的标准，并且知道目前的很多Linux发行版已经把virtio驱动编译进内核了。前面的章节我们也使用了很多virtio驱动，包括磁盘、网络、内存相关的。

基于virtio驱动的虚拟设备，我们成为“半虚拟化设备”，因为这些设备驱动知道自己工作在虚拟化模式下。为客户机配置半虚拟化设备，可以提高内存、硬盘、网络方面的性能，由其对于网络，性能提升很明显。

除了virtio，Vmware Tools也属于半虚拟化驱动，QEMU客户机也可以利用Vmware Tools（例如-vga指定vmware）。virtio驱动的具体实现包括：virtio-blk、virtio-net、virtio-pci、virtio-balloon、virtio-console等。

半/全虚拟化的区别如下：

在全虚拟化状态下，Guest OS不知道自己是虚拟机，于是像发送普通的IO一样发送数据，被Hypervisor拦截，转发给真正的硬件。
在半虚拟化状态下，Guest OS知道自己是虚拟机（需安装半虚拟化驱动），所以数据直接发送给半虚拟化设备，经过特殊处理，发送给真正的硬件

virtio-balloon

这是一个特殊的半虚拟化设备，它能够动态（不需要重启客户机）的调整客户机的内存大小。如果你指定了-m参数，则不能调整的比-m更大。使用选项

-balloon virtio

可以添加Ballooning设备。

virtio-blk

要基于半虚拟化来访问磁盘，可以使用选项：

-drive file=vda.qcow2,if=virtio

，使用virto_blk驱动的硬盘，在客户机里对应的设备文件是/dev/vda（而IDE硬盘是/dev/hda、基于SATA的硬盘则显示为/dev/sda）。

可以使用驱动virtio-blk-data-plane进一步提高性能（I/O性能较virtio-blk能提高10-20%），此驱动自QEMU 1.4开始引入。与传统的virtio-blk不同的是，virtio-blk-data-plane为每个块设备独立分配一个线程用于I/O处理，此线程不需要和QEMU执行线程同步、竞争锁。此驱动基于宿主机的原生AIO响应客户机的请求。启用此驱动的选项示例：

-drive if=none,id=drive0,cache=none,aio=native,format=raw,file=vda.img
-device virtio-blk-pci,drive=drive0,scsi=off,x-data-plane=on

但是，启用virtio-blk-data-plane后，存储迁移（storage migration）、热拔插、I/O限流（throttling）等功能无法使用。而且该驱动仅支持Raw格式的磁盘。

virtio-net

要基于半虚拟化来访问网络，可以使用选项：

-device virtio-net-pci,netdev=network0

。你应当总是考虑启用半虚拟化网卡，因为性能会有很大的提升。

宿主机网卡的某些特性可能会影响virtio的性能，例如：

TSO（TCP Segmentation Offload）：通过网络设备进行TCP段的分割，从而来提高网络性能
GSO（Generic Segmentation Offload）：类似，用TCPv6、UDP等传输层协议

你可以开关这些特性来测试对客户机网络性能的影响。要检查宿主机网卡是否支持、开启这些特性，可以执行命令：

ethtool -k eth0

。

配置NBD

网络块设备（Network Block Device）是一种把虚拟块设备通过TCP/IP暴露出去，供远程共享访问的技术。

暴露NBD

通过套接字暴露

你可以通过UNIX套接字来暴露：

qemu-nbd -t -k /home/alex/Vmware/KVM/.images/fedora-108 fedora-108/hda.img

也可以通过普通套接字来暴露：

qemu-nbd  -p 1025 fedora-108/hda.img

挂载到NBD设备

甚至是把镜像直接挂载到宿主机的NBD设备中：

# 在宿主机上启用NBD内核模块，最多16个分区：
sudo modprobe nbd max_part=16
# 查看NBD设备文件
ls /dev/nbd*
# 输出/dev/nbd0 ... /dev/nbd15

# 挂载
sudo qemu-nbd -c /dev/nbd0 fedora-108/hda.img

# 查看nbd0的分区情况
sudo fdisk -l /dev/nbd0
#  Device Boot Start End Blocks Id System
#  /dev/nbd0p1 * 2048 1026047 512000 83 Linux
#  /dev/nbd0p2 1026048 33554431 16264192 8e Linux LVM

使用NBD

客户机可以直接使用NBD作为磁盘：

# 使用UNIX套接字：
qemu-system-x86_64 -hda nbd:unix:/home/alex/Vmware/KVM/.images/fedora-108
# 使用普通套接字
qemu-system-x86_64 -hda nbd:10.0.0.1:1025

迁移

QEMU支持离线或者在线的迁移，你可以在Monitor中使用迁移命令。当迁移完毕后，虚拟机会在目标主机上继续运行。

AMD和Intel宿主机之间可以随意的迁移虚拟机，64位虚拟机只能迁移到64位宿主机上，32位则没有限制。某些老旧的Intel CPU不支持NX（禁止执行比特位），这种CPU处于启用NX的宿主机群中，会导致问题，你需要禁止客户机的NX：

-cpu qemu64,-nx

。

QEMU的迁移功能具有以下特性：

极短暂的客户机停机时间
如果迁移成功，则客户机在目标主机上运行；如果迁移失败，则客户机继续在源主机上运行
几乎对硬件没有依赖

使用共享存储

使用共享存储时，QEMU迁移会很便利，因为不牵涉到磁盘映像的移动。共享存储包括：NFS、NBD、SAN等。我们以NBD为例说明：

启动供源、目的虚拟机共享的NBD服务：
```
qemu-nbd -p 1025 --share=2 fedora-108/hda.img
```
确保源、目的虚拟机的配置，它们要具有相同的网络环境

启动源虚拟机：

sudo qemu-system-x86_64 -netdev bridge,id=tap0,br=br0 -device virtio-net-pci,netdev=tap0,mac=DE:AD:BE:EF:F1:08 
                        -hda nbd:10.0.0.1:1025 -monitor stdio -enable-kvm

源虚拟机运作一段时间后，其宿主机的硬件需要维护，因此准备迁移。在另外一台宿主机上启动目的虚拟机，并监听migration端口：
```
# qemu选项同源虚拟机，附加：
-incoming tcp:0:4444
```
注意，这个监听端口是开在宿主机上的。实际上，以-incoming启动目的虚拟机后，虚拟机是处于Stopped状态的
登录到源虚拟机，确认它与目的虚拟机的宿主机之间的网络是畅通的
在源虚拟机的Monitor中，发起迁移命令：
```
(qemu) migrate -d tcp:10.0.0.1:4444
```
在迁移过程中，可以通过
```
info migrate
```
查看迁移状态，完毕后会显示Migration status: completed，并列出迁移消耗的时间、停机时间
迁移完成后，源虚拟机变为Stopped，而目的虚拟机开始运行，获得源虚拟机的全部瞬时状态

不使用共享存储

这种情况下，源虚拟机的磁盘镜像需要拷贝到目标宿主机中。因而需要更长的时间、更多的网络带宽消耗。步骤如下：

查看源虚拟机的磁盘镜像信息：
```
qemu-img info fedora-108/hda.img
```
在目的机器上创建与之大小（Virtual size）一致的空磁盘镜像：
```
qemu-img create -f qcow2 fedora-108-m/hda.img 16G
```
使用与共享存储一样的步骤进行迁移，只是源、目的虚拟机使用各自的磁盘镜像

监控与调试

前面的章节我们已经多次使用QEMU的监控功能，通过使用QEMU的HMI（Monitor）可以在(qemu)提示符下进行各种监控操作，包括查看虚拟机信息、动态添加设备、执行迁移等等。在《QEMU命令与快捷键》一章我们会详细的讲解HMI命令，本章主要介绍监控相关的QEMU配置

基于HMI（Monitor）监控

你可以通过多种方式使用Monitor：

默认的，可以在QEMU的虚拟机窗口中，按Ctrl + Alt + 2切换到Monitor
可以使用
```
-monitor stdio
```
，让Monitor重定向到启动虚拟机的Terminal
可以启动一个TCP监听
```
-monitor tcp::4444,server,nowait
```
，这样你可以
```
telnet hostip:4444
```
访问Monitor
可以通过字符设备：
```
-chardev stdio,id=x -monitor chardev=x
```
访问Monitor

基于QMP监控

非交互式监控时，QEMU监控协议（QEMU Monitor Protocol）是更好的选择，这是一个基于JSON格式的协议。要启用QMP，你可以：

基于stdio：
```
-qmp stdio
```
基于TCP：
```
-qmp tcp:localhost:4444,server
```
基于UNIX Socket：
```
-qmp unix:./qmp-sock,server
```

最佳实践

以下列出一些应用基于QEMU/KVM的虚拟化方案时的最佳实践：

使用半虚拟化驱动virtio
1. 性能好：延迟低、吞吐量高
2. 纯虚拟设备的劣势：需要高吞吐能力的设备在硬件方面会有特殊的实现，这些纯虚拟设备是没法利用的
3. 网络、块设备、内存，都可以使用virtio
4. 兼容性较差
虚拟机最好直接使用块设备做存储
1. 性能好、无需管理宿主机的文件系统、无需管理稀疏文件
2. I/O 缓存以4K为边界
3. 如果没有条件使用块设备，只能使用镜像文件
4. 宿主机最好使用ext3文件系统，ext4的barrier会影响性能
5. Raw格式镜像的性能优于qcow2
6. 选择正确的缓存策略，缓存模式推荐none，I/O调度器推荐Deadline I/O scheduler
CPU配置
1. 每个客户机相当于一个进程，而每个客户机的虚拟CPU相当于一个线程。因此超配CPU是可行的
2. CPU超配可能带来额外的上下文切换，影响性能
3. 要保证客户机获得足够的时间片，可以利用cgroup的cpu.cfs_period_us、cpu.cfs_quota_us来干预CFS调度器的行为
4. Pin CPU：可以将虚拟CPU Pin到一个物理CPU，或者一组共享缓存的物理CPU，便于缓存共享。缺点是Pin导致其它空闲CPU可能得不到利用
内存配置
1. 使用内核特性KSM（Kernel Same Page Merging），KSM通过扫描将相同的内存区域设置为共享，并且Copy-on-write。共享内存节约可以内存空间，但是内存扫描同时影响性能
2. 尽量避免使用swap，可以设置/proc/sys/vm/swappiness=0
网络配置
1. 使用tap类型的网络后端
2. 启用PCI passthough可以提高性能，但是影响迁移

QEMU命令与快捷键

HMI

HMI即 Human Monitor Interface，是QEMU在运行客户机时提供的一个console（下面我们称此console为Monitor），它让你可以和运行中的虚拟机进行交互，你可以获得内存Dump、列出虚拟设备树、获取屏幕截图等操作。

访问HMI

默认情况下QEMU使用SDL来显示客户机的视频输出，此所谓图形模式。如果启用-nographic选项则会禁用图形模式。

在图形模式下，你可以使用以下方式之一访问HMI：

在客户机的虚拟控制台（客户机弹窗）访问HMI，按Ctrl + Alt + 2可以切换到Monitor，在其中你可以调用HMI命令
指定-monitor stdio，则启动虚拟机的Terminal变为Monitor

在基于-nographic的非图形模式下，Monitor、虚拟串口都被重定向到stdio，你可以Ctrl + a c来切换。你可以同时把虚拟串口配置为系统控制台，这样你可以通过单个窗口完成客户机登录、HMI操作

HMI命令

命令	说明
info	显示客户机的相关信息，示例： info kvm # 显示KVM支持情况 info pci # 显示PCI信息 info qtree # 显示QEMU系统总线树 info network # 显示网络设备信息 info block # 显示块设备信息 info blockstatus # 显示块设备读写统计信息 info snapshots # 显示快照信息 info migrate # 显示迁移状态
memsave	Dump客户机内存到宿主机的文件
screendump	屏幕截图
sendkey	键盘控制，示例： sendkey ctrl-alt-f1
quit	退出客户机addr=0xM.0xN
system_powerdown	关闭虚拟机电源
system_reset	重启虚拟机
system_wakeup	唤醒休眠中的虚拟机
savevm	保存一个虚拟机快照，示例： savevm blankos
loadvm	从快照加载虚拟机，示例： loadvm blankos
delvm	删除一个虚拟机快照
snapshot_blkdev_internal	创建一个内部的块设备（主要指硬盘）快照，示例： info block # ide0-hd0: /home/alex/Vmware/KVM/fedora-108/hda.img (qcow2) snapshot_blkdev_internal ide0-hd0 blankos
snapshot_delete_blkdev_internal	删除一个内部的块设备快照
snapshot_blkdev	创建一个外部的块设备快照，示例： snapshot_blkdev ide0-hd0 blankos.img 如果指定了文件参数，则此文件成为新的root镜像
migrate	执行虚拟机迁移
migrate_cancel	取消虚拟机迁移
migrate_set_speed	限制迁移带宽消耗

qemu-system-x86_64

该命令即QEMU模拟器，使用它可以指定硬件设备，并从虚拟磁盘镜像启动一台客户机。

常用选项

选项	说明
-machine	指定虚拟的客户机的类型及其属性，选项格式： -machine [type=]name[,prop=value[,...]] 其中type为机器类型，可以调用 qemu-system-x86_64 -machine help 获得完整机器类型列表，每种机器都标注了主板芯片组的类型你可以指定多个可选的属性： accel=accels1[:accels2[:...]] 启用加速器，可用的包括kvm、xen、tcg，加速器可以指定多个，后面的是备选
-cpu	指定虚拟的CPU类型，可以通过 qemu-system-x86_64 -cpu help 查看可用CPU列表
-smp	虚拟一个SMP系统，在PC机最多虚拟255CPU，选项格式： -smp [cpus=]n[,cores=cores][,threads=threads][,sockets=sockets][,maxcpus=maxcpus] 你可以指定多个属性： cpus 处理器个数 cores 每个处理器的核心数 threads 每个核心的线程数 sockets CPU插槽数 maxcpus 最大可热拔插的CPU数
-global	设置驱动属性为指定的值，选项格式： -global driver.prop=value ，示例： -global ide-drive.physical_block_size=4096 使用该选项，你可以改变由机型（machine）预定义的设备属性，如果要添加设备，请使用-device
-boot	设置客户机的磁盘启动顺序，选项格式： -boot [order=drives][,once=drives][,menu=on\|off][,splash=sp_name] [,splash-time=sp_time][,reboot-timeout=rb_timeout][,strict=on\|off] drives值指定为磁盘符号构成的字符串，这些符号的形式取决于客户机的架构，在X86 PC上： a 软盘1；b 软盘2；c 第一个硬盘；d 第一个光驱；n-p 四个以太网卡你可以指定多个属性： order 磁盘启动顺序 once 仅生效一次的启动顺序 menu 交互式启动，显示菜单 splash 显示一个开机画面，图片必须是JPEG/BMP格式且分辨率支持SVGA模式 splash-time 开机画面显示的时间 reboot-timeout 如果启动失败，多少ms后重启
-m	设置客户机的内存大小，单位MB
-mem-path	从一个临时文件来创建客户机内存可以同时指定 -mem-prealloc 来预分配内存
-soundhw	启用声卡，选项格式： -soundhw card1[,card2,...] # 或者 -soundhw all # 显示可用硬件列表 qemu-system-x86_64 -soundhw help # 示例 qemu-system-x86_64 -soundhw ac97 disk.img
-balloon	控制KVM的Automatic Ballooning功能。virtio balloon设备可以减少KVM客户机的内存大小，该特性用于主持客户机内存的over-committing——宿主机只有2G内存的情况下，创建两台2G内存的客户机。只要客户机实际使用的内存不到2G，那么多余的部分就可以返还给宿主机选项格式： # 禁用balloon设备 -balloon none # 启用balloon设备，可以指定一个PCI地址 -balloon virtio[,addr=addr]
-device driver	添加一个设备驱动，并指定驱动属性，可用的属性取决于具体的驱动，选项格式： -device driver[,prop[=value][,...]] 要获得可用驱动、属性列表，可以： -device help 和 -device driver,help 对于连接到PCI总线的设备，可以指定： bus=pci.x ，此设备连接到第x+1个总线上 addr=0xM.0xN 此设备是总线上的第M个设备，这里使用设备的第N个Function，如果只有一个Function，则.0xN省略该选项可以用于添加客户机的多种虚拟设备并进行细节上的配置（代替部分选项例如-boolean、-net nic），例如： # 添加e1000网卡，以network0为后端 -device e1000,netdev=network0 # 添加基于Virtio的网卡，等价于 -net nic,model=virtio ... -device virtio-net-pci,netdev=network0,id=net0,mac=DE:AD:BE:EF:F1:08,bus=pci.0,addr=0x3 # 启用virtio balloon设备（收回客户机空闲内存），等价于-balloon ... -device virtio-balloon-pci,id=balloon0,bus=pci.0,addr=0x5 # 添加基于Virtio的硬盘（前端） -device virtio-blk-pci,scsi=off,bus=pci.0,addr=0x4,drive=drive-virtio-disk0
-name	设置客户机的名称
-uuid	设置客户机的UUID
*块设备选项*
-fd*	-fda、-fdb指定0、1软盘的镜像文件，你可以使用主机的软盘，例如/dev/fd0
-hd*	-hda、-hdb、-hdc、-hdd指定0、1、2、3硬盘的镜像
-cdrom	指定光驱镜像，你可以可以使用主机的光驱，例如/dev/cdrom
-drive	定义一个新的磁盘驱动器，选项格式： -drive option[,option[,option[,...]]] 你可以使用以下子选项： file 在宿主机上的磁盘镜像文件 if 指定磁盘接口类型，可用的类型包括ide, scsi, sd, mtd, floppy, pflash, virtio bus=bus,unit=unit 依据bus号、unit号来定义此磁盘驱动器被连接在何处 index 依据针对磁盘接口类型的序号来定义此磁盘驱动器被连接在何处 media 媒体类型，可选disk或cdrom snapshot 是否启用快照功能，on/off cache 在访问磁盘上的数据块时如何使用宿主机的缓存功能，none/writeback/unsafe/directsync/writethrough aio threads基于pthread的异步I/O；native基于Linux原生的异步I/O format 指定磁盘格式，而不是去检测file，可选值raw/qcow2 serial 分配给磁盘的串号 addr 如果if=virtio，该选项指定磁盘控制器的PIC地址 readonly 设置磁盘为只读 cache的默认取值是writeback，该选项意味着，一旦数据进入宿主机的页缓存，QEMU就向客户机报告“写入已完成”。如果客户机程序正确的flush磁盘缓存，此选项是安全的。否则，宿主机断电将会导致客户机数据损坏。为了防止上述数据丢失，你可以考虑设置cache为writethrough，这样只有宿主机把缓存刷出到磁盘后QEMU才会报告“写入已完成”，但是这样设置会导致严重的性能问题 directsync：类似于writethrough，只是绕过宿主机的页缓存 unsafe：宿主机可以缓存客户机的所有disk IO，客户机的sync请求被忽略代替-cdrom的配置： -drive file=file,index=2,media=cdrom 代替 -hda, -hdb, -hdc, -hdd的配置： -drive file=file,index=0,media=disk -drive file=file,index=1,media=disk -drive file=file,index=2,media=disk -drive file=file,index=3,media=disk
-mtdblock	指定主板内置闪存的镜像文件
-sd	指定SD卡镜像
-snapshot	写入到临时文件，而非硬盘镜像文件，这样，原始硬盘文件就不会被改变
*显示选项*
-display	选择一个显示类型： curses 基于curses输出，如果客户机的图形设备支持文本模式，QEMU基于curses/ncurses接口显示输出；如果客户机图形设备运行在图形模式或者不支持文本模式，则不显示 none 不显示视频输出，客户机仍然可以模拟一个图形卡但是其输出不会显示给用户。该选项与-nographic不同，后者具有附加效果——改变串口、并口数据的目的地 gtk 在一个GTK窗口中显示视频输出 vnc 启动一个VNC服务器
-vnc	配置VNC，例如 -vnc 0.0.0.0:10
-nographic	通常情况下，QEMU基于SDL库来显示VGA输出，如果使用该选项，则QEMU成为完全的命令行程序尽管如此，QEMU还是把虚拟的串口重定向到控制台、与monitor复用。你可以基于串口控制台来调试虚拟机的内核你可以在console和monitor之间切换
-curses	在文本模式下，直接在当前Terminal显示VGA输出，在图形模式下则什么都不显示，仅提示“1024 x 768 Graphic mode”之类的信息
-no-frame	不显示虚拟机窗口的外框、标题栏
-vga	指定虚拟的VGA显卡类型，可用的包括： cirrus 默认，Cirrus Logic GD5446显卡，对于Windows，所有Win95之后的系统都能够识别此卡 std 支持Bochs VBE扩展的标准VGA扩展，如果客户机OS支持VESA 2.0 VBE扩展（例如XP）并且你希望使用高分辨率 vmware Vmware的SVGA-II兼容显卡 qxl 使用spice协议时推荐此卡 none 禁用VGA显卡
-full-screen	以全屏模式启动
-g	设置初始的分辨率和颜色深度，选项格式： -g widthxheight[xdepth]
*网络选项*
-net nic	创建一个新的网卡并把它连接到一个VLAN，选项格式： -net nic[,vlan=n][,macaddr=mac][,model=type] [,name=name][,addr=addr][,vectors=v] 你可以指定以下属性： vlan=n 虚拟局域网编号，默认0。虚拟局域网仅在同一个QEMU进程内部有效，加入到同一个vlan的网卡可以接收到彼此的数据 macaddr 改变此网卡的MAC地址 addr 设置设备地址（仅PCI卡） name 设备名称，在monitor命令中使用 model 网卡型号，在PC上默认创建e1000。你可以使用 -net nic,model=help 列出所有可用的网卡型号
-netdev user -net user	添加一个User网络后端，选项格式： -netdev user,id=id[,option][,option][,...] -net user[,option][,option][,...] 你可以指定以下属性： vlan=n 连接到虚拟局域网 id,name 设备名称，在monitor命令中使用 net=addr[/mask] 在客户机看来，此后端的IP地址，默认10.0.2.0/24 host=addr 在客户机看来，宿主机的IP地址是多少，默认段内第二个IP，例如10.0.2.2 restrict=on\|off 如果启用，则客户机被隔离，这意味着客户机不能访问宿主机或者联网 hostname 内置DHCP服务器报告的客户机的名称 dhcpstart 内置DHCP服务器能分配的IP地址的其实值，默认段内第15各IP，例如10.0.2.15 dns 指定客户机看到的虚拟DNS服务器的地址，默认段内第三个IP，例如10.0.2.3 smb=dir[,smbserver=addr] 激活一个内置的SMB服务器，默认地址为段内第四个，例如10.2.2.4 hostfwd 重定向主机端口上的incoming TCP/UDP流量到客户机端口
-netdev tap -net tap	添加一个TAP网络后端，连接宿主机的TAP网络接口到VLAN，选项格式： -netdev tap,id=id[,fd=h][,ifname=name][,script=file][,downscript=dfile][,helper=helper] -net tap[,vlan=n][,name=name][,fd=h][,ifname=name][,script=file][,downscript=dfile][,helper=helper] 你可以指定以下属性： id TAP设备的唯一标识，你只需要指定此标识，QEMU会自动在宿主机上创建对应的TAP设备 script 配置脚本，默认/etc/qemu-ifup。设置为no则禁用配置脚本 downscript 解除配置脚本，默认/etc/qemu-ifdown（空白文件）。设置为no则禁用配置脚本 fd 指定已经打开的宿主机TAP设备的句柄
-netdev bridge -net bridge	添加一个TAP网络后端，连接宿主机的TAP网络接口到宿主机的一个网桥，这是TAP后端的script-free的简化版，选项格式： -netdev bridge,id=id[,br=bridge][,helper=helper] -net bridge[,vlan=n][,name=name][,br=bridge][,helper=helper] 你可以指定以下属性： br 宿主机网桥名此后端需要读取配置文件： allow br0
字符设备选项
-chardev	字符设备选项的通用格式为： -chardev backend ,id=id [,mux=on\|off] [,options] backend 包括： null, socket, udp, msmouse, vc, ringbuf, file, pipe, console, serial, pty, stdio, braille, tty, parallel, parport, spicevmc. spiceport id 所有设备都必须有的标识符，可以是任何长度不超过127的字符串 mux=on\|off 所有字符设备都可以进入多路复用模式，供多个前端使用。Ctrl + A和Ctrl + C用于切换前端 options 取决于后端
-chardev null	其行为类似于/dev/null
-chardev vc	连接到QEMU的文本控制台（text console），选项格式： -chardev vc ,id=id [[,width=width] [,height=height]] [[,cols=cols] [,rows=rows]] width/height 控制台的宽度高度、单位像素 cols/rows 匹配文本控制台宽高
-chardev ringbuf	创建一个固定大小的环形缓冲区，选项格式： -chardev ringbuf ,id=id [,size=size] size 必须是2的幂，默认64K
-chardev pipe	创建一个双向的管道文件，选项格式： -chardev pipe ,id=id ,path=path
-chardev file	记录来自客户端的流落到文件，选项格式： -chardev file ,id=id ,path=path
-chardev console	发送来自客户端的流量到QEMU的标准输出
-chardev serial	发送来自客户端的流量到宿主机的一个串口设备，选项格式： -chardev serial ,id=id ,path=path path 宿主机的串口设备
-chardev pty	在宿主机上创建一个新的伪终端，并连接到它
-chardev tty	在Unix-like系统上可用，-chardev serial的别名所谓TTY，即电传打字机，是由一个键盘、一个打印机组成的设备，在键盘上每打印一个字就会打印到纸张上。这个概念借用到UNIX领域，则打印的目标变成了屏幕。TTY可以用来指任何形式的Terminal，例如伪终端、虚拟控制台
*Linux/Multiboot相关*
-kernel	指定内核镜像，目标镜像可以是Linux内核或者multiboot格式
-append	指定内核命令行参数
-initrd	使用指定的文件作为初始内存盘（initial ram disk）
调试/专家选项
-serial	-serial dev 重定向虚拟串口到宿主机的字符设备dev，默认设备：图形模式下是vs；非图形模式下是stdio 你可以指定此选项最多4次，模拟最多4个串口；指定 -serial none 禁用所有串口可用的宿主机字符设备有： vc 虚拟控制台，可选的，指定宽高（像素/字符数）：vc:800x600 vc80C:40Cb stdio 标准输入输出，即启动QEMU的哪个Terminal pty 伪终端 none 无设备 null void设备 chardev:id 已命名的、通过-chardev选项配置的字符设备 /dev/tty 使用宿主机的tty
-monitor	-monitor dev 重定向monitor到主机的字符设备dev，可用设备同上
-qmp	-qmp dev 类似于-monitor但是以control模式开启
-debugcon	-debugcon dev 重定向调试控制台到宿主机字符设备
-pidfile	存储QEMU进程的PID到文件
-enable-kvm	启用基于KVM的全虚拟化支持
-no-reboot	退出而不是重启
-no-shutdown	当客户机关机时，不退出QEMU而仅仅是停止模拟。你可以切换到Monitor并提交修改到磁盘镜像
-loadvm	-loadvm file 从一个以保存的状态加载客户机
-daemonize	在初始化后，让QEMU变成一个守护进程。使用该选项，可以让QEMU进程和当前Terminal解除关联此选项在1.4之后不能和 -nographic 联用，但是可以和 -display none 联用
-readconfig	从文件读取配置
-writeconfig	把配置写入到文件，如果指定 - 则打印到屏幕

快捷键

在图形化模拟期间，你可以使用快捷键：

快捷键	说明
Ctrl-Alt	释放/获取鼠标键盘
Ctrl-Alt-f	切换全屏模式
Ctrl-Alt-+	增大屏幕
Ctrl-Alt--	减小屏幕
Ctrl-Alt-u	还原原始屏幕大小
Ctrl-Alt-n	切换到虚拟控制台n，标准控制台为： 1 客户机系统的显示 2 Monitor 3 串口

如果你使用了-nographic，则可以使用以下快捷键：

快捷键	说明
Ctrl-a h	打印帮助
Ctrl-a x	退出模拟器
Ctrl-a s	保存磁盘数据文件（如果使用-snapshot）
Ctrl-a c	在控制台和Monitor之间切换
Ctrl-a Ctrl-a	发送Ctrl-a

qemu-nbd

用于创建QEMU网络块设备（Network Block Device）服务器，即通过NBD协议把磁盘镜像暴露出去。命令格式：

qemu-nbd [OPTION]... diskimgfile

。

常用选项如下表：

选项	说明
-p	NBD服务监听端口，默认1024
-b	NBD服务器绑定的网络接口，默认0.0.0.0
-k	NBD绑定的UNIX socket路径
-o	访问镜像文件的偏移量
-f	镜像文件格式
-r	仅允许只读访问镜像
-P	--partition=num，仅暴露分区num
-s	把diskimgfile作为外部快照使用，创建一个新的临时镜像，将其backing_file设置为diskimgfile，写操作都重定向到临时镜像
-l	--load-snapshot=snapshot_param，加载diskimgfile中的一个内部快照，并暴露其为一个只读设备 snapshot_param可以是snapshot.id=id或者snapshot.name=name，或者直接写id/name
-n	禁用缓存
--cache=cache	设置缓存模式，支持的模式参考qemu-system-x86 -drive cache=
--aio=aio	选择AIO模式，threads或者native
-c	--connect=dev连接diskimgfile到一个NBD设备
-d	断开指定的设备
-e	--shared=num 此设备可以被最多num个客户端使用
-t	即使最后一个连接断开，也不退出

常见问题

不支持virtio-9p-pci

报错信息：'virtio-9p-pci' is not a valid device model name

解决办法：参考下面的脚本构建QEMU：

apt install libattr1-dev
configure --prefix=/usr --enable-virtfs
make && make install

不支持SDL

报错信息：qemu-system-x86_64: -sdl: SDL support is disabled

解决办法：参考下面的脚本构建QEMU：

sudo apt install libsdl2-dev
./configure --prefix=/usr --enable-virtfs --enable-sdl

qcow2镜像损坏处理

报错信息：Image is corrupt; cannot be opened read/write

解决办法：

qemu-img check -r all /media/alex/v12n2/libvirt/images/xenial-23

The post KVM和QEMU学习笔记 appeared first on 绿色记忆.

libvirt学习笔记

Alex — Tue, 04 Aug 2015 08:26:13 +0000

简介

libvirt是广泛使用的、通用虚拟化管理工具，它提供多种命令行工具、多种语言的编程API。

libvirt的目标是：提供一个通用、稳定的抽象层，来安全有效的远程管理一个节点（node）之上的域（domains），因此它需要提供全套的API来完成管理，这些API必须完成Domain的创建、修改、配置、监控、迁移、停止。

libvirt可以管理的虚拟化机制（hypervisor或container）包括：KVM/QEMU、Xen、LXC、OpenVZ、VirtualBox、VMware ESX/GSX、VMware Workstation/Player、Microsoft Hyper-V、IBM PowerVM。

名词术语

术语	说明
node	一台物理机器
hypervisor	node上面的一个软件层，它能虚拟化node，并在其上建立多个虚拟机 libvirt通过所谓driver和各种不同的hypervisor打交道
domain	运行在受hypervisor管理的虚拟化node之上的一个操作系统，当基于容器虚拟化时，则是一个子系统

安装libvirt

libvirt的二进制组件可能已经随操作系统安装，如果没有，你可以：

sudo apt-get install libvirt-bin

辅助工具

可以安装virt-install，这是一个用来创建基于KVM、XEN或者Linux容器的客户机的工具：

sudo apt-get install virtinst

可以安装virt-manager，它提供了基于libvirt的图形化管理工具：

sudo apt-get install virt-manager

可以安装virt-viewer，它用于连接到虚拟机的Graphical Console：

# 安装
sudo apt-get install virt-viewer
# 使用
virt-viewer -c qemu:///system

使用Virsh

virsh是libvirt提供的一个命令行工具，利用它你可以通过命令行，交互式的管理你的虚拟机（Domain）。使用此命令，你可以创建、暂停、关闭domain，可以列出当前的domain。

libvirt会在宿主机上运行一个libvirtd守护进程，此进程可以被本地/远程的virsh调用。libvirtd则可以直接调用qemu-kvm来操控客户机。大部分virsh命令需要libvirtd处于运行状态才可用。

Domain管理

使用virsh的define、edit、start、shutdown|destroy、reboot、suspend、resumen、undefined子命令，分别可以定义、编辑、启动、关闭、暂停、唤醒、删除Domain。这些命令比较简单，参考virsh命令详解一节。

快照管理

快照分类

快照可以分为三个级别：

卷管理器（Volume Manager）级别，例如LVM的Snapsot功能
文件系统级别，常用的Ext3不支持，OCFS2支持
文件级别，Raw格式的镜像不支持快照，qcow2格式则支持，且快照分为两类：
1. 内部快照：保存在qcow2文件内部的快照：
  1. 虚拟机状态快照（VM State snapshot）：整个虚拟机的状态，不仅仅是磁盘
  2. 磁盘状态快照（Disk State snapshot）：仅仅针对磁盘的快照
2. 外部快照：将原先（Backing）的qcow2镜像设置为只读，新的改变保存到另外的qcow2文件

内存快照

使用virsh save / virsh restore命令，可以仅仅将Domain的内存状态保存，然后停止Domain，最后恢复。恢复时假设磁盘没有任何改动：

# 保存内存快照
virsh save fedora-10 fedora-10.vmstate

# 恢复内存快照
virsh restore fedora-10.vmstate

内部快照

内部快照、外部快照使用同一组命令来管理的。这些快照默认包含内存、磁盘、设备等全部状态。内部快照示例：

# 创建一个快照
virsh snapshot-create fedora-10
# Domain snapshot 1473667716 created

# 列出Domain的快照
virsh snapshot-list fedora-10
#  Name                 Creation Time             State
# ------------------------------------------------------------
#  1473667716           2016-09-12 16:08:36 +0800 running

# 创建的是内部快照，可以使用底层命令查看
qemu-img info ~/Vmware/KVM/fedora-10/hda.img

注意，一旦创建了快照，Domain就不能被undefine。

要删除内部快照，可以执行：

virsh snapshot-delete fedora-10 1473667716
# Domain snapshot 1473667716 deleted

外部快照

执行下面的命令创建一个外部快照：

# 这里我们仅针对vda磁盘创建了快照，内存状态没有做快照
snapshot-create-as fedora-10 blankos "Initial snapshot" 
    --diskspec=vda,file=/home/alex/Vmware/KVM/fedora-10/blankos.vda.qcow2 --disk-only --atomic

现在查看客户机关联的块设备：

virsh domblklist fedora-10
# Target     Source
# ------------------------------------------------
# vda        /home/alex/Vmware/KVM/fedora-10/blankos.vda.qcow2

可以发现关联性转移到外部快照上了，原先的磁盘镜像成为Backing file。注意：Domain的后续写操作都发生在新创建的磁盘上

要删除外部快照，执行：

virsh snapshot-delete fedora-10 --metadata blankos

快照链管理

我们来创建三个快照：

DIR=/home/alex/Vmware/KVM/fedora-10
virsh snapshot-create-as fedora-10 snap0 "snap0" --diskspec=vda,file=$DIR/snap0.vda.qcow2 --disk-only --atomic
virsh snapshot-create-as fedora-10 snap1 "snap1" --diskspec=vda,file=$DIR/snap1.vda.qcow2 --disk-only --atomic
virsh snapshot-create-as fedora-10 snap2 "snap2" --diskspec=vda,file=$DIR/snap2.vda.qcow2 --disk-only --atomic

查看当前快照：

# 默认的，新创建的快照作为当前快照
virsh snapshot-current fedora-10 --name

查看快照链（Backing chain）：

virsh snapshot-list fedora-10 --tree
# vda.qcow2 是base
# snap0
#   |
#   +- snap1
#       |
#       +- snap2    这个是top

libvrit支持多种方式来管理磁盘的快照链：

方式一：基于blockcommit，合并到base镜像

我们可以清理快照链条，将snap2、snap1、snap0中的变更都提交到vda.qcow2中

# 必须在Domain运行着的情况下执行命令
virsh blockcommit fedora-10 vda --base $DIR/vda.qcow2 --top $DIR/snap2.vda.qcow2 --wait --verbose
# 目前带--delete参数会导致 error: unsupported flags (0x2) in function qemuDomainBlockCommit

提交后，可以安全的删除快照及其元数据（snapshot-delete --metadata），libvrit是分开管理backing链和snapshot列表的。

方式二：基于blockpull，合并到top镜像

也可以反过来，把base一直pull到top位置（必须是叶子节点）的snapshot，然后此snapshot就成为完整的磁盘镜像了（不依赖backing镜像）：

virsh blockpull fedora-10 --path $DIR/snap2.vda.qcow2 --base $DIR/vda.qcow2 --wait –verbose

方法三：基于blockcopy，可以在线迁移磁盘

首先，需要取消Domain定义，将其变为transient的：

# 导出Domain配置
virsh dumpxml --inactive fedora-10 $DIR/domain.xml
# 取消定义
virsh undefine fedora-10

然后执行拷贝：

# --shallow 浅拷贝，copy.vda.qcow2与snap2.vda.qcow2将具有相同的backing chain即base ⇦ snap0 ⇦ snap1
# --pivot  操作完成后，此Domain改用copy
virsh blockcopy --domain fedora-10 vda $DIR/copy.vda.qcow2 --wait --verbose --shallow --pivot

拷贝完成后，瞬时的Domain使用copy继续运行：

virsh domblklist fedora-10
# Target     Source
# ------------------------------------------------
# vda        /home/alex/Vmware/KVM/fedora-10/copy.vda.qcow2

而原先的磁盘可以迁移走了。

远程访问

要通过virsh来访问远程宿主机上的Domain时，需要提供URI。URI的格式如下：

driver[+transport]://[username@][hostname][:port]/[path][?extraparameters]

URI各部分说明如下：

部分	说明
driver	驱动，不同驱动对应了不同的Hypervisor
transport	传输协议，主要包括以下几种： unix，使用Unix Domain Socket，仅能在本地使用，不加密，示例： qemu+unix:///system?socket=/opt/libvirt/run/libvirt/libvirt-sock ssh，通过SSH隧道进行连接，相当于通过SSH隧道在目标宿主机上执行Unix Domain Socket，示例： qemu+ssh://root@tokyo.gmem.cc/system tcp，通过TCP进行远程连接，通过DIGEST-MD5进行加密，使用SASL/Kerberos进行身份验证，示例： qemu+tcp://tokyo.gmem.cc/system tls，类似于tcp，但是使用SSL对TCP进行加密，需要配置密钥和证书，使用SASL/Kerberos进行身份验证，示例： qemu+tls://tokyo.gmem.cc/system

部分

说明

driver

驱动，不同驱动对应了不同的Hypervisor

transport

传输协议，主要包括以下几种：

unix，使用Unix Domain Socket，仅能在本地使用，不加密，示例：
```
qemu+unix:///system?socket=/opt/libvirt/run/libvirt/libvirt-sock 
```
ssh，通过SSH隧道进行连接，相当于通过SSH隧道在目标宿主机上执行Unix Domain Socket，示例：
```
qemu+ssh://root@tokyo.gmem.cc/system
```
tcp，通过TCP进行远程连接，通过DIGEST-MD5进行加密，使用SASL/Kerberos进行身份验证，示例：
```
qemu+tcp://tokyo.gmem.cc/system 
```
tls，类似于tcp，但是使用SSL对TCP进行加密，需要配置密钥和证书，使用SASL/Kerberos进行身份验证，示例：
```
qemu+tls://tokyo.gmem.cc/system
```

要连接到远程宿主机，可以使用-c选项或者connect子命令：

virsh -c qemu+ssh://root@zircon.local/system

使用unix传输

使用该transport时，需要注意配置文件：

# 这些项都是默认值
unix_sock_group = "libvirtd"
unix_sock_ro_perms = "0777"
unix_sock_rw_perms = "0770"

也就是说，用户必须加入到libvirtd组，才可以使用unix传输，否则会报错：error: Failed to connect socket to '/var/run/libvirt/libvirt-sock': Permission denied。执行下面的命令添加用户到组：

sudo usermod -a -G libvirtd alex

注意：连接到qemu时，不指定主机名默认使用unix socket。

使用tcp传输

在目标宿主机上，修改配置文件：

# 启用TCP监听
libvirtd_opts="-d -l"

然后再修改配置文件：

# 默认TCP监听是禁用的
listen_tcp = 1
# 可以修改监听地址和端口
listen_addr = "0.0.0.0"
tcp_port = "16509"
# 可以不启用验证，但是缺乏安全性，所有流量都是明文
auth_tcp = "none"

最后重启libvirtd即可。

资源管理

相关文章：Linux知识集锦 - cgroup

libvirt基于cgroup来限制客户机对宿主机资源的访问。libvirt不会尝试加载任何controllers，它只会检测哪些controllers被mount。

QEMU驱动支持cpuset, cpu, memory, blkio, devices这几个controller，修改配置文件/etc/libvirt/qemu.conf可以针对QEMU禁用某些controller。

LXC驱动支持 cpuset, cpu, cpuacct, freezer, memory, blkio,devices 这几个controller，其中cpuacct, devices, memory是必须的，如果这几个controller没有被mount则容器不会被启动。

cgroups布局

libvrit引入两个概念，以方便cgroups管理：

partitions：不包含任何进程的cgroup，仅仅包含资源控制规则，它可以包含多个子目录，这些子目录要么是partition要么是consumers
consumers：是包含了单个虚拟机/容器进程的cgroup

对于不使用systemd的宿主机，consumers命名规则为

$VMNAME.libvirt-{qemu,lxc}

，其中VMNAME为虚拟机的名称。默认的，所有consumer都挂在名为machine的partition下：

ls /sys/fs/cgroup/cpu/machine
# fedora-10.libvirt-qemu  ...

直到cgroups布局后，你就可以直接读写cgroups文件系统，来控制客户机的资源访问。但是virsh也提供了一些命令在运行时控制资源访问。

资源管理命令

对于CPU访问控制，可以使用virsh schedinfo命令
对于块设备的访问控制，可以使用virsh blkiotune命令
对于网卡流量的控制，可以使用domiftune或者tc命令

virsh命令详解

该命令最常见的调用形式为：

virsh [OPTION]...   [ARG]...

。其中：

command 是一个virsh子命令
domain 是操控的虚拟机的名称、ID或者UUID
ARG是针对特定子命令的参数
OPTION为一般性选项

一般选项

选项	说明
-c	--connect URI 连接到指定的URI，而不是默认的连接。此选项的效果如同调用了connect子命令
-d	--debug LEVEL 设置调试级别，级别范围0-4，默认4
-k	--keepalive-interval INTERVAL 设置确认服务器连接未断开的心跳的发送间隔，单位秒，设置为0则不检测
-K	--keepalive-count COUNT 确认连接端口之前，发送心跳的次数
-l	--log FILE 输出日志到文件
-q	--quiet 安静模式，避免不必要的信息打印
-t	--timing 为每个命令打印消耗的时间信息

一般子命令

子命令	说明
help	显示帮助信息： # 列出子命令列表 virsh help # 显示一个子命令的用法 virsh help define
quit, exit	退出交互式的Terminal
version	显示版本信息：libvir库版本、API版本、运行中的hypervisor版本
cd	改变当前目录，禁用与交互式的terminal
pwd	打印当前目录名
connect	connect [URI] [--readonly] （重）连接到一个hypervisor，URI指明如何连接到hypervisor，例如： xen:/// 连接到本地XEN hypervisor qemu:///system 以root身份连接到本地管理QEMU/KVM domain的hypervisor qemu:///session 以普通用户身份连接到本地，管理他自己的QEMU/KVM domain lxc:/// 连接到本地的LXC容器
uri	打印当前连接到的hypervisor的URI
hostname	打印hypervisor的主机名
capabilities	打印一个描述当前连接到的hypervisor的能力（capabilities）的XML文档
list	列出存在的Domain，如果不指定参数，则打印所有运行中的Domain信息

Domain子命令

子命令	说明
autostart	autostart [--disable] domain 用于配置一个Domain随着宿主机而启动
console	console domain [devname] [--safe] [--force] 连接到客户机的虚拟串口控制台： devname 设置为一个备选控制台、串口/并口设备的别名，如果不指定则连接到primary控制台
create	create FILE [--console] [--paused] [--autodestroy] [--pass-fds N,M,...] 从XML文件FILE创建一个Domain。创建XML的简便方法是调用 dumpxml 子命令来获得既有实例的XML配置： --paused 新的Domain将会暂停，不指定则运行 --console 创建后连接到Domain的console --autodestroy 如果virsh断开到libvirt的连接，则自动销毁此domain
define	define FILE 从XML文件FILE定义一个Domain，此Domain会注册，但是不会自动启动。如果Domain已经在运行，则对其配置的变更在下次启动时生效
undefine	undefine domain [--managed-save] [--snapshots-metadata] [ {--storage volumes \| --remove-all-storage} --wipe-storage] 解除一个Domain的定义，如果此Domain正在运行，它会被转换为transient的；如果Domain没有运行，则移除它的配置
desc	desc domain [[--live] [--config] \| [--current]] [--title] [--edit] [--new-desc new_desc_msg] 显示或者修改Domain的描述、标题，标题通常比较简短
destroy	destroy domain [--graceful] 立即终止一个Domain，客户机将没有反应时间，相当于拔掉机器的电源 --graceful 避免极度的手段销毁（SIGKILL），如果客户机一段时间后没有关闭，返回一个错误消息
reboot	reboot domain [--mode MODE-LIST] 重启一个Domain，效果类似于执行reboot命令
reset	reset domain 重置一个Domain，效果类似于按主机上的重置按钮，客户机将没有反应时间
shutdown	shutdown domain [--mode MODE-LIST] 优雅的关闭Domain，此命令将和客户机协商以关机，因此不一定成功，可能消耗较长时间
start	start name-or-uuid [--console] [--paused] [--autodestroy] [--bypass-cache] [--force-boot] [--pass-fds N,M,...] 启动一个已经定义的Domain： --paused 此Domain将会暂停 --console 连接到客户机的控制台 --autodestroy 当virsh断开到libvirtd的连接后，自动销毁Domain
suspend	suspend domain 暂停一个运行中的Domain，它会维持在内存中，但不再参与调度
resume	resume domain 从暂停中恢复
dumpxml	dumpxml domain [--inactive] [--security-info] [--update-cpu] [--migratable] 输出Domain的XML配置信息到屏幕： --migratable 输出一个可迁移的配置 --inactive dump出Domain下次启动时使用的配置，而不是当前正在使用的配置 --update-cpu 根据宿主机的CPU，更新Domain配置中的CPU部分
edit	edit domain 编辑一个Domain的XML配置，并在下次启动Domain时生效
save	save domain state-file [--bypass-cache] [--xml file] [{--running \| --paused}] [--verbose] 保存一个运行中的Domain的内存（而不是磁盘）状态到一个状态文件中，以便后续恢复。一旦被保存，则Domain不再继续运行，分配给Domain的内存可以被其它程序使用。该命令类似于Hibernate功能 state-file 状态文件路径 --bypass-cache 不包含文件系统缓存，会加快保存速度 --verbose 显示保存进度 --running --paused 在恢复后，将Domain变为运行或暂停状态可以基于domjobinfo子命令监控进度，或者利用domjobabort子命令取消保存，对当前Terminal发送SIGINT（Ctrl + C）也会取消保存
restore	restore state-file [--bypass-cache] [--xml file] [{--running \| --paused}] 将Domain从virsh save状态中还原
domblkstat	domblkstat domain [block-device] [--human] 输出块设备的统计信息 block-device 块设备名称（）或块源文件（） --human 输出易读的格式输出列说明： rd_req 读操作次数 rd_bytes 读字节数 wr_req 写操作次数 wr_bytes 写字节数 errs 错误计数 flush_operations 刷出磁盘的操作次数 rd_total_times 读操作总计消耗ns数 wr_total_times 写操作总计消耗ns数 flush_total_times 刷出操作总计消耗ns数举例： virsh domblkstat fedora-10 vda
domblkerror	domblkerror domain 显示块设备错误
domblkinfo	domblkinfo domain block-device 显示块设备的尺寸相关信息
domblklist	domblkinfo domain block-device 以表格形式打印与Domian相关联的块设备的简要信息
blockcommit	blockcommit domain path [bandwidth] {[base] \| [--shallow]} [top] [--delete] [--wait [--verbose] [--timeout seconds] [--async]] 减少backing镜像链条的长度，将top（最新的）中的变化提交到backing镜像中去。默认的：此命令flatten整个链条此命令立即返回，commit操作在后台进行，可以使用blockjob检查进度 path 磁盘的全限定路径，的name或者的file base top 如果指定之一或都指定，则限制commit操作链条的范围 --shallow 提交到top直接的backing镜像 --delete 操作完成后，删除被合并的文件 --wait 阻塞直到操作完成 --timeout 阻塞最多的秒数 --verbose 显示进度的详细信息 --async 尽快的返回，否则在完成commit后还要等待一些清理操作
blockpull	blockpull domain path [bandwidth] [base] [--wait [--verbose] [--timeout seconds] [--async]] 从backing镜像链生成一个磁盘。默认的：此命令flatten整个链条此命令立即返回，commit操作在后台进行，可以使用blockjob检查进度 path 磁盘的全限定路径，的name或者的file base backing链条中的这一成员保留，仅它与top之间的backing镜像被合并到top
blockcopy	blockcopy domain path dest [bandwidth] [--shallow] [--reuse-external] [--raw] [--wait [--verbose] [{--pivot \| --finish}] [--timeout seconds] [--async]] 拷贝磁盘的backing镜像链到dest。默认的：此命令flatten整个链条此命令立即返回，commit操作在后台进行，可以使用blockjob检查进度 domain 操作针对的Domain path 操作针对的磁盘，全限定路径，的name或者的file bandwidth 带宽占用限制，MiB/s --shallow 共享backing链，即对于base ⇦ snap0 ⇦ snap1，dest与src共享base ⇦ snap0 –pivot 转移，即拷贝完成后，Domain改用dest，不再使用src --reuse-external 指定该选项则dest必须存在，且内容与resulting backing file等同 --raw 指定dest的格式，如果指定--reuse-external，则使用dest文件的格式该命令主要用途是虚拟机的在线磁盘映像拷贝（live disk image copying）或镜像（mirroring），在存储迁移时很有用。应用场景包括：在线磁盘存储迁移在线磁盘映像、及其backing链的备份高效的非共享（ non-shared ）存储迁移一个blockcopy操作可以分为两个阶段：所有的源磁盘内容被拷贝到dest。在此阶段，任务可以被取消，dest的状态没有保证 source、dest的内容变得等同，它们将保持mirrored状态，直到调用blockjob --abort以结束mirroring
domifstat	domifstat domain interface-device 输出网络接口的统计信息输出列说明： rx_bytes 收字节数 rx_packets收IP封包数 rx_errs 错误封包数 rx_drop 丢弃封包数 tx开头的表示发送的统计数据举例： virsh domifstat fedora-10 tap0
domif-setlink	domif-setlink domain interface-device state [--config] 修改网络接口的状态 state 目标状态，up/down --config --persistent 仅仅修改Domain的持久化配置，不立即改变接口状态
domif-getlink	domif-getlink domain interface-device [--config] 获得网络接口的状态
domiflist	domiflist domain [--inactive] 以表格形式打印与Domian相关联的网络接口的简要信息
dommemstat	dommemstat domain [--period seconds] [[--config] [--live] \| [--current]] 获得运行中的Domain的内存统计信息
blkdeviotune	blkdeviotune domain device [[--config] [--live] \| [--current]] [[total-bytes-sec] \| [read-bytes-sec] [write-bytes-sec]] [[total-iops-sec] \| [read-iops-sec] [write-iops-sec]] 查询或者设置Domain的某个块设备的I/O参数： domain 目标客户机 device 操作针对的磁盘，的name或者的file --total-bytes-sec 设置每秒总计吞吐量的限制，单位Byte --read-bytes-sec 设置每秒读取吞吐量的限制，单位Byte --write-bytes-sec 设置每秒写入吞吐量的限制，单位Byte --total-iops-sec 设置每秒IO操作次数限制 --read-iops-sec 设置每秒读次数限制 --write-iops-sec 设置每秒写次数限制 --live 影响正在运行的客户机 --config 在下次重启后，影响非瞬时Domain --current 影响当前客户机的状态
domiftune	domiftune domain interface-device [[--config] [--live] \| [--current]] [--inbound average,peak,burst] [--outbound average,peak,burst] 查询或者修改网络接口的带宽参数： interface-device 目标网络接口 --inbound --outbound 修改入站还是出站带宽参数，如果都不指定，则执行查询操作。average/peak以KiB/s解释，burst以单次burst消耗的KiB解释 average 设置网络接口期望的平均速率 peak 设置峰值速率限制 burst 以峰值速率爆发式的传送数据，最多连续传送多是KiB --live 影响当前正在运行的Domain 举例： virsh domiftune fedora-10 tap0
schedinfo	schedinfo domain [[--config] [--live] \| [--current]] [[--set] parameter=value]... schedinfo [--weight number] [--cap number] domain 显示或者设置Domain进程在宿主机中调度参数，可用参数： LXC (posix scheduler)：cpu_shares QEMU/KVM (posix scheduler)：cpu_shares, vcpu_period, vcpu_quota, emulator_period, emulator_quota Xen (credit scheduler)： weight, cap ESX (allocation scheduler)：reservation, limit, shares --live 影响正在运行的Domain --config 在下次重启后，影响非瞬时Domain --set 执行设置操作 cpu_shares 处理器占用权重，范围0-262144，负值被转换为正值因此-1即262144，超过最大值都相当于262144 vcpu_period 对调度进行干预的周期，单位us，范围1000-1000000或者0，100000表示100ms干预一次 emulator_period vcpu_quota 在干预周期内，进程能得到的时间片数，单位us，25000表示在一个周期内得到25ms的时间片 emulator_quota
screenshot	screenshot domain [imagefilepath] [--screen screenID] 对Domain当前Console进行截屏，并保存到文件
send-key	send-key domain [--codeset codeset] [--holdtime holdtime] keycode.. 将keycode的序列转换为按键动作，并发送到Domainkey，可用参数： code可以是数字或者是codeset中的符号名称 --holdtime 每个按键按下持续的毫秒数 --codeset 指定代码集，默认Linux 举例： # 发送右侧Ctrl + C到fedora-10 virsh send-key fedora-10 KEY_RIGHTCTRL KEY_C # 发送Ctrl + Alt + Del virsh send-key debian-20 KEY_LEFTCTRL KEY_LEFTALT KEY_DELETE # 发送TAB，按下1秒 virsh send-key fedora-10 --holdtime 1000 0xf

迁移子命令

子命令	说明
migrate	migrate [--live] [--offline] [--direct] [--p2p [--tunnelled]] [--persistent] [--undefinesource] [--suspend] [--copy-storage-all] [--copy-storage-inc] [--change-protection] [--unsafe] [--verbose] [--compressed] [--abort-on-error] domain desturi [migrateuri] [graphicsuri] [listen-address] [dname] [--timeout seconds] [--xml file] 将客户机迁移到另外一台宿主机上，可用参数： --live 在线迁移，迁移期间，源宿主机上的客户机不被暂停 --p2p 使用点对点迁移 --direct 使用直接迁移 --tunnelled 使用隧道迁移 --offline 不在目标机器上启动客户机，也不再源机器上停止客户机。通常用于inactive客户机的迁移 --persistent 让Domain在目标机器上持久化 --undefinesource 取消Domain在源机器上的定义 --suspend 让客户机在目标机器上停留在suspend状态 --copy-storage-all 提示不使用共享存储，进行完整的磁盘拷贝 --copy-storage-inc 提示不使用共享存储，进行增量的磁盘拷贝（即源、目标的共享backing file不拷贝）注意：上面两个参数要求目标镜像文件存在于目标机器的对应位置 --change-protection 确保在迁移完成前，不得对Domain执行不兼容的配置更改。如果Hypervisor支持，该参数会自动包含，手工指定此参数的话，如果Hypervisor不支持change protection，则迁移操作被libvirt拒绝 --verbose 显示迁移进度 --compressed 对于需要在迁移过程中反复传输的内存页，执行压缩 --abort-on-error 当发生软错误（Soft error，例如I/O错误）时取消迁移 --unsafe 允许不安全的迁移（可能导致数据损坏） desturi 目标宿主机的连接URI。对于点对点迁移，该参数是源宿主机看到的目标主机的URI；对于普通迁移则是客户端看到的URI domain 被迁移的客户机名称 dname 在迁移时，修改Domain的名称 --xml 在目标机器上，为Domain指定机器特定的Domain配置信息，例如存储卷的名称（对于同一底层存储两台机器的命名可能不同） --timeout 如果在线迁移超过指定的秒数，则Domain被强制suspend，然后转入离线迁移，必须和--live联用 listen-address 设置目标主机上的Hypervisor监听迁移请求的地址和端口注意： Hypervisor可能不支持所有的迁移类型，例如QEMU不支持直接迁移如果迁移可能导致数据损坏，libvirt可能拒绝迁移请求。例如对于QEMU，除非设置磁盘的缓存模式（cache mode）为none或者存储位于一致性的集群文件系统（GFS或者GPFS），迁移会被拒绝。这时可以使用--unsafe强制迁移
migrate-compcache	migrate-compcache domain [--size bytes] 设置或者取得在线迁移过程中，重复的用来压缩被传输的内存页的缓存的大小，单位字节 --size 如果指定此参数，则为设置操作，否则为读取操作
migrate-setmaxdowntime	migrate-setmaxdowntime domain downtime 设置domain在线迁移时，能够容忍的最大宕机时间，单位毫秒
migrate-compcache
migrate-setspeed	migrate-setspeed domain bandwidth 设置domain迁移到其它宿主机上时，最大使用的带宽，单位MiB/s
migrate-getspeed	migrate-getspeed domain 获取domain迁移时的最大带宽

设备子命令

子命令	说明
attach-device	attach-device domain FILE [[[--live] [--config] \| [--current]] \| [--persistent]] 为domain添加一个新的设备 FILE 设备的XML配置，以interface/disk之类的元素为根元素 --config 在永久Domian下次启动时生效 --live 影响运行中的Domain --current 影响当前Domain状态注意：--config --live可以联用，但是--current不能和它们联用
attach-disk	attach-disk domain source target [[[--live] [--config] \| [--current]] \| [--persistent]] [--driver driver] [--subdriver subdriver] [--cache cache] [--type type] [--mode mode] [--config] [--sourcetype soucetype] [--serial serial] [--wwn wwn] [--rawio] [--address address] [--multifunction] [--print-xml] 添加一个磁盘，参数与磁盘的XML配置元素对应
attach-interface	attach-interface domain type source [[[--live] [--config] \| [--current]] \| [--persistent]] [--target target] [--mac mac] [--script script] [--model model] [--config] [--inbound average,peak,burst] [--outbound average,peak,burst] 添加一个磁盘，参数与网络接口的XML配置元素对应
detach-device	detach-device domain FILE [[[--live] [--config] \| [--current]] \| [--persistent]] 移除一个设备
detach-disk	detach-disk domain target [[[--live] [--config] \| [--current]] \| [--persistent]] 移除一个磁盘
detach-interface	detach-interface domain type [--mac mac] [[[--live] [--config] \| [--current]] \| [--persistent]] 移除一个网络接口
update-device	update-device domain file [--force] [[[--live] [--config] \| [--current]] \| [--persistent]] 更新设备的配置，可用参数： --force 强制设备更新
change-media	change-media domain path [--eject] [--insert] [--update] [source] [--force] [[--live] [--config] \| [--current]] 改变光驱或者软驱的媒体（盘），可用参数： path 光驱/软驱的全限定路径或者名称，例如hdc source 更换的新媒体镜像的路径 --eject 弹出媒介 --insert 插入媒介举例： virsh # domblklist debian-20 # Target Source # ------------------------------------------------ # vda /home/alex/Vmware/KVM/debian-20/vda.qcow2 # hdd /home/alex/Software/OS/debian-8.6.0-amd64-netinst.iso change-media debian-20 --eject --live

虚拟网络子命令

子命令	说明
net-autostart	net-autostart network [--disable] 启用/禁用虚拟网络的自动启动
net-create	net-create file 从XML配置创建一个临时的虚拟网络并立即启动
net-define	net-define file 从XML配置文件创建一个永久的虚拟网络
net-destroy	net-destroy network 根据名称或者UUID停止一个虚拟网络
net-dumpxml	net-dumpxml network [--inactive] 导出虚拟网络的XML配置
net-edit	net-edit network 编辑一个虚拟网络的配置
net-info	net-info network 显示一个虚拟网络的详细信息
net-list	net-list [--inactive \| --all] [--persistent] [<--transient>] [--autostart] [<--no-autostart>] 显示虚拟网络的列表
net-start	net-start network 启动一个虚拟网络
net-undefine	net-undefine network 取消虚拟网络的定义
net-update	net-update network command section xml [--parent-index index] [[--live] [--config] \| [--current]] 更新虚拟网络的指定配置片断，可用参数： section 片断名称：bridge, domain, ip, ip-dhcp-host, ip-dhcp-range, forward, forward-interface, forward-pf, portgroup, dns-host, dns-srv，这些名称对应了虚拟网络XML配置的相应子代元素 xml 配置片断，要么是XML片断文本，要么是包含XML片断的文件名称 --live 影响正在运行的虚拟网络 --config 在永久虚拟网络重启后生效

快照子命令

这些子命令用来管理Domain的快照，快照是Domain的磁盘、内存、设备在某一个时刻的状态，这些状态可以在未来恢复。每个快照由唯一性的名字来识别。

子命令	说明
snapshot-create	snapshot-create domain [xmlfile] {[--redefine [--current]] \| [--no-metadata] [--halt] [--disk-only] [--reuse-external] [--quiesce] [--atomic] [--live]} 为domain创建一个快照，创建快照期间客户机通常处于暂停状态。新创建的快照将成为当前快照，可以通过子命令snapshot-current查看。子命令参数： xmlfile 指定此快照的属性，一般仅仅包含name、description元素，如果指定--disk-only则可以包含disks元素 --halt Domain在创建快照后，进入停止（inactive）状态 --disk-only 仅仅对磁盘进行快照，与--halt联用则所有没有flush到磁盘的数据丢失 --redefine 如果指定，则snapshot-dumpxml生成的所有元素均有效，可用于跨机器迁移快照层次 --no-metadata 丢弃源数据，快照不被标记为current，除非后续使用--redefine，无法恢复快照 --reuse-external 重用此文件指向的外部快照，目标文件必须存在 --live 创建快照时，客户机将处于运行状态，仅支virsh snapshot-create-as fedora-10 snap2 "snap2" --diskspec=vda,file=$DIR/snap2.vda.qcow2 --disk-only --atomic 持外部检查点
snapshot-create-as	snapshot-create-as domain {[--print-xml] \| [--no-metadata] [--halt] [--reuse-external]} [name] [description] [--disk-only [--quiesce]] [--atomic] [[--live] [--memspec memspec]] [--diskspec] diskspec]... 以指定的name和description创建快照 --print-xml 仅创建snapshot-create使用的xmlfile，不进行快照创建 --memspec=[file=]name[,snapshot=type] 控制内存快照的创建方式，type可取值none,internal,external --diskspec=disk[,snapshot=type][,driver=type][,file=name] 控制--disk-only和外部检查点创建外部文件的方式。此参数可以出现多次（对应Domain配置中磁盘的个数） --atomic libvrit保证原子性操作，快照要么完整的创建成功，要么彻底失败
snapshot-current	snapshot-current domain {[--name] \| [--security-info] \| [snapshotname]} 查看和设置当前快照：如果不指定snapshotname，则输出Domain当前快照的XML。否则把snapshotname设置为当前快照 --name 仅仅输出当前快照的名称，而非XML --security-info 在XML中包含安全性敏感的信息
snapshot-edit	snapshot-edit domain [snapshotname] [--current] {[--rename] \| [--clone]} 编辑snapshotname的XML信息 --current 编辑当前快照，如果同时指定snapshotname，则snapshotname被设置为当前快照 --rename 允许设置快照名称 --clone 改变快照名称后，会创建一份快照元数据的克隆
snapshot-info	snapshot-info domain {snapshot \| --current} 输出当前快照或者指定快照的基本信息
snapshot-list	snapshot-list domain [--metadata] [--no-metadata] [{--parent \| --roots \| [{--tree \| --name}]}] [{[--from] snapshot \| --current} [--descendants]] [--leaves] [--no-leaves] p[--inactive] [--active] [--disk-only] [--internal] [--external] 列出Domain所有可用的快照，默认输出列：快照名称、创建时间、Domain的状态 --parent 输出parent列，显示父快照名称 --roots 仅列出没有parent快照的那些快照 --tree 以树状输出结果，显示快照父子关系 --name 仅仅显示快照名称，与--tree互斥 --from 仅仅显示指定快照的子快照，联用--current则显示当前快照的子快照 --descendants 包含所有后代快照 --leaves 仅仅输出没有子代的那些快照 --inactive --active 根据快照中Domain的状态过滤 --internal --external 根据内/外部快照过滤
snapshot-dumpxml	snapshot-dumpxml domain snapshot [--security-info] 显示指定快照的XML
snapshot-parent	snapshot-parent domain {snapshot \| --current} 显示父快照的名称
snapshot-revert	snapshot-revert domain {snapshot \| --current} [{--running \| --paused}] [--force] 恢复Domain到指定的快照状态，此最后一次快照以来对Domain的变更将消失 --running --paused 通常恢复后Domain处于创建快照时的状态，这两个参数可以覆盖之 --force 强制恢复快照
snapshot-delete	snapshot-delete domain {snapshot \| --current} [--metadata] [{--children \| --children-only}] 删除Domian的快照 --children 删除指定的快照及其子代 --children-only 仅仅删除子代，指定的快照本身被保留 --metadata 仅仅删除libvirt管理的元数据，不理会快照文件

存储池子命令

子命令	说明
find-storage-pool-sources	find-storage-pool-sources type [srcSpec] 返回一个XML，描述所有能够找到的type类型的存储池 srcSpec 包含额外限制条件的XML
find-storage-pool-sources-as	find-storage-pool-sources-as type [host] [port] [initiator] 类似上面，host port initiator限制查询条件
pool-autostart	pool-autostart pool-or-uuid [--disable] 配置存储池的自动启动
pool-build	pool-build pool-or-uuid [--overwrite] [--no-overwrite] 构建一个存储池 --overwrite --no-overwrite 仅仅用于文件系统池，指定覆盖时，如果文件系统已经存在于目标设备上，mkfs也会执行，既有文件系统将被破坏
pool-create	pool-create file 从配置文件定义并启动一个存储池
pool-create-as	pool-create-as name --print-xml type [source-host] [source-path] [source-dev] [source-name] [] [--source-format format] 类似上面，但是通过命令行来指定所需参数： --print-xml 打印生成的池的XML配置
pool-define	pool-define file 定义，但不启动池
pool-define-as	pool-define-as name --print-xml type [source-host] [source-path] [source-dev] [source-name] [] [--source-format format] 类似上面，但是通过命令行来指定所需参数： --print-xml 打印生成的池的XML配置
pool-destroy	pool-destroy pool-or-uuid 停止一个存储池，池中的数据不会消失
pool-delete	pool-delete pool-or-uuid 销毁池使用的所有资源，但是池本身仍然存在，你可以在其中存储新的卷
pool-dumpxml	pool-dumpxml [--inactive] pool-or-uuid 打印池的配置信息
pool-edit	pool-edit pool-or-uuid 编辑池的XML配置
pool-info	pool-info pool-or-uuid 显示池的基本信息
pool-list	pool-list [--inactive] [--all] [--persistent] [--transient] [--autostart] [--no-autostart] [[--details] [] 列出libvirt所知道的全部存储池
pool-name pool-uuid	pool-name uuid pool-uuid pool 显示指定uuid对应的池名称，或者显示池名称对应的UUID
pool-refresh	pool-refresh pool-or-uuid 刷新池中卷的列表
pool-start	pool-start pool-or-uuid 启动一个存储池
pool-undefine	pool-undefine pool-or-uuid 解除一个存储池的定义
vol-create	vol-create pool-or-uuid FILE [--prealloc-metadata] 在池中创建一个卷，对于基于目录/文件系统的池，卷的本质就是一个镜像文件。可用参数： pool-or-uuid 池的名称或者UUID FILE 卷的配置XML --prealloc-metadata 预分配元数据，用于qcow2之类不支持完全分配的镜像格式，该参数可以提高性能示例： vol-create default definitions/volumes/fedora-10.xml
vol-create-from	vol-create-from pool-or-uuid FILE [--inputpool pool-or-uuid] vol-name-or-key-or-path [--prealloc-metadata] 创建一个卷，使用另外一个卷vol-name-or-key-or-path作为输入
vol-create-as	vol-create-as pool-or-uuid name capacity [--allocation size] [--format string] [--backing-vol vol-name-or-key-or-path] [--backing-vol-format string] [--prealloc-metadata] 创建一个卷，从命令行参数读取配置信息 virsh vol-create-as v12n1 centos7-base 128G --format qcow2
vol-clone	vol-clone [--pool pool-or-uuid] vol-name-or-key-or-path name [--prealloc-metadata] 克隆一个既有的卷，没有vol-create-from强大但是比它简单。可用参数： --pool 指定在其中创建新卷的池 vol-name-or-key-or-path 被克隆的卷 name 新的卷的名称
vol-delete	vol-delete [--pool pool-or-uuid] vol-name-or-key-or-path 删除一个卷，底层的镜像文件将被删除，示例： vol-delete --pool default fedora-10.qcow2
vol-upload	vol-upload [--pool pool-or-uuid] [--offset bytes] [--length bytes] vol-name-or-key-or-path local-file 上传本地文件的内容到一个卷，可用参数： --pool 目标存储池 vol-name-or-key-or-path 目标卷 local-file 被上传的本地文件 --offset 在存储卷的什么位置开始写入数据 --length 写入数据的长度
vol-download	vol-download [--pool pool-or-uuid] [--offset bytes] [--length bytes] vol-name-or-key-or-path local-file 下载存储卷中的内容到本地文件
vol-wipe	vol-wipe [--pool pool-or-uuid] [--algorithm algorithm] vol-name-or-key-or-path 擦除一个卷的内容，可用参数： --algorithm 擦除算法：zero nnsa dod bsi gutmann schneier pfitzner7 pfitzner33 random
vol-dumpxml	vol-dumpxml [--pool pool-or-uuid] vol-name-or-key-or-path 打印卷的XML配置，示例： vol-dumpxml --pool default coreos.qcow2
vol-info	vol-info [--pool pool-or-uuid] vol-name-or-key-or-path 显示卷的基本信息
vol-list	vol-list [--pool pool-or-uuid] [--details] 列出一个存储池中的卷，示例： vol-list default
vol-pool	vol-pool [--uuid] vol-key-or-path 根据卷的名称或者路径，返回其所在存储池的信息 --uuid 返回UUID而不是池名称
vol-path	vol-path [--pool pool-or-uuid] vol-name-or-key 返回指定卷的路径
vol-name vol-key	vol-name vol-key-or-path vol-key [--pool pool-or-uuid] vol-name-or-path 查询卷的名称或者key
vol-resize	vol-resize [--pool pool-or-uuid] vol-name-or-path pool-or-uuid capacity [--allocate] [--delta] [--shrink] 重新设定卷的容量，以字节为单位，可用参数： --allocate 分配空间，否则新容量是稀疏的 capacity 新的容量，如果指定了--delta，则是增加的容量 --shrink 缩小卷大小，不指定此参数，降低容量会报错

结合QEMU/KVM

模拟器QEMU和hypervisor KVM可以被libvirt管理。

QEMU驱动

如果driver检测到/usr/bin/qemu-system-*则QEMU可用；如果driver检测到设备节点/dev/kvm和可执行文件/usr/bin/qemu-kvm则支持KVM全虚拟化和客户机硬件加速。

QEMU的驱动是一个多实例驱动，包含一个系统级别的特权驱动（system实例）和多个用户级别的非特权驱动。驱动的URI的协议名为qemu，URI示例：

# 本地访问per-user的实例
qemu:///session
# 本地访问per-user的实例
qemu+unix:///session
# 本地访问系统级实例
qemu:///system
# 本地访问系统级实例
qemu+unix:///system 
# 基于 TLS/x50的远程访问
qemu://example.com/system 
# 基于SSH隧道远程访问
qemu+ssh://root@example.com/system

导入/出QEMU配置

导入

virsh domxml-from-native

命令可以将QEMU命令行选项转换为libvirt的Domain配置格式：

将QEMU命令行保存到文件qemu.cmd：

/usr/bin/qemu-system-x86_64 -name fedora-10 -enable-kvm -cpu Haswell -daemonize -display none -m 512 -drive file=/home/alex/Vmware/KVM/fedora-10/hda.img,index=0,media=disk,if=virtio -netdev bridge,id=tap0,br=br0 -device virtio-net-pci,netdev=tap0,mac=DE:AD:BE:EF:F1:00

执行命令：

virsh domxml-from-native qemu-argv ~/Vmware/KVM/fedora-10/qemu.cmd ~/Vmware/KVM/fedora-10/domain.xml

生成的配置文件内容如下：


  fedora-10
  51480ab5-864e-4eb7-9e1c-55b56105139e
  524288
  524288
  1
  
    hvm
  
  
    
  
  
    Haswell
  
  
  destroy
  restart
  destroy
  
    /usr/bin/qemu-system-x86_64

可以看到，很多QEMU选项没有对应到常规的Domain配置元素，而是使用qemu:commandline的形式，在启动客户机的时候直接传递给QEMU了。因此，新建客户机时，不要使用这种导入配置的方法，而应调用libvirt API或者手工创建Domain的XML配置。

注意：virsh自动导入得到XML配置存在不少错误，需要调整后才能使用。上例修改后的配置如下：


    fedora-10
    524288
    524288
    1
    
        hvm
    
    
        
    
    
        SandyBridge
    
    
    destroy
    restart
    destroy
    
        /usr/bin/qemu-system-x86_64

导出

类似的，可以把Domain配置文件转换为QEMU命令行：

virsh domxml-to-native qemu-argv ~/Vmware/KVM/fedora-10/domain.xml

Domain配置文件

基本信息

libvirt使用XML文件描述一个Domain的全部配置信息：



    
    fedora-10
    
    4dea22b31d52d8f32516782e98ab3fa0
    
    A short description
    
    Some human readable description
    
    
        ..
        ..

下面介绍如何配置Domain各方面的细节。

Domain启动配置

虚拟机可以不同的方式启动，各有其优缺点。

BIOS bootloader

对于全虚拟化的hypervisor可以选择通过BIOS启动，BIOS定义启动优先级，来确定从软盘、硬盘、光驱还是网络获取启动镜像（boot image）。配置示例：


    hvm
    /usr/lib/xen/boot/hvmloader
    /var/lib/libvirt/nvram/guest_VARS.fd

各子元素的说明如下：

元素	说明
type	指定需要被启动的虚拟机操作系统的类型： hvm 操作系统设计用来在裸金属（bare metal）上运行，即未修改的操作系统，需要全虚拟化 xen 表示支持Xen3的Guest API的操作系统，别名linux exe 基于容器的虚拟化 uml 用户模式的Linux 元素属性： arch 指定被虚拟化的CPU的体系结构 machine 指定机器类型
loader	指定虚拟机固件镜像的（宿主机的）绝对路径。用于Xen全虚拟化、QEMU/KVM的BIOS文件路径设置元素属性： readonly 固件是否只读，yes/no type rom/pflash，告知hypervisor把固件映射到客户机内存的什么位置，如果loader指定UEFI镜像，则该属性应为pflash secure 指示固件实现了安全启动（secure boot）特性
boot	此元素可以出现多次，其dev属性可以是fd/hd/cdrom/network，用来确定优先从哪种设备启动虚拟机，写在最前面的那种设备优先级高如果同一类型的设备配置了多个，它们将依据总线顺序排列，第一个被标记为可启动的。该元素难以细粒度的控制启动顺序，可以使用Per-device的boot元素代替（后者与此元素互斥）
smbios	产生客户机可见的SMBios信息，引用一个sysinfo元素
bootmenu	可以使用一个交互式的启动菜单
bios	useserial：可以设置为yes/no，来启用/禁用Serial Graphics Adapter ，SGA允许用户通过串口看到BIOS信息 rebootTimeout 如果启动失败，多久重启，单位毫秒，-1禁止重启

Container boot

当启动基于容器虚拟化的Domain时，需要指定一个init程序：


    exe
    
    /bin/systemd
    
    --unit
    emergency.service

如果你要启用user namespace映射，可以：

指定SMBIOS信息


    



    
        LENOVO
    
    
        Fedora
        Virt-Manager
        0.9.4
    
    
        LENOVO
        20BE0061MC
        0B98401 Pro
        W1KS427111E

CPU分配

配置示例如下：

vcpu元素

此元素定义客户机最大的虚拟CPU的数量，有效值的范围是1-hypervisor支持的最大数量。属性说明如下：

属性	说明
cpuset	逗号分隔的，Domain进程及虚拟CPU默认能够Pin到的物理CPU序号。可以用-指定范围，^进行排除 Domain进程及虚拟CPU的Pin策略可以由cputune指定，如果cputune的emulatorpin属性被设置，则当前属性被忽略对于指定了vcpupin的虚拟CPU，当前属性被忽略
current	启用比最大数量更少的虚拟CPU
placement	指定Domain进程的CPU placement mode，static/auto

vcpus

此元素控制每个单独虚拟CPU的状态，每个vcpu子元素对应一个虚拟CPU，vcpu子元素的属性说明如下：

属性	说明
id	虚拟CPU的标识符，libvirt在其它地方（例如pinning）引用之。有效值范围0到最大虚拟CPU数-1之间
enabled	控制此虚拟CPU是否启用，yes/no
hotpluggable	此虚拟CPU是否可以热拔插，注意，所有enabled=no的CPU都是可以热拔插的，yes/no
order	此虚拟CPU的顺序号，此值越小，则CPU越先被热插

CPU微调

cputune元素可以对Domain的虚拟CPU进行微调，配置示例如下：

各子元素说明如下：

元素	说明
vcpupin	指定虚拟CPU与物理CPU之间的Pin关系。不指定的情况下，虚拟CPU可以Pin到所有物理CPU
emulatorpin	模拟器线程被Pin到哪些物理CPU，模拟器线程是Domain执行序列中除了虚拟CPU、IO线程之外的部分如果此属性未指定，且vcpu的cpuset属性没有设置，则默认Pin到所有物理CPU
iothreadpin	IO线程被Pin到哪些物理CPU 如果此属性未指定，且vcpu的cpuset属性没有设置，则默认Pin到所有物理CPU
shares	此Domain占用CPU时间的权重，这是一个相对值，它对应的具体时长取决于其它虚拟机的设置 2048比1024多获得1倍CPU时间
period	用来指定强制的interval，单位毫秒，可取值 [1000, 1000000]之间。在一个period内，Domain中的每个虚拟CPU消耗的带宽不得超过quota 仅QEMU 0.9.4+、LXC 0.9.10+支持
quota	用来指定最大允许带宽，单位毫秒，可取值 [1000, 18446744073709551]，负值表示不限制
emulator_period	与上面类似，但是针对模拟器线程
emulator_quota	与上面类似，但是针对模拟器线程
iothread_period	与上面类似，但是针对IO线程
iothread_quota	与上面类似，但是针对IO线程
vcpusched	指定特定虚拟CPU的调度类型： scheduler，调度类型，可选batch, idle, fifo, rr vcpus，针对的虚拟CPU priority，对于实时调度器fifo, rr必须，值范围一般1-99之间，取决于宿主机内核
iothreadsched	与上面类似

IO线程分配

IO线程是一种专门的事件循环线程，用于提高磁盘Block I/O的scalability，这些线程会分配给支持的磁盘设备。每个物理CPU只有1-2个IO线程，每个IO线程也可能分配给多个磁盘设备。配置示例：

内存分配

配置示例如下：

1524288
524288
524288

各元素说明如下：

元素	说明
memory	在启动时，分配给Domain的内存的数量 unit，单位，Ki按1024，K按1000计，可用B\|KB\|MB\|GB\|TB dumpCore，在Domain崩溃后，是否包含其内存映像到生成的coredump中，仅QEMU
maxMemory	运行期间允许的最大内存，仅QEMU
currentMemory	当前实际分配给Domain的内存，默认与memory相同

内存Backing

memoryBacking元素控制虚拟内存页如何映射到宿主机的内存页，配置示例：

子元素说明如下：

元素	说明
hugepages	在Linux 64位系统里面，默认内存是以4K的页面（Page）来管理的，当系统有非常多的内存的时候，管理这些内存的消耗就比较大。HugePage使用2M大小的页面来减小管理开销。HugePage管理的内存并不能被Swap，这就避免了swap引发的性能问题。如果系统经常碰到因为swap引发的性能问题可以考虑启用HugePage 告知hypervisor，客户机的内存基于hugepage而不是宿主机Native页大小来分配。从1.2.5开始，可以为每个numa节点更加细致的设置huagepages： size/unit 指定huge页的大小 nodeset 给于特定numa节点hugepage
nosharepages	nosharepages，用于提示hypervisor禁止此Domain的共享页面（内存合并，KSM）
locked	如果hypervisor支持，设置此元素可以禁止属于Domain的内存页被swap out 对于QEMU/KVM，使用此设置前你需要设置memtune的hard_limit，并且设置maxMemory=Domain所需内存+QEMU进程本身所需内存。注意：启用locked且设置过多的内存可能导致宿主机内核内存溢出

内存微调

memtune提供Domain的内存微调参数，如果不设置这些参数，则使用OS提供的默认值。对于QEMU/KVM，这些参数限制包含QEMU进程本身的内存消耗

子元素说明如下：

元素	说明
hard_limit	限制客户机能够使用的最大内存，对于QEMU/KVM建议不要设置
soft_limit	出现内存争用时的软限制
swap_hard_limit	最大内存 + 交换文件总大小限制
min_guarantee	确保最小低分配给客户机的内存，仅VMware ESX、OpenVZ支持

NUMA节点微调

numatune元素通过控制针对Domain进程的numa策略来影响宿主机的性能，配置示例如下：

子元素说明如下：

元素	说明
memory	如何在numa主机上为Domain分配内存： mode，可选值interleave,strict,preferred，默认strict nodeset，影响的numa节点
memnode	类似，针对单个numa节点设置

块I/O微调

blkiotune元素能够微调Domain的Blkio cgroup可调整参数，如果不指定此元素，则使用OS默认值。配置示例如下：

子元素说明如下：

元素	说明
weight	Domain的整体I/O权重，值范围[100, 1000]，自2.6.39内核之后，值范围[10, 1000]
device	此元素可以有多个，用来设置Domain针对宿主机每一个块设备的I/O权重。子元素： path 宿主机块设备文件的路径 weight 针对此块设备，Domain的权重 read_bytes_sec 读吞吐量限制，bytes/s write_bytes_sec 写吞吐量限制，bytes/s read_iops_sec 读次数限制，bytes/s write_iops_sec 写次数限制，bytes/s

CPU型号与拓扑

对CPU型号、特性的要求，以及它的拓扑结构的要求，可以使用如下方式配置：


    core2duo
    Intel

cpu元素是描述客户机CPU需求的容器元素，它的属性如下：

属性	说明
match	宿主机必须满足客户机CPU需求的严格程度，可选值： minimum 满足CPU型号、feature的要求 exact 完全满足 strict 除非完全满足，否则客户机不被创建
mode	用于简化客户机的配置，让它尽量和宿主机CPU匹配。可选值： custom（94.73%性能）：这种模式下虚拟机 CPU 指令集数最少，故性能相对最差，但是它在热迁移时跨不同型号 CPU 的能力最强。此外，custom 模式下支持用户添加额外的指令集 host-model（95.84%性能）：libvirt 根据当前宿主机 CPU 指令集从配置文件 /usr/share/libvirt/cpu_map.xml 选择一种最相配的 CPU 型号。在这种 mode 下，虚拟机的指令集往往比宿主机少，性能相对 host-passthrough 要差一点，但是热迁移时，它允许目的节点 CPU 和源节点的存在一定的差异 host-passthrough(100%性能）：libvirt 令 KVM 把宿主机的 CPU 指令集全部透传给虚拟机。因此虚拟机能够最大限度的使用宿主机 CPU 指令集，故性能是最好的。但是在热迁移时，它要求目的节点的 CPU 和源节点的一致关于热迁移，理论上来说： host-passthrough: 要求源节点和目的节点的指令集完全一致 host-model: 允许源节点和目的节点的指令集存在轻微差异 custom: 允许源节点和目的节点指令集存在较大差异从实际情况来看，公司不同时间采购的 CPU 型号可能不相同；不同业务对 CPU 型号的要求也有差异。虽然互联网多采用 intel E5 系列的 CPU，但是该系列的 CPU 也有多种型号，常见的有 Xeon，Haswell，IvyBridge，SandyBridge 等等。即使是 host-model，在这些不同型号的 CPU 之间热迁移虚拟机也可能失败。所以从热迁移的角度，在选择 host-mode 时：需要充分考虑既有宿主机类型，以后采购扩容时，也需要考虑相同问题除非不存在热迁移的场景，否则不应用选择 host-passthrough host-model 下不同型号的 CPU 最好能以 aggregate hosts 划分，在迁移时可以使用 aggregate filter 来匹配相同型号的物理机如果 CPU 型号过多，且不便用 aggregate hosts 划分，建议使用 custom mode

属性

说明

match

宿主机必须满足客户机CPU需求的严格程度，可选值：
minimum 满足CPU型号、feature的要求
exact 完全满足
strict 除非完全满足，否则客户机不被创建

mode

用于简化客户机的配置，让它尽量和宿主机CPU匹配。可选值：

custom（94.73%性能）：这种模式下虚拟机 CPU 指令集数最少，故性能相对最差，但是它在热迁移时跨不同型号 CPU 的能力最强。此外，custom 模式下支持用户添加额外的指令集
host-model（95.84%性能）：libvirt 根据当前宿主机 CPU 指令集从配置文件 /usr/share/libvirt/cpu_map.xml 选择一种最相配的 CPU 型号。在这种 mode 下，虚拟机的指令集往往比宿主机少，性能相对 host-passthrough 要差一点，但是热迁移时，它允许目的节点 CPU 和源节点的存在一定的差异
host-passthrough(100%性能）：libvirt 令 KVM 把宿主机的 CPU 指令集全部透传给虚拟机。因此虚拟机能够最大限度的使用宿主机 CPU 指令集，故性能是最好的。但是在热迁移时，它要求目的节点的 CPU 和源节点的一致

关于热迁移，理论上来说：

host-passthrough: 要求源节点和目的节点的指令集完全一致
host-model: 允许源节点和目的节点的指令集存在轻微差异
custom: 允许源节点和目的节点指令集存在较大差异

从实际情况来看，公司不同时间采购的 CPU 型号可能不相同；不同业务对 CPU 型号的要求也有差异。虽然互联网多采用 intel E5 系列的 CPU，但是该系列的 CPU 也有多种型号，常见的有 Xeon，Haswell，IvyBridge，SandyBridge 等等。即使是 host-model，在这些不同型号的 CPU 之间热迁移虚拟机也可能失败。所以从热迁移的角度，在选择 host-mode 时：

需要充分考虑既有宿主机类型，以后采购扩容时，也需要考虑相同问题
除非不存在热迁移的场景，否则不应用选择 host-passthrough
host-model 下不同型号的 CPU 最好能以 aggregate hosts 划分，在迁移时可以使用 aggregate filter 来匹配相同型号的物理机
如果 CPU 型号过多，且不便用 aggregate hosts 划分，建议使用 custom mode

元素	说明
model	指定客户机要求的CPU型号，可用型号的列表在/usr/share/libvirt/cpu_map.xml 如果hypervisor不能使用精确的CPU，libvirt会自动fallback到特性最接近的CPU 属性列表： fallback，是否允许fallback，可选值allow,forbid，默认allow vendor_id，设置客户机看到的vendor_id，必须12字符长，典型值AuthenticAMD、GenuineIntel
vendor	设置客户机要求CPU的厂商，可用厂商列在cpu_map.xml
topology	规定总的CPU插槽数，每个CPU的核心数，每个核心的硬件线程数
feature	可以包含多个这样的元素，用来细粒度的规定CPU的特性： name 特性名称 policy 策略：force强制要求此特性，即使宿主机不支持；require如果宿主机支持则要求此特性；optional可有可无；disable此特性在客户机上禁用；forbid如果宿主机支持此特性则客户机失败
numa	仅适用于QEMU/KVM，指定客户机的numa拓扑，举例：每个cell子元素对应一个numa 节点（cell）： cpus指定节点对应的CPU范围 memory指定节点本地内存大小 memAccess控制内存被映射为shared还是private，此属性仅针对基于hugepage的内存

事件配置

你可能需要覆盖某些事件发生时采取的动作，注意并非所有hypervisors支持所有事件和动作。使用

virsh reboot

或者

virsh shutdown

可以触发事件。配置示例：

destroy
restart
restart
poweroff

事件类型采用元素表示：

元素	说明
on_poweroff	指定客户机请求断开电源时采取的动作
on_reboot	指定客户机请求重启时采取的动作
on_crash	指定客户机崩溃时采取的动作

这几种事件都支持的动作包括：

destroy，终止Domain并释放一切相关资源
restart，Domain被终止，并以相同的配置再次启动
preserve，Domain被终止但是其资源被保留供分析
rename-restart，以另外一个名字重启Domain

on_crash支持额外的动作：

coredump-destroy，崩溃Domain的core被dump出来，然后destroy
coredump-restart，崩溃Domain的core被dump出来，然后重启

电源管理

仅QEMU支持，强制启用/禁止客户机BIOS的电源管理功能：

Hypervisor特性

Hypervisor能够启用/禁用一些CPU/机器特性。配置示例：

时间保持

客户机的时间通常是基于宿主机时间来初始化的，大部分OS期望硬件中存储的是UTC时间，然而Windows期望的则是“本地时间”。

配置示例：

clock的offset属性控制客户机的时间如何与宿主机同步：

utc，客户机启动时总是基于UTC时间来同步
localtime，客户机启动时基于宿主机的timezone配置来同步时间
timezone，客户机基于指定的时区来同步
variable，客户机的时钟相对于UTC或者localtime（由basis属性指定，默认utc）具有一定的偏移，偏移量单位秒，由adjustment指定

设备配置

提供给客户机的所有设备，都在

元素中配置。本章后续内容讲述各种设备的XML配置信息。

模拟器路径

可以使用下面的元素来指定模拟器全限定的路径：


    /usr/lib/xen/bin/qemu-dm

capabilities的XML配置指明了特定Domain类型-体系结构组合对应的最佳模拟器。

软/硬/光盘

任何软盘、硬盘、光盘或者半虚拟化的驱动器，都是通过

disk

元素来指定的。配置示例：

disk元素属性

属性	说明
type	磁盘的来源（source）类型。有效值：file,block,dir,network,volume 其中volume表示磁盘的来源是存储池中的一个卷
device	客户机看到的磁盘类别。有效值：floppy,disk,cdrom,lun，默认disk 仅当type=block\|network且protocol=iscsi时；或者type=volume且使用protocol=iscsi、mode=host的source pool时可设置为lun，lun的行为与disk相同，除了来自客户机的SCSI命令被接收并pass through到物理设备。lun仅被raw设备识别，不能被分区识别
rawio	仅当device=lun时使用，是否启用rawio，有效值：yes/no
snapshot	指定快照行为： internal 使用内部快照 external 使用外部快照 no 该磁盘不参与快照

source子元素

指定磁盘的来源（source），其包含的属性依赖于disk的type属性：

disk.type	属性	说明
file	file	指定虚拟磁盘对应的镜像文件的全限定路径
block	dev	指定虚拟设备映射到的宿主机块设备的全限定路径
dir	dir	指定宿主机目录，此目录作为客户机的磁盘使用
network	protocol	访问磁盘映像的协议，有效值：nbd、iscsi、rbd、sheepdog、gluster
network	name	如果protocol=rbd、sheepdog、gluster，则此属性必须，用于指定什么卷/镜像被使用对于protocol=iscsi，name可能包含一个逻辑单元号（ logical unit number，LUN），例如xx:iscsi-pool/1，不指定LUN则默认0
volume	pool	指定由libvirt管理的存储池（storage pool）的名称，磁盘来源位于此池中
	volume	指定用作磁盘来源的，由libvirt关联的存储卷（ storage volume ）的名称
	mode	指示如何将LUN暴露为磁盘来源： direct host，默认值

source子元素可以包含以下子元素：

子元素	说明
host	当disk.type=network时，可以包含若干各host子元素，用来指定需要连接的主机。host具有以下属性： name，主机名 port，监听端口 transport，传输协议类型 socket，UNIX套接字路径

backingStore子元素

紧跟着source元素，用于指定磁盘使用的backing store ，backing store是构成磁盘的逻辑成分（类似于QEMU的backing file）。如果不指定此元素，则意味着source是自包含的。backingStore元素的属性列表如下：

属性	说明
type	backing store使用的磁盘类型，类似于disk.type
index

backingStore可以有下列子元素：

元素	说明
format	其type属性指定backing store内部的镜像格式，例如raw、qcow2
source	类似于disk.source
backingStore	如果此backing store也不是自包含，而依赖于其它backing store时，使用此元素递归的指定

target子元素

此子元素控制虚拟磁盘在什么总线/设备下暴露给客户机。属性如下：

属性	说明
dev	磁盘在客户机下的逻辑名称，此名称并不确保映射到相应的设备名称，你只能将其作为设备的“顺序提示”
bus	设置模拟的磁盘类型，有效值包括ide、scsi、virtio、xen、usb、sata、sd。如果不指定，bus的值根据dev的风格来推断，例如hda可以推断出ide
tray	可移动磁盘（光盘、软盘）的一个状态字段，有效值包括open、closed，默认closed
removable	设置USB磁盘的可移除标记，on/off，默认off

iotune子元素

针对单块磁盘进行IO微调，与 blkiotune 功能类似，但是后者针对Domain全局。

目前可设置的微调项都是针对QEMU的IO throttling微调，这些微调由子元素指定，取值0表示无限制。子元素列表：

元素	说明
total_bytes_sec	每秒钟I/O吞吐量的限制。total_bytes_sec不能与后两者同时出现
read_bytes_sec
write_bytes_sec
total_iops_sec	每秒钟I/O操作次数的限制。total_iops_sec不能与后两者同时出现
read_iops_sec
write_iops_sec
total_bytes_sec_max	与上面类似，但是限制最大值
read_bytes_sec_max
write_bytes_sec_max
total_iops_sec_max
write_iops_sec_max
size_iops_sec

driver子元素

与hypervisor驱动相关的更多细节配置，属性列表：

属性	说明
name type	如果hypervisor支持多个backend驱动，则name属性指定primary后端驱动的名称，而type则指定一个子类型。例如： xen支持的name有tap、tap2、phy、file，支持type有aio QEMU仅支持name为qemu，而支持raw、bochs、qcow2、qed等type
cache	控制IO缓存策略，有效值包括 default 由hypervisor自动选择。qemu-kvm 1.2-默认writethrough。之后的版本，对于客户机驱动ide/scsi/virtio来说，默认值可能是 writethrough none 相当于直接使用宿主机的物理磁盘缓存，性能不错 writethrough 数据直接写入磁盘（O_DSYNC）里，不使用缓存；在数据更新时，同时写入缓存Cache和后端存储。此模式的优点是操作简单；缺点是因为数据修改需要同时写入存储，数据写入速度较慢 writeback 在数据更新时只写入缓存Cache（不使用O_DSYNC、O_DIRECT）。只在数据被替换出缓存时，被修改的缓存数据才会被写到后端存储。此模式的优点是数据写入速度快，因为不需要写存储；缺点是一旦更新后的数据未被写入存储时出现系统掉电的情况，数据将无法找回 directsync，写入磁盘时，qemu-kvm将使用O_DSYNC + O_DIRECT。速度慢 unsafe 任何时候都不要在生产环境使用，cache flush不会传播到宿主机，因此任何意外的VM关机都会摧毁虚拟机文件系统最后两种几乎不会使用 writethrough、none、directsync的安全性好，只要客户机操作系统是现代且行为正常的 —— 必要时会执行flush writeback的安全性次之，它给提示后端写缓存的存在，依赖于客户机发送必须的flush命令来保证客户机磁盘的数据完整性 —— 这是现代文件系统应有的正常行为。但是，在报告（给客户端应用程序）IO操作完成，到数据提交到宿主机磁盘，存在一个时间窗口。如果宿主机宕机，可能导致数据丢失 unsafe安全性差，和writeback的差异在于，客户机的flush命令被忽略性能上： writeback > none > writethrough
error_policy	当磁盘出现读写错误时hypervisor的处理策略，有效值：stop、report、ignore、enospace
io	控制AIO的策略，QEMU支持： threads：用户空间异步IO的实现，其实它不是真正的异步IO，是通过启动一定数量的 blocking IO线程来模拟异步IO native：Kernel native AIO :，Kernel的原生态异步IO实现 native的性能更好
copy_on_read	当读取backing文件时，是否将读取的内容复制到当前的镜像文件中，当backing文件位于慢速网络中时可以设置为on 仅用于QEMU/KVM
iothread	将磁盘分配给Domain的iothreads元素定义的IO线程

boot子元素

用于指定该磁盘是可启动的，order属性指定其启动顺序。

encryption子元素

指定卷如何被加密。

readonly子元素

指定此磁盘不能被客户机修改，对于device=cdrom的设备默认true。

shareable子元素

假设hypervisor和OS支持的话，指示此设备可以被多个Domain共享。指定此元素，应当同时禁用磁盘的缓存。

transient子元素

指示当客户机退出时，对磁盘的所有修改将回退。对于某些hypervisor，把磁盘标记为transient会禁止快照与迁移。

serial子元素

指定磁盘的序列号。

wwn子元素

指定磁盘的世界范围名称（World Wide Name），此值必须唯一，由16位16进制数字组成。

vendor子元素

指定磁盘的生产厂商，不超过8个可打印字符

product子元素

指定磁盘的产品名称，不超过16个可打印字符

address子元素

很多设备可以提供一个address 子元素，来指明设备挂载客户机虚拟总线的什么位置上。如果不指定address，libvirt会生成一个合适的地址。该子元素的属性列表如下：

属性	说明
type	必须，有效值包括： pci 可配额外属性domain/bus/slot/function/multifunction drive 可配额外属性controller/bus/target/unit ccid 用于智能卡，可配额外属性bus/slot usb 可配额外属性bus/port，其中port位点号分隔的单字节数字，例如1.2或者2.1.3.1
bus	磁盘绑定到的总线，对于PCI范围在0-0xff之间，对于其它为2位的bus号
slot	磁盘绑定到总线上的slot，范围在0x0-0x1f之间，对于其它为2位的slot号
function	磁盘的function号，范围在0-7之间

auth子元素

对于disk.type=network，且protocol为rbd、iscsi的磁盘，可以指定此子元素，提供访问磁盘源时使用的凭据。

blockio子元素

用于QEMU/KVM，覆盖块设备的属性。属性列表：

属性	说明
logical_block_size	报告给客户机的逻辑块大小。对于Linux来说，BLKSSZGET ioctl会返回此值，表示最小单元的磁盘IO大小
physical_block_size	报告给客户机的物理块大小。对于Linux来说，BLKPBSZGET ioctl会返回此值，表示硬件扇区的大小

文件系统配置

使用filesystem元素可以把宿主机上的目录直接暴露给客户机访问，配置示例：

filesystem元素的属性列表：

属性	说明
type	指定文件系统的来源，有效值包括： mount 默认值，挂载到客户机的一个宿主机目录，支持LXC、OpenVZ、QEMU/KVM template OpenVZ模板 file 一个宿主机文件被作为镜像，挂载到客户机，仅LXC block 一个宿主机块设备，挂载到客户机，仅LXC ram 一个内存文件系统 bind 绑定宿主机中的一个目录到客户机的一个目录，仅LXC
accessmode	访问源的安全模式，有效值包括： passthrough 默认值，基于客户机用户的权限访问源 mapped 基于hypervisor（QEMU进程）的权限访问源 squash 类似于passthrough，只是忽略chown之类操作的错误

子元素列表：

元素	说明
driver	指定hypervisor驱动的更多细节，属性列表： type 如果hypervisor支持多种backend驱动，使用该属性指定primary后端驱动的名称 format 指定格式类型对于LXC，支持type=loop&format=raw，或者type=nbd；QEMU支持type=path\|handle，不支持format
source	标注宿主机上的资源，该资源暴露为客户机的文件系统，属性列表： name 仅用于filesystem.type=template，指定模板的名字 dir 仅用于filesystem.type=mount，指定宿主机目录 usage 仅用于filesystem.type='ram' 以KiB（可以使用units属性指定单位）限制内存用量
target	对于QEMU，指定文件系统在客户机的挂载点
readonly	文件系统对于客户机是否只读，仅QEMU/KVM
space_hard_limit	文件系统对于客户机的容量软硬限制
space_soft_limit	文件系统对于客户机的容量软硬限制

网络接口配置

有几种方式（type）来指定客户机能够看到的网络接口，网络接口的容器元素是

interface

。每个interface元素可以拥有一个address子元素，指定其在PCI上的slot。interface元素的属性列表：

属性

说明

type

网络接口的类型，有效值：
network 虚拟网络
bridge 直接桥接VM到局域网

trustGuestRxFilters

如果设置为true，则宿主机能够检测到并信任来自客户机的关于接口MAC地址变更的报告，并接收filters

对此设置的支持，取决于客户机的网络设备型号，以及宿主机的连接类型。当前只有virtio型号和macvtap宿主机连接类型支持

虚拟网络

对于基于动态地址分配/无线网络的宿主机获得连接性的虚拟机，推荐此方式。

虚拟网络提供一个其详细信息由一个命名网络定义（named network definition）所描述的连接。依据虚拟网络的转发模式（forward mode）设置，它可能是：

完全隔离的，不配置
元素
NAT到一个指定的网络设备或者默认路由，配置
不基于NAT来路由，配置
直接连接到宿主机的网络接口（通过macvtap）或桥接设备，配置

virsh net-dumpxml [networkname]

得到。一个开箱即用的、称为default的虚拟网络NAT到宿主机默认路由，其IP地址范围是192.168.122.0/24，在宿主机中你可以ifconfig看到一个名为virbr0的网络接口，与这个default虚拟网络有关。要自定义虚拟网络，需要修改其它类型（network XML）的配置文件L。

每个客户机会有一个命名为

vnetN

的tun设备，你可以利用target元素覆盖此命名。

类似于direct类型的接口，network类型的接口可以指定一个virtualport子元素，用于将配置信息转发给vepa（802.1Qbg）或 802.1Qbh兼容的交换机，或Open vSwich虚拟交换机。

配置示例：

桥接到LAN

对于基于静态地址的有线网络的宿主机获得连接性的虚拟机，推荐此方式。

该方式将虚拟机直接桥接到宿主机所在的局域网，libvirt假设宿主机上的网桥设备enslaved了1-N个物理网卡。客户机的IP地址范围与宿主机局域网的IP地址范围一样。

在Linux系统中，网桥通常是标准的Linux主机网桥（host bridge）。如果主机支持Open vSwitch，则可以添加

子元素以连接到Open vSwitch网桥。

每个客户机会有一个命名为

vnetN

的tun设备，你可以利用target元素覆盖此命名。此tun设备会自动enslaved到宿主机网桥。

配置示例：

用户空间SLIRP栈

提供一个虚拟局域网并NAT到外面的世界，此虚拟网络使用10.0.2.x网段。默认路由10.0.2.2，DNS服务器10.0.2.3，客户机地址从10.0.2.15开始。此网络仅仅用于没有特权的宿主机用户。配置示例：

设置虚拟网卡型号

如果hypervisor支持，则可以设置虚拟网卡的型号。示例：

QEMU支持的型号包括 ne2k_isa i82551 i82557b i82559er ne2k_pci pcnet rtl8139 e1000 virtio。

修改虚拟网卡状态

可以设置网卡是启用还是断开的：

IP配置

网络设备、具有网络特性的hostdev设备可以配置一个或者多个IP地址，某些hypervisor会忽略这些配置。配置示例：

图形配置

配置图形（Graphical）设备，可以让你与客户机进行图形化的交互。客户机通常提供一个framebuffer或者text console，作为人机接口。配置示例：

根据强制属性type的取值，grpahics的属性、子元素有所差异：

type	说明
sdl	在宿主机的桌面上显示一个窗口，额外属性： display 使用哪个显示器 xauth 验证标识符 fullscreen 是否全屏，yes/no
vnc	启动一个VNC服务器，额外属性： port 监听端口，-1表示自动分配 autoport 表示自动分配端口 passwd VNC密码明文 keymap 使用的keymap passwdValidTo 密码有效期限（UTC），示例'2010-04-09T15:51:00' sharePolicy 显示共享策略，allow-exclusive独占并丢弃其它连接，force-shared禁止独占，ignore无条件允许任何连接 socket 对于QEMU，可以指定一个UNIX domain socket而非TCP/IP
spice	启动一个SPICE服务器，额外属性： port 监听端口，-1表示自动分配 tlsPort 安全协议端口 autoport 表示自动分配端口 passwd SPICE密码明文 keymap 使用的keymap passwdValidTo 密码有效期限（UTC），示例'2010-04-09T15:51:00' connected 如果密码改变，如何控制已连接的客户端。keep保持连接，disconnect断开连接，fail禁止修改密码 defaultMode 设置默认的通道安全策略。有效值secure、insecure、any 如果SPICE同时配置了普通端口、TLS安全端口。则可以利用channel子元素限制某个通道使用的端口。可用的通道名包括main, display, inputs, cursor, playback, record,smartcard,usbredir。配置示例： SPICE支持音频、图片、流的压缩。你可以设置以下子元素的compression属性： image 图片压缩，支持compression取值auto_glz, auto_lz, quic, glz, lz, off jpeg 基于WAN访问时的JPEG压缩，支持compression取值 auto, never, always zlib，基于WAN访问时的图片压缩，支持compression取值auto, never, always playback，音频流压缩，支持compression取值onn,off 配置示例：可以使用streaming子元素设置流模式，其mode属性可以取值filter, all,off，配置示例：基于Spice agent的复制/粘贴功能可以利用clipboard子元素设置，默认启用，配置示例：鼠标模式可以利用mouse子元素设置，mode取值client,server，配置示例：文件传输功能可以利用filetransfer设置，默认启用，配置示例： SPICE支持服务器端的基于OpenGL的加速渲染（仅QEMU），配置示例：
rdp	启用一个RDP服务器，额外属性： port 监听端口，-1表示自动分配 autoport 表示自动分配端口 replaceUser 布尔值，是否允许多个用户同时连接
desktop	保留给VirtualBox Domain，配置类似于sdl

listen子元素

用于指明在何处监听客户机连接。

视频设备配置

video是描述视频设备的容器，为了向后兼容，如果配置了graphics却没有配置video，libvirt会根据客户机的类型自动添加一个video。配置示例：

子元素说明如下：

元素	说明
model	type 视频设备类型，可选值：vga、cirrus、vmvga、xen、vbox、qxl、virtio，基于hypervisor来选择 vram 现存容量 heads 设置屏幕的数量
acceleration	accel2d 启用2D加速，仅vbox accel3d 启用3D加速，仅vbox、QEMU

使用libguestfs

libguestfs是一组工具集，用来（在不启动客户机的情况下）访问、修改虚拟机的磁盘文件，通过libguestfs你可以好对磁盘进行以下操作：

查看或者修改文件
创建虚拟磁盘
改变虚拟磁盘大小
执行磁盘备份、克隆等操作

libguestfs支持多种虚拟磁盘格式，包括Vmware、Hyper-V。日常工作中我们主要使用libguestfs提供的命令行guestfish。libguestfs不依赖于libvirt。

与libguestfs类型工具包括：

kpartx 需要root权限，并且将文件系统挂载到宿主机的内核中。相比之下libguestfs把文件系统隔离在appliance中，安全性高
vdfuse 该工具类似于kpartx，但是仅仅针对VirtualBox虚拟磁盘
qemu-nbd 用QEMU提供的工具，基于QEMU支持的磁盘格式（raw、qcow2）构建网络块服务器。libguestfs可以与之配合使用：
```
guestfish -a nbd://remote
```

安装与配置

执行下面的命令安装libguestfs：

sudo apt-get install libguestfs-tools

在Ubuntu下，需要执行：

sudo chmod 0644 /boot/vmlinuz*

否则在使用过程中你会遇到cp: cannot open '/boot/vmlinuz-4.4.0-38-generic' for reading: Permission denied错误。

使用guestfish

执行下面的命令，以编辑一个虚拟磁盘：

# 附加-v参数，可以看到很多调试信息，例如appliance的启动过程日志
guestfish -a vda.qcow2

# 出现提示符
> 

# 添加一个磁盘，只能在run之前执行
# add-drive filename [readonly:true|false] [format:..] [iface:..] [name:..] [label:..] [protocol:..] [server:..]
add-drive vdb,qcow2 format:qcow2

# 执行run命令，一个appliance（类似于微型虚拟机）会被启动
> run

# 列出设备
> list-devices
# 输出：/dev/sda

# 列出分区
> list-partitions
# 输出：
# /dev/sda1
# /dev/sda2

# 显示各分区详细信息
> part-list /dev/sda
# [0] = {
#   part_num: 1
#   part_start: 1048576
#   part_end: 525336575
#   part_size: 524288000
# }
# [1] = {
#   part_num: 2
#   part_start: 525336576
#   part_end: 17179869183
#   part_size: 16654532608
# }
# 测试第一个分区是否可启动
> part-get-bootable /dev/sda 1
# 其它分区相关命令： part-add，part-del，part-disk，part-get-bootable，part-get-gpt-type，part-get-mbr-id，
#                 part-get-name，part-get-parttype，part-init，part-list，part-set-bootable，part-set-gpt-type，
#                 part-set-mbr-id，part-set-name，part-to-dev，part-to-partnum

# 操作LVM
# 显示物理卷详细信息
pvs-full 
# 显示逻辑卷组详细信息
vgs-full
# 其它LVM相关命令：
# lvcreate, lvcreate-free, lvm-canonical-lv-name, lvm-clear-filter, lvm-remove-all, lvm-set-filter, 
# lvremove, lvrename, lvresize, lvresize-free, lvs, lvs-full, lvuuid, pvcreate, pvremove, pvresize, 
# pvresize-size, pvs, pvs-full, pvuuid, vg-activate, vg-activate-all, vgchange-uuid, vgchange-uuid-all, 
# vgcreate, vglvuuids, vgmeta, vgpvuuids, vgremove, vgrename, vgs, vgs-full, vgscan, vguuid
# 列出文件系统
> list-filesystems
# 输出：
# /dev/sda1: ext4
# /dev/fedora_bogon/root: xfs
# /dev/fedora_bogon/swap: swap

# 挂载文件系统
> mount /dev/fedora_bogon/root /

# 列出目录
> ls /
# 创建新目录
> mkdir /temp
# 其它支持的文件系统命令包括：cp chown chmod cp

# 下载文件到当前目录
download /root/.bash_history test
# 上传文件到虚拟磁盘
upload test /temp/test

# 查看文件内容
cat /temp/test

# 退出
> quit

执行run子命令后，需要等待一会，这时libguestfs在启动一个 appliance。再此appliance中会运行一个Linux内核，LVM、ext2等用户空间工具，以及一个守护程序guestfsd。宿主机进程基于RPC与这个守护进程通信，完成对磁盘镜像的操作。

使用Guestmount

该命令可以把虚拟磁盘挂载到宿主机的目录上：

# 创建挂载点
mkdir vda
# 挂载一个文件系统
guestmount -a vda.qcow2 --rw -m /dev/fedora_bogon/root vda
# 现在你可以在宿主机中修改虚拟磁盘中的文件
# 操作完毕后，取消挂载
guestunmount vda

使用virt-builder

该命令可以用来快速的创建虚拟机磁盘镜像：

# 列出所有支持的客户机类型
virt-builder --list
# 创建一个Fedora 24的虚拟磁盘镜像，第一次使用某个客户机类型，需要从网络上下载镜像文件
virt-builder fedora-24 
    -o fedora-24.qcow2 --format qcow2 --size 20G 
    --hostname fedora-24-01   # 设置主机名
    --root-password file:/tmp/pswd  # 设置root密码，密码从文件中读取
    --install "apache2"  # 安装软件
    --firstboot  /tmp/fb.sh  # 第一次启动时执行的脚本

其它命令

命令	说明
virt-ls	列出虚拟磁盘中的文件，示例： virt-ls -a vda.qcow2 /
virt-cat	查看虚拟磁盘中某个文件的内容，示例： virt-cat -a vda.qcow2 /root/.bashrc
virt-copy-in	拷贝目录或者文件到虚拟磁盘中，示例： virt-copy-in -a vda.qcow2 hello /root/
virt-copy-out	从虚拟磁盘中拷贝文件到本地，示例： virt-copy-out -a vda.qcow2 /root/hello .
virt-df	显示虚拟磁盘文件系统的剩余空间情况
virt-diff	显示两个Domain或者虚拟磁盘中同一文件的差异
virt-edit	编辑一个文件
virt-format	执行格式化操作
virt-inspector	显示虚拟磁盘中操作系统的版本、以及其它信息
virt-make-fs	从一系列文件，或者tar来创建一个文件系统
virt-resize	改变虚拟磁盘的尺寸
virt-sparsify	稀疏化，虚拟磁盘中的空闲空间将归还给宿主机
virt-tar-in	打包并上传
virt-tar-out	打包并下载
virt-win-reg	导入导出Windows的注册表键值

管理虚拟局域网

通过配置libvirt的虚拟局域网，可以简化Domain的网络接口配置，比QEMU的脚本方式好很多。此外虚拟局域网还提供DHCP服务。

虚拟网络交换机

libvirt引入了virtual network switch的概念，这是运行在宿主机上的软件。客户机可以“插入”到这个交换机上并传递流量。在Linux宿主机上，这个交换机表现为网络接口——默认情况下名字为virbr0，这个接口实质上是一个网桥。

NAT

默认情况下虚拟网络交换机工作在NAT模式下，实质上是基于宿主机的iptables设置IP遮掩（不使用SNAT/DNAT），客户机对外通信时，使用宿主机的IP地址。

路由模式

与NAT不同，这种模式直接转发客户机的IP封包，不进行NAT转换。这需要物理网络的路由器配置适当的路由，让客户机子网的流量流向所在的宿主机。

隔离模式

这种模式下，虚拟网络交换机不把客户机的IP封包转发到真实网络上去。只有宿主机、各客户机之间可以进行通信。

DNS &DHCP

每个虚拟网络交换机可以设置一个用于动态分配的IP地址范围，供连接到此交换机的客户机使用，客户机可以通过DHCP服务自动获得IP地址。

libvirt基于dnsmasq实现DHCP和DNS，对于每个需要DHCP的虚拟网络交换机，libvirt在宿主机上启动一个dnsmasq实例。

除了简单的DNS请求转发，dnsmasq可以做更多的事情：

它可以读取宿主机的 /etc/hosts 中条目，来应答DNS查询请求

网络架构示意

一个可能的虚拟网络架构的逻辑图如下：

对应的物理拓扑如下：

其中：

VLAN 1，这个虚拟局域网通过网桥virbr0与eth1进行桥接，并基于NAT连接到真实局域网lan2
VLAN 2，这个虚拟局域网桥接到virbr0，但是与真实局域网完全隔离
Guest A，该虚拟机的：
1. eth0桥接到宿主机的网桥eth0，后者直接连接到真实网卡pth0，从而与lan1互联
2. eth1桥接到virbr0，可以基于NAT受限访问lan2
Guest B，基于NAT、隔离网络
Guest C，基于隔离网络

属性	说明
ipv6	yes/no，设置为yes时定义一个虚拟网络，该网络不指定网关的IPv6地址，但是允许客户机-客户机之间的通讯
trustGuestRxFilters	yese/no，设置连接到此VLAN的Domain的interface元素的同名属性

子元素	说明
bridge	说明如何创建让VLAN连接到物理网络的、宿主机上的网桥设备（虚拟网络交换机）： name 网桥设备的名称，这样所有使用此VLAN的客户机可以相互通信，网桥本身可以连接到真实局域网（LAN），取决于宿主机的配置当使用mode=nat\|route指定forward子元素，或者不指定forward子元素（隔离的VLAN）时，如果你不指定name属性，则libvirt会自动创建为网桥生成唯一名称并记住。libvirt推荐以virbr前缀指定name stp 是否启用 Spanning Tree Protocol，默认on delay 网桥转发的延迟秒数，默认0 macTableManager 告知libvirt，如何管理MAC地址表（用于判断数据包的出口），默认值kernel，可设置为libvirt。设置为libvirt可以提高性能，但是导致vlan tagging, multicast等功能失效。需要内核版本3.17+
domain	DHCP相关配置： name 定义DHCP服务器的DNS Domain（域名） localOnly 如果设置为yes，则name对应子域名的解析均由VLAN自己的DNS服务器负责，与宿主机的DNS无关；如果设置为no，则无法解析的DNS请求转发给宿主机DNS处理
forward	通过配置此元素，可以让VLAN连接到物理网络。如果不指定此子元素，则VLAN与其它网络隔离（isolated mode） mode 定义包转发方式： nat 所有连接到此VLAN的客户机、物理网络之间的流量，均forward到宿主机的IP路由栈。从宿主机外部看来，所有客户机均使用宿主机的IP地址。这种mode适合多个客户机需要访问物理网络，而宿主机仅仅允许用于一个公共IP地址的应用场景。如果网络分配的IPv6地址，那么IPv6流量通过plain路由转发，因为IPv6没有NAT的概念。同一VLAN上地址相互通信，不进行NAT route 来自客户机的流量forward到宿主机的IP路由栈，但是不进行NAT。要使用这种方式，LAN路由器必须包含适当的路由表项，将流量返回给宿主机（进而转发给对应客户机）。使用此方式，则客户机的入站/出站会话不受限制 open 类似于route，但是libvirt不会在宿主机上应用任何Firewall规则，也不支持设置dev属性 bridge 桥接到既有网桥，该模式下libvirt不去创建网桥设备：当配置了时：桥接到一个宿主机既有（非libvirt管理）的网桥当配置了时：桥接到一个既有的Open vSwitch网桥当配置了时：通过macvtap的桥接模式，直连到物理网络 dev 如果设置此属性，当mode=nat\|route时，Firewall规则将限定仅仅forward到dev设备上，否则应用到所有设备。当设置为wlan0时生成的iptables规则： # sudo iptables -t nat -L -nv Chain POSTROUTING (policy ACCEPT 0 packets, 0 bytes) pkts bytes target prot opt in out source destination 0 0 MASQUERADE tcp -- * wlan0 10.0.0.0/16 !10.0.0.0/16 masq ports: 1024-65535 0 0 MASQUERADE udp -- * wlan0 10.0.0.0/16 !10.0.0.0/16 masq ports: 1024-65535 0 0 MASQUERADE all -- * wlan0 10.0.0.0/16 !10.0.0.0/16 如果不设置dev，默认值为*，这就意味着：从虚拟机中访问任何非10.0.0.0/16网段时，不管路由出口是哪个网卡，封包到达宿主机后，会强制进行SNAT —— 哪怕目标地址在另外一台虚拟机上。这会让Flannel的host-gw模式失效，因为，Flannel的容器网络CIDR肯定不是10.0.0.0/16，这意味着跨节点（虚拟机）的CNI通讯会发生NAT，这显然是不期望发生的。示例： default 519cbf63-8ec0-4893-ba9c-0747430bdecd default 9bae4de8-ca58-48c5-ba58-109aebf8b954
bandwidth	配置虚拟网络的QoS，仅支持fowward mode=route\|nat或者隔离网络。配置示例：
ip	设置虚拟局域网的子网、网桥（DHCP服务器）的IP地址、DHCP和DNS配置 ip子元素该元素设置子网、网桥地址： ip/dhcp子元素设置DHCP自动分配的地址范围、静态映射MAC地址到IP：
dns	配置虚拟网络的DNS服务器，示例： fedora-10 fedora-10.local
mac	设置网桥的MAC地址，示例：

后端类型	说明
目录	将宿主机的一个目录作为池看待，该目录中的文件可以包含各种客户机磁盘文件、镜像文件
本地文件系统	将宿主机上一个格式化好的文件系统作为池看待，文件系统类型可以是ext2,ext3,vfat
网络文件系统	使用远端网络文件系统服务器的导出目录作为存储池。默认为 NFS 网络文件系统
逻辑卷	使用已经创建好的 LVM 卷组，或者提供一系列生成卷组的源设备，libvirt 会在其上创建卷组，生成存储池
磁盘	使用磁盘作为存储池
iSCSI	使用 iSCSI 设备作为存储池
其它	SCSI、Multipath、RBD、Sheepdog、Gluster 、ZFS

属性/子元素	说明
@type	存储池类型，支持取值dir, fs, netfs, disk, iscsi, logical, scsi,mpath,rbd,sheepdog,gluster,zfs
name	对于宿主机来说，唯一的名称
uuid	全局唯一的UUID，如果忽略libvirt会自动生成
allocation	当前分配给池的容量，单位字节。创建池时不能使用此元素
capacity	池的总容量，单位字节。创建池时不能使用此元素
available	设置可以分配给新的卷使用的空闲容量。创建池时不能使用此元素

source的子元素	说明
device	对于fs, logical, disk, iscsi, zfs类型的池后端，指定存储池的后端物理设备。对于某些池后端，该元素可能出现多次。支持以下属性： path，指向物理设备的全限定路径，或者iSCSI全限定名称（IQN） part_separator，yes/no，用于disk后端
dir	对于 dir, netfs, gluster类型的池后端，指定存储池对应的文件目录。仅能出现一次。支持以下属性： path，目录的全限定名称。对于Samba share，路径不包含起始的斜杠
adapter	对于scsi类型的池后端，指定存储池使用的SCSI适配器
host	对于 netfs, iscsi, rbd, sheepdog, gluster类型的池后端，如果存储池位于远程机器上，指定远程机器的信息，必须和device或者dir元素联用。支持以下属性： name 远程机器的IP或者主机名 port 监听端口，可选，默认值依据远程协议确定
auth	提供访问池后端所需的身份验证信息。支持以下属性： type 可以是chap或者ceph，分别用于iscsi、rbd username 用户名 secret 密码信息（libvirt secret object）
name	对于logical, rbd, sheepdog, gluster类型的池后端，依据已命名元素提供池的源
format	指定源的格式对于fs池后端，指定的是文件系统的类型：auto ext2 ext3 ext4 ufs iso9660 udf gfs gfs2 vfat hfs+ xfs ocfs2 对于netfs池后端，指定的是网络协议的类型：auto nfs glusterfs cifs 对于logical池后端，只能是lvm2 对于disk池后端，指定的是分区表类型：dos dvh gpt mac bsd pc98 sun lvm2
vendor	指定存储设备的供应商信息
product	指定存储设备的产品信息

target的子元素	说明
path	存储池映射到宿主机目录树的什么位置。对于： fs,dir池后端，该路径是在其中创建卷的绝对路径基于设备的后端，该路径是设备节点所在路径，最好使用稳定（重启后不变化）的路径：/dev/disk/by-{path\|id\|uuid\|label}，避免重启后路径变化 mpath后端，设置该子元素无效，总是使用默认值/dev/mapper
permissions	仅用于fs,dir池后端，指定池对应目录的文件模式
timestamps	提供卷的时间戳信息
encryption	指定卷的加密方式

通信控制路径	说明
受管直接迁移	由libvirt客户端进程控制迁移的各个阶段。libvirt客户端必须能够连接到源、目的客户机的libvirt守护进程，并通过身份验证。源、目的客户机上的libvirt守护进程不需要相互通信如果libvirt客户端崩溃，或者丢失到libvirt守护进程的连接，则源宿主机上的迁移会取消，并在源宿主机上重启客户机的CPU
受管点对点迁移	libvirt客户端仅仅与源宿主机上的libvirt守护进程通信，由后者控制迁移的整个过程。源宿主机的libvirt守护进程会连接到目的宿主机的libvirt守护进程执行迁移操作，libvirt客户端崩溃或者断开不会影响迁移过程的推进注意，源宿主机上的libvirt守护进程使用自己的身份（通常是root）而不是客户端的身份连接到目标宿主机
非受管直接迁移	libvirt客户端、守护进程都不控制迁移过程，迁移由底层的Hypervisor负责。libvirt仅仅在Hypervisor的管理层次上触发迁移请求即使libvirt客户端、守护进程都崩溃，迁移过程还会继续推进