绿色记忆 » libvirt

CoreOS知识集锦

Alex — Wed, 12 Oct 2016 10:28:13 +0000

简介

CoreOS是一个轻量级的Linux操作系统，CoreOS的自动化、安全性、可扩容性特征，让其非常适用于集群化的部署场景。

与其它的发行版不同，CoreOS没有包管理器，它倾向于在容器（例如Docker）中运行应用程序。CoreOS对流行的容器系统提供了开箱即用的支持。

CoreOS可以在云服务（例如EC2、GCE）、虚拟化平台（VMware、OpenStack、KVM）、裸金属值上运行。

Ignition

这是CoreOS提供的新的VM初始化机制，用于代替cloud-config。

Ignition能够执行磁盘分区、分区格式化、写入文件、配置用户、配置网络、创建RAID阵列等初始化操作。Ignition的运行时机非常的早，它在systemd启动之前、任何永久存储挂载之前即被调用。

在VM第一次（也仅仅是第一次）启动时，Ignition会从文件系统、URL、Hypervisor bridge读取JSON格式的配置文件，并将配置应用到VM。

运行CoreOS

即使是学习阶段，也最好创建3台CoreOS的集群，那样更容易认识CoreOS的特性。为了让CoreOS集群正常启动，你需要提供“点火配置”（ Ignition config ），或者通过user_data提供一个cloud-config。

libvirt/cloud-config

本节记录基于libvirt创建CoreOS客户机的详细过程。

获取镜像

我们可以下载CoreOS官网提供的qcow2格式的镜像，此镜像适用于QEMU：

wget https://stable.release.core-os.net/amd64-usr/current/coreos_production_qemu_image.img.bz2

下载完毕后，解压镜像到

/home/alex/Vmware/KVM/coreos-20/vda.qcow2

备用，默认扩展名是img，手工改成qcow2。

Config drive

为了配置CoreOS实例，我们需要在宿主机上创建一个目录，此目录中包含一些配置信息。此目录最终映射将为客户机上的一个文件系统。执行以下命令：

mkdir -p /home/alex/Vmware/KVM/coreos-20/cloud-config/openstack/latest/
touch /home/alex/Vmware/KVM/coreos-20/cloud-config/openstack/latest/user_data

user_data是cloud config格式的配置文件，它提供了客户机运行时所需要的定制化信息。我们至少需要在其中配置SSH Key以便（初次）登录到CoreOS中：

#cloud-config

ssh_authorized_keys:
 - ssh-rsa AAAAB3NzaC1yc2EAAAABJQAAAIBlsU4YrAi ... EIokU+jOd0MrsnOwQn9wJbov8Xhyw==

定义Domain

我们可以使用类似下面的命令来定义CoreOS的Domain：

virt-install --import --name coreos-20 --ram 1024 --vcpus 1
             --disk path=/home/alex/Vmware/KVM/coreos-20/vda.qcow2,format=qcow2,bus=virtio 
             --filesystem /home/alex/Vmware/KVM/coreos-20/cloud-config/,config-2,type=mount,mode=squash

或者，在常规的Domain XML配置文件中，添加devices的子元素：

登录到CoreOS

默认情况下，CoreOS会尝试通过DHCP来获得自身的网络配置，我们可以在启动Domain后立即查看控制台，CoreOS的IP地址会打印在上面。执行下面的命令登录到CoreOS：

ssh -i path-to-key core@ip-of-coreos

登录成功后，你可以为core用户设置密码，或者执行其它操作。

完整libvirt配置


    coreos-20
    1024
    1
    
        hvm
    
    
        
    
    
        SandyBridge
    
    
    destroy
    restart
    destroy
    
        /usr/bin/qemu-system-x86_64

libvirt/Ignition-config

当前推荐的配置CoreOS的方式是Ignition，但是目前libvirt没有对Ignition的直接支持，需要引入QEMU特有的配置片断。

Ignition配置为JSON格式，示例：

{
  "ignition": {
    "config": {},
    "timeouts": {},
    "version": "2.1.0"
  },
  "networkd": {},
  "passwd": {
    "users": [
      {
        "name": "core",
        "sshAuthorizedKeys": [
          "ssh-rsa AAAAB3NzaC1yc2EAAAABJQAAAIBlsU4YrAif8Oh4Qdcq1SuF+CbPdr5T3DE3zzeYGG8nkcDMt/9dEjT8eHTMW+4BzCoIfYrIWIprJoykMnhZONBXnoXc/541tqU6MqF0ZRF0QlzSq6VLLLebG3zz+avdJSNLMAvolCLczP536EIokU+jOd0MrsnOwQn9wJbov8Xhyw=="
        ]
      }
    ]
  },
  "storage": {
    "files": [
      {
        "filesystem": "root",
        "group": {},
        "path": "/etc/hostname",
        "user": {},
        "contents": {
          "source": "data:,coreos-21",
          "verification": {}
        }
      }
    ]
  },
  "systemd": {}
}

libvrit Domain配置示例：

...

注意：QEMU 2.0版本不支持 -fw_cfg，手工构建最新版本可以支持。

The post CoreOS知识集锦 appeared first on 绿色记忆.

KVM和QEMU学习笔记

Alex — Mon, 17 Aug 2015 06:22:32 +0000

简介

虚拟化基础知识

关于Hypervisor

Hypervisor，即虚拟机监管程序（virtual machine monitor ，VMM）。它可以是电脑上的软件、固件或者硬件，用于建立和执行虚拟机。拥有Hypervisor后，你可以执行一个或者多个虚拟机。这些虚拟机称为客户机（guest machine），相应的Hypervisor所在机器称为宿主机（host machine）。

传统的虚拟化技术都是基于Hypervisor的，它们被分为两类：

bare-metal Hypervisor：裸机监管程序，直接运行在硬件上
Hosted Hypervisor：被宿主监管程序，Hypervisor运行在操作系统之上，就像一个应用程序一样

特权级别和虚拟化类型

X86处理器定义了定义了0-3个特权级，数字越小，权限越高。

对于Linux来说，在没有虚拟化的情况下，内核态对应了0级，用户态对应3级。

传统的虚拟化技术都是在宿主机、客户机之间加一个Hypervisor。因此，当在Linux上运行Linux虚拟机时，两个内核都需要运行在0级。根据解决此冲突（对于Host来说整个Client是用户程序）的方式的不同，虚拟化被分为3种类型：

虚拟化类型	说明
半虚拟化	Paravirtualization。此类型的特点是： Hypervisor运行在内核态，对应0级特权客户机的内核不运行在内核态，内核被修改，需要在0级执行的特权指令转调Hypervisor 客户机上的用户程序运行在3级
非硬件辅助全虚拟化	Full Virtualization without Hardware Assist。此类型的特点是： Hypervisor运行在内核态 Hypervisor位客户机提供一个模拟的CPU 客户机内核不需要修改，运行在模拟CPU上的0级 Hypervisor对客户机的CPU指令进行转译，变成正式CPU的指令
硬件辅助全虚拟化	Full Virtualization with Hardware Assist。由Intel VT或AMD-V实现，此类型的特点是： Hypervisor运行在新的-1级别客户机内核直接运行在真实CPU的0级

KVM

KVM，即基于内核的虚拟机（Kernel-based Virtual Machine），是构建于支持虚拟化扩展（Intel VT 或者 AMD-V）的x86平台、Linux操作系统之上的，完整虚拟化解决方案。使用KVM，你可以运行多个Linux或者Windows系统镜像，这些虚拟机拥有私有的虚拟化设备，包括网卡、磁盘、显卡等。

KVM主要包含两个内核组件：

可加载的内核模块 kvm.ko，负责核心的虚拟化基础功能
针对处理器的模块：kvm-intel.ko或者kvm-amd.ko

从2.6.20版本的Linux内核开始，KVM的内核组件就被包含在其中。从QEMU 1.3开始，KVM的用户空间组件被包含在其中。要查看你的机器是否支持KVM，可以执行：

lsmod | grep kvm

QEMU

QEMU是一个基于通用目的开源仿真器/虚拟器软件。它可以模拟：

CPU
Intel e1000 PCI等网卡
基于PCI IDE接口的硬盘、光驱
软驱
串口
AC97兼容声卡以及其它声卡
PS/2 键盘鼠标
VGA显卡

等多种外围设备。QEMU最多支持255 CPU的SMP。

当作为仿真器（Emulator，模拟器）使用时，它可以在真实机器（例如你的x86_64台式机）上模拟一台机器 + 操作系统 + 程序，而这台模拟的机器的体系结构（例如ARM板）与宿主机器不同。

而作为虚拟器（Virtualizer）使用时，它可以在宿主机器上直接执行客户机（虚拟机）的代码，因而虚拟机的性能接近于宿主机。QEMU通过下列方式之一来支持虚拟化：

在XEN监管程序（Hypervisor）之上执行
在支持KVM的Linux操作系统下运行。使用KVM时QEMU可以虚拟化x86、PowerPC、S390客户机

注意Emulator和Virtualizer的区别，最重要的一点是客户机的代码是直接执行（意味着宿主和客户机体系结构兼容），还是模拟执行，后者的效率要低得多。很多同学喜欢在PC上玩街机游戏，这也是通过模拟器（例如Winkawaks）实现的。

和Vmware、VirtualBox 之类的虚拟机管理软件不同，QEMU不提供图形化的管理界面。你可以使用第三方的图形前端，例如qtemu，但是命令行的丰富性让QEMU更适合在服务器上使用。

QEMU与KVM

单纯靠QEMU来模拟一系列硬件，因为存在指令转译，性能一般很差。而KVM可以基于Intel-VT、AMD-V实现硬件辅助的CPU虚拟化，客户机指令直接在真实CPU上运行。因此结合KVM可以很好的提高QEMU的CPU性能。另一方面KVM仅仅提供CPU的虚拟化，它无法构建一台完整的虚拟机。因此QEMU和KVM整合的需求就很明显了。

qemu-kvm项目就是来整合QEMU和KVM的，此项目在1.3.0版本开始正式合并到QEMU项目的master上。qemu-kvm（qemu-system-***）利用ioctl调用/dev/kvm，将有关CPU的部分交由KVM去做。

如果KVM内核模块存在、且CPU支持，你可以通过下面的选项启用KVM支持：

# 启用基于KVM的虚拟化加速
-enable-kvm

周围硬件的性能

CPU的性能问题解决了，但是QEMU模拟的其它硬件也存在同样的低效问题，于是Virtio被引入了。

Virtio是libvirt的一部分，它是一个关于网络、磁盘等设备的虚拟化标准，在此标准中客户机的设备驱动知道自己运行在虚拟化环境中，因而这些驱动可以和Hypervisor进行直接交互，获得接近于Native驱动的性能。

较新版本的Linux发行版都已经把Virtio编译进内核，因而客户机可以直接使用Virtio驱动。

与其它虚拟化技术的比较

Xen

KVM和XEN都是基于Hypervisor的虚拟化技术。它们的区别包括：

Xen是裸机监管程序，而KVM某种程度上把Linux内核变成了Hosted Hypervisor
Xen的整体性能高于KVM，但是I/O略差
KVM要求CPU必须支持虚拟化技术，但Xen则没有此限制。这个限制在当前的硬件条件下，基本不是问题
KVM的优势是它对Linux内核的整合程度，KVM本质上就是一个内核模块，因此你可以很容易的升级内核

VirtualBox

VirtualBox是标准的2类Hypervisor，KVM与它的区别包括：

VirtualBox它与商用软件Vmware Workstation一样，都以图形界面为主，适合个人用户。但是在商用环境下，大部分虚拟机都是Headless的（不需要图形界面），此时VirtualBox的GUI则是劣势，GUI浪费了资源
VirtualBox支持大量的宿主操作系统，例如Windows、Linux、Mac OS X。而KVM显然仅支持Linux
一般情况下，轻量级的KVM的性能要比VirtualBox好的多

关于LXC

LXC即Linux容器（Containers），这是一种操作系统层（传统虚拟机是硬件层）虚拟化技术，要由liblxc库及其多语言绑定、一系列控制容器的工具组成。LXC将整个应用，包括：软件本身代码、所需库、支撑软件，打包为一个“容器”。通过Linux内核的特性，可以实现容器与系统之间的隔离，这些特性包括：

内核命名空间（IPC、uts、mount、pid、network、user）
Apparmor（限制每个应用程序访问的资源）和SELinux配置
Seccomp（提供应用程序沙盒机制）策略
Chroots（通过pivot_root调用）
cgroups，即控制组（control groups），用来限制、控制、分离进程组的资源（CPU、内存、磁盘等），此特性最初的名字就叫“进程容器”

通过LXC，你可以创建尽可能接近标准Linux的环境，同时不需要独立的内核。

基于LXC的虚拟化技术和KVM相比，区别如下：

LXC的优势在于轻量化和高性能，但是隔离性不高
LXC支持任何体系结构，例如x86、ARM、PowerPC等

LXD

LXD基于LXC，可以认为是一个Container的Hypervisor，LXD一般创建自包含的操作系统用户空间。也就是说，LXD容器内运行的是一个操作系统，虽然存在用户空间和内核空间隔离，但是这个操作系统和宿主系统共享一个内核。

有测试数据表明：LXD相比KVM可以减少50+%的延迟；LXD启动实例的速度比KVM块90+%

Docker

近年来非常流行的容器软件，与LXD最大的不同是，Docker打包应用程序+自包含的文件系统，而不是操作系统用户空间。每个Docker容器，仅仅包含一个应用程序。曾经Docker也是基于lxc技术的，但是现在它使用自己的库ibcontainer。

Docker中的文件系统、网络都是抽象的，而LXD直接使用宿主机的文件系统、网络，LXD可以方便的设置IP地址。

Docker比起LXD更加轻量，可以实现更高的部署密度。

安装和配置

使用随系统自带的KVM

大部分的Linux发行版已经内置了KVM内核模块以及用户空间工具，使用这些内置组件是最容易、推荐的方式：

KVM内核模块现在是Linux内核的一部分，除非你使用的是精简过的内核
用户空间组件，软件包名称一般是qemu-kvm或者kvm，例如：
1. Ubuntu下可以执行
```
apt-get install qemu-kvm
```
  安装
2. CentOS下可以执行
```
yum install kvm
```
  安装
客户机驱动：Linux客户机的驱动包含在内核中；Windows客户机的驱动需要下载

手工构建KVM

安装QEMU的依赖包：

sudo apt-get install gcc libsdl1.2-dev zlib1g-dev libasound2-dev linux-kernel-headers pkg-config libgnutls-dev libpci-dev

下载用户空间组件：

QEMU 1.3或者更老版本的，在Sourceforge下载
新版本，在QEMU官网下载

注意：2.6.29以上版本的内核，可以和任何版本的qemu-kvm搭配使用。

构建和安装用户空间组件

tar xzf qemu-kvm-release.tar.gz
cd qemu-kvm-release
./configure --prefix=/usr/local/kvm
make
sudo make install

构建和安装KVM内核模块

如果你使用旧版本内核，或者内核精简了KVM，则需要此步骤：

tar xjf kvm-kmod-release.tar.bz2
cd kvm-kmod-release 
./configure
make 
sudo make install

启用内核模块

# 对于Intel CPU
sudo /sbin/modprobe kvm-intel
# 对于AMD CPU
sudo /sbin/modprobe kvm-amd

构建QEMU

从3.0.0开始QEMU的版本大跃进，每年major版本增加1，目前已经是5.x版本。

下载和构建

wget https://download.qemu.org/qemu-5.1.0.tar.xz
tar xvJf qemu-5.1.0.tar.xz 
cd qemu-5.1.0/
./configure
make

配置项说明

./configure --help

# 方括号中是默认值

Standard options:
  --prefix=PREFIX          install in PREFIX [/usr/local]
  --interp-prefix=PREFIX   where to find shared libraries, etc.
                           use %M for cpu name [/usr/gnemul/qemu-%M]
  # 目标列表，默认所有
  # xxx-softmmu 生成qemu-system-xxx，用于运行xxx架构下的虚拟机
  # xxx-linux-user 生成qemu-xxx，用于模拟运行xxx架构下的应用程序，可以配合binfmt_misc和Docker联用
  --target-list=LIST       set target list (default: build everything)
                           Available targets: aarch64-softmmu alpha-softmmu 
                           arm-softmmu avr-softmmu cris-softmmu hppa-softmmu 
                           i386-softmmu lm32-softmmu m68k-softmmu 
                           microblazeel-softmmu microblaze-softmmu 
                           mips64el-softmmu mips64-softmmu mipsel-softmmu 
                           mips-softmmu moxie-softmmu nios2-softmmu 
                           or1k-softmmu ppc64-softmmu ppc-softmmu 
                           riscv32-softmmu riscv64-softmmu rx-softmmu 
                           s390x-softmmu sh4eb-softmmu sh4-softmmu 
                           sparc64-softmmu sparc-softmmu tricore-softmmu 
                           unicore32-softmmu x86_64-softmmu xtensaeb-softmmu 
                           xtensa-softmmu aarch64_be-linux-user 
                           aarch64-linux-user alpha-linux-user armeb-linux-user 
                           arm-linux-user cris-linux-user hppa-linux-user 
                           i386-linux-user m68k-linux-user 
                           microblazeel-linux-user microblaze-linux-user 
                           mips64el-linux-user mips64-linux-user 
                           mipsel-linux-user mips-linux-user 
                           mipsn32el-linux-user mipsn32-linux-user 
                           nios2-linux-user or1k-linux-user 
                           ppc64abi32-linux-user ppc64le-linux-user 
                           ppc64-linux-user ppc-linux-user riscv32-linux-user 
                           riscv64-linux-user s390x-linux-user sh4eb-linux-user 
                           sh4-linux-user sparc32plus-linux-user 
                           sparc64-linux-user sparc-linux-user 
                           tilegx-linux-user x86_64-linux-user 
                           xtensaeb-linux-user xtensa-linux-user
  --target-list-exclude=LIST exclude a set of targets from the default target-list

Advanced options (experts only):
  --cross-prefix=PREFIX    use PREFIX for compile tools []
  --cc=CC                  use C compiler CC [cc]
  --iasl=IASL              use ACPI compiler IASL [iasl]
  --host-cc=CC             use C compiler CC [cc] for code run at
                           build time
  --cxx=CXX                use C++ compiler CXX [c++]
  --objcc=OBJCC            use Objective-C compiler OBJCC [cc]
  --extra-cflags=CFLAGS    append extra C compiler flags QEMU_CFLAGS
  --extra-cxxflags=CXXFLAGS append extra C++ compiler flags QEMU_CXXFLAGS
  --extra-ldflags=LDFLAGS  append extra linker flags LDFLAGS
  --cross-cc-ARCH=CC       use compiler when building ARCH guest test cases
  --cross-cc-flags-ARCH=   use compiler flags when building ARCH guest tests
  --make=MAKE              use specified make [make]
  --install=INSTALL        use specified install [install]
  --python=PYTHON          use specified python [/usr/bin/python3]
  --sphinx-build=SPHINX    use specified sphinx-build []
  --smbd=SMBD              use specified smbd [/usr/sbin/smbd]
  --with-git=GIT           use specified git [git]
  --static                 enable static build [no]
  --mandir=PATH            install man pages in PATH
  --datadir=PATH           install firmware in PATH/qemu
  --docdir=PATH            install documentation in PATH/qemu
  --bindir=PATH            install binaries in PATH
  --libdir=PATH            install libraries in PATH
  --libexecdir=PATH        install helper binaries in PATH
  --sysconfdir=PATH        install config in PATH/qemu
  --localstatedir=PATH     install local state in PATH (set at runtime on win32)
  --firmwarepath=PATH      search PATH for firmware files
  --efi-aarch64=PATH       PATH of efi file to use for aarch64 VMs.
  --with-confsuffix=SUFFIX suffix for QEMU data inside datadir/libdir/sysconfdir [/qemu]
  --with-pkgversion=VERS   use specified string as sub-version of the package
  --enable-debug           enable common debug build options
  --enable-sanitizers      enable default sanitizers
  --enable-tsan            enable thread sanitizer
  --disable-strip          disable stripping binaries
  --disable-werror         disable compilation abort on warning
  --disable-stack-protector disable compiler-provided stack protection
  --audio-drv-list=LIST    set audio drivers list:
                           Available drivers: oss alsa sdl pa
  --block-drv-whitelist=L  Same as --block-drv-rw-whitelist=L
  --block-drv-rw-whitelist=L
                           set block driver read-write whitelist
                           (affects only QEMU, not qemu-img)
  --block-drv-ro-whitelist=L
                           set block driver read-only whitelist
                           (affects only QEMU, not qemu-img)
  --enable-trace-backends=B Set trace backend
                           Available backends: dtrace ftrace log simple syslog ust
  --with-trace-file=NAME   Full PATH,NAME of file to store traces
                           Default:trace-
  --disable-slirp          disable SLIRP userspace network connectivity
  --enable-tcg-interpreter enable TCG with bytecode interpreter (TCI)
  --enable-malloc-trim     enable libc malloc_trim() for memory optimization
  --oss-lib                path to OSS library
  # 为指定CPU构建
  --cpu=CPU                Build for host CPU [x86_64]
  --with-coroutine=BACKEND coroutine backend. Supported options:
                           ucontext, sigaltstack, windows
  --enable-gcov            enable test coverage analysis with gcov
  --gcov=GCOV              use specified gcov [gcov]
  --disable-blobs          disable installing provided firmware blobs
  --with-vss-sdk=SDK-path  enable Windows VSS support in QEMU Guest Agent
  --with-win-sdk=SDK-path  path to Windows Platform SDK (to build VSS .tlb)
  --tls-priority           default TLS protocol/cipher priority string
  --enable-gprof           QEMU profiling with gprof
  --enable-profiler        profiler support
  --enable-debug-stack-usage
                           track the maximum stack usage of stacks created by qemu_alloc_stack
  --enable-plugins
                           enable plugins via shared library loading
  --disable-containers     don't use containers for cross-building
  --gdb=GDB-path           gdb to use for gdbstub tests [/usr/bin/gdb]

Optional features, enabled with --enable-FEATURE and
disabled with --disable-FEATURE, default is enabled if available:

  system          all system emulation targets
  user            supported user emulation targets
  linux-user      all linux usermode emulation targets
  bsd-user        all BSD usermode emulation targets
  docs            build documentation
  guest-agent     build the QEMU Guest Agent
  guest-agent-msi build guest agent Windows MSI installation package
  pie             Position Independent Executables
  modules         modules support (non-Windows)
  module-upgrades try to load modules from alternate paths for upgrades
  debug-tcg       TCG debugging (default is disabled)
  debug-info      debugging information
  sparse          sparse checker
  safe-stack      SafeStack Stack Smash Protection. Depends on
                  clang/llvm >= 3.7 and requires coroutine backend ucontext.

  gnutls          GNUTLS cryptography support
  nettle          nettle cryptography support
  gcrypt          libgcrypt cryptography support
  auth-pam        PAM access control
  sdl             SDL UI
  sdl-image       SDL Image support for icons
  gtk             gtk UI
  vte             vte support for the gtk UI
  curses          curses UI
  iconv           font glyph conversion support
  vnc             VNC UI support
  vnc-sasl        SASL encryption for VNC server
  vnc-jpeg        JPEG lossy compression for VNC server
  vnc-png         PNG compression for VNC server
  cocoa           Cocoa UI (Mac OS X only)
  virtfs          VirtFS
  mpath           Multipath persistent reservation passthrough
  xen             xen backend driver support
  xen-pci-passthrough    PCI passthrough support for Xen
  brlapi          BrlAPI (Braile)
  curl            curl connectivity
  membarrier      membarrier system call (for Linux 4.14+ or Windows)
  fdt             fdt device tree
  kvm             KVM acceleration support
  hax             HAX acceleration support
  hvf             Hypervisor.framework acceleration support
  whpx            Windows Hypervisor Platform acceleration support
  rdma            Enable RDMA-based migration
  pvrdma          Enable PVRDMA support
  vde             support for vde network
  netmap          support for netmap network
  linux-aio       Linux AIO support
  linux-io-uring  Linux io_uring support
  cap-ng          libcap-ng support
  attr            attr and xattr support
  vhost-net       vhost-net kernel acceleration support
  vhost-vsock     virtio sockets device support
  vhost-scsi      vhost-scsi kernel target support
  vhost-crypto    vhost-user-crypto backend support
  vhost-kernel    vhost kernel backend support
  vhost-user      vhost-user backend support
  vhost-vdpa      vhost-vdpa kernel backend support
  spice           spice
  rbd             rados block device (rbd)
  libiscsi        iscsi support
  libnfs          nfs support
  smartcard       smartcard support (libcacard)
  libusb          libusb (for usb passthrough)
  live-block-migration   Block migration in the main migration stream
  usb-redir       usb network redirection support
  lzo             support of lzo compression library
  snappy          support of snappy compression library
  bzip2           support of bzip2 compression library
                  (for reading bzip2-compressed dmg images)
  lzfse           support of lzfse compression library
                  (for reading lzfse-compressed dmg images)
  zstd            support for zstd compression library
                  (for migration compression and qcow2 cluster compression)
  seccomp         seccomp support
  coroutine-pool  coroutine freelist (better performance)
  glusterfs       GlusterFS backend
  tpm             TPM support
  libssh          ssh block device support
  numa            libnuma support
  libxml2         for Parallels image format
  tcmalloc        tcmalloc support
  jemalloc        jemalloc support
  avx2            AVX2 optimization support
  avx512f         AVX512F optimization support
  replication     replication support
  opengl          opengl support
  virglrenderer   virgl rendering support
  xfsctl          xfsctl support
  qom-cast-debug  cast debugging support
  tools           build qemu-io, qemu-nbd and qemu-img tools
  bochs           bochs image format support
  cloop           cloop image format support
  dmg             dmg image format support
  qcow1           qcow v1 image format support
  vdi             vdi image format support
  vvfat           vvfat image format support
  qed             qed image format support
  parallels       parallels image format support
  sheepdog        sheepdog block driver support
  crypto-afalg    Linux AF_ALG crypto backend driver
  capstone        capstone disassembler support
  debug-mutex     mutex debugging support
  libpmem         libpmem support
  xkbcommon       xkbcommon support
  rng-none        dummy RNG, avoid using /dev/(u)random and getrandom()
  libdaxctl       libdaxctl support

第一台虚拟机

要创建虚拟机，首先要创建一个虚拟磁盘，然后从光驱启动此虚拟机：

mkdir -p ~/Vmware/KVM

# 以qcow2格式创建一个16G的虚拟磁盘，注意，默认不会预先分配空间
qemu-img create -f qcow2 ~/Vmware/KVM/centos7-base.img 16G

# 指定光盘镜像，从光驱启动虚拟机
# -hda 第一块硬盘的镜像
# -cdrom 光驱的镜像，你可以把宿主的/dev/cdrom传入，这样可以使用物理光驱
# -boot 指定启动顺序，d表示第一个光驱，c表示第一块硬盘
# -m 为虚拟机分配多少内存，默认单位M，默认128M
qemu-system-x86_64 -enable-kvm -hda ~/Vmware/KVM/centos7-base.img  -boot d -m 512
                   -cdrom ~/Software/OS/CentOS-7-x86_64-Minimal-1503-01.iso

上述命令执行完毕之后，会弹出一个窗口，该窗口相当于虚拟机的显示器。你可以在其中完成操作系统的安装。安装完毕后，执行下面的命令，即可启动虚拟机：

qemu-system-x86_64 -enable-kvm -hda ~/Vmware/KVM/centos7-base.img -m 512

后续几个章节，我们深入学习客户机硬件的定制，以满足不同应用场景的需要、提高客户机的性能。

配置CPU

使用选项

-cpu

选项可以选择客户机使用的CPU，执行

qemu-system-x86_64 -cpu help

可以列出QEMU支持的CPU名称、可用的CPUID标记。

你可以这样配置一个CPU：

-cpu SandyBridge,+erms,+smep,+fsgsbase,+pdpe1gb,+rdrand,+f16c,+osxsave,+dca,+pcid,+pdcm,\
     +xtpr,+tm2,+est,+smx,+vmx,+ds_cpl,+monitor,+dtes64,+pbe,+tm,+ht,+ss,+acpi,+ds,+vme

+表示启用CPU特性，如果要禁用CPU特性，可以使用

。

SMP配置

所谓对称多处理（Symmetrical Multi-Processing），是指在一个计算机上汇集了一组处理器，各处理器共享内存子系统以及总线结构。在PC机上QEMU最多可以模拟255个CPU。

你可以这样配置SMP：

-smp 1,sockets=1,cores=1,threads=1

。这个配置表示主板上有一个CPU插槽、1个CPU、每个CPU具有1核心、每个核心具有1个硬件线程（超线程）。

配置磁盘

你可以在宿主机上创建一个磁盘镜像文件，然后供客户机使用。客户机磁盘I/O都将针对此文件。镜像文件可以有几种格式。

Raw镜像

这种镜像的特点是格式简单，性能较好。

你的文件系统（例如Ext3）必须支持稀疏文件（sparse file），才能避免不必要的磁盘空间占用。稀疏文件是一种高效使用磁盘空间的技术，当文件大小很大，而其绝大部分块都是空白（未使用）的时，可以基于文件元数据来表示那些空白的块（而不是真实的硬盘空间）。

创建Raw镜像：

qemu-img create -f raw hda.img 1G

# 查看镜像信息
qemu-img info hda.img 
# image: hda.img
# file format: raw
# virtual size: 1.0G (1073741824 bytes)
# disk size: 0

你也可以使用dd命令产生Raw镜像，例如：

# 产生非稀疏文件：块大小1MB，写入1024个块，虚拟大小1G，实际大小1G
dd if=/dev/zero of=hda.img bs=1024k count=1024
# 产生稀疏文件：块大小1MB，写入0个块，虚拟大小1G，实际大小0
dd if=/dev/zero of=hda.img bs=1024k count=0 seek=1024

qcow2镜像

qcow2镜像的动态增长的，即使文件系统不支持稀疏文件，它也会尽可能的小。qcow2支持Copy-on-write、镜像、压缩、加密。

正是由于qcow2支持Copy-on-write，我们才可以使用backing file——用一个镜像保存针对另外一个镜像的改变，而后面那个镜像不需要被改动。这是多虚拟机公用一个Base镜像，以及Snapshot的基础。

qcow2原理

qcow2镜像文件的结构如下图所示：

qcow2镜像文件由一个头、几张表、数据簇组成。所有数据都存放在数据簇（Data Clusters）中，每个数据簇是512字节的扇区。为了方便管理这些数据簇，qcow2建立了两级表：L1、L2。其中L1表的条目指向L2表，而L2表的条目指向数据簇。

要定位数据，需要3个偏移量构成的数组：

通过位于Header中的L1表指针 +offset[0]，得到L2表的指针
L2表指针 + offset[1]，得到数据簇指针
数据簇指针 + offset[2]，得到目标数据的指针

创建qcow2镜像

你可以这样创建一个qcow2镜像：

qemu-img create -f qcow2 hda-back.img 16G

转为backing file

然后，在未来某个时刻把它作为backing file使用：

qemu-img create -f qcow2 -o backing_file=hda-back.img hda.img

压缩、加密和扩展

镜像hda.img在一开始是空白的，所有数据都是从hda-back.img中获取，一旦发生写入操作，hda.img就开始有数据而hda-base.img保持不变。

使用下面的命令可以压缩一个qcow2镜像：

qemu-img convert -c -f qcow2 -O qcow2 hda.img hda.compressed.img

使用下面的命令可以为一个qcow2镜像设加密：

qemu-img convert -o encryption -f qcow2 -O qcow2  hda.img hda.encrypted.img
# 提示输入密码

使用压缩镜像启动虚拟机时，必须在Monitor中输入密码才可以。

使用下面的命令，可以扩展一个qcow2镜像的大小：

qemu-img resize hda.img +10G

注意：扩大得到的空间，不会被分区或者格式化。

清理空白

要移除镜像中的spare space，直接qcow2-to-qcow2转换即可，压缩（-c）可选：

qemu-img convert -O qcow2 source.qcow2 shrunk.qcow2

变基rebase

rebase操作用于改变一个镜像的backing镜像：

# -u 表示unsafe模式，在此模式下，仅仅改变backing文件的路径，不对文件内容进行检查
#    用于backing文件移动的情况
# -p 表示safe模式，在此模式下，执行真正的rebase操作。backing文件的内容可能和之前
#    不同，qemu-img会小心处理，确保VM可见的内容不变。为达成这一点，新旧backing
#    文件的差异，会合并到被改变镜像中
                    # 格式
qemu-img rebase -u  -f qcow2   
  # 新的backing文件位置                                      新backing文件格式
  -b /home/alex/Vmware/libvirt/images/sdd/xenial-base.qcow2 -F qcow2 
  # 被处理镜像文件
  /home/alex/Vmware/libvirt/images/sdd/xenial-100.qcow2

格式转换

你可以把一个镜像的格式在Raw和qcow2之间进行转换：

# 把Raw格式的hda.img转换为qcow2格式的hda.qcow2
qemu-img convert -f raw -O qcow2 hda.img hda.qcow2

使用快照

快照（Snapshot）是Copy-on-write的一种应用。QEMU支持两种快照：

内部快照（internal snapshot）：在qcow2镜像的snapshot table中维护的快照，所有快照都存放在一个镜像文件中
外部快照（external snapshot）：与Backing file很类似，在外部文件中创建新的镜像，原先的镜像只读

内部快照

内部快照的原理是：

创建一个Snapshot后，在Snapshot Table中新增一项，复制L1 Table
当L2 Table或者Data Cluster发生改变，则把改变前的数据复制一份（Copy-on-write），由新创建的Snapshot的L1 Table来管理
L2 Table或者Data Cluster的变化，直接写到原始位置
要删除快照，很简单，直接把Snapshot Table对应项、以及复制的L1-L2-DS删除即可
要加载快照，则需要依据L1-L2-DS信息，将其合并到镜像的L1-L2-DS信息中

可以使用Monitor来创建、加载、删除内部快照：

# 保存一个内部快照
(qemu) savevm snapshot-1

qemu-img info hda.img
# 输出如下：
#Snapshot list:
#ID        TAG                 VM SIZE                DATE       VM CLOCK
#1         snapshot-1             112M 2016-09-07 18:05:48   00:00:21.536
#Format specific information:
#    compat: 1.1
#    lazy refcounts: false

# 加载内部快照
(qemu) loadvm snapshot-1

# 删除内部快照
(qemu) delvm snapshot-1

外部快照

外部快照与内部快照相反：内部快照是原数据变化，外部快照则是新文件变化。

可以使用Monitor来管理外部快照：

snapshot_blkdev ide0-hd0 snapshot.img qcow2

配置客户机磁盘

有了磁盘镜像文件后，你需要为qemu-system-*指定参数，给客户机增加磁盘。有几种不同的配置方式：

# 最简单的方式
-hda hda.img 

# 使用-drive配置块设备，可以指定if为virtio来提升性能
-drive file=hda.img,index=0,media=disk,if=virtio

# 使用-device配置通用设备
-drive file=hda.img,if=none,id=virtio-disk0,format=qcow2,cache=none 
# 可以指定virtio-blk-pci来提升性能
-device virtio-blk-pci,scsi=off,bus=pci.0,addr=0x4,drive=virtio-disk0,bootindex=1

配置网络

QEMU中的网络，包含两部分的内容：

客户机使用的虚拟网络设备
和上述虚拟设备通信的网络后端，这些后端负责把虚拟设备的数据包发到宿主机的网络中

要创建一个网络后端，可以指定如下选项：

# TYPE为后端类型：user、tap、bridge、socket、vde等
# id为一个标识符，将虚拟网络设备和网络后端关联在一起
# 如果客户机有多个虚拟网络设备，则每一个都需要自己的网络后端
-netdev TYPE,id=NAME,...

QEME支持多种网络后端。

USER后端

如果没有指定网络选项，QEMU默认会模拟单张Intel e1000 PCI网卡，该网卡基于user后端（SLIRP）连接到宿主机：

# 不指定网络
qemu 
# 等价配置。自0.12开始废弃的配置方式 -net nic相当于-device DEVNAME；-net TYPE相当于-netdev TYPE
qemu -hda disk.img -net nic -net user
# 等价配置。-netdev指定网络后端，-device指定虚拟网络设备，后者通过netdev字段引用后端的ID
qemu -netdev user,id=network0 -device e1000,netdev=network0

在客户机看来：

本身的IP地址被分配为 10.0.2.15+
分配IP的虚拟DHCP为 10.0.2.2
虚拟DNS服务器为 10.0.2.3
虚拟Samba服务器为 10.0.2.4，客户机可以通过此服务器访问宿主机的文件系统

用户模式网络可以很方便的访问网络资源。但是它有很多限制：

默认的，它运作方式类似于防火墙，且不允许任何入站流量。这个限制可以通过端口重定向解决
仅仅支持TCP、UDP协议，对于ICMP则不支持
性能比较差

为了支持入站请求，你可以使用端口重定向（Redirecting ports）——把针对宿主机某个端口的请求转发给客户机的某个端口。映射后，客户机可以对外提供SSH、HTTP等服务：

# 把宿主机的7080端口重定向到客户机的80端口；把宿主机的7022端口重定向到客户机的22端口
qemu-system-x86_64 -redir tcp:7080::80 -redir tcp:7022::22 -hda ~/Vmware/KVM/centos7-base.img -m 512 

# 从宿主机SSH到客户机
ssh root@127.0.0.1 -p 7022

你可以不使用默认的10.0.2网段：

-netdev user,id=network0,net=192.168.5.0/24,dhcpstart=192.168.5.9

客户机OS配置

依据客户机安装的操作系统，可能需要进行一些配置，才能正常使用网络。以CentOS 7 Minimal + 用户模式网络为例，需要修改以下配置文件：

NETWORKING=yes
# 如果不使用IPV6
NETWORKING_IPV6=no

# 如果不使用IPV6
IPV6INIT=no
# 开机启动此网卡，默认不启动
ONBOOT=yes

网关、DNS不需要设置。修改完这些配置文件后，重启客户机网络：

/etc/init.d/network restart

。然后执行

yum update

测试一下能否正常联网（不要使用ping测试）

TAP后端

QEMU的TAP后端利用宿主机的TAP设备，为客户机提供完整的桥接网络支持，如果外部需要使用标准端口连接到客户机，或者多个客户机需要相互通信，可以使用该方式。 TAP后端还具有以下优势：

非常好的性能
可以配置以支持各种网络拓扑

但是，你需要在宿主机上进行网络拓扑的配置，而且各种系统的配置不同。

使用TAP后端前，你需要确认你的宿主机的内核支持TAP网络接口：

/dev/net/tun

文件存在则说明支持。如果没有这样的文件，可以尝试手工创建：

sudo mkdir /dev/net
sudo mknod /dev/net/tun c 10 200
sudo /sbin/modprobe tun

基于TAP的私有桥接网络

如果你想创建几个客户机之间的私有网络，可以使用该方式。未参与进来的客户机、真实网络无法看到此网络。

如果你不是root，则你需要

/dev/kvm

的读写权限。

首先，添加一个以太网桥设备：

sudo ip link add br0 type bridge
# 也可以使用：sudo brctl addbr br0添加网桥
# 要删除网桥，执行： ip link delete br0
# 注意：网桥会在重启后消失

# 启用此网桥
sudo ip link set br0 up

# 为网桥分配IP地址
sudo ip addr add 10.0.0.1 dev br0

# 在宿主机添加一条直接路由，便于它能和客户机通信
sudo ip route add 10.0.0.0/8 dev br0

创建一个创建TAP设备并桥接到网桥的脚本：

#!/bin/sh

switch=br0

if [ -n "$1" ];then
        # tunctl -u `whoami` -t $1
        # 添加一个tap设备，在我的机器上不需要，原因见下面
        # ip tuntap add $1 mode tap user `whoami`
        # 不知道从什么时候开始，QEMU会在执行此脚本之前就创建好tap设备，因此会报下面的错误
        # ioctl(TUNSETIFF): Device or resource busy
        # 启动tap设备
        ip link set $1 up
        # brctl addif $switch $1
        # 将网桥和tap设备进行桥接
        ip link set $1 master $switch
        exit 0
else
        echo "Error: no interface specified"
        exit 1
fi

创建一个生成随机MAC地址的脚本：

#!/bin/bash
# generate a random mac address for the qemu nic
printf 'DE:AD:BE:EF:%02X:%02X\n' $((RANDOM%256)) $((RANDOM%256))

启动客户机的脚本：

#!/bin/bash
# $1 base name of virtual disk
# $2 memory size
# $3 tap device id

mac=`/usr/bin/qemu-genmac`
src=/usr/bin/qemu-ifup
sudo qemu-system-x86_64 -enable-kvm -device e1000,netdev=$3,mac=$mac -netdev tap,id=$3,script=$src,downscript=no \
                        -hda ~/Vmware/KVM/$1.img -m $2

为上面的脚本文件添加可执行权限：

sudo chmod +x /usr/bin/qemu-ifup-br0
sudo chmod +x /usr/bin/qemu-genmac
sudo chmod +x /usr/bin/qemu-start-br0

执行下面的命令，启动一台客户机（或者更多虚拟机，但是命令中的tap0要更换为不同的名字）：

/usr/bin/qemu-start centos7-base 512 tap0

修改客户机的IP地址，使用10.0.0.0/8网段：

TYPE=Ethernet
BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=no
NAME=ens3
UUID=d9f47102-b177-4a27-ae98-86f6939d6680
DEVICE=ens3
ONBOOT=yes
IPADDR=10.0.0.10
PREFIX=8
GATEWAY=10.0.0.1

好了，你现在可以互相ping客户机和宿主机，应该可以正常连通了。

私有桥接下访问互联网

上一节介绍的这种基于TAP的私有桥接网络，可以让客户机、宿主机相互连通，但是客户机无法访问互联网。

要解决此问题，你可以选择以下方法之一：

让客户机通过宿主机暴露的HTTP/SOCKS代理上网

配置宿主机的路由规则，设置好源地址转换即可：

# 宿主机需要启用IP转发功能，这样它就可以像路由器那样中转IP封包了
sudo sysctl -w net.ipv4.ip_forward=1 
# 对客户机网段进行源地址转换
sudo iptables -t nat -A POSTROUTING  -s 10.0.0.0/255.0.0.0 ! -d 10.0.0.0/255.0.0.0 -j MASQUERADE

公共桥接网络

此方式和私有桥接网络类似，主要区别是，除了TAP设备桥接到网桥之外，以太网卡（例如eth0）也桥接到网桥（例如br1）。

你可以通过发行版的配置文件来配置网桥：

# 注意网络管理器组件的影响
# 去掉 auto eth0，改为：
auto br1

# 配置br1
iface br1 inet dhcp
    bridge_ports    eth0
    bridge_stp      off
    bridge_maxwait  0
    bridge_fd       0
    # 这里附加上原来属于eth0的配置

或者基于脚本来配置：

sudo ip link add br1 type bridge
sudo ip link set br1 up
sudo ip link set eth0 master br1 

# DHCP
sudo killall dhclient && sudo ip addr flush dev eth0
sudo dhclient br1

无论用哪种方式，都应该注意到eth0的IP地址需要转移给br1，这样才能确保网络正常运作——br1必须在链路层接收到相关ARP请求，并决定是否需要转发给客户机，eth0没有这种转发能力。

如果eth0所在网络是基于DHCP的，那么客户机配置为DHCP后，会自动获取公共IP地址。否则，需要手工设置客户机的IP地址。

基于TAP的桥接的简化配置

现在QEMU支持自动桥接TAP设备到宿主机的一个网桥，因此你不再需要编写脚本，修改网络后端为bridge即可：

-netdev bridge,id=tap0,br=br0

注意，使用上述选项时，QEMU需要读取配置文件/etc/qemu/bridge.conf，你只需在此文件中添加一行代码：

allow br0

你可以编写如下脚本自动创建网桥、配置iptables规则。示例：

# Create private bridge link for QEMU
/sbin/ip link add br0 type bridge
/sbin/ip link set br0 up
/sbin/ip addr add 10.0.0.1 dev br0
/sbin/ip route add 10.0.0.0/8 dev br0
# NAT for 10.0.0.0/8
/sbin/iptables -t nat -A POSTROUTING  -s 10.0.0.0/255.0.0.0 ! -d 10.0.0.0/255.0.0.0  -j MASQUERADE


# Create public bridge link for QEMU
/sbin/ip link add br1 type bridge
/sbin/ip link set br1 up
/sbin/ip link set eth0 master br1 
/usr/bin/killall dhclient && /sbin/ip addr flush dev eth0
/sbin/dhclient br1

macvtap直连

建议和libvirt一起使用macvtap。

基于libvirt的桥接

在使用libvirt时，客户机（Domain）的网络接口配置可以简化为：

基于libvirt虚拟局域网的桥接

可以使用libvrit的虚拟局域网，这样宿主机上不会为客户机创建专门的tap设备，那些手工编写的脚本也全都不需要了。虚拟网络配置示例：


  default
  9bae4de8-ca58-48c5-ba58-109aebf8b954

客户机（Domain）的网络接口配置示例：

另外，libvirt的虚拟网络提供了DHCP功能，因此客户机的IP地址不需要静态设置。

其它配置

SMBIOS

SMBIOS即DMI表，存放了X86系统硬件信息，这个表依据DMI type分为数十个段，type0是BIOS、type1是系统信息、type2是主板信息……

QEMU支持模拟这些信息，例如：

# 设置客户机的type1信息
-smbios type=1,manufacturer=OpenStack Foundation,product=OpenStack Nova,version=2011,serial=8059dfb4,uuid=1f8ee7f308

内存

要设置客户机的内存容量，可以使用

-m

，默认单位MB。

客户机没必要占据着空闲的内存不用，因此我们一般启用内存实际大小的动态调整功能，例如：

-device virtio-balloon-pci,id=balloon0,bus=pci.0,addr=0x5

半虚拟化和virtio

在本文的第一章，谈到周围硬件性能的时候，我们提及了virtio——它是规定了虚拟设备的前端驱动与宿主机硬件的后端驱动之间通信接口的标准，并且知道目前的很多Linux发行版已经把virtio驱动编译进内核了。前面的章节我们也使用了很多virtio驱动，包括磁盘、网络、内存相关的。

基于virtio驱动的虚拟设备，我们成为“半虚拟化设备”，因为这些设备驱动知道自己工作在虚拟化模式下。为客户机配置半虚拟化设备，可以提高内存、硬盘、网络方面的性能，由其对于网络，性能提升很明显。

除了virtio，Vmware Tools也属于半虚拟化驱动，QEMU客户机也可以利用Vmware Tools（例如-vga指定vmware）。virtio驱动的具体实现包括：virtio-blk、virtio-net、virtio-pci、virtio-balloon、virtio-console等。

半/全虚拟化的区别如下：

在全虚拟化状态下，Guest OS不知道自己是虚拟机，于是像发送普通的IO一样发送数据，被Hypervisor拦截，转发给真正的硬件。
在半虚拟化状态下，Guest OS知道自己是虚拟机（需安装半虚拟化驱动），所以数据直接发送给半虚拟化设备，经过特殊处理，发送给真正的硬件

virtio-balloon

这是一个特殊的半虚拟化设备，它能够动态（不需要重启客户机）的调整客户机的内存大小。如果你指定了-m参数，则不能调整的比-m更大。使用选项

-balloon virtio

可以添加Ballooning设备。

virtio-blk

要基于半虚拟化来访问磁盘，可以使用选项：

-drive file=vda.qcow2,if=virtio

，使用virto_blk驱动的硬盘，在客户机里对应的设备文件是/dev/vda（而IDE硬盘是/dev/hda、基于SATA的硬盘则显示为/dev/sda）。

可以使用驱动virtio-blk-data-plane进一步提高性能（I/O性能较virtio-blk能提高10-20%），此驱动自QEMU 1.4开始引入。与传统的virtio-blk不同的是，virtio-blk-data-plane为每个块设备独立分配一个线程用于I/O处理，此线程不需要和QEMU执行线程同步、竞争锁。此驱动基于宿主机的原生AIO响应客户机的请求。启用此驱动的选项示例：

-drive if=none,id=drive0,cache=none,aio=native,format=raw,file=vda.img
-device virtio-blk-pci,drive=drive0,scsi=off,x-data-plane=on

但是，启用virtio-blk-data-plane后，存储迁移（storage migration）、热拔插、I/O限流（throttling）等功能无法使用。而且该驱动仅支持Raw格式的磁盘。

virtio-net

要基于半虚拟化来访问网络，可以使用选项：

-device virtio-net-pci,netdev=network0

。你应当总是考虑启用半虚拟化网卡，因为性能会有很大的提升。

宿主机网卡的某些特性可能会影响virtio的性能，例如：

TSO（TCP Segmentation Offload）：通过网络设备进行TCP段的分割，从而来提高网络性能
GSO（Generic Segmentation Offload）：类似，用TCPv6、UDP等传输层协议

你可以开关这些特性来测试对客户机网络性能的影响。要检查宿主机网卡是否支持、开启这些特性，可以执行命令：

ethtool -k eth0

。

配置NBD

网络块设备（Network Block Device）是一种把虚拟块设备通过TCP/IP暴露出去，供远程共享访问的技术。

暴露NBD

通过套接字暴露

你可以通过UNIX套接字来暴露：

qemu-nbd -t -k /home/alex/Vmware/KVM/.images/fedora-108 fedora-108/hda.img

也可以通过普通套接字来暴露：

qemu-nbd  -p 1025 fedora-108/hda.img

挂载到NBD设备

甚至是把镜像直接挂载到宿主机的NBD设备中：

# 在宿主机上启用NBD内核模块，最多16个分区：
sudo modprobe nbd max_part=16
# 查看NBD设备文件
ls /dev/nbd*
# 输出/dev/nbd0 ... /dev/nbd15

# 挂载
sudo qemu-nbd -c /dev/nbd0 fedora-108/hda.img

# 查看nbd0的分区情况
sudo fdisk -l /dev/nbd0
#  Device Boot Start End Blocks Id System
#  /dev/nbd0p1 * 2048 1026047 512000 83 Linux
#  /dev/nbd0p2 1026048 33554431 16264192 8e Linux LVM

使用NBD

客户机可以直接使用NBD作为磁盘：

# 使用UNIX套接字：
qemu-system-x86_64 -hda nbd:unix:/home/alex/Vmware/KVM/.images/fedora-108
# 使用普通套接字
qemu-system-x86_64 -hda nbd:10.0.0.1:1025

迁移

QEMU支持离线或者在线的迁移，你可以在Monitor中使用迁移命令。当迁移完毕后，虚拟机会在目标主机上继续运行。

AMD和Intel宿主机之间可以随意的迁移虚拟机，64位虚拟机只能迁移到64位宿主机上，32位则没有限制。某些老旧的Intel CPU不支持NX（禁止执行比特位），这种CPU处于启用NX的宿主机群中，会导致问题，你需要禁止客户机的NX：

-cpu qemu64,-nx

。

QEMU的迁移功能具有以下特性：

极短暂的客户机停机时间
如果迁移成功，则客户机在目标主机上运行；如果迁移失败，则客户机继续在源主机上运行
几乎对硬件没有依赖

使用共享存储

使用共享存储时，QEMU迁移会很便利，因为不牵涉到磁盘映像的移动。共享存储包括：NFS、NBD、SAN等。我们以NBD为例说明：

启动供源、目的虚拟机共享的NBD服务：
```
qemu-nbd -p 1025 --share=2 fedora-108/hda.img
```
确保源、目的虚拟机的配置，它们要具有相同的网络环境

启动源虚拟机：

sudo qemu-system-x86_64 -netdev bridge,id=tap0,br=br0 -device virtio-net-pci,netdev=tap0,mac=DE:AD:BE:EF:F1:08 
                        -hda nbd:10.0.0.1:1025 -monitor stdio -enable-kvm

源虚拟机运作一段时间后，其宿主机的硬件需要维护，因此准备迁移。在另外一台宿主机上启动目的虚拟机，并监听migration端口：
```
# qemu选项同源虚拟机，附加：
-incoming tcp:0:4444
```
注意，这个监听端口是开在宿主机上的。实际上，以-incoming启动目的虚拟机后，虚拟机是处于Stopped状态的
登录到源虚拟机，确认它与目的虚拟机的宿主机之间的网络是畅通的
在源虚拟机的Monitor中，发起迁移命令：
```
(qemu) migrate -d tcp:10.0.0.1:4444
```
在迁移过程中，可以通过
```
info migrate
```
查看迁移状态，完毕后会显示Migration status: completed，并列出迁移消耗的时间、停机时间
迁移完成后，源虚拟机变为Stopped，而目的虚拟机开始运行，获得源虚拟机的全部瞬时状态

不使用共享存储

这种情况下，源虚拟机的磁盘镜像需要拷贝到目标宿主机中。因而需要更长的时间、更多的网络带宽消耗。步骤如下：

查看源虚拟机的磁盘镜像信息：
```
qemu-img info fedora-108/hda.img
```
在目的机器上创建与之大小（Virtual size）一致的空磁盘镜像：
```
qemu-img create -f qcow2 fedora-108-m/hda.img 16G
```
使用与共享存储一样的步骤进行迁移，只是源、目的虚拟机使用各自的磁盘镜像

监控与调试

前面的章节我们已经多次使用QEMU的监控功能，通过使用QEMU的HMI（Monitor）可以在(qemu)提示符下进行各种监控操作，包括查看虚拟机信息、动态添加设备、执行迁移等等。在《QEMU命令与快捷键》一章我们会详细的讲解HMI命令，本章主要介绍监控相关的QEMU配置

基于HMI（Monitor）监控

你可以通过多种方式使用Monitor：

默认的，可以在QEMU的虚拟机窗口中，按Ctrl + Alt + 2切换到Monitor
可以使用
```
-monitor stdio
```
，让Monitor重定向到启动虚拟机的Terminal
可以启动一个TCP监听
```
-monitor tcp::4444,server,nowait
```
，这样你可以
```
telnet hostip:4444
```
访问Monitor
可以通过字符设备：
```
-chardev stdio,id=x -monitor chardev=x
```
访问Monitor

基于QMP监控

非交互式监控时，QEMU监控协议（QEMU Monitor Protocol）是更好的选择，这是一个基于JSON格式的协议。要启用QMP，你可以：

基于stdio：
```
-qmp stdio
```
基于TCP：
```
-qmp tcp:localhost:4444,server
```
基于UNIX Socket：
```
-qmp unix:./qmp-sock,server
```

最佳实践

以下列出一些应用基于QEMU/KVM的虚拟化方案时的最佳实践：

使用半虚拟化驱动virtio
1. 性能好：延迟低、吞吐量高
2. 纯虚拟设备的劣势：需要高吞吐能力的设备在硬件方面会有特殊的实现，这些纯虚拟设备是没法利用的
3. 网络、块设备、内存，都可以使用virtio
4. 兼容性较差
虚拟机最好直接使用块设备做存储
1. 性能好、无需管理宿主机的文件系统、无需管理稀疏文件
2. I/O 缓存以4K为边界
3. 如果没有条件使用块设备，只能使用镜像文件
4. 宿主机最好使用ext3文件系统，ext4的barrier会影响性能
5. Raw格式镜像的性能优于qcow2
6. 选择正确的缓存策略，缓存模式推荐none，I/O调度器推荐Deadline I/O scheduler
CPU配置
1. 每个客户机相当于一个进程，而每个客户机的虚拟CPU相当于一个线程。因此超配CPU是可行的
2. CPU超配可能带来额外的上下文切换，影响性能
3. 要保证客户机获得足够的时间片，可以利用cgroup的cpu.cfs_period_us、cpu.cfs_quota_us来干预CFS调度器的行为
4. Pin CPU：可以将虚拟CPU Pin到一个物理CPU，或者一组共享缓存的物理CPU，便于缓存共享。缺点是Pin导致其它空闲CPU可能得不到利用
内存配置
1. 使用内核特性KSM（Kernel Same Page Merging），KSM通过扫描将相同的内存区域设置为共享，并且Copy-on-write。共享内存节约可以内存空间，但是内存扫描同时影响性能
2. 尽量避免使用swap，可以设置/proc/sys/vm/swappiness=0
网络配置
1. 使用tap类型的网络后端
2. 启用PCI passthough可以提高性能，但是影响迁移

QEMU命令与快捷键

HMI

HMI即 Human Monitor Interface，是QEMU在运行客户机时提供的一个console（下面我们称此console为Monitor），它让你可以和运行中的虚拟机进行交互，你可以获得内存Dump、列出虚拟设备树、获取屏幕截图等操作。

访问HMI

默认情况下QEMU使用SDL来显示客户机的视频输出，此所谓图形模式。如果启用-nographic选项则会禁用图形模式。

在图形模式下，你可以使用以下方式之一访问HMI：

在客户机的虚拟控制台（客户机弹窗）访问HMI，按Ctrl + Alt + 2可以切换到Monitor，在其中你可以调用HMI命令
指定-monitor stdio，则启动虚拟机的Terminal变为Monitor

在基于-nographic的非图形模式下，Monitor、虚拟串口都被重定向到stdio，你可以Ctrl + a c来切换。你可以同时把虚拟串口配置为系统控制台，这样你可以通过单个窗口完成客户机登录、HMI操作

HMI命令

命令	说明
info	显示客户机的相关信息，示例： info kvm # 显示KVM支持情况 info pci # 显示PCI信息 info qtree # 显示QEMU系统总线树 info network # 显示网络设备信息 info block # 显示块设备信息 info blockstatus # 显示块设备读写统计信息 info snapshots # 显示快照信息 info migrate # 显示迁移状态
memsave	Dump客户机内存到宿主机的文件
screendump	屏幕截图
sendkey	键盘控制，示例： sendkey ctrl-alt-f1
quit	退出客户机addr=0xM.0xN
system_powerdown	关闭虚拟机电源
system_reset	重启虚拟机
system_wakeup	唤醒休眠中的虚拟机
savevm	保存一个虚拟机快照，示例： savevm blankos
loadvm	从快照加载虚拟机，示例： loadvm blankos
delvm	删除一个虚拟机快照
snapshot_blkdev_internal	创建一个内部的块设备（主要指硬盘）快照，示例： info block # ide0-hd0: /home/alex/Vmware/KVM/fedora-108/hda.img (qcow2) snapshot_blkdev_internal ide0-hd0 blankos
snapshot_delete_blkdev_internal	删除一个内部的块设备快照
snapshot_blkdev	创建一个外部的块设备快照，示例： snapshot_blkdev ide0-hd0 blankos.img 如果指定了文件参数，则此文件成为新的root镜像
migrate	执行虚拟机迁移
migrate_cancel	取消虚拟机迁移
migrate_set_speed	限制迁移带宽消耗

qemu-system-x86_64

该命令即QEMU模拟器，使用它可以指定硬件设备，并从虚拟磁盘镜像启动一台客户机。

常用选项

选项	说明
-machine	指定虚拟的客户机的类型及其属性，选项格式： -machine [type=]name[,prop=value[,...]] 其中type为机器类型，可以调用 qemu-system-x86_64 -machine help 获得完整机器类型列表，每种机器都标注了主板芯片组的类型你可以指定多个可选的属性： accel=accels1[:accels2[:...]] 启用加速器，可用的包括kvm、xen、tcg，加速器可以指定多个，后面的是备选
-cpu	指定虚拟的CPU类型，可以通过 qemu-system-x86_64 -cpu help 查看可用CPU列表
-smp	虚拟一个SMP系统，在PC机最多虚拟255CPU，选项格式： -smp [cpus=]n[,cores=cores][,threads=threads][,sockets=sockets][,maxcpus=maxcpus] 你可以指定多个属性： cpus 处理器个数 cores 每个处理器的核心数 threads 每个核心的线程数 sockets CPU插槽数 maxcpus 最大可热拔插的CPU数
-global	设置驱动属性为指定的值，选项格式： -global driver.prop=value ，示例： -global ide-drive.physical_block_size=4096 使用该选项，你可以改变由机型（machine）预定义的设备属性，如果要添加设备，请使用-device
-boot	设置客户机的磁盘启动顺序，选项格式： -boot [order=drives][,once=drives][,menu=on\|off][,splash=sp_name] [,splash-time=sp_time][,reboot-timeout=rb_timeout][,strict=on\|off] drives值指定为磁盘符号构成的字符串，这些符号的形式取决于客户机的架构，在X86 PC上： a 软盘1；b 软盘2；c 第一个硬盘；d 第一个光驱；n-p 四个以太网卡你可以指定多个属性： order 磁盘启动顺序 once 仅生效一次的启动顺序 menu 交互式启动，显示菜单 splash 显示一个开机画面，图片必须是JPEG/BMP格式且分辨率支持SVGA模式 splash-time 开机画面显示的时间 reboot-timeout 如果启动失败，多少ms后重启
-m	设置客户机的内存大小，单位MB
-mem-path	从一个临时文件来创建客户机内存可以同时指定 -mem-prealloc 来预分配内存
-soundhw	启用声卡，选项格式： -soundhw card1[,card2,...] # 或者 -soundhw all # 显示可用硬件列表 qemu-system-x86_64 -soundhw help # 示例 qemu-system-x86_64 -soundhw ac97 disk.img
-balloon	控制KVM的Automatic Ballooning功能。virtio balloon设备可以减少KVM客户机的内存大小，该特性用于主持客户机内存的over-committing——宿主机只有2G内存的情况下，创建两台2G内存的客户机。只要客户机实际使用的内存不到2G，那么多余的部分就可以返还给宿主机选项格式： # 禁用balloon设备 -balloon none # 启用balloon设备，可以指定一个PCI地址 -balloon virtio[,addr=addr]
-device driver	添加一个设备驱动，并指定驱动属性，可用的属性取决于具体的驱动，选项格式： -device driver[,prop[=value][,...]] 要获得可用驱动、属性列表，可以： -device help 和 -device driver,help 对于连接到PCI总线的设备，可以指定： bus=pci.x ，此设备连接到第x+1个总线上 addr=0xM.0xN 此设备是总线上的第M个设备，这里使用设备的第N个Function，如果只有一个Function，则.0xN省略该选项可以用于添加客户机的多种虚拟设备并进行细节上的配置（代替部分选项例如-boolean、-net nic），例如： # 添加e1000网卡，以network0为后端 -device e1000,netdev=network0 # 添加基于Virtio的网卡，等价于 -net nic,model=virtio ... -device virtio-net-pci,netdev=network0,id=net0,mac=DE:AD:BE:EF:F1:08,bus=pci.0,addr=0x3 # 启用virtio balloon设备（收回客户机空闲内存），等价于-balloon ... -device virtio-balloon-pci,id=balloon0,bus=pci.0,addr=0x5 # 添加基于Virtio的硬盘（前端） -device virtio-blk-pci,scsi=off,bus=pci.0,addr=0x4,drive=drive-virtio-disk0
-name	设置客户机的名称
-uuid	设置客户机的UUID
*块设备选项*
-fd*	-fda、-fdb指定0、1软盘的镜像文件，你可以使用主机的软盘，例如/dev/fd0
-hd*	-hda、-hdb、-hdc、-hdd指定0、1、2、3硬盘的镜像
-cdrom	指定光驱镜像，你可以可以使用主机的光驱，例如/dev/cdrom
-drive	定义一个新的磁盘驱动器，选项格式： -drive option[,option[,option[,...]]] 你可以使用以下子选项： file 在宿主机上的磁盘镜像文件 if 指定磁盘接口类型，可用的类型包括ide, scsi, sd, mtd, floppy, pflash, virtio bus=bus,unit=unit 依据bus号、unit号来定义此磁盘驱动器被连接在何处 index 依据针对磁盘接口类型的序号来定义此磁盘驱动器被连接在何处 media 媒体类型，可选disk或cdrom snapshot 是否启用快照功能，on/off cache 在访问磁盘上的数据块时如何使用宿主机的缓存功能，none/writeback/unsafe/directsync/writethrough aio threads基于pthread的异步I/O；native基于Linux原生的异步I/O format 指定磁盘格式，而不是去检测file，可选值raw/qcow2 serial 分配给磁盘的串号 addr 如果if=virtio，该选项指定磁盘控制器的PIC地址 readonly 设置磁盘为只读 cache的默认取值是writeback，该选项意味着，一旦数据进入宿主机的页缓存，QEMU就向客户机报告“写入已完成”。如果客户机程序正确的flush磁盘缓存，此选项是安全的。否则，宿主机断电将会导致客户机数据损坏。为了防止上述数据丢失，你可以考虑设置cache为writethrough，这样只有宿主机把缓存刷出到磁盘后QEMU才会报告“写入已完成”，但是这样设置会导致严重的性能问题 directsync：类似于writethrough，只是绕过宿主机的页缓存 unsafe：宿主机可以缓存客户机的所有disk IO，客户机的sync请求被忽略代替-cdrom的配置： -drive file=file,index=2,media=cdrom 代替 -hda, -hdb, -hdc, -hdd的配置： -drive file=file,index=0,media=disk -drive file=file,index=1,media=disk -drive file=file,index=2,media=disk -drive file=file,index=3,media=disk
-mtdblock	指定主板内置闪存的镜像文件
-sd	指定SD卡镜像
-snapshot	写入到临时文件，而非硬盘镜像文件，这样，原始硬盘文件就不会被改变
*显示选项*
-display	选择一个显示类型： curses 基于curses输出，如果客户机的图形设备支持文本模式，QEMU基于curses/ncurses接口显示输出；如果客户机图形设备运行在图形模式或者不支持文本模式，则不显示 none 不显示视频输出，客户机仍然可以模拟一个图形卡但是其输出不会显示给用户。该选项与-nographic不同，后者具有附加效果——改变串口、并口数据的目的地 gtk 在一个GTK窗口中显示视频输出 vnc 启动一个VNC服务器
-vnc	配置VNC，例如 -vnc 0.0.0.0:10
-nographic	通常情况下，QEMU基于SDL库来显示VGA输出，如果使用该选项，则QEMU成为完全的命令行程序尽管如此，QEMU还是把虚拟的串口重定向到控制台、与monitor复用。你可以基于串口控制台来调试虚拟机的内核你可以在console和monitor之间切换
-curses	在文本模式下，直接在当前Terminal显示VGA输出，在图形模式下则什么都不显示，仅提示“1024 x 768 Graphic mode”之类的信息
-no-frame	不显示虚拟机窗口的外框、标题栏
-vga	指定虚拟的VGA显卡类型，可用的包括： cirrus 默认，Cirrus Logic GD5446显卡，对于Windows，所有Win95之后的系统都能够识别此卡 std 支持Bochs VBE扩展的标准VGA扩展，如果客户机OS支持VESA 2.0 VBE扩展（例如XP）并且你希望使用高分辨率 vmware Vmware的SVGA-II兼容显卡 qxl 使用spice协议时推荐此卡 none 禁用VGA显卡
-full-screen	以全屏模式启动
-g	设置初始的分辨率和颜色深度，选项格式： -g widthxheight[xdepth]
*网络选项*
-net nic	创建一个新的网卡并把它连接到一个VLAN，选项格式： -net nic[,vlan=n][,macaddr=mac][,model=type] [,name=name][,addr=addr][,vectors=v] 你可以指定以下属性： vlan=n 虚拟局域网编号，默认0。虚拟局域网仅在同一个QEMU进程内部有效，加入到同一个vlan的网卡可以接收到彼此的数据 macaddr 改变此网卡的MAC地址 addr 设置设备地址（仅PCI卡） name 设备名称，在monitor命令中使用 model 网卡型号，在PC上默认创建e1000。你可以使用 -net nic,model=help 列出所有可用的网卡型号
-netdev user -net user	添加一个User网络后端，选项格式： -netdev user,id=id[,option][,option][,...] -net user[,option][,option][,...] 你可以指定以下属性： vlan=n 连接到虚拟局域网 id,name 设备名称，在monitor命令中使用 net=addr[/mask] 在客户机看来，此后端的IP地址，默认10.0.2.0/24 host=addr 在客户机看来，宿主机的IP地址是多少，默认段内第二个IP，例如10.0.2.2 restrict=on\|off 如果启用，则客户机被隔离，这意味着客户机不能访问宿主机或者联网 hostname 内置DHCP服务器报告的客户机的名称 dhcpstart 内置DHCP服务器能分配的IP地址的其实值，默认段内第15各IP，例如10.0.2.15 dns 指定客户机看到的虚拟DNS服务器的地址，默认段内第三个IP，例如10.0.2.3 smb=dir[,smbserver=addr] 激活一个内置的SMB服务器，默认地址为段内第四个，例如10.2.2.4 hostfwd 重定向主机端口上的incoming TCP/UDP流量到客户机端口
-netdev tap -net tap	添加一个TAP网络后端，连接宿主机的TAP网络接口到VLAN，选项格式： -netdev tap,id=id[,fd=h][,ifname=name][,script=file][,downscript=dfile][,helper=helper] -net tap[,vlan=n][,name=name][,fd=h][,ifname=name][,script=file][,downscript=dfile][,helper=helper] 你可以指定以下属性： id TAP设备的唯一标识，你只需要指定此标识，QEMU会自动在宿主机上创建对应的TAP设备 script 配置脚本，默认/etc/qemu-ifup。设置为no则禁用配置脚本 downscript 解除配置脚本，默认/etc/qemu-ifdown（空白文件）。设置为no则禁用配置脚本 fd 指定已经打开的宿主机TAP设备的句柄
-netdev bridge -net bridge	添加一个TAP网络后端，连接宿主机的TAP网络接口到宿主机的一个网桥，这是TAP后端的script-free的简化版，选项格式： -netdev bridge,id=id[,br=bridge][,helper=helper] -net bridge[,vlan=n][,name=name][,br=bridge][,helper=helper] 你可以指定以下属性： br 宿主机网桥名此后端需要读取配置文件： allow br0
字符设备选项
-chardev	字符设备选项的通用格式为： -chardev backend ,id=id [,mux=on\|off] [,options] backend 包括： null, socket, udp, msmouse, vc, ringbuf, file, pipe, console, serial, pty, stdio, braille, tty, parallel, parport, spicevmc. spiceport id 所有设备都必须有的标识符，可以是任何长度不超过127的字符串 mux=on\|off 所有字符设备都可以进入多路复用模式，供多个前端使用。Ctrl + A和Ctrl + C用于切换前端 options 取决于后端
-chardev null	其行为类似于/dev/null
-chardev vc	连接到QEMU的文本控制台（text console），选项格式： -chardev vc ,id=id [[,width=width] [,height=height]] [[,cols=cols] [,rows=rows]] width/height 控制台的宽度高度、单位像素 cols/rows 匹配文本控制台宽高
-chardev ringbuf	创建一个固定大小的环形缓冲区，选项格式： -chardev ringbuf ,id=id [,size=size] size 必须是2的幂，默认64K
-chardev pipe	创建一个双向的管道文件，选项格式： -chardev pipe ,id=id ,path=path
-chardev file	记录来自客户端的流落到文件，选项格式： -chardev file ,id=id ,path=path
-chardev console	发送来自客户端的流量到QEMU的标准输出
-chardev serial	发送来自客户端的流量到宿主机的一个串口设备，选项格式： -chardev serial ,id=id ,path=path path 宿主机的串口设备
-chardev pty	在宿主机上创建一个新的伪终端，并连接到它
-chardev tty	在Unix-like系统上可用，-chardev serial的别名所谓TTY，即电传打字机，是由一个键盘、一个打印机组成的设备，在键盘上每打印一个字就会打印到纸张上。这个概念借用到UNIX领域，则打印的目标变成了屏幕。TTY可以用来指任何形式的Terminal，例如伪终端、虚拟控制台
*Linux/Multiboot相关*
-kernel	指定内核镜像，目标镜像可以是Linux内核或者multiboot格式
-append	指定内核命令行参数
-initrd	使用指定的文件作为初始内存盘（initial ram disk）
调试/专家选项
-serial	-serial dev 重定向虚拟串口到宿主机的字符设备dev，默认设备：图形模式下是vs；非图形模式下是stdio 你可以指定此选项最多4次，模拟最多4个串口；指定 -serial none 禁用所有串口可用的宿主机字符设备有： vc 虚拟控制台，可选的，指定宽高（像素/字符数）：vc:800x600 vc80C:40Cb stdio 标准输入输出，即启动QEMU的哪个Terminal pty 伪终端 none 无设备 null void设备 chardev:id 已命名的、通过-chardev选项配置的字符设备 /dev/tty 使用宿主机的tty
-monitor	-monitor dev 重定向monitor到主机的字符设备dev，可用设备同上
-qmp	-qmp dev 类似于-monitor但是以control模式开启
-debugcon	-debugcon dev 重定向调试控制台到宿主机字符设备
-pidfile	存储QEMU进程的PID到文件
-enable-kvm	启用基于KVM的全虚拟化支持
-no-reboot	退出而不是重启
-no-shutdown	当客户机关机时，不退出QEMU而仅仅是停止模拟。你可以切换到Monitor并提交修改到磁盘镜像
-loadvm	-loadvm file 从一个以保存的状态加载客户机
-daemonize	在初始化后，让QEMU变成一个守护进程。使用该选项，可以让QEMU进程和当前Terminal解除关联此选项在1.4之后不能和 -nographic 联用，但是可以和 -display none 联用
-readconfig	从文件读取配置
-writeconfig	把配置写入到文件，如果指定 - 则打印到屏幕

快捷键

在图形化模拟期间，你可以使用快捷键：

快捷键	说明
Ctrl-Alt	释放/获取鼠标键盘
Ctrl-Alt-f	切换全屏模式
Ctrl-Alt-+	增大屏幕
Ctrl-Alt--	减小屏幕
Ctrl-Alt-u	还原原始屏幕大小
Ctrl-Alt-n	切换到虚拟控制台n，标准控制台为： 1 客户机系统的显示 2 Monitor 3 串口

如果你使用了-nographic，则可以使用以下快捷键：

快捷键	说明
Ctrl-a h	打印帮助
Ctrl-a x	退出模拟器
Ctrl-a s	保存磁盘数据文件（如果使用-snapshot）
Ctrl-a c	在控制台和Monitor之间切换
Ctrl-a Ctrl-a	发送Ctrl-a

qemu-nbd

用于创建QEMU网络块设备（Network Block Device）服务器，即通过NBD协议把磁盘镜像暴露出去。命令格式：

qemu-nbd [OPTION]... diskimgfile

。

常用选项如下表：

选项	说明
-p	NBD服务监听端口，默认1024
-b	NBD服务器绑定的网络接口，默认0.0.0.0
-k	NBD绑定的UNIX socket路径
-o	访问镜像文件的偏移量
-f	镜像文件格式
-r	仅允许只读访问镜像
-P	--partition=num，仅暴露分区num
-s	把diskimgfile作为外部快照使用，创建一个新的临时镜像，将其backing_file设置为diskimgfile，写操作都重定向到临时镜像
-l	--load-snapshot=snapshot_param，加载diskimgfile中的一个内部快照，并暴露其为一个只读设备 snapshot_param可以是snapshot.id=id或者snapshot.name=name，或者直接写id/name
-n	禁用缓存
--cache=cache	设置缓存模式，支持的模式参考qemu-system-x86 -drive cache=
--aio=aio	选择AIO模式，threads或者native
-c	--connect=dev连接diskimgfile到一个NBD设备
-d	断开指定的设备
-e	--shared=num 此设备可以被最多num个客户端使用
-t	即使最后一个连接断开，也不退出

常见问题

不支持virtio-9p-pci

报错信息：'virtio-9p-pci' is not a valid device model name

解决办法：参考下面的脚本构建QEMU：

apt install libattr1-dev
configure --prefix=/usr --enable-virtfs
make && make install

不支持SDL

报错信息：qemu-system-x86_64: -sdl: SDL support is disabled

解决办法：参考下面的脚本构建QEMU：

sudo apt install libsdl2-dev
./configure --prefix=/usr --enable-virtfs --enable-sdl

qcow2镜像损坏处理

报错信息：Image is corrupt; cannot be opened read/write

解决办法：

qemu-img check -r all /media/alex/v12n2/libvirt/images/xenial-23

The post KVM和QEMU学习笔记 appeared first on 绿色记忆.

libvirt学习笔记

Alex — Tue, 04 Aug 2015 08:26:13 +0000

简介

libvirt是广泛使用的、通用虚拟化管理工具，它提供多种命令行工具、多种语言的编程API。

libvirt的目标是：提供一个通用、稳定的抽象层，来安全有效的远程管理一个节点（node）之上的域（domains），因此它需要提供全套的API来完成管理，这些API必须完成Domain的创建、修改、配置、监控、迁移、停止。

libvirt可以管理的虚拟化机制（hypervisor或container）包括：KVM/QEMU、Xen、LXC、OpenVZ、VirtualBox、VMware ESX/GSX、VMware Workstation/Player、Microsoft Hyper-V、IBM PowerVM。

名词术语

术语	说明
node	一台物理机器
hypervisor	node上面的一个软件层，它能虚拟化node，并在其上建立多个虚拟机 libvirt通过所谓driver和各种不同的hypervisor打交道
domain	运行在受hypervisor管理的虚拟化node之上的一个操作系统，当基于容器虚拟化时，则是一个子系统

安装libvirt

libvirt的二进制组件可能已经随操作系统安装，如果没有，你可以：

sudo apt-get install libvirt-bin

辅助工具

可以安装virt-install，这是一个用来创建基于KVM、XEN或者Linux容器的客户机的工具：

sudo apt-get install virtinst

可以安装virt-manager，它提供了基于libvirt的图形化管理工具：

sudo apt-get install virt-manager

可以安装virt-viewer，它用于连接到虚拟机的Graphical Console：

# 安装
sudo apt-get install virt-viewer
# 使用
virt-viewer -c qemu:///system

使用Virsh

virsh是libvirt提供的一个命令行工具，利用它你可以通过命令行，交互式的管理你的虚拟机（Domain）。使用此命令，你可以创建、暂停、关闭domain，可以列出当前的domain。

libvirt会在宿主机上运行一个libvirtd守护进程，此进程可以被本地/远程的virsh调用。libvirtd则可以直接调用qemu-kvm来操控客户机。大部分virsh命令需要libvirtd处于运行状态才可用。

Domain管理

使用virsh的define、edit、start、shutdown|destroy、reboot、suspend、resumen、undefined子命令，分别可以定义、编辑、启动、关闭、暂停、唤醒、删除Domain。这些命令比较简单，参考virsh命令详解一节。

快照管理

快照分类

快照可以分为三个级别：

卷管理器（Volume Manager）级别，例如LVM的Snapsot功能
文件系统级别，常用的Ext3不支持，OCFS2支持
文件级别，Raw格式的镜像不支持快照，qcow2格式则支持，且快照分为两类：
1. 内部快照：保存在qcow2文件内部的快照：
  1. 虚拟机状态快照（VM State snapshot）：整个虚拟机的状态，不仅仅是磁盘
  2. 磁盘状态快照（Disk State snapshot）：仅仅针对磁盘的快照
2. 外部快照：将原先（Backing）的qcow2镜像设置为只读，新的改变保存到另外的qcow2文件

内存快照

使用virsh save / virsh restore命令，可以仅仅将Domain的内存状态保存，然后停止Domain，最后恢复。恢复时假设磁盘没有任何改动：

# 保存内存快照
virsh save fedora-10 fedora-10.vmstate

# 恢复内存快照
virsh restore fedora-10.vmstate

内部快照

内部快照、外部快照使用同一组命令来管理的。这些快照默认包含内存、磁盘、设备等全部状态。内部快照示例：

# 创建一个快照
virsh snapshot-create fedora-10
# Domain snapshot 1473667716 created

# 列出Domain的快照
virsh snapshot-list fedora-10
#  Name                 Creation Time             State
# ------------------------------------------------------------
#  1473667716           2016-09-12 16:08:36 +0800 running

# 创建的是内部快照，可以使用底层命令查看
qemu-img info ~/Vmware/KVM/fedora-10/hda.img

注意，一旦创建了快照，Domain就不能被undefine。

要删除内部快照，可以执行：

virsh snapshot-delete fedora-10 1473667716
# Domain snapshot 1473667716 deleted

外部快照

执行下面的命令创建一个外部快照：

# 这里我们仅针对vda磁盘创建了快照，内存状态没有做快照
snapshot-create-as fedora-10 blankos "Initial snapshot" 
    --diskspec=vda,file=/home/alex/Vmware/KVM/fedora-10/blankos.vda.qcow2 --disk-only --atomic

现在查看客户机关联的块设备：

virsh domblklist fedora-10
# Target     Source
# ------------------------------------------------
# vda        /home/alex/Vmware/KVM/fedora-10/blankos.vda.qcow2

可以发现关联性转移到外部快照上了，原先的磁盘镜像成为Backing file。注意：Domain的后续写操作都发生在新创建的磁盘上

要删除外部快照，执行：

virsh snapshot-delete fedora-10 --metadata blankos

快照链管理

我们来创建三个快照：

DIR=/home/alex/Vmware/KVM/fedora-10
virsh snapshot-create-as fedora-10 snap0 "snap0" --diskspec=vda,file=$DIR/snap0.vda.qcow2 --disk-only --atomic
virsh snapshot-create-as fedora-10 snap1 "snap1" --diskspec=vda,file=$DIR/snap1.vda.qcow2 --disk-only --atomic
virsh snapshot-create-as fedora-10 snap2 "snap2" --diskspec=vda,file=$DIR/snap2.vda.qcow2 --disk-only --atomic

查看当前快照：

# 默认的，新创建的快照作为当前快照
virsh snapshot-current fedora-10 --name

查看快照链（Backing chain）：

virsh snapshot-list fedora-10 --tree
# vda.qcow2 是base
# snap0
#   |
#   +- snap1
#       |
#       +- snap2    这个是top

libvrit支持多种方式来管理磁盘的快照链：

方式一：基于blockcommit，合并到base镜像

我们可以清理快照链条，将snap2、snap1、snap0中的变更都提交到vda.qcow2中

# 必须在Domain运行着的情况下执行命令
virsh blockcommit fedora-10 vda --base $DIR/vda.qcow2 --top $DIR/snap2.vda.qcow2 --wait --verbose
# 目前带--delete参数会导致 error: unsupported flags (0x2) in function qemuDomainBlockCommit

提交后，可以安全的删除快照及其元数据（snapshot-delete --metadata），libvrit是分开管理backing链和snapshot列表的。

方式二：基于blockpull，合并到top镜像

也可以反过来，把base一直pull到top位置（必须是叶子节点）的snapshot，然后此snapshot就成为完整的磁盘镜像了（不依赖backing镜像）：

virsh blockpull fedora-10 --path $DIR/snap2.vda.qcow2 --base $DIR/vda.qcow2 --wait –verbose

方法三：基于blockcopy，可以在线迁移磁盘

首先，需要取消Domain定义，将其变为transient的：

# 导出Domain配置
virsh dumpxml --inactive fedora-10 $DIR/domain.xml
# 取消定义
virsh undefine fedora-10

然后执行拷贝：

# --shallow 浅拷贝，copy.vda.qcow2与snap2.vda.qcow2将具有相同的backing chain即base ⇦ snap0 ⇦ snap1
# --pivot  操作完成后，此Domain改用copy
virsh blockcopy --domain fedora-10 vda $DIR/copy.vda.qcow2 --wait --verbose --shallow --pivot

拷贝完成后，瞬时的Domain使用copy继续运行：

virsh domblklist fedora-10
# Target     Source
# ------------------------------------------------
# vda        /home/alex/Vmware/KVM/fedora-10/copy.vda.qcow2

而原先的磁盘可以迁移走了。

远程访问

要通过virsh来访问远程宿主机上的Domain时，需要提供URI。URI的格式如下：

driver[+transport]://[username@][hostname][:port]/[path][?extraparameters]

URI各部分说明如下：

部分	说明
driver	驱动，不同驱动对应了不同的Hypervisor
transport	传输协议，主要包括以下几种： unix，使用Unix Domain Socket，仅能在本地使用，不加密，示例： qemu+unix:///system?socket=/opt/libvirt/run/libvirt/libvirt-sock ssh，通过SSH隧道进行连接，相当于通过SSH隧道在目标宿主机上执行Unix Domain Socket，示例： qemu+ssh://root@tokyo.gmem.cc/system tcp，通过TCP进行远程连接，通过DIGEST-MD5进行加密，使用SASL/Kerberos进行身份验证，示例： qemu+tcp://tokyo.gmem.cc/system tls，类似于tcp，但是使用SSL对TCP进行加密，需要配置密钥和证书，使用SASL/Kerberos进行身份验证，示例： qemu+tls://tokyo.gmem.cc/system

部分

说明

driver

驱动，不同驱动对应了不同的Hypervisor

transport

传输协议，主要包括以下几种：

unix，使用Unix Domain Socket，仅能在本地使用，不加密，示例：
```
qemu+unix:///system?socket=/opt/libvirt/run/libvirt/libvirt-sock 
```
ssh，通过SSH隧道进行连接，相当于通过SSH隧道在目标宿主机上执行Unix Domain Socket，示例：
```
qemu+ssh://root@tokyo.gmem.cc/system
```
tcp，通过TCP进行远程连接，通过DIGEST-MD5进行加密，使用SASL/Kerberos进行身份验证，示例：
```
qemu+tcp://tokyo.gmem.cc/system 
```
tls，类似于tcp，但是使用SSL对TCP进行加密，需要配置密钥和证书，使用SASL/Kerberos进行身份验证，示例：
```
qemu+tls://tokyo.gmem.cc/system
```

要连接到远程宿主机，可以使用-c选项或者connect子命令：

virsh -c qemu+ssh://root@zircon.local/system

使用unix传输

使用该transport时，需要注意配置文件：

# 这些项都是默认值
unix_sock_group = "libvirtd"
unix_sock_ro_perms = "0777"
unix_sock_rw_perms = "0770"

也就是说，用户必须加入到libvirtd组，才可以使用unix传输，否则会报错：error: Failed to connect socket to '/var/run/libvirt/libvirt-sock': Permission denied。执行下面的命令添加用户到组：

sudo usermod -a -G libvirtd alex

注意：连接到qemu时，不指定主机名默认使用unix socket。

使用tcp传输

在目标宿主机上，修改配置文件：

# 启用TCP监听
libvirtd_opts="-d -l"

然后再修改配置文件：

# 默认TCP监听是禁用的
listen_tcp = 1
# 可以修改监听地址和端口
listen_addr = "0.0.0.0"
tcp_port = "16509"
# 可以不启用验证，但是缺乏安全性，所有流量都是明文
auth_tcp = "none"

最后重启libvirtd即可。

资源管理

相关文章：Linux知识集锦 - cgroup

libvirt基于cgroup来限制客户机对宿主机资源的访问。libvirt不会尝试加载任何controllers，它只会检测哪些controllers被mount。

QEMU驱动支持cpuset, cpu, memory, blkio, devices这几个controller，修改配置文件/etc/libvirt/qemu.conf可以针对QEMU禁用某些controller。

LXC驱动支持 cpuset, cpu, cpuacct, freezer, memory, blkio,devices 这几个controller，其中cpuacct, devices, memory是必须的，如果这几个controller没有被mount则容器不会被启动。

cgroups布局

libvrit引入两个概念，以方便cgroups管理：

partitions：不包含任何进程的cgroup，仅仅包含资源控制规则，它可以包含多个子目录，这些子目录要么是partition要么是consumers
consumers：是包含了单个虚拟机/容器进程的cgroup

对于不使用systemd的宿主机，consumers命名规则为

$VMNAME.libvirt-{qemu,lxc}

，其中VMNAME为虚拟机的名称。默认的，所有consumer都挂在名为machine的partition下：

ls /sys/fs/cgroup/cpu/machine
# fedora-10.libvirt-qemu  ...

直到cgroups布局后，你就可以直接读写cgroups文件系统，来控制客户机的资源访问。但是virsh也提供了一些命令在运行时控制资源访问。

资源管理命令

对于CPU访问控制，可以使用virsh schedinfo命令
对于块设备的访问控制，可以使用virsh blkiotune命令
对于网卡流量的控制，可以使用domiftune或者tc命令

virsh命令详解

该命令最常见的调用形式为：

virsh [OPTION]...   [ARG]...

。其中：

command 是一个virsh子命令
domain 是操控的虚拟机的名称、ID或者UUID
ARG是针对特定子命令的参数
OPTION为一般性选项

一般选项

选项	说明
-c	--connect URI 连接到指定的URI，而不是默认的连接。此选项的效果如同调用了connect子命令
-d	--debug LEVEL 设置调试级别，级别范围0-4，默认4
-k	--keepalive-interval INTERVAL 设置确认服务器连接未断开的心跳的发送间隔，单位秒，设置为0则不检测
-K	--keepalive-count COUNT 确认连接端口之前，发送心跳的次数
-l	--log FILE 输出日志到文件
-q	--quiet 安静模式，避免不必要的信息打印
-t	--timing 为每个命令打印消耗的时间信息

一般子命令

子命令	说明
help	显示帮助信息： # 列出子命令列表 virsh help # 显示一个子命令的用法 virsh help define
quit, exit	退出交互式的Terminal
version	显示版本信息：libvir库版本、API版本、运行中的hypervisor版本
cd	改变当前目录，禁用与交互式的terminal
pwd	打印当前目录名
connect	connect [URI] [--readonly] （重）连接到一个hypervisor，URI指明如何连接到hypervisor，例如： xen:/// 连接到本地XEN hypervisor qemu:///system 以root身份连接到本地管理QEMU/KVM domain的hypervisor qemu:///session 以普通用户身份连接到本地，管理他自己的QEMU/KVM domain lxc:/// 连接到本地的LXC容器
uri	打印当前连接到的hypervisor的URI
hostname	打印hypervisor的主机名
capabilities	打印一个描述当前连接到的hypervisor的能力（capabilities）的XML文档
list	列出存在的Domain，如果不指定参数，则打印所有运行中的Domain信息

Domain子命令

子命令	说明
autostart	autostart [--disable] domain 用于配置一个Domain随着宿主机而启动
console	console domain [devname] [--safe] [--force] 连接到客户机的虚拟串口控制台： devname 设置为一个备选控制台、串口/并口设备的别名，如果不指定则连接到primary控制台
create	create FILE [--console] [--paused] [--autodestroy] [--pass-fds N,M,...] 从XML文件FILE创建一个Domain。创建XML的简便方法是调用 dumpxml 子命令来获得既有实例的XML配置： --paused 新的Domain将会暂停，不指定则运行 --console 创建后连接到Domain的console --autodestroy 如果virsh断开到libvirt的连接，则自动销毁此domain
define	define FILE 从XML文件FILE定义一个Domain，此Domain会注册，但是不会自动启动。如果Domain已经在运行，则对其配置的变更在下次启动时生效
undefine	undefine domain [--managed-save] [--snapshots-metadata] [ {--storage volumes \| --remove-all-storage} --wipe-storage] 解除一个Domain的定义，如果此Domain正在运行，它会被转换为transient的；如果Domain没有运行，则移除它的配置
desc	desc domain [[--live] [--config] \| [--current]] [--title] [--edit] [--new-desc new_desc_msg] 显示或者修改Domain的描述、标题，标题通常比较简短
destroy	destroy domain [--graceful] 立即终止一个Domain，客户机将没有反应时间，相当于拔掉机器的电源 --graceful 避免极度的手段销毁（SIGKILL），如果客户机一段时间后没有关闭，返回一个错误消息
reboot	reboot domain [--mode MODE-LIST] 重启一个Domain，效果类似于执行reboot命令
reset	reset domain 重置一个Domain，效果类似于按主机上的重置按钮，客户机将没有反应时间
shutdown	shutdown domain [--mode MODE-LIST] 优雅的关闭Domain，此命令将和客户机协商以关机，因此不一定成功，可能消耗较长时间
start	start name-or-uuid [--console] [--paused] [--autodestroy] [--bypass-cache] [--force-boot] [--pass-fds N,M,...] 启动一个已经定义的Domain： --paused 此Domain将会暂停 --console 连接到客户机的控制台 --autodestroy 当virsh断开到libvirtd的连接后，自动销毁Domain
suspend	suspend domain 暂停一个运行中的Domain，它会维持在内存中，但不再参与调度
resume	resume domain 从暂停中恢复
dumpxml	dumpxml domain [--inactive] [--security-info] [--update-cpu] [--migratable] 输出Domain的XML配置信息到屏幕： --migratable 输出一个可迁移的配置 --inactive dump出Domain下次启动时使用的配置，而不是当前正在使用的配置 --update-cpu 根据宿主机的CPU，更新Domain配置中的CPU部分
edit	edit domain 编辑一个Domain的XML配置，并在下次启动Domain时生效
save	save domain state-file [--bypass-cache] [--xml file] [{--running \| --paused}] [--verbose] 保存一个运行中的Domain的内存（而不是磁盘）状态到一个状态文件中，以便后续恢复。一旦被保存，则Domain不再继续运行，分配给Domain的内存可以被其它程序使用。该命令类似于Hibernate功能 state-file 状态文件路径 --bypass-cache 不包含文件系统缓存，会加快保存速度 --verbose 显示保存进度 --running --paused 在恢复后，将Domain变为运行或暂停状态可以基于domjobinfo子命令监控进度，或者利用domjobabort子命令取消保存，对当前Terminal发送SIGINT（Ctrl + C）也会取消保存
restore	restore state-file [--bypass-cache] [--xml file] [{--running \| --paused}] 将Domain从virsh save状态中还原
domblkstat	domblkstat domain [block-device] [--human] 输出块设备的统计信息 block-device 块设备名称（）或块源文件（） --human 输出易读的格式输出列说明： rd_req 读操作次数 rd_bytes 读字节数 wr_req 写操作次数 wr_bytes 写字节数 errs 错误计数 flush_operations 刷出磁盘的操作次数 rd_total_times 读操作总计消耗ns数 wr_total_times 写操作总计消耗ns数 flush_total_times 刷出操作总计消耗ns数举例： virsh domblkstat fedora-10 vda
domblkerror	domblkerror domain 显示块设备错误
domblkinfo	domblkinfo domain block-device 显示块设备的尺寸相关信息
domblklist	domblkinfo domain block-device 以表格形式打印与Domian相关联的块设备的简要信息
blockcommit	blockcommit domain path [bandwidth] {[base] \| [--shallow]} [top] [--delete] [--wait [--verbose] [--timeout seconds] [--async]] 减少backing镜像链条的长度，将top（最新的）中的变化提交到backing镜像中去。默认的：此命令flatten整个链条此命令立即返回，commit操作在后台进行，可以使用blockjob检查进度 path 磁盘的全限定路径，的name或者的file base top 如果指定之一或都指定，则限制commit操作链条的范围 --shallow 提交到top直接的backing镜像 --delete 操作完成后，删除被合并的文件 --wait 阻塞直到操作完成 --timeout 阻塞最多的秒数 --verbose 显示进度的详细信息 --async 尽快的返回，否则在完成commit后还要等待一些清理操作
blockpull	blockpull domain path [bandwidth] [base] [--wait [--verbose] [--timeout seconds] [--async]] 从backing镜像链生成一个磁盘。默认的：此命令flatten整个链条此命令立即返回，commit操作在后台进行，可以使用blockjob检查进度 path 磁盘的全限定路径，的name或者的file base backing链条中的这一成员保留，仅它与top之间的backing镜像被合并到top
blockcopy	blockcopy domain path dest [bandwidth] [--shallow] [--reuse-external] [--raw] [--wait [--verbose] [{--pivot \| --finish}] [--timeout seconds] [--async]] 拷贝磁盘的backing镜像链到dest。默认的：此命令flatten整个链条此命令立即返回，commit操作在后台进行，可以使用blockjob检查进度 domain 操作针对的Domain path 操作针对的磁盘，全限定路径，的name或者的file bandwidth 带宽占用限制，MiB/s --shallow 共享backing链，即对于base ⇦ snap0 ⇦ snap1，dest与src共享base ⇦ snap0 –pivot 转移，即拷贝完成后，Domain改用dest，不再使用src --reuse-external 指定该选项则dest必须存在，且内容与resulting backing file等同 --raw 指定dest的格式，如果指定--reuse-external，则使用dest文件的格式该命令主要用途是虚拟机的在线磁盘映像拷贝（live disk image copying）或镜像（mirroring），在存储迁移时很有用。应用场景包括：在线磁盘存储迁移在线磁盘映像、及其backing链的备份高效的非共享（ non-shared ）存储迁移一个blockcopy操作可以分为两个阶段：所有的源磁盘内容被拷贝到dest。在此阶段，任务可以被取消，dest的状态没有保证 source、dest的内容变得等同，它们将保持mirrored状态，直到调用blockjob --abort以结束mirroring
domifstat	domifstat domain interface-device 输出网络接口的统计信息输出列说明： rx_bytes 收字节数 rx_packets收IP封包数 rx_errs 错误封包数 rx_drop 丢弃封包数 tx开头的表示发送的统计数据举例： virsh domifstat fedora-10 tap0
domif-setlink	domif-setlink domain interface-device state [--config] 修改网络接口的状态 state 目标状态，up/down --config --persistent 仅仅修改Domain的持久化配置，不立即改变接口状态
domif-getlink	domif-getlink domain interface-device [--config] 获得网络接口的状态
domiflist	domiflist domain [--inactive] 以表格形式打印与Domian相关联的网络接口的简要信息
dommemstat	dommemstat domain [--period seconds] [[--config] [--live] \| [--current]] 获得运行中的Domain的内存统计信息
blkdeviotune	blkdeviotune domain device [[--config] [--live] \| [--current]] [[total-bytes-sec] \| [read-bytes-sec] [write-bytes-sec]] [[total-iops-sec] \| [read-iops-sec] [write-iops-sec]] 查询或者设置Domain的某个块设备的I/O参数： domain 目标客户机 device 操作针对的磁盘，的name或者的file --total-bytes-sec 设置每秒总计吞吐量的限制，单位Byte --read-bytes-sec 设置每秒读取吞吐量的限制，单位Byte --write-bytes-sec 设置每秒写入吞吐量的限制，单位Byte --total-iops-sec 设置每秒IO操作次数限制 --read-iops-sec 设置每秒读次数限制 --write-iops-sec 设置每秒写次数限制 --live 影响正在运行的客户机 --config 在下次重启后，影响非瞬时Domain --current 影响当前客户机的状态
domiftune	domiftune domain interface-device [[--config] [--live] \| [--current]] [--inbound average,peak,burst] [--outbound average,peak,burst] 查询或者修改网络接口的带宽参数： interface-device 目标网络接口 --inbound --outbound 修改入站还是出站带宽参数，如果都不指定，则执行查询操作。average/peak以KiB/s解释，burst以单次burst消耗的KiB解释 average 设置网络接口期望的平均速率 peak 设置峰值速率限制 burst 以峰值速率爆发式的传送数据，最多连续传送多是KiB --live 影响当前正在运行的Domain 举例： virsh domiftune fedora-10 tap0
schedinfo	schedinfo domain [[--config] [--live] \| [--current]] [[--set] parameter=value]... schedinfo [--weight number] [--cap number] domain 显示或者设置Domain进程在宿主机中调度参数，可用参数： LXC (posix scheduler)：cpu_shares QEMU/KVM (posix scheduler)：cpu_shares, vcpu_period, vcpu_quota, emulator_period, emulator_quota Xen (credit scheduler)： weight, cap ESX (allocation scheduler)：reservation, limit, shares --live 影响正在运行的Domain --config 在下次重启后，影响非瞬时Domain --set 执行设置操作 cpu_shares 处理器占用权重，范围0-262144，负值被转换为正值因此-1即262144，超过最大值都相当于262144 vcpu_period 对调度进行干预的周期，单位us，范围1000-1000000或者0，100000表示100ms干预一次 emulator_period vcpu_quota 在干预周期内，进程能得到的时间片数，单位us，25000表示在一个周期内得到25ms的时间片 emulator_quota
screenshot	screenshot domain [imagefilepath] [--screen screenID] 对Domain当前Console进行截屏，并保存到文件
send-key	send-key domain [--codeset codeset] [--holdtime holdtime] keycode.. 将keycode的序列转换为按键动作，并发送到Domainkey，可用参数： code可以是数字或者是codeset中的符号名称 --holdtime 每个按键按下持续的毫秒数 --codeset 指定代码集，默认Linux 举例： # 发送右侧Ctrl + C到fedora-10 virsh send-key fedora-10 KEY_RIGHTCTRL KEY_C # 发送Ctrl + Alt + Del virsh send-key debian-20 KEY_LEFTCTRL KEY_LEFTALT KEY_DELETE # 发送TAB，按下1秒 virsh send-key fedora-10 --holdtime 1000 0xf

迁移子命令

子命令	说明
migrate	migrate [--live] [--offline] [--direct] [--p2p [--tunnelled]] [--persistent] [--undefinesource] [--suspend] [--copy-storage-all] [--copy-storage-inc] [--change-protection] [--unsafe] [--verbose] [--compressed] [--abort-on-error] domain desturi [migrateuri] [graphicsuri] [listen-address] [dname] [--timeout seconds] [--xml file] 将客户机迁移到另外一台宿主机上，可用参数： --live 在线迁移，迁移期间，源宿主机上的客户机不被暂停 --p2p 使用点对点迁移 --direct 使用直接迁移 --tunnelled 使用隧道迁移 --offline 不在目标机器上启动客户机，也不再源机器上停止客户机。通常用于inactive客户机的迁移 --persistent 让Domain在目标机器上持久化 --undefinesource 取消Domain在源机器上的定义 --suspend 让客户机在目标机器上停留在suspend状态 --copy-storage-all 提示不使用共享存储，进行完整的磁盘拷贝 --copy-storage-inc 提示不使用共享存储，进行增量的磁盘拷贝（即源、目标的共享backing file不拷贝）注意：上面两个参数要求目标镜像文件存在于目标机器的对应位置 --change-protection 确保在迁移完成前，不得对Domain执行不兼容的配置更改。如果Hypervisor支持，该参数会自动包含，手工指定此参数的话，如果Hypervisor不支持change protection，则迁移操作被libvirt拒绝 --verbose 显示迁移进度 --compressed 对于需要在迁移过程中反复传输的内存页，执行压缩 --abort-on-error 当发生软错误（Soft error，例如I/O错误）时取消迁移 --unsafe 允许不安全的迁移（可能导致数据损坏） desturi 目标宿主机的连接URI。对于点对点迁移，该参数是源宿主机看到的目标主机的URI；对于普通迁移则是客户端看到的URI domain 被迁移的客户机名称 dname 在迁移时，修改Domain的名称 --xml 在目标机器上，为Domain指定机器特定的Domain配置信息，例如存储卷的名称（对于同一底层存储两台机器的命名可能不同） --timeout 如果在线迁移超过指定的秒数，则Domain被强制suspend，然后转入离线迁移，必须和--live联用 listen-address 设置目标主机上的Hypervisor监听迁移请求的地址和端口注意： Hypervisor可能不支持所有的迁移类型，例如QEMU不支持直接迁移如果迁移可能导致数据损坏，libvirt可能拒绝迁移请求。例如对于QEMU，除非设置磁盘的缓存模式（cache mode）为none或者存储位于一致性的集群文件系统（GFS或者GPFS），迁移会被拒绝。这时可以使用--unsafe强制迁移
migrate-compcache	migrate-compcache domain [--size bytes] 设置或者取得在线迁移过程中，重复的用来压缩被传输的内存页的缓存的大小，单位字节 --size 如果指定此参数，则为设置操作，否则为读取操作
migrate-setmaxdowntime	migrate-setmaxdowntime domain downtime 设置domain在线迁移时，能够容忍的最大宕机时间，单位毫秒
migrate-compcache
migrate-setspeed	migrate-setspeed domain bandwidth 设置domain迁移到其它宿主机上时，最大使用的带宽，单位MiB/s
migrate-getspeed	migrate-getspeed domain 获取domain迁移时的最大带宽

设备子命令

子命令	说明
attach-device	attach-device domain FILE [[[--live] [--config] \| [--current]] \| [--persistent]] 为domain添加一个新的设备 FILE 设备的XML配置，以interface/disk之类的元素为根元素 --config 在永久Domian下次启动时生效 --live 影响运行中的Domain --current 影响当前Domain状态注意：--config --live可以联用，但是--current不能和它们联用
attach-disk	attach-disk domain source target [[[--live] [--config] \| [--current]] \| [--persistent]] [--driver driver] [--subdriver subdriver] [--cache cache] [--type type] [--mode mode] [--config] [--sourcetype soucetype] [--serial serial] [--wwn wwn] [--rawio] [--address address] [--multifunction] [--print-xml] 添加一个磁盘，参数与磁盘的XML配置元素对应
attach-interface	attach-interface domain type source [[[--live] [--config] \| [--current]] \| [--persistent]] [--target target] [--mac mac] [--script script] [--model model] [--config] [--inbound average,peak,burst] [--outbound average,peak,burst] 添加一个磁盘，参数与网络接口的XML配置元素对应
detach-device	detach-device domain FILE [[[--live] [--config] \| [--current]] \| [--persistent]] 移除一个设备
detach-disk	detach-disk domain target [[[--live] [--config] \| [--current]] \| [--persistent]] 移除一个磁盘
detach-interface	detach-interface domain type [--mac mac] [[[--live] [--config] \| [--current]] \| [--persistent]] 移除一个网络接口
update-device	update-device domain file [--force] [[[--live] [--config] \| [--current]] \| [--persistent]] 更新设备的配置，可用参数： --force 强制设备更新
change-media	change-media domain path [--eject] [--insert] [--update] [source] [--force] [[--live] [--config] \| [--current]] 改变光驱或者软驱的媒体（盘），可用参数： path 光驱/软驱的全限定路径或者名称，例如hdc source 更换的新媒体镜像的路径 --eject 弹出媒介 --insert 插入媒介举例： virsh # domblklist debian-20 # Target Source # ------------------------------------------------ # vda /home/alex/Vmware/KVM/debian-20/vda.qcow2 # hdd /home/alex/Software/OS/debian-8.6.0-amd64-netinst.iso change-media debian-20 --eject --live

虚拟网络子命令

子命令	说明
net-autostart	net-autostart network [--disable] 启用/禁用虚拟网络的自动启动
net-create	net-create file 从XML配置创建一个临时的虚拟网络并立即启动
net-define	net-define file 从XML配置文件创建一个永久的虚拟网络
net-destroy	net-destroy network 根据名称或者UUID停止一个虚拟网络
net-dumpxml	net-dumpxml network [--inactive] 导出虚拟网络的XML配置
net-edit	net-edit network 编辑一个虚拟网络的配置
net-info	net-info network 显示一个虚拟网络的详细信息
net-list	net-list [--inactive \| --all] [--persistent] [<--transient>] [--autostart] [<--no-autostart>] 显示虚拟网络的列表
net-start	net-start network 启动一个虚拟网络
net-undefine	net-undefine network 取消虚拟网络的定义
net-update	net-update network command section xml [--parent-index index] [[--live] [--config] \| [--current]] 更新虚拟网络的指定配置片断，可用参数： section 片断名称：bridge, domain, ip, ip-dhcp-host, ip-dhcp-range, forward, forward-interface, forward-pf, portgroup, dns-host, dns-srv，这些名称对应了虚拟网络XML配置的相应子代元素 xml 配置片断，要么是XML片断文本，要么是包含XML片断的文件名称 --live 影响正在运行的虚拟网络 --config 在永久虚拟网络重启后生效

快照子命令

这些子命令用来管理Domain的快照，快照是Domain的磁盘、内存、设备在某一个时刻的状态，这些状态可以在未来恢复。每个快照由唯一性的名字来识别。

子命令	说明
snapshot-create	snapshot-create domain [xmlfile] {[--redefine [--current]] \| [--no-metadata] [--halt] [--disk-only] [--reuse-external] [--quiesce] [--atomic] [--live]} 为domain创建一个快照，创建快照期间客户机通常处于暂停状态。新创建的快照将成为当前快照，可以通过子命令snapshot-current查看。子命令参数： xmlfile 指定此快照的属性，一般仅仅包含name、description元素，如果指定--disk-only则可以包含disks元素 --halt Domain在创建快照后，进入停止（inactive）状态 --disk-only 仅仅对磁盘进行快照，与--halt联用则所有没有flush到磁盘的数据丢失 --redefine 如果指定，则snapshot-dumpxml生成的所有元素均有效，可用于跨机器迁移快照层次 --no-metadata 丢弃源数据，快照不被标记为current，除非后续使用--redefine，无法恢复快照 --reuse-external 重用此文件指向的外部快照，目标文件必须存在 --live 创建快照时，客户机将处于运行状态，仅支virsh snapshot-create-as fedora-10 snap2 "snap2" --diskspec=vda,file=$DIR/snap2.vda.qcow2 --disk-only --atomic 持外部检查点
snapshot-create-as	snapshot-create-as domain {[--print-xml] \| [--no-metadata] [--halt] [--reuse-external]} [name] [description] [--disk-only [--quiesce]] [--atomic] [[--live] [--memspec memspec]] [--diskspec] diskspec]... 以指定的name和description创建快照 --print-xml 仅创建snapshot-create使用的xmlfile，不进行快照创建 --memspec=[file=]name[,snapshot=type] 控制内存快照的创建方式，type可取值none,internal,external --diskspec=disk[,snapshot=type][,driver=type][,file=name] 控制--disk-only和外部检查点创建外部文件的方式。此参数可以出现多次（对应Domain配置中磁盘的个数） --atomic libvrit保证原子性操作，快照要么完整的创建成功，要么彻底失败
snapshot-current	snapshot-current domain {[--name] \| [--security-info] \| [snapshotname]} 查看和设置当前快照：如果不指定snapshotname，则输出Domain当前快照的XML。否则把snapshotname设置为当前快照 --name 仅仅输出当前快照的名称，而非XML --security-info 在XML中包含安全性敏感的信息
snapshot-edit	snapshot-edit domain [snapshotname] [--current] {[--rename] \| [--clone]} 编辑snapshotname的XML信息 --current 编辑当前快照，如果同时指定snapshotname，则snapshotname被设置为当前快照 --rename 允许设置快照名称 --clone 改变快照名称后，会创建一份快照元数据的克隆
snapshot-info	snapshot-info domain {snapshot \| --current} 输出当前快照或者指定快照的基本信息
snapshot-list	snapshot-list domain [--metadata] [--no-metadata] [{--parent \| --roots \| [{--tree \| --name}]}] [{[--from] snapshot \| --current} [--descendants]] [--leaves] [--no-leaves] p[--inactive] [--active] [--disk-only] [--internal] [--external] 列出Domain所有可用的快照，默认输出列：快照名称、创建时间、Domain的状态 --parent 输出parent列，显示父快照名称 --roots 仅列出没有parent快照的那些快照 --tree 以树状输出结果，显示快照父子关系 --name 仅仅显示快照名称，与--tree互斥 --from 仅仅显示指定快照的子快照，联用--current则显示当前快照的子快照 --descendants 包含所有后代快照 --leaves 仅仅输出没有子代的那些快照 --inactive --active 根据快照中Domain的状态过滤 --internal --external 根据内/外部快照过滤
snapshot-dumpxml	snapshot-dumpxml domain snapshot [--security-info] 显示指定快照的XML
snapshot-parent	snapshot-parent domain {snapshot \| --current} 显示父快照的名称
snapshot-revert	snapshot-revert domain {snapshot \| --current} [{--running \| --paused}] [--force] 恢复Domain到指定的快照状态，此最后一次快照以来对Domain的变更将消失 --running --paused 通常恢复后Domain处于创建快照时的状态，这两个参数可以覆盖之 --force 强制恢复快照
snapshot-delete	snapshot-delete domain {snapshot \| --current} [--metadata] [{--children \| --children-only}] 删除Domian的快照 --children 删除指定的快照及其子代 --children-only 仅仅删除子代，指定的快照本身被保留 --metadata 仅仅删除libvirt管理的元数据，不理会快照文件

存储池子命令

子命令	说明
find-storage-pool-sources	find-storage-pool-sources type [srcSpec] 返回一个XML，描述所有能够找到的type类型的存储池 srcSpec 包含额外限制条件的XML
find-storage-pool-sources-as	find-storage-pool-sources-as type [host] [port] [initiator] 类似上面，host port initiator限制查询条件
pool-autostart	pool-autostart pool-or-uuid [--disable] 配置存储池的自动启动
pool-build	pool-build pool-or-uuid [--overwrite] [--no-overwrite] 构建一个存储池 --overwrite --no-overwrite 仅仅用于文件系统池，指定覆盖时，如果文件系统已经存在于目标设备上，mkfs也会执行，既有文件系统将被破坏
pool-create	pool-create file 从配置文件定义并启动一个存储池
pool-create-as	pool-create-as name --print-xml type [source-host] [source-path] [source-dev] [source-name] [] [--source-format format] 类似上面，但是通过命令行来指定所需参数： --print-xml 打印生成的池的XML配置
pool-define	pool-define file 定义，但不启动池
pool-define-as	pool-define-as name --print-xml type [source-host] [source-path] [source-dev] [source-name] [] [--source-format format] 类似上面，但是通过命令行来指定所需参数： --print-xml 打印生成的池的XML配置
pool-destroy	pool-destroy pool-or-uuid 停止一个存储池，池中的数据不会消失
pool-delete	pool-delete pool-or-uuid 销毁池使用的所有资源，但是池本身仍然存在，你可以在其中存储新的卷
pool-dumpxml	pool-dumpxml [--inactive] pool-or-uuid 打印池的配置信息
pool-edit	pool-edit pool-or-uuid 编辑池的XML配置
pool-info	pool-info pool-or-uuid 显示池的基本信息
pool-list	pool-list [--inactive] [--all] [--persistent] [--transient] [--autostart] [--no-autostart] [[--details] [] 列出libvirt所知道的全部存储池
pool-name pool-uuid	pool-name uuid pool-uuid pool 显示指定uuid对应的池名称，或者显示池名称对应的UUID
pool-refresh	pool-refresh pool-or-uuid 刷新池中卷的列表
pool-start	pool-start pool-or-uuid 启动一个存储池
pool-undefine	pool-undefine pool-or-uuid 解除一个存储池的定义
vol-create	vol-create pool-or-uuid FILE [--prealloc-metadata] 在池中创建一个卷，对于基于目录/文件系统的池，卷的本质就是一个镜像文件。可用参数： pool-or-uuid 池的名称或者UUID FILE 卷的配置XML --prealloc-metadata 预分配元数据，用于qcow2之类不支持完全分配的镜像格式，该参数可以提高性能示例： vol-create default definitions/volumes/fedora-10.xml
vol-create-from	vol-create-from pool-or-uuid FILE [--inputpool pool-or-uuid] vol-name-or-key-or-path [--prealloc-metadata] 创建一个卷，使用另外一个卷vol-name-or-key-or-path作为输入
vol-create-as	vol-create-as pool-or-uuid name capacity [--allocation size] [--format string] [--backing-vol vol-name-or-key-or-path] [--backing-vol-format string] [--prealloc-metadata] 创建一个卷，从命令行参数读取配置信息 virsh vol-create-as v12n1 centos7-base 128G --format qcow2
vol-clone	vol-clone [--pool pool-or-uuid] vol-name-or-key-or-path name [--prealloc-metadata] 克隆一个既有的卷，没有vol-create-from强大但是比它简单。可用参数： --pool 指定在其中创建新卷的池 vol-name-or-key-or-path 被克隆的卷 name 新的卷的名称
vol-delete	vol-delete [--pool pool-or-uuid] vol-name-or-key-or-path 删除一个卷，底层的镜像文件将被删除，示例： vol-delete --pool default fedora-10.qcow2
vol-upload	vol-upload [--pool pool-or-uuid] [--offset bytes] [--length bytes] vol-name-or-key-or-path local-file 上传本地文件的内容到一个卷，可用参数： --pool 目标存储池 vol-name-or-key-or-path 目标卷 local-file 被上传的本地文件 --offset 在存储卷的什么位置开始写入数据 --length 写入数据的长度
vol-download	vol-download [--pool pool-or-uuid] [--offset bytes] [--length bytes] vol-name-or-key-or-path local-file 下载存储卷中的内容到本地文件
vol-wipe	vol-wipe [--pool pool-or-uuid] [--algorithm algorithm] vol-name-or-key-or-path 擦除一个卷的内容，可用参数： --algorithm 擦除算法：zero nnsa dod bsi gutmann schneier pfitzner7 pfitzner33 random
vol-dumpxml	vol-dumpxml [--pool pool-or-uuid] vol-name-or-key-or-path 打印卷的XML配置，示例： vol-dumpxml --pool default coreos.qcow2
vol-info	vol-info [--pool pool-or-uuid] vol-name-or-key-or-path 显示卷的基本信息
vol-list	vol-list [--pool pool-or-uuid] [--details] 列出一个存储池中的卷，示例： vol-list default
vol-pool	vol-pool [--uuid] vol-key-or-path 根据卷的名称或者路径，返回其所在存储池的信息 --uuid 返回UUID而不是池名称
vol-path	vol-path [--pool pool-or-uuid] vol-name-or-key 返回指定卷的路径
vol-name vol-key	vol-name vol-key-or-path vol-key [--pool pool-or-uuid] vol-name-or-path 查询卷的名称或者key
vol-resize	vol-resize [--pool pool-or-uuid] vol-name-or-path pool-or-uuid capacity [--allocate] [--delta] [--shrink] 重新设定卷的容量，以字节为单位，可用参数： --allocate 分配空间，否则新容量是稀疏的 capacity 新的容量，如果指定了--delta，则是增加的容量 --shrink 缩小卷大小，不指定此参数，降低容量会报错

结合QEMU/KVM

模拟器QEMU和hypervisor KVM可以被libvirt管理。

QEMU驱动

如果driver检测到/usr/bin/qemu-system-*则QEMU可用；如果driver检测到设备节点/dev/kvm和可执行文件/usr/bin/qemu-kvm则支持KVM全虚拟化和客户机硬件加速。

QEMU的驱动是一个多实例驱动，包含一个系统级别的特权驱动（system实例）和多个用户级别的非特权驱动。驱动的URI的协议名为qemu，URI示例：

# 本地访问per-user的实例
qemu:///session
# 本地访问per-user的实例
qemu+unix:///session
# 本地访问系统级实例
qemu:///system
# 本地访问系统级实例
qemu+unix:///system 
# 基于 TLS/x50的远程访问
qemu://example.com/system 
# 基于SSH隧道远程访问
qemu+ssh://root@example.com/system

导入/出QEMU配置

导入

virsh domxml-from-native

命令可以将QEMU命令行选项转换为libvirt的Domain配置格式：

将QEMU命令行保存到文件qemu.cmd：

/usr/bin/qemu-system-x86_64 -name fedora-10 -enable-kvm -cpu Haswell -daemonize -display none -m 512 -drive file=/home/alex/Vmware/KVM/fedora-10/hda.img,index=0,media=disk,if=virtio -netdev bridge,id=tap0,br=br0 -device virtio-net-pci,netdev=tap0,mac=DE:AD:BE:EF:F1:00

执行命令：

virsh domxml-from-native qemu-argv ~/Vmware/KVM/fedora-10/qemu.cmd ~/Vmware/KVM/fedora-10/domain.xml

生成的配置文件内容如下：


  fedora-10
  51480ab5-864e-4eb7-9e1c-55b56105139e
  524288
  524288
  1
  
    hvm
  
  
    
  
  
    Haswell
  
  
  destroy
  restart
  destroy
  
    /usr/bin/qemu-system-x86_64

可以看到，很多QEMU选项没有对应到常规的Domain配置元素，而是使用qemu:commandline的形式，在启动客户机的时候直接传递给QEMU了。因此，新建客户机时，不要使用这种导入配置的方法，而应调用libvirt API或者手工创建Domain的XML配置。

注意：virsh自动导入得到XML配置存在不少错误，需要调整后才能使用。上例修改后的配置如下：


    fedora-10
    524288
    524288
    1
    
        hvm
    
    
        
    
    
        SandyBridge
    
    
    destroy
    restart
    destroy
    
        /usr/bin/qemu-system-x86_64

导出

类似的，可以把Domain配置文件转换为QEMU命令行：

virsh domxml-to-native qemu-argv ~/Vmware/KVM/fedora-10/domain.xml

Domain配置文件

基本信息

libvirt使用XML文件描述一个Domain的全部配置信息：



    
    fedora-10
    
    4dea22b31d52d8f32516782e98ab3fa0
    
    A short description
    
    Some human readable description
    
    
        ..
        ..

下面介绍如何配置Domain各方面的细节。

Domain启动配置

虚拟机可以不同的方式启动，各有其优缺点。

BIOS bootloader

对于全虚拟化的hypervisor可以选择通过BIOS启动，BIOS定义启动优先级，来确定从软盘、硬盘、光驱还是网络获取启动镜像（boot image）。配置示例：


    hvm
    /usr/lib/xen/boot/hvmloader
    /var/lib/libvirt/nvram/guest_VARS.fd

各子元素的说明如下：

元素	说明
type	指定需要被启动的虚拟机操作系统的类型： hvm 操作系统设计用来在裸金属（bare metal）上运行，即未修改的操作系统，需要全虚拟化 xen 表示支持Xen3的Guest API的操作系统，别名linux exe 基于容器的虚拟化 uml 用户模式的Linux 元素属性： arch 指定被虚拟化的CPU的体系结构 machine 指定机器类型
loader	指定虚拟机固件镜像的（宿主机的）绝对路径。用于Xen全虚拟化、QEMU/KVM的BIOS文件路径设置元素属性： readonly 固件是否只读，yes/no type rom/pflash，告知hypervisor把固件映射到客户机内存的什么位置，如果loader指定UEFI镜像，则该属性应为pflash secure 指示固件实现了安全启动（secure boot）特性
boot	此元素可以出现多次，其dev属性可以是fd/hd/cdrom/network，用来确定优先从哪种设备启动虚拟机，写在最前面的那种设备优先级高如果同一类型的设备配置了多个，它们将依据总线顺序排列，第一个被标记为可启动的。该元素难以细粒度的控制启动顺序，可以使用Per-device的boot元素代替（后者与此元素互斥）
smbios	产生客户机可见的SMBios信息，引用一个sysinfo元素
bootmenu	可以使用一个交互式的启动菜单
bios	useserial：可以设置为yes/no，来启用/禁用Serial Graphics Adapter ，SGA允许用户通过串口看到BIOS信息 rebootTimeout 如果启动失败，多久重启，单位毫秒，-1禁止重启

Container boot

当启动基于容器虚拟化的Domain时，需要指定一个init程序：


    exe
    
    /bin/systemd
    
    --unit
    emergency.service

如果你要启用user namespace映射，可以：

指定SMBIOS信息


    



    
        LENOVO
    
    
        Fedora
        Virt-Manager
        0.9.4
    
    
        LENOVO
        20BE0061MC
        0B98401 Pro
        W1KS427111E

CPU分配

配置示例如下：

vcpu元素

此元素定义客户机最大的虚拟CPU的数量，有效值的范围是1-hypervisor支持的最大数量。属性说明如下：

属性	说明
cpuset	逗号分隔的，Domain进程及虚拟CPU默认能够Pin到的物理CPU序号。可以用-指定范围，^进行排除 Domain进程及虚拟CPU的Pin策略可以由cputune指定，如果cputune的emulatorpin属性被设置，则当前属性被忽略对于指定了vcpupin的虚拟CPU，当前属性被忽略
current	启用比最大数量更少的虚拟CPU
placement	指定Domain进程的CPU placement mode，static/auto

vcpus

此元素控制每个单独虚拟CPU的状态，每个vcpu子元素对应一个虚拟CPU，vcpu子元素的属性说明如下：

属性	说明
id	虚拟CPU的标识符，libvirt在其它地方（例如pinning）引用之。有效值范围0到最大虚拟CPU数-1之间
enabled	控制此虚拟CPU是否启用，yes/no
hotpluggable	此虚拟CPU是否可以热拔插，注意，所有enabled=no的CPU都是可以热拔插的，yes/no
order	此虚拟CPU的顺序号，此值越小，则CPU越先被热插

CPU微调

cputune元素可以对Domain的虚拟CPU进行微调，配置示例如下：

各子元素说明如下：

元素	说明
vcpupin	指定虚拟CPU与物理CPU之间的Pin关系。不指定的情况下，虚拟CPU可以Pin到所有物理CPU
emulatorpin	模拟器线程被Pin到哪些物理CPU，模拟器线程是Domain执行序列中除了虚拟CPU、IO线程之外的部分如果此属性未指定，且vcpu的cpuset属性没有设置，则默认Pin到所有物理CPU
iothreadpin	IO线程被Pin到哪些物理CPU 如果此属性未指定，且vcpu的cpuset属性没有设置，则默认Pin到所有物理CPU
shares	此Domain占用CPU时间的权重，这是一个相对值，它对应的具体时长取决于其它虚拟机的设置 2048比1024多获得1倍CPU时间
period	用来指定强制的interval，单位毫秒，可取值 [1000, 1000000]之间。在一个period内，Domain中的每个虚拟CPU消耗的带宽不得超过quota 仅QEMU 0.9.4+、LXC 0.9.10+支持
quota	用来指定最大允许带宽，单位毫秒，可取值 [1000, 18446744073709551]，负值表示不限制
emulator_period	与上面类似，但是针对模拟器线程
emulator_quota	与上面类似，但是针对模拟器线程
iothread_period	与上面类似，但是针对IO线程
iothread_quota	与上面类似，但是针对IO线程
vcpusched	指定特定虚拟CPU的调度类型： scheduler，调度类型，可选batch, idle, fifo, rr vcpus，针对的虚拟CPU priority，对于实时调度器fifo, rr必须，值范围一般1-99之间，取决于宿主机内核
iothreadsched	与上面类似

IO线程分配

IO线程是一种专门的事件循环线程，用于提高磁盘Block I/O的scalability，这些线程会分配给支持的磁盘设备。每个物理CPU只有1-2个IO线程，每个IO线程也可能分配给多个磁盘设备。配置示例：

内存分配

配置示例如下：

1524288
524288
524288

各元素说明如下：

元素	说明
memory	在启动时，分配给Domain的内存的数量 unit，单位，Ki按1024，K按1000计，可用B\|KB\|MB\|GB\|TB dumpCore，在Domain崩溃后，是否包含其内存映像到生成的coredump中，仅QEMU
maxMemory	运行期间允许的最大内存，仅QEMU
currentMemory	当前实际分配给Domain的内存，默认与memory相同

内存Backing

memoryBacking元素控制虚拟内存页如何映射到宿主机的内存页，配置示例：

子元素说明如下：

元素	说明
hugepages	在Linux 64位系统里面，默认内存是以4K的页面（Page）来管理的，当系统有非常多的内存的时候，管理这些内存的消耗就比较大。HugePage使用2M大小的页面来减小管理开销。HugePage管理的内存并不能被Swap，这就避免了swap引发的性能问题。如果系统经常碰到因为swap引发的性能问题可以考虑启用HugePage 告知hypervisor，客户机的内存基于hugepage而不是宿主机Native页大小来分配。从1.2.5开始，可以为每个numa节点更加细致的设置huagepages： size/unit 指定huge页的大小 nodeset 给于特定numa节点hugepage
nosharepages	nosharepages，用于提示hypervisor禁止此Domain的共享页面（内存合并，KSM）
locked	如果hypervisor支持，设置此元素可以禁止属于Domain的内存页被swap out 对于QEMU/KVM，使用此设置前你需要设置memtune的hard_limit，并且设置maxMemory=Domain所需内存+QEMU进程本身所需内存。注意：启用locked且设置过多的内存可能导致宿主机内核内存溢出

内存微调

memtune提供Domain的内存微调参数，如果不设置这些参数，则使用OS提供的默认值。对于QEMU/KVM，这些参数限制包含QEMU进程本身的内存消耗

子元素说明如下：

元素	说明
hard_limit	限制客户机能够使用的最大内存，对于QEMU/KVM建议不要设置
soft_limit	出现内存争用时的软限制
swap_hard_limit	最大内存 + 交换文件总大小限制
min_guarantee	确保最小低分配给客户机的内存，仅VMware ESX、OpenVZ支持

NUMA节点微调

numatune元素通过控制针对Domain进程的numa策略来影响宿主机的性能，配置示例如下：

子元素说明如下：

元素	说明
memory	如何在numa主机上为Domain分配内存： mode，可选值interleave,strict,preferred，默认strict nodeset，影响的numa节点
memnode	类似，针对单个numa节点设置

块I/O微调

blkiotune元素能够微调Domain的Blkio cgroup可调整参数，如果不指定此元素，则使用OS默认值。配置示例如下：

子元素说明如下：

元素	说明
weight	Domain的整体I/O权重，值范围[100, 1000]，自2.6.39内核之后，值范围[10, 1000]
device	此元素可以有多个，用来设置Domain针对宿主机每一个块设备的I/O权重。子元素： path 宿主机块设备文件的路径 weight 针对此块设备，Domain的权重 read_bytes_sec 读吞吐量限制，bytes/s write_bytes_sec 写吞吐量限制，bytes/s read_iops_sec 读次数限制，bytes/s write_iops_sec 写次数限制，bytes/s

CPU型号与拓扑

对CPU型号、特性的要求，以及它的拓扑结构的要求，可以使用如下方式配置：


    core2duo
    Intel

cpu元素是描述客户机CPU需求的容器元素，它的属性如下：

属性	说明
match	宿主机必须满足客户机CPU需求的严格程度，可选值： minimum 满足CPU型号、feature的要求 exact 完全满足 strict 除非完全满足，否则客户机不被创建
mode	用于简化客户机的配置，让它尽量和宿主机CPU匹配。可选值： custom（94.73%性能）：这种模式下虚拟机 CPU 指令集数最少，故性能相对最差，但是它在热迁移时跨不同型号 CPU 的能力最强。此外，custom 模式下支持用户添加额外的指令集 host-model（95.84%性能）：libvirt 根据当前宿主机 CPU 指令集从配置文件 /usr/share/libvirt/cpu_map.xml 选择一种最相配的 CPU 型号。在这种 mode 下，虚拟机的指令集往往比宿主机少，性能相对 host-passthrough 要差一点，但是热迁移时，它允许目的节点 CPU 和源节点的存在一定的差异 host-passthrough(100%性能）：libvirt 令 KVM 把宿主机的 CPU 指令集全部透传给虚拟机。因此虚拟机能够最大限度的使用宿主机 CPU 指令集，故性能是最好的。但是在热迁移时，它要求目的节点的 CPU 和源节点的一致关于热迁移，理论上来说： host-passthrough: 要求源节点和目的节点的指令集完全一致 host-model: 允许源节点和目的节点的指令集存在轻微差异 custom: 允许源节点和目的节点指令集存在较大差异从实际情况来看，公司不同时间采购的 CPU 型号可能不相同；不同业务对 CPU 型号的要求也有差异。虽然互联网多采用 intel E5 系列的 CPU，但是该系列的 CPU 也有多种型号，常见的有 Xeon，Haswell，IvyBridge，SandyBridge 等等。即使是 host-model，在这些不同型号的 CPU 之间热迁移虚拟机也可能失败。所以从热迁移的角度，在选择 host-mode 时：需要充分考虑既有宿主机类型，以后采购扩容时，也需要考虑相同问题除非不存在热迁移的场景，否则不应用选择 host-passthrough host-model 下不同型号的 CPU 最好能以 aggregate hosts 划分，在迁移时可以使用 aggregate filter 来匹配相同型号的物理机如果 CPU 型号过多，且不便用 aggregate hosts 划分，建议使用 custom mode

属性

说明

match

宿主机必须满足客户机CPU需求的严格程度，可选值：
minimum 满足CPU型号、feature的要求
exact 完全满足
strict 除非完全满足，否则客户机不被创建

mode

用于简化客户机的配置，让它尽量和宿主机CPU匹配。可选值：

custom（94.73%性能）：这种模式下虚拟机 CPU 指令集数最少，故性能相对最差，但是它在热迁移时跨不同型号 CPU 的能力最强。此外，custom 模式下支持用户添加额外的指令集
host-model（95.84%性能）：libvirt 根据当前宿主机 CPU 指令集从配置文件 /usr/share/libvirt/cpu_map.xml 选择一种最相配的 CPU 型号。在这种 mode 下，虚拟机的指令集往往比宿主机少，性能相对 host-passthrough 要差一点，但是热迁移时，它允许目的节点 CPU 和源节点的存在一定的差异
host-passthrough(100%性能）：libvirt 令 KVM 把宿主机的 CPU 指令集全部透传给虚拟机。因此虚拟机能够最大限度的使用宿主机 CPU 指令集，故性能是最好的。但是在热迁移时，它要求目的节点的 CPU 和源节点的一致

关于热迁移，理论上来说：

host-passthrough: 要求源节点和目的节点的指令集完全一致
host-model: 允许源节点和目的节点的指令集存在轻微差异
custom: 允许源节点和目的节点指令集存在较大差异

从实际情况来看，公司不同时间采购的 CPU 型号可能不相同；不同业务对 CPU 型号的要求也有差异。虽然互联网多采用 intel E5 系列的 CPU，但是该系列的 CPU 也有多种型号，常见的有 Xeon，Haswell，IvyBridge，SandyBridge 等等。即使是 host-model，在这些不同型号的 CPU 之间热迁移虚拟机也可能失败。所以从热迁移的角度，在选择 host-mode 时：

需要充分考虑既有宿主机类型，以后采购扩容时，也需要考虑相同问题
除非不存在热迁移的场景，否则不应用选择 host-passthrough
host-model 下不同型号的 CPU 最好能以 aggregate hosts 划分，在迁移时可以使用 aggregate filter 来匹配相同型号的物理机
如果 CPU 型号过多，且不便用 aggregate hosts 划分，建议使用 custom mode

元素	说明
model	指定客户机要求的CPU型号，可用型号的列表在/usr/share/libvirt/cpu_map.xml 如果hypervisor不能使用精确的CPU，libvirt会自动fallback到特性最接近的CPU 属性列表： fallback，是否允许fallback，可选值allow,forbid，默认allow vendor_id，设置客户机看到的vendor_id，必须12字符长，典型值AuthenticAMD、GenuineIntel
vendor	设置客户机要求CPU的厂商，可用厂商列在cpu_map.xml
topology	规定总的CPU插槽数，每个CPU的核心数，每个核心的硬件线程数
feature	可以包含多个这样的元素，用来细粒度的规定CPU的特性： name 特性名称 policy 策略：force强制要求此特性，即使宿主机不支持；require如果宿主机支持则要求此特性；optional可有可无；disable此特性在客户机上禁用；forbid如果宿主机支持此特性则客户机失败
numa	仅适用于QEMU/KVM，指定客户机的numa拓扑，举例：每个cell子元素对应一个numa 节点（cell）： cpus指定节点对应的CPU范围 memory指定节点本地内存大小 memAccess控制内存被映射为shared还是private，此属性仅针对基于hugepage的内存

事件配置

你可能需要覆盖某些事件发生时采取的动作，注意并非所有hypervisors支持所有事件和动作。使用

virsh reboot

或者

virsh shutdown

可以触发事件。配置示例：

destroy
restart
restart
poweroff

事件类型采用元素表示：

元素	说明
on_poweroff	指定客户机请求断开电源时采取的动作
on_reboot	指定客户机请求重启时采取的动作
on_crash	指定客户机崩溃时采取的动作

这几种事件都支持的动作包括：

destroy，终止Domain并释放一切相关资源
restart，Domain被终止，并以相同的配置再次启动
preserve，Domain被终止但是其资源被保留供分析
rename-restart，以另外一个名字重启Domain

on_crash支持额外的动作：

coredump-destroy，崩溃Domain的core被dump出来，然后destroy
coredump-restart，崩溃Domain的core被dump出来，然后重启

电源管理

仅QEMU支持，强制启用/禁止客户机BIOS的电源管理功能：

Hypervisor特性

Hypervisor能够启用/禁用一些CPU/机器特性。配置示例：

时间保持

客户机的时间通常是基于宿主机时间来初始化的，大部分OS期望硬件中存储的是UTC时间，然而Windows期望的则是“本地时间”。

配置示例：

clock的offset属性控制客户机的时间如何与宿主机同步：

utc，客户机启动时总是基于UTC时间来同步
localtime，客户机启动时基于宿主机的timezone配置来同步时间
timezone，客户机基于指定的时区来同步
variable，客户机的时钟相对于UTC或者localtime（由basis属性指定，默认utc）具有一定的偏移，偏移量单位秒，由adjustment指定

设备配置

提供给客户机的所有设备，都在

元素中配置。本章后续内容讲述各种设备的XML配置信息。

模拟器路径

可以使用下面的元素来指定模拟器全限定的路径：


    /usr/lib/xen/bin/qemu-dm

capabilities的XML配置指明了特定Domain类型-体系结构组合对应的最佳模拟器。

软/硬/光盘

任何软盘、硬盘、光盘或者半虚拟化的驱动器，都是通过

disk

元素来指定的。配置示例：

disk元素属性

属性	说明
type	磁盘的来源（source）类型。有效值：file,block,dir,network,volume 其中volume表示磁盘的来源是存储池中的一个卷
device	客户机看到的磁盘类别。有效值：floppy,disk,cdrom,lun，默认disk 仅当type=block\|network且protocol=iscsi时；或者type=volume且使用protocol=iscsi、mode=host的source pool时可设置为lun，lun的行为与disk相同，除了来自客户机的SCSI命令被接收并pass through到物理设备。lun仅被raw设备识别，不能被分区识别
rawio	仅当device=lun时使用，是否启用rawio，有效值：yes/no
snapshot	指定快照行为： internal 使用内部快照 external 使用外部快照 no 该磁盘不参与快照

source子元素

指定磁盘的来源（source），其包含的属性依赖于disk的type属性：

disk.type	属性	说明
file	file	指定虚拟磁盘对应的镜像文件的全限定路径
block	dev	指定虚拟设备映射到的宿主机块设备的全限定路径
dir	dir	指定宿主机目录，此目录作为客户机的磁盘使用
network	protocol	访问磁盘映像的协议，有效值：nbd、iscsi、rbd、sheepdog、gluster
network	name	如果protocol=rbd、sheepdog、gluster，则此属性必须，用于指定什么卷/镜像被使用对于protocol=iscsi，name可能包含一个逻辑单元号（ logical unit number，LUN），例如xx:iscsi-pool/1，不指定LUN则默认0
volume	pool	指定由libvirt管理的存储池（storage pool）的名称，磁盘来源位于此池中
	volume	指定用作磁盘来源的，由libvirt关联的存储卷（ storage volume ）的名称
	mode	指示如何将LUN暴露为磁盘来源： direct host，默认值

source子元素可以包含以下子元素：

子元素	说明
host	当disk.type=network时，可以包含若干各host子元素，用来指定需要连接的主机。host具有以下属性： name，主机名 port，监听端口 transport，传输协议类型 socket，UNIX套接字路径

backingStore子元素

紧跟着source元素，用于指定磁盘使用的backing store ，backing store是构成磁盘的逻辑成分（类似于QEMU的backing file）。如果不指定此元素，则意味着source是自包含的。backingStore元素的属性列表如下：

属性	说明
type	backing store使用的磁盘类型，类似于disk.type
index

backingStore可以有下列子元素：

元素	说明
format	其type属性指定backing store内部的镜像格式，例如raw、qcow2
source	类似于disk.source
backingStore	如果此backing store也不是自包含，而依赖于其它backing store时，使用此元素递归的指定

target子元素

此子元素控制虚拟磁盘在什么总线/设备下暴露给客户机。属性如下：

属性	说明
dev	磁盘在客户机下的逻辑名称，此名称并不确保映射到相应的设备名称，你只能将其作为设备的“顺序提示”
bus	设置模拟的磁盘类型，有效值包括ide、scsi、virtio、xen、usb、sata、sd。如果不指定，bus的值根据dev的风格来推断，例如hda可以推断出ide
tray	可移动磁盘（光盘、软盘）的一个状态字段，有效值包括open、closed，默认closed
removable	设置USB磁盘的可移除标记，on/off，默认off

iotune子元素

针对单块磁盘进行IO微调，与 blkiotune 功能类似，但是后者针对Domain全局。

目前可设置的微调项都是针对QEMU的IO throttling微调，这些微调由子元素指定，取值0表示无限制。子元素列表：

元素	说明
total_bytes_sec	每秒钟I/O吞吐量的限制。total_bytes_sec不能与后两者同时出现
read_bytes_sec
write_bytes_sec
total_iops_sec	每秒钟I/O操作次数的限制。total_iops_sec不能与后两者同时出现
read_iops_sec
write_iops_sec
total_bytes_sec_max	与上面类似，但是限制最大值
read_bytes_sec_max
write_bytes_sec_max
total_iops_sec_max
write_iops_sec_max
size_iops_sec

driver子元素

与hypervisor驱动相关的更多细节配置，属性列表：

属性	说明
name type	如果hypervisor支持多个backend驱动，则name属性指定primary后端驱动的名称，而type则指定一个子类型。例如： xen支持的name有tap、tap2、phy、file，支持type有aio QEMU仅支持name为qemu，而支持raw、bochs、qcow2、qed等type
cache	控制IO缓存策略，有效值包括 default 由hypervisor自动选择。qemu-kvm 1.2-默认writethrough。之后的版本，对于客户机驱动ide/scsi/virtio来说，默认值可能是 writethrough none 相当于直接使用宿主机的物理磁盘缓存，性能不错 writethrough 数据直接写入磁盘（O_DSYNC）里，不使用缓存；在数据更新时，同时写入缓存Cache和后端存储。此模式的优点是操作简单；缺点是因为数据修改需要同时写入存储，数据写入速度较慢 writeback 在数据更新时只写入缓存Cache（不使用O_DSYNC、O_DIRECT）。只在数据被替换出缓存时，被修改的缓存数据才会被写到后端存储。此模式的优点是数据写入速度快，因为不需要写存储；缺点是一旦更新后的数据未被写入存储时出现系统掉电的情况，数据将无法找回 directsync，写入磁盘时，qemu-kvm将使用O_DSYNC + O_DIRECT。速度慢 unsafe 任何时候都不要在生产环境使用，cache flush不会传播到宿主机，因此任何意外的VM关机都会摧毁虚拟机文件系统最后两种几乎不会使用 writethrough、none、directsync的安全性好，只要客户机操作系统是现代且行为正常的 —— 必要时会执行flush writeback的安全性次之，它给提示后端写缓存的存在，依赖于客户机发送必须的flush命令来保证客户机磁盘的数据完整性 —— 这是现代文件系统应有的正常行为。但是，在报告（给客户端应用程序）IO操作完成，到数据提交到宿主机磁盘，存在一个时间窗口。如果宿主机宕机，可能导致数据丢失 unsafe安全性差，和writeback的差异在于，客户机的flush命令被忽略性能上： writeback > none > writethrough
error_policy	当磁盘出现读写错误时hypervisor的处理策略，有效值：stop、report、ignore、enospace
io	控制AIO的策略，QEMU支持： threads：用户空间异步IO的实现，其实它不是真正的异步IO，是通过启动一定数量的 blocking IO线程来模拟异步IO native：Kernel native AIO :，Kernel的原生态异步IO实现 native的性能更好
copy_on_read	当读取backing文件时，是否将读取的内容复制到当前的镜像文件中，当backing文件位于慢速网络中时可以设置为on 仅用于QEMU/KVM
iothread	将磁盘分配给Domain的iothreads元素定义的IO线程

boot子元素

用于指定该磁盘是可启动的，order属性指定其启动顺序。

encryption子元素

指定卷如何被加密。

readonly子元素

指定此磁盘不能被客户机修改，对于device=cdrom的设备默认true。

shareable子元素

假设hypervisor和OS支持的话，指示此设备可以被多个Domain共享。指定此元素，应当同时禁用磁盘的缓存。

transient子元素

指示当客户机退出时，对磁盘的所有修改将回退。对于某些hypervisor，把磁盘标记为transient会禁止快照与迁移。

serial子元素

指定磁盘的序列号。

wwn子元素

指定磁盘的世界范围名称（World Wide Name），此值必须唯一，由16位16进制数字组成。

vendor子元素

指定磁盘的生产厂商，不超过8个可打印字符

product子元素

指定磁盘的产品名称，不超过16个可打印字符

address子元素

很多设备可以提供一个address 子元素，来指明设备挂载客户机虚拟总线的什么位置上。如果不指定address，libvirt会生成一个合适的地址。该子元素的属性列表如下：

属性	说明
type	必须，有效值包括： pci 可配额外属性domain/bus/slot/function/multifunction drive 可配额外属性controller/bus/target/unit ccid 用于智能卡，可配额外属性bus/slot usb 可配额外属性bus/port，其中port位点号分隔的单字节数字，例如1.2或者2.1.3.1
bus	磁盘绑定到的总线，对于PCI范围在0-0xff之间，对于其它为2位的bus号
slot	磁盘绑定到总线上的slot，范围在0x0-0x1f之间，对于其它为2位的slot号
function	磁盘的function号，范围在0-7之间

auth子元素

对于disk.type=network，且protocol为rbd、iscsi的磁盘，可以指定此子元素，提供访问磁盘源时使用的凭据。

blockio子元素

用于QEMU/KVM，覆盖块设备的属性。属性列表：

属性	说明
logical_block_size	报告给客户机的逻辑块大小。对于Linux来说，BLKSSZGET ioctl会返回此值，表示最小单元的磁盘IO大小
physical_block_size	报告给客户机的物理块大小。对于Linux来说，BLKPBSZGET ioctl会返回此值，表示硬件扇区的大小

文件系统配置

使用filesystem元素可以把宿主机上的目录直接暴露给客户机访问，配置示例：

filesystem元素的属性列表：

属性	说明
type	指定文件系统的来源，有效值包括： mount 默认值，挂载到客户机的一个宿主机目录，支持LXC、OpenVZ、QEMU/KVM template OpenVZ模板 file 一个宿主机文件被作为镜像，挂载到客户机，仅LXC block 一个宿主机块设备，挂载到客户机，仅LXC ram 一个内存文件系统 bind 绑定宿主机中的一个目录到客户机的一个目录，仅LXC
accessmode	访问源的安全模式，有效值包括： passthrough 默认值，基于客户机用户的权限访问源 mapped 基于hypervisor（QEMU进程）的权限访问源 squash 类似于passthrough，只是忽略chown之类操作的错误

子元素列表：

元素	说明
driver	指定hypervisor驱动的更多细节，属性列表： type 如果hypervisor支持多种backend驱动，使用该属性指定primary后端驱动的名称 format 指定格式类型对于LXC，支持type=loop&format=raw，或者type=nbd；QEMU支持type=path\|handle，不支持format
source	标注宿主机上的资源，该资源暴露为客户机的文件系统，属性列表： name 仅用于filesystem.type=template，指定模板的名字 dir 仅用于filesystem.type=mount，指定宿主机目录 usage 仅用于filesystem.type='ram' 以KiB（可以使用units属性指定单位）限制内存用量
target	对于QEMU，指定文件系统在客户机的挂载点
readonly	文件系统对于客户机是否只读，仅QEMU/KVM
space_hard_limit	文件系统对于客户机的容量软硬限制
space_soft_limit	文件系统对于客户机的容量软硬限制

网络接口配置

有几种方式（type）来指定客户机能够看到的网络接口，网络接口的容器元素是

interface

。每个interface元素可以拥有一个address子元素，指定其在PCI上的slot。interface元素的属性列表：

属性	说明
type	网络接口的类型，有效值： network 虚拟网络 bridge 直接桥接VM到局域网
trustGuestRxFilters	如果设置为true，则宿主机能够检测到并信任来自客户机的关于接口MAC地址变更的报告，并接收filters 对此设置的支持，取决于客户机的网络设备型号，以及宿主机的连接类型。当前只有virtio型号和macvtap宿主机连接类型支持

属性

说明

type

网络接口的类型，有效值：
network 虚拟网络
bridge 直接桥接VM到局域网

trustGuestRxFilters

如果设置为true，则宿主机能够检测到并信任来自客户机的关于接口MAC地址变更的报告，并接收filters

对此设置的支持，取决于客户机的网络设备型号，以及宿主机的连接类型。当前只有virtio型号和macvtap宿主机连接类型支持

虚拟网络

对于基于动态地址分配/无线网络的宿主机获得连接性的虚拟机，推荐此方式。

虚拟网络提供一个其详细信息由一个命名网络定义（named network definition）所描述的连接。依据虚拟网络的转发模式（forward mode）设置，它可能是：

完全隔离的，不配置
元素
NAT到一个指定的网络设备或者默认路由，配置
不基于NAT来路由，配置
直接连接到宿主机的网络接口（通过macvtap）或桥接设备，配置

virsh net-dumpxml [networkname]

得到。一个开箱即用的、称为default的虚拟网络NAT到宿主机默认路由，其IP地址范围是192.168.122.0/24，在宿主机中你可以ifconfig看到一个名为virbr0的网络接口，与这个default虚拟网络有关。要自定义虚拟网络，需要修改其它类型（network XML）的配置文件L。

每个客户机会有一个命名为

vnetN

的tun设备，你可以利用target元素覆盖此命名。

类似于direct类型的接口，network类型的接口可以指定一个virtualport子元素，用于将配置信息转发给vepa（802.1Qbg）或 802.1Qbh兼容的交换机，或Open vSwich虚拟交换机。

配置示例：

桥接到LAN

对于基于静态地址的有线网络的宿主机获得连接性的虚拟机，推荐此方式。

该方式将虚拟机直接桥接到宿主机所在的局域网，libvirt假设宿主机上的网桥设备enslaved了1-N个物理网卡。客户机的IP地址范围与宿主机局域网的IP地址范围一样。

在Linux系统中，网桥通常是标准的Linux主机网桥（host bridge）。如果主机支持Open vSwitch，则可以添加

子元素以连接到Open vSwitch网桥。

每个客户机会有一个命名为

vnetN

的tun设备，你可以利用target元素覆盖此命名。此tun设备会自动enslaved到宿主机网桥。

配置示例：

用户空间SLIRP栈

提供一个虚拟局域网并NAT到外面的世界，此虚拟网络使用10.0.2.x网段。默认路由10.0.2.2，DNS服务器10.0.2.3，客户机地址从10.0.2.15开始。此网络仅仅用于没有特权的宿主机用户。配置示例：

设置虚拟网卡型号

如果hypervisor支持，则可以设置虚拟网卡的型号。示例：

QEMU支持的型号包括 ne2k_isa i82551 i82557b i82559er ne2k_pci pcnet rtl8139 e1000 virtio。

修改虚拟网卡状态

可以设置网卡是启用还是断开的：

IP配置

网络设备、具有网络特性的hostdev设备可以配置一个或者多个IP地址，某些hypervisor会忽略这些配置。配置示例：

图形配置

配置图形（Graphical）设备，可以让你与客户机进行图形化的交互。客户机通常提供一个framebuffer或者text console，作为人机接口。配置示例：

根据强制属性type的取值，grpahics的属性、子元素有所差异：

type	说明
sdl	在宿主机的桌面上显示一个窗口，额外属性： display 使用哪个显示器 xauth 验证标识符 fullscreen 是否全屏，yes/no
vnc	启动一个VNC服务器，额外属性： port 监听端口，-1表示自动分配 autoport 表示自动分配端口 passwd VNC密码明文 keymap 使用的keymap passwdValidTo 密码有效期限（UTC），示例'2010-04-09T15:51:00' sharePolicy 显示共享策略，allow-exclusive独占并丢弃其它连接，force-shared禁止独占，ignore无条件允许任何连接 socket 对于QEMU，可以指定一个UNIX domain socket而非TCP/IP
spice	启动一个SPICE服务器，额外属性： port 监听端口，-1表示自动分配 tlsPort 安全协议端口 autoport 表示自动分配端口 passwd SPICE密码明文 keymap 使用的keymap passwdValidTo 密码有效期限（UTC），示例'2010-04-09T15:51:00' connected 如果密码改变，如何控制已连接的客户端。keep保持连接，disconnect断开连接，fail禁止修改密码 defaultMode 设置默认的通道安全策略。有效值secure、insecure、any 如果SPICE同时配置了普通端口、TLS安全端口。则可以利用channel子元素限制某个通道使用的端口。可用的通道名包括main, display, inputs, cursor, playback, record,smartcard,usbredir。配置示例： SPICE支持音频、图片、流的压缩。你可以设置以下子元素的compression属性： image 图片压缩，支持compression取值auto_glz, auto_lz, quic, glz, lz, off jpeg 基于WAN访问时的JPEG压缩，支持compression取值 auto, never, always zlib，基于WAN访问时的图片压缩，支持compression取值auto, never, always playback，音频流压缩，支持compression取值onn,off 配置示例：可以使用streaming子元素设置流模式，其mode属性可以取值filter, all,off，配置示例：基于Spice agent的复制/粘贴功能可以利用clipboard子元素设置，默认启用，配置示例：鼠标模式可以利用mouse子元素设置，mode取值client,server，配置示例：文件传输功能可以利用filetransfer设置，默认启用，配置示例： SPICE支持服务器端的基于OpenGL的加速渲染（仅QEMU），配置示例：
rdp	启用一个RDP服务器，额外属性： port 监听端口，-1表示自动分配 autoport 表示自动分配端口 replaceUser 布尔值，是否允许多个用户同时连接
desktop	保留给VirtualBox Domain，配置类似于sdl

listen子元素

用于指明在何处监听客户机连接。

视频设备配置

video是描述视频设备的容器，为了向后兼容，如果配置了graphics却没有配置video，libvirt会根据客户机的类型自动添加一个video。配置示例：

子元素说明如下：

元素	说明
model	type 视频设备类型，可选值：vga、cirrus、vmvga、xen、vbox、qxl、virtio，基于hypervisor来选择 vram 现存容量 heads 设置屏幕的数量
acceleration	accel2d 启用2D加速，仅vbox accel3d 启用3D加速，仅vbox、QEMU

使用libguestfs

libguestfs是一组工具集，用来（在不启动客户机的情况下）访问、修改虚拟机的磁盘文件，通过libguestfs你可以好对磁盘进行以下操作：

查看或者修改文件
创建虚拟磁盘
改变虚拟磁盘大小
执行磁盘备份、克隆等操作

libguestfs支持多种虚拟磁盘格式，包括Vmware、Hyper-V。日常工作中我们主要使用libguestfs提供的命令行guestfish。libguestfs不依赖于libvirt。

与libguestfs类型工具包括：

kpartx 需要root权限，并且将文件系统挂载到宿主机的内核中。相比之下libguestfs把文件系统隔离在appliance中，安全性高
vdfuse 该工具类似于kpartx，但是仅仅针对VirtualBox虚拟磁盘
qemu-nbd 用QEMU提供的工具，基于QEMU支持的磁盘格式（raw、qcow2）构建网络块服务器。libguestfs可以与之配合使用：
```
guestfish -a nbd://remote
```

安装与配置

执行下面的命令安装libguestfs：

sudo apt-get install libguestfs-tools

在Ubuntu下，需要执行：

sudo chmod 0644 /boot/vmlinuz*

否则在使用过程中你会遇到cp: cannot open '/boot/vmlinuz-4.4.0-38-generic' for reading: Permission denied错误。

使用guestfish

执行下面的命令，以编辑一个虚拟磁盘：

# 附加-v参数，可以看到很多调试信息，例如appliance的启动过程日志
guestfish -a vda.qcow2

# 出现提示符
> 

# 添加一个磁盘，只能在run之前执行
# add-drive filename [readonly:true|false] [format:..] [iface:..] [name:..] [label:..] [protocol:..] [server:..]
add-drive vdb,qcow2 format:qcow2

# 执行run命令，一个appliance（类似于微型虚拟机）会被启动
> run

# 列出设备
> list-devices
# 输出：/dev/sda

# 列出分区
> list-partitions
# 输出：
# /dev/sda1
# /dev/sda2

# 显示各分区详细信息
> part-list /dev/sda
# [0] = {
#   part_num: 1
#   part_start: 1048576
#   part_end: 525336575
#   part_size: 524288000
# }
# [1] = {
#   part_num: 2
#   part_start: 525336576
#   part_end: 17179869183
#   part_size: 16654532608
# }
# 测试第一个分区是否可启动
> part-get-bootable /dev/sda 1
# 其它分区相关命令： part-add，part-del，part-disk，part-get-bootable，part-get-gpt-type，part-get-mbr-id，
#                 part-get-name，part-get-parttype，part-init，part-list，part-set-bootable，part-set-gpt-type，
#                 part-set-mbr-id，part-set-name，part-to-dev，part-to-partnum

# 操作LVM
# 显示物理卷详细信息
pvs-full 
# 显示逻辑卷组详细信息
vgs-full
# 其它LVM相关命令：
# lvcreate, lvcreate-free, lvm-canonical-lv-name, lvm-clear-filter, lvm-remove-all, lvm-set-filter, 
# lvremove, lvrename, lvresize, lvresize-free, lvs, lvs-full, lvuuid, pvcreate, pvremove, pvresize, 
# pvresize-size, pvs, pvs-full, pvuuid, vg-activate, vg-activate-all, vgchange-uuid, vgchange-uuid-all, 
# vgcreate, vglvuuids, vgmeta, vgpvuuids, vgremove, vgrename, vgs, vgs-full, vgscan, vguuid
# 列出文件系统
> list-filesystems
# 输出：
# /dev/sda1: ext4
# /dev/fedora_bogon/root: xfs
# /dev/fedora_bogon/swap: swap

# 挂载文件系统
> mount /dev/fedora_bogon/root /

# 列出目录
> ls /
# 创建新目录
> mkdir /temp
# 其它支持的文件系统命令包括：cp chown chmod cp

# 下载文件到当前目录
download /root/.bash_history test
# 上传文件到虚拟磁盘
upload test /temp/test

# 查看文件内容
cat /temp/test

# 退出
> quit

执行run子命令后，需要等待一会，这时libguestfs在启动一个 appliance。再此appliance中会运行一个Linux内核，LVM、ext2等用户空间工具，以及一个守护程序guestfsd。宿主机进程基于RPC与这个守护进程通信，完成对磁盘镜像的操作。

使用Guestmount

该命令可以把虚拟磁盘挂载到宿主机的目录上：

# 创建挂载点
mkdir vda
# 挂载一个文件系统
guestmount -a vda.qcow2 --rw -m /dev/fedora_bogon/root vda
# 现在你可以在宿主机中修改虚拟磁盘中的文件
# 操作完毕后，取消挂载
guestunmount vda

使用virt-builder

该命令可以用来快速的创建虚拟机磁盘镜像：

# 列出所有支持的客户机类型
virt-builder --list
# 创建一个Fedora 24的虚拟磁盘镜像，第一次使用某个客户机类型，需要从网络上下载镜像文件
virt-builder fedora-24 
    -o fedora-24.qcow2 --format qcow2 --size 20G 
    --hostname fedora-24-01   # 设置主机名
    --root-password file:/tmp/pswd  # 设置root密码，密码从文件中读取
    --install "apache2"  # 安装软件
    --firstboot  /tmp/fb.sh  # 第一次启动时执行的脚本

其它命令

命令	说明
virt-ls	列出虚拟磁盘中的文件，示例： virt-ls -a vda.qcow2 /
virt-cat	查看虚拟磁盘中某个文件的内容，示例： virt-cat -a vda.qcow2 /root/.bashrc
virt-copy-in	拷贝目录或者文件到虚拟磁盘中，示例： virt-copy-in -a vda.qcow2 hello /root/
virt-copy-out	从虚拟磁盘中拷贝文件到本地，示例： virt-copy-out -a vda.qcow2 /root/hello .
virt-df	显示虚拟磁盘文件系统的剩余空间情况
virt-diff	显示两个Domain或者虚拟磁盘中同一文件的差异
virt-edit	编辑一个文件
virt-format	执行格式化操作
virt-inspector	显示虚拟磁盘中操作系统的版本、以及其它信息
virt-make-fs	从一系列文件，或者tar来创建一个文件系统
virt-resize	改变虚拟磁盘的尺寸
virt-sparsify	稀疏化，虚拟磁盘中的空闲空间将归还给宿主机
virt-tar-in	打包并上传
virt-tar-out	打包并下载
virt-win-reg	导入导出Windows的注册表键值

管理虚拟局域网

通过配置libvirt的虚拟局域网，可以简化Domain的网络接口配置，比QEMU的脚本方式好很多。此外虚拟局域网还提供DHCP服务。

虚拟网络交换机

libvirt引入了virtual network switch的概念，这是运行在宿主机上的软件。客户机可以“插入”到这个交换机上并传递流量。在Linux宿主机上，这个交换机表现为网络接口——默认情况下名字为virbr0，这个接口实质上是一个网桥。

NAT

默认情况下虚拟网络交换机工作在NAT模式下，实质上是基于宿主机的iptables设置IP遮掩（不使用SNAT/DNAT），客户机对外通信时，使用宿主机的IP地址。

路由模式

与NAT不同，这种模式直接转发客户机的IP封包，不进行NAT转换。这需要物理网络的路由器配置适当的路由，让客户机子网的流量流向所在的宿主机。

隔离模式

这种模式下，虚拟网络交换机不把客户机的IP封包转发到真实网络上去。只有宿主机、各客户机之间可以进行通信。

DNS &DHCP

每个虚拟网络交换机可以设置一个用于动态分配的IP地址范围，供连接到此交换机的客户机使用，客户机可以通过DHCP服务自动获得IP地址。

libvirt基于dnsmasq实现DHCP和DNS，对于每个需要DHCP的虚拟网络交换机，libvirt在宿主机上启动一个dnsmasq实例。

除了简单的DNS请求转发，dnsmasq可以做更多的事情：

它可以读取宿主机的 /etc/hosts 中条目，来应答DNS查询请求

网络架构示意

一个可能的虚拟网络架构的逻辑图如下：

对应的物理拓扑如下：

其中：

VLAN 1，这个虚拟局域网通过网桥virbr0与eth1进行桥接，并基于NAT连接到真实局域网lan2
VLAN 2，这个虚拟局域网桥接到virbr0，但是与真实局域网完全隔离
Guest A，该虚拟机的：
1. eth0桥接到宿主机的网桥eth0，后者直接连接到真实网卡pth0，从而与lan1互联
2. eth1桥接到virbr0，可以基于NAT受限访问lan2
Guest B，基于NAT、隔离网络
Guest C，基于隔离网络

后端类型	说明
目录	将宿主机的一个目录作为池看待，该目录中的文件可以包含各种客户机磁盘文件、镜像文件
本地文件系统	将宿主机上一个格式化好的文件系统作为池看待，文件系统类型可以是ext2,ext3,vfat
网络文件系统	使用远端网络文件系统服务器的导出目录作为存储池。默认为 NFS 网络文件系统
逻辑卷	使用已经创建好的 LVM 卷组，或者提供一系列生成卷组的源设备，libvirt 会在其上创建卷组，生成存储池
磁盘	使用磁盘作为存储池
iSCSI	使用 iSCSI 设备作为存储池
其它	SCSI、Multipath、RBD、Sheepdog、Gluster 、ZFS

属性/子元素	说明
@type	存储池类型，支持取值dir, fs, netfs, disk, iscsi, logical, scsi,mpath,rbd,sheepdog,gluster,zfs
name	对于宿主机来说，唯一的名称
uuid	全局唯一的UUID，如果忽略libvirt会自动生成
allocation	当前分配给池的容量，单位字节。创建池时不能使用此元素
capacity	池的总容量，单位字节。创建池时不能使用此元素
available	设置可以分配给新的卷使用的空闲容量。创建池时不能使用此元素

source的子元素	说明
device	对于fs, logical, disk, iscsi, zfs类型的池后端，指定存储池的后端物理设备。对于某些池后端，该元素可能出现多次。支持以下属性： path，指向物理设备的全限定路径，或者iSCSI全限定名称（IQN） part_separator，yes/no，用于disk后端
dir	对于 dir, netfs, gluster类型的池后端，指定存储池对应的文件目录。仅能出现一次。支持以下属性： path，目录的全限定名称。对于Samba share，路径不包含起始的斜杠
adapter	对于scsi类型的池后端，指定存储池使用的SCSI适配器
host	对于 netfs, iscsi, rbd, sheepdog, gluster类型的池后端，如果存储池位于远程机器上，指定远程机器的信息，必须和device或者dir元素联用。支持以下属性： name 远程机器的IP或者主机名 port 监听端口，可选，默认值依据远程协议确定
auth	提供访问池后端所需的身份验证信息。支持以下属性： type 可以是chap或者ceph，分别用于iscsi、rbd username 用户名 secret 密码信息（libvirt secret object）
name	对于logical, rbd, sheepdog, gluster类型的池后端，依据已命名元素提供池的源
format	指定源的格式对于fs池后端，指定的是文件系统的类型：auto ext2 ext3 ext4 ufs iso9660 udf gfs gfs2 vfat hfs+ xfs ocfs2 对于netfs池后端，指定的是网络协议的类型：auto nfs glusterfs cifs 对于logical池后端，只能是lvm2 对于disk池后端，指定的是分区表类型：dos dvh gpt mac bsd pc98 sun lvm2
vendor	指定存储设备的供应商信息
product	指定存储设备的产品信息

target的子元素	说明
path	存储池映射到宿主机目录树的什么位置。对于： fs,dir池后端，该路径是在其中创建卷的绝对路径基于设备的后端，该路径是设备节点所在路径，最好使用稳定（重启后不变化）的路径：/dev/disk/by-{path\|id\|uuid\|label}，避免重启后路径变化 mpath后端，设置该子元素无效，总是使用默认值/dev/mapper
permissions	仅用于fs,dir池后端，指定池对应目录的文件模式
timestamps	提供卷的时间戳信息
encryption	指定卷的加密方式

属性/子元素	说明
@type	该属性仅能读取，显示卷的实际类型
name	存储池范围内唯一的卷名称
key	用于唯一性的识别卷，该子元素不能在创建卷的时候指定，它总是自动生成的
allocation	指定分配给卷的存储空间，如果卷是稀疏分配的，该值可以小与卷的逻辑大小。可用属性： unit 计量单位
capacity	指定卷的逻辑大小。可用属性： unit 计量单位

属性	说明
ipv6	yes/no，设置为yes时定义一个虚拟网络，该网络不指定网关的IPv6地址，但是允许客户机-客户机之间的通讯
trustGuestRxFilters	yese/no，设置连接到此VLAN的Domain的interface元素的同名属性

子元素	说明
bridge	说明如何创建让VLAN连接到物理网络的、宿主机上的网桥设备（虚拟网络交换机）： name 网桥设备的名称，这样所有使用此VLAN的客户机可以相互通信，网桥本身可以连接到真实局域网（LAN），取决于宿主机的配置当使用mode=nat\|route指定forward子元素，或者不指定forward子元素（隔离的VLAN）时，如果你不指定name属性，则libvirt会自动创建为网桥生成唯一名称并记住。libvirt推荐以virbr前缀指定name stp 是否启用 Spanning Tree Protocol，默认on delay 网桥转发的延迟秒数，默认0 macTableManager 告知libvirt，如何管理MAC地址表（用于判断数据包的出口），默认值kernel，可设置为libvirt。设置为libvirt可以提高性能，但是导致vlan tagging, multicast等功能失效。需要内核版本3.17+
domain	DHCP相关配置： name 定义DHCP服务器的DNS Domain（域名） localOnly 如果设置为yes，则name对应子域名的解析均由VLAN自己的DNS服务器负责，与宿主机的DNS无关；如果设置为no，则无法解析的DNS请求转发给宿主机DNS处理
forward	通过配置此元素，可以让VLAN连接到物理网络。如果不指定此子元素，则VLAN与其它网络隔离（isolated mode） mode 定义包转发方式： nat 所有连接到此VLAN的客户机、物理网络之间的流量，均forward到宿主机的IP路由栈。从宿主机外部看来，所有客户机均使用宿主机的IP地址。这种mode适合多个客户机需要访问物理网络，而宿主机仅仅允许用于一个公共IP地址的应用场景。如果网络分配的IPv6地址，那么IPv6流量通过plain路由转发，因为IPv6没有NAT的概念。同一VLAN上地址相互通信，不进行NAT route 来自客户机的流量forward到宿主机的IP路由栈，但是不进行NAT。要使用这种方式，LAN路由器必须包含适当的路由表项，将流量返回给宿主机（进而转发给对应客户机）。使用此方式，则客户机的入站/出站会话不受限制 open 类似于route，但是libvirt不会在宿主机上应用任何Firewall规则，也不支持设置dev属性 bridge 桥接到既有网桥，该模式下libvirt不去创建网桥设备：当配置了时：桥接到一个宿主机既有（非libvirt管理）的网桥当配置了时：桥接到一个既有的Open vSwitch网桥当配置了时：通过macvtap的桥接模式，直连到物理网络 dev 如果设置此属性，当mode=nat\|route时，Firewall规则将限定仅仅forward到dev设备上，否则应用到所有设备。当设置为wlan0时生成的iptables规则： # sudo iptables -t nat -L -nv Chain POSTROUTING (policy ACCEPT 0 packets, 0 bytes) pkts bytes target prot opt in out source destination 0 0 MASQUERADE tcp -- * wlan0 10.0.0.0/16 !10.0.0.0/16 masq ports: 1024-65535 0 0 MASQUERADE udp -- * wlan0 10.0.0.0/16 !10.0.0.0/16 masq ports: 1024-65535 0 0 MASQUERADE all -- * wlan0 10.0.0.0/16 !10.0.0.0/16 如果不设置dev，默认值为*，这就意味着：从虚拟机中访问任何非10.0.0.0/16网段时，不管路由出口是哪个网卡，封包到达宿主机后，会强制进行SNAT —— 哪怕目标地址在另外一台虚拟机上。这会让Flannel的host-gw模式失效，因为，Flannel的容器网络CIDR肯定不是10.0.0.0/16，这意味着跨节点（虚拟机）的CNI通讯会发生NAT，这显然是不期望发生的。示例： default 519cbf63-8ec0-4893-ba9c-0747430bdecd default 9bae4de8-ca58-48c5-ba58-109aebf8b954
bandwidth	配置虚拟网络的QoS，仅支持fowward mode=route\|nat或者隔离网络。配置示例：
ip	设置虚拟局域网的子网、网桥（DHCP服务器）的IP地址、DHCP和DNS配置 ip子元素该元素设置子网、网桥地址： ip/dhcp子元素设置DHCP自动分配的地址范围、静态映射MAC地址到IP：
dns	配置虚拟网络的DNS服务器，示例： fedora-10 fedora-10.local
mac	设置网桥的MAC地址，示例：

通信控制路径	说明
受管直接迁移	由libvirt客户端进程控制迁移的各个阶段。libvirt客户端必须能够连接到源、目的客户机的libvirt守护进程，并通过身份验证。源、目的客户机上的libvirt守护进程不需要相互通信如果libvirt客户端崩溃，或者丢失到libvirt守护进程的连接，则源宿主机上的迁移会取消，并在源宿主机上重启客户机的CPU
受管点对点迁移	libvirt客户端仅仅与源宿主机上的libvirt守护进程通信，由后者控制迁移的整个过程。源宿主机的libvirt守护进程会连接到目的宿主机的libvirt守护进程执行迁移操作，libvirt客户端崩溃或者断开不会影响迁移过程的推进注意，源宿主机上的libvirt守护进程使用自己的身份（通常是root）而不是客户端的身份连接到目标宿主机
非受管直接迁移	libvirt客户端、守护进程都不控制迁移过程，迁移由底层的Hypervisor负责。libvirt仅仅在Hypervisor的管理层次上触发迁移请求即使libvirt客户端、守护进程都崩溃，迁移过程还会继续推进