绿色记忆 » IaaS

Replacing Docker Desktop with Colima on macOS

Alex — Sun, 15 Mar 2026 03:29:02 +0000

Colima is one of the cleanest ways to run containers locally on macOS. It starts a Linux virtual machine through Lima, runs Docker, containerd, and optional k3s Kubernetes inside that VM, then exposes the result to host-side tools such as

docker

and

kubectl

. This note covers how Colima works on macOS, how to install it, which settings matter in practice, how to verify the setup, and which operational details usually trip people up.

Containers on macOS

Containers are not lightweight macOS processes. They depend on Linux kernel features such as namespaces, cgroups, and OverlayFS. macOS does not provide those interfaces, so Linux containers on macOS always run on top of a Linux virtual machine.

That is the right starting point for understanding Colima. It does not bypass virtualization. It makes that layer lighter and easier to work with. Lima manages the Linux VM. Colima configures the container runtime inside it and ties that runtime into the host command-line workflow.

What Colima is

Colima is best understood as a developer-friendly layer on top of Lima. Lima handles VM lifecycle, file sharing, and port forwarding. Colima takes care of the container runtime and exposes it to the tools you already use on the host.

Three properties matter most in day-to-day use:

It gives macOS a local environment for Docker, containerd, and optional Kubernetes.
It works with the host CLI instead of forcing everything through a desktop application workflow.
It supports multiple profiles, with each profile backed by its own VM. That makes it easy to split a lightweight Docker setup from a heavier Kubernetes setup.

Why Colima

For local container development on macOS, the real question is usually not whether containers can run. They can. The question is whether the environment is easy to reason about. Colima is appealing for three simple reasons.

The structure is clear. Host CLI, Linux VM, and container runtime are separate layers, which makes troubleshooting easier.
The controls are explicit. CPU, memory, disk, architecture, Kubernetes, networking, and mount behavior can all be configured through flags or YAML.
It fits an engineering workflow better than a GUI-first workflow. Scripts, profiles, and repeatable setup steps all work naturally.

If Docker Desktop is already installed, you do not necessarily have to remove it first. What matters more is knowing which Docker context is active, otherwise commands may end up talking to the wrong daemon.

Installation

On macOS, the simplest installation path is Homebrew. If you use the Docker runtime, you need the Docker CLI on the host. If you want local Kubernetes, you also need

kubectl

brew install colima docker kubectl

The first startup can stay close to the defaults. The goal is just to confirm that the host CLI can talk to the VM-backed runtime.

colima start
docker run --rm hello-world
docker ps

If you only need a Docker daemon, that is enough. If you also want local Kubernetes, enable it at startup:

colima start --kubernetes
kubectl get nodes

If more than one Docker daemon exists on the machine, check the active context before assuming anything is broken:

docker context ls
docker context use colima

Common configuration

Colima accepts both command-line flags and persistent YAML configuration. In practice,

colima start --edit

is usually the safest entry point because it opens the current profile configuration, lets you change it, and then starts the instance.

The example below is a sensible local-development baseline. It removes private registry assumptions and keeps only the settings that are useful in a public, general-purpose setup.

# Resource sizing. The defaults are fine for a single container,
# but small once you run an app stack and k3s together.
cpu: 4
memory: 8
disk: 100

# Immutable creation-time settings. Use the host architecture
# and keep Docker as the container runtime.
arch: host
runtime: docker

# Single-node k3s. Disable the default Traefik install so it
# does not collide with whatever ingress stack you already use.
kubernetes:
  enabled: true
  version: v1.35.0+k3s1
  k3sArgs:
    - --disable=traefik

# Give the VM a host-reachable address for debugging and direct checks.
network:
  address: true
  mode: shared

# On newer macOS versions, prefer Apple's virtualization framework.
vmType: vz

# On Apple Silicon, enable Rosetta for linux/amd64 userland binaries.
rosetta: true

# VZ plus virtiofs is a common high-performance combination on macOS.
mountType: virtiofs

# Make Docker and Kubernetes contexts active on startup.
autoActivate: true

# Install a small set of debugging tools inside the VM.
# Provision scripts should stay idempotent.
provision:
  - mode: system
    script: |
      apt-get update
      apt-get install -y vim curl htop git make dnsutils net-tools iputils-ping telnet

Configuration overview

The official documentation groups Colima settings into resources, VM settings, runtime settings, networking, mounts, SSH, provisioning, and environment variables. The table below summarizes the current upstream template, plus

rootDisk

, which is documented separately in the configuration guide.

Key	Default	Meaning	Notes
cpu	2	Number of vCPUs assigned to the VM.	Resource setting
memory	2	Memory assigned to the VM, in GiB.	Resource setting
disk	100	Container data disk size, in GiB.	Can only be increased after creation
rootDisk	20	Root filesystem disk size for the VM, in GiB.	Documented in the config guide
arch	host	VM architecture, either the host architecture or an explicit override.	Immutable after creation
runtime	docker	Container runtime.	Immutable after creation
modelRunner	docker	Backend used for AI model execution.	AI workload setting
hostname	null	Custom VM hostname.	Defaults to colima or colima-
kubernetes.enabled	false	Turns the built-in k3s cluster on or off.	Kubernetes group
kubernetes.version	latest stable	k3s version, which must match an actual k3s release string.	Kubernetes group
kubernetes.k3sArgs	--disable=traefik	Extra arguments passed to the k3s server.	Kubernetes group
kubernetes.port	0	Kubernetes API listen port. A value of 0 means "pick a free port".	Kubernetes group
autoActivate	true	Makes Docker and Kubernetes contexts active on startup.	Client-side behavior
network.address	false	Assigns a host-reachable IP address to the VM.	macOS only
network.mode	shared	Network mode. The docs list shared and bridged.	macOS only
network.interface	en0	Host network interface used in bridged mode.	Only used with bridged mode
network.preferredRoute	false	Uses the assigned VM IP as the preferred route.	Requires address=true
network.dns	[]	Custom DNS resolvers for the VM.	Network group
network.dnsHosts	host.docker.internal: host.lima.internal	Built-in DNS host mapping.	Network group
network.hostAddresses	false	Replicates host IP addresses into the VM for more specific port forwarding behavior.	Network group
network.gatewayAddress	192.168.5.2	Gateway address for the VM network.	Last octet must be 2
forwardAgent	false	Forwards the host SSH agent into the VM.	SSH group
docker	{}	Configuration block mapped directly into Docker daemon.json.	Advanced setting
vmType	qemu	Virtualization backend.	Immutable after creation
portForwarder	ssh	Port forwarding mechanism. Valid values are ssh, grpc, and none.	Network group
rosetta	false	Enables amd64 userland emulation on Apple Silicon.	Requires VZ
binfmt	true	Enables foreign-architecture binary emulation.	Cross-architecture compatibility
nestedVirtualization	false	Turns nested virtualization on.	Requires newer Apple Silicon and VZ
mountType	sshfs on qemu, virtiofs on vz	Host-to-VM mount driver.	Immutable after creation
mountInotify	false	Propagates inotify file events into the VM.	Experimental
cpuType	host	CPU type used by QEMU.	QEMU only
provision	[]	Provision scripts executed during startup.	Should be idempotent
sshConfig	true	Controls whether the host ~/.ssh/config is updated automatically.	SSH group
sshPort	0	SSH server port inside the VM. A value of 0 means a random port.	SSH group
mounts	[]	Extra host directory mounts. Setting it to null disables mounts completely.	Mount group
diskImage	""	Path to a custom VM disk image.	Advanced setting
env	{}	Environment variables injected into the VM.	Environment variable group

Template and instance configuration

The official docs effectively give Colima three configuration entry points. The first is

colima start --edit

, which edits the current instance configuration. The second is

colima template

, which edits the default template used by future instances. The third is environment variables such as

COLIMA_HOME

COLIMA_PROFILE

, and

DOCKER_CONFIG

, which change the config root, the active profile, and the Docker client config directory.

# Edit the current profile
colima start --edit

# Edit the default template
colima template

# Pick a specific editor
colima start --edit --editor code
colima template --editor code

It also helps to remember the config file locations:

Default profile:
```
~/.colima/default/colima.yaml
```
Named profile:
```
~/.colima//colima.yaml
```
Default template:
```
~/.colima/_templates/default.yaml
```

The docs also call out four settings as immutable after instance creation: arch, runtime, vmType, and mountType. If you need to change any of them, restart is not enough. Delete the instance and recreate it with the new values.

Verification

Once the configuration is in place, start with the VM status:

colima status

network.address

is enabled and

jq

is installed on the host, you can pull out the VM IP directly:

export COLIMA_VM_IP=$(colima status -j | jq -r .ip_address)
echo "$COLIMA_VM_IP"
ping "$COLIMA_VM_IP"

Then verify both the Docker and Kubernetes control paths:

docker ps
kubectl config get-contexts
kubectl get nodes

If you need to inspect the underlying VM directly, SSH into it:

colima ssh

Operational commands

The official command reference has a clear shape.

start

handles creation and startup. Lifecycle commands handle stop, restart, and delete. Status and connection commands let you inspect and enter the VM. On top of that, Colima also exposes helper commands for Kubernetes, containerd, templates, upgrades, shell completion, and AI model runners.

# Start the default profile
colima start

# Start with Kubernetes enabled
colima start --kubernetes

# List all profiles
colima list

# Stop the current instance
colima stop

# Delete the current instance and its container data
colima delete --data --force

Command list

Command	Typical form	Purpose
start	colima start [profile]	Creates or starts a profile. Most runtime and VM settings are applied here.
stop	colima stop [profile]	Stops an instance.
restart	colima restart [profile]	Restarts an instance.
delete	colima delete [profile]	Deletes an instance, with optional data removal.
status	colima status [profile]	Shows instance state, runtime, architecture, mount type, socket path, and related details.
list	colima list	Lists all profiles.
ssh	colima ssh [profile] -- command	Opens an SSH session or runs a single command inside the VM.
ssh-config	colima ssh-config [profile]	Prints the SSH configuration for the VM.
kubernetes start	colima kubernetes start [profile]	Enables Kubernetes on a running instance.
kubernetes stop	colima kubernetes stop [profile]	Stops Kubernetes.
kubernetes reset	colima kubernetes reset [profile]	Resets the built-in Kubernetes cluster.
model run	colima model run	Runs an AI model.
model serve	colima model serve	Serves an AI model through a web UI.
nerdctl	colima nerdctl --	Forwards nerdctl commands when the runtime is containerd.
nerdctl install	colima nerdctl install	Installs a standalone nerdctl binary for direct use.
template	colima template	Generates or edits the default configuration template.
update	colima update	Updates Colima itself.
prune	colima prune [profile]	Removes unused data to free disk space.
version	colima version	Prints version information.
completion	colima completion [shell]	Generates shell completion scripts.

start flag groups

colima start

is where most of the surface area lives. The official docs group its flags into nine categories: resources, runtime, VM, networking, mounts, Kubernetes, SSH, DNS, and configuration.

Group	Flags	Description
Resources	--cpus, --memory, --disk, --root-disk	Sets CPU, memory, container data disk, and root disk size.
Runtime	--runtime, --activate	Selects the runtime and controls whether contexts are activated automatically.
VM	--arch, --vm-type, --cpu-type, --hostname, --disk-image, --vz-rosetta, --nested-virtualization, --binfmt, --foreground	Controls architecture, virtualization backend, CPU model, disk image, and foreground mode.
Networking	--network-address, --network-host-addresses, --network-mode, --network-interface, --network-preferred-route, --gateway-address, --port-forwarder	Controls reachable IPs, bridged mode, routing, gateway behavior, and port forwarding.
Mounts	--mount, --mount-type, --mount-inotify	Controls host directory mounts and file event propagation.
Kubernetes	--kubernetes, --kubernetes-version, --k3s-arg, --k3s-listen-port	Enables k3s, selects a version, and passes extra server arguments.
SSH	--ssh-agent, --ssh-config, --ssh-port	Controls SSH agent forwarding, host SSH config generation, and the SSH port.
DNS	--dns, --dns-host	Sets DNS resolvers and custom host mappings.
Configuration	--edit, --editor, --template, --save-config, --env	Controls config editing, editor choice, template use, persistence of flags, and VM environment variables.

Other command flags

Command	Flags	Meaning
delete	--data, --force	--data removes images, volumes, and related data. --force skips confirmation.
list	--json	Outputs the profile list as JSON.
ssh	-- command	Runs a single command in the VM instead of opening an interactive shell.
model run / serve	--profile, --runner, --port	Selects the profile, the model runner backend, and the web UI port for serve .
completion	bash, zsh, fish, powershell	Generates completion scripts for the selected shell.

If a creation-time setting such as architecture, runtime, VM type, or mount driver does not change after a restart, that usually means nothing is wrong with the syntax. Those settings belong to instance creation, so the fix is to delete the instance and recreate it.

Common issues

Docker context

A large share of "Cannot connect to the Docker daemon" errors have nothing to do with Colima failing to start. The local

docker

CLI is often still attached to a different context. Check

docker context ls

first, then switch to

colima

if needed.

Image visibility

With the Docker runtime, images built or pulled inside one Colima instance are directly visible to Kubernetes in that same instance. That is one of the nicer parts of the setup because local builds do not need to be pushed to a remote registry just to test them. If you switch to the containerd runtime, the image workflow changes with it, and debugging should follow containerd namespaces rather than Docker assumptions.

VM IP and port publishing

network.address: true

makes the VM reachable from the host, which is useful for debugging, but it should not become a substitute for normal service exposure. Application traffic should still use container port publishing with

-p HOST:CONTAINER

, or the usual Kubernetes Service and Ingress paths.

The post Replacing Docker Desktop with Colima on macOS appeared first on 绿色记忆.

Terraform: a practical guide to infrastructure as code

Alex — Wed, 20 Oct 2021 02:15:51 +0000

Terraform is an infrastructure-as-code tool. You describe the target infrastructure in configuration files, and Terraform compares that description with real infrastructure, builds a plan, and then creates, updates, or deletes objects until the two match. The real job is not "writing cloud scripts." It is keeping an explicit model of infrastructure state.

What Terraform manages

Terraform can manage far more than basic IaaS objects. A Terraform configuration may include virtual machines, networks, DNS records, IAM bindings, managed databases, and even SaaS resources. The boundary is the provider model: if a provider can create, read, update, and delete a resource type, Terraform can manage it.

The CLI workflow has three moving parts:

The Terraform CLI itself.
Configuration files written in the Terraform language, which is based on HCL.
Providers, which are plugins that talk to cloud or service APIs.

Terraform reads the configuration, builds an execution plan, and decides which objects must be created, changed, replaced, or removed. It also tracks dependencies between resources and applies changes in parallel where that is safe.

CLI basics

Installing the CLI

Install Terraform from the official downloads page and place the binary on

$PATH

Useful global behavior

Terraform supports

-chdir=DIR

to run commands against a different working directory. That is handy in scripts and monorepos.

Shell completion can be installed with

terraform -install-autocomplete

and removed with

terraform -uninstall-autocomplete

Resource addresses

Many subcommands accept resource addresses. A few common forms are:

# resource_type.resource_name
aws_instance.foo

# indexed resource instance
aws_instance.bar[1]

# resource inside nested child modules
module.foo.module.bar.aws_instance.baz

CLI configuration file

The CLI configuration file path can be set with

TF_CLI_CONFIG_FILE

. On non-Windows systems, the default path is

$HOME/.terraformrc

. This file can configure plugin caching, credentials, and provider installation behavior.

plugin_cache_dir   = "$HOME/.terraform.d/plugin-cache"
disable_checkpoint = true

credentials "app.terraform.io" {
  token = "xxxxxx.atlasv1.zzzzzzzzzzzzz"
}

provider_installation {
  filesystem_mirror {
    path    = "/usr/share/terraform/providers"
    include = ["example.com/*/*"]
  }

  direct {
    exclude = ["example.com/*/*"]
  }

  dev_overrides {
    "hashicorp.com/edu/hashicups-pf" = "$(go env GOBIN)"
  }
}

dev_overrides

is mainly for provider development. It lets you test a local provider binary without going through the full registry and checksum flow.

Core commands

init

terraform init

prepares the working directory. Terraform commands are expected to run from a directory that contains Terraform configuration files. Initialization downloads providers and modules, sets up the backend, and creates local working data.

After initialization, the directory usually contains:

```
.terraform/
```
, which stores provider and module downloads.
```
terraform.tfstate
```
when the local backend is used.
```
terraform.tfstate.d/
```
when multiple workspaces are used with the local backend.

Some changes require re-running initialization, especially provider version changes, module source changes, and backend configuration changes.

terraform get

can download modules without doing the full set of

init

tasks.

terraform init -upgrade

upgrades providers and modules to newer versions that still satisfy the version constraints.

validate

terraform validate

checks whether the configuration is syntactically and structurally valid.

plan

terraform plan

shows the changes Terraform would like to make. It compares the desired state from configuration with the current state of the infrastructure, using both the state file and provider API reads.

Terraform's core execution loop is built around three commands:

plan

apply

, and

destroy

Saving a plan

terraform plan -out=FILE

A saved plan can later be passed to

terraform apply

Planning modes

Destroy mode, enabled by
```
-destroy
```
, builds a plan that removes everything tracked by the current configuration.
Refresh-only mode, enabled by
```
-refresh-only
```
, updates state and root outputs to match infrastructure changes made outside Terraform.

Input variables and concurrency

Use

-var 'NAME=VALUE'

to set input variables directly, and

-var-file=FILENAME

to load them from a file.

Use

-parallelism=n

to cap concurrency. The default is 10.

Other options

Option	Meaning
-refresh=false	Skip the pre-plan refresh step. This can reduce remote API calls, but Terraform may miss drift introduced outside Terraform.
-replace=ADDRESS	Force Terraform to plan a replacement for a single resource instance, such as aws_instance.example[0] .
-target=ADDRESS	Limit planning to a specific resource and its dependencies. Useful for debugging, but easy to abuse.
-input=false	Disable interactive prompts for root input variables. This is standard in CI and batch execution.

apply

terraform apply

executes the proposed changes. By default it runs an implicit plan first, though it can also execute a previously saved plan file.

The basic form is

terraform apply [options] [plan file]

Automatic approval

Use

-auto-approve

to skip manual approval.

Lock timeout

Use

-lock-timeout=DURATION

to wait for a state lock before failing.

destroy

terraform destroy

removes all infrastructure objects managed by the current configuration and workspace.

Other commands

Command	Meaning
console	Evaluate Terraform expressions interactively.
fmt	Format configuration files.
force-unlock	Remove a stale state lock. Use carefully, because unlocking while another process is still running can corrupt state.
graph	Generate a dependency graph of the configuration.
import	Attach an existing infrastructure object to a resource address in configuration.
login / logout	Manage credentials for remote services such as Terraform Cloud or a private module registry.
output	Show root module outputs.
providers	Show provider dependencies for the current module.
refresh	Refresh state to match remote infrastructure.
show	Display a saved plan or current state in human-readable form.
workspace	Manage and switch workspaces.

taint and untaint

taint

marks a resource instance as not fully functional. That flag does not immediately change infrastructure, but the next plan will propose destroying and recreating the object.

untaint

clears that status.

Terraform language basics

Blocks

A Terraform configuration is built from blocks. The syntax looks like this:

 "" "" {
   = 
}

A block is a container, and its meaning depends on the block type. In a

resource

block, the two labels identify the resource type and local name.

Depending on block type, the number of labels may be zero, fixed, or variable. A block body may contain arguments or nested blocks. Top-level blocks are limited to a fixed set of Terraform language constructs.

resource "aws_vpc" "main" {
  cidr_block = var.base_cidr_block
}

Arguments and identifiers

An argument assigns a value to a name. The available arguments and their types depend on context, usually the resource type or block type.

Identifiers are used for argument names, block type names, and many Terraform object names. They may contain letters, digits,

, and

, but cannot start with a digit.

Comments

Single-line comments can start with

//

. Multi-line comments use

/* ... */

Data types

Type	Meaning
string	Unicode text, for example "hello" .
number	Numeric value, for example 6.02 .
bool	true or false .
list / tuple	Ordered collections, for example ["us-west-1a", "us-west-1c"] .
map / object	Key-value structures, for example { name = "Mabel", age = 52 } .

null

represents the null value.

Strings and templates

Escape sequences

Terraform strings support standard escapes such as

\n

\r

\t

\"

\\

\uNNNN

, and

\UNNNNNNNN

Heredoc

block {
  value = <
Indented heredoc is also supported:
block {
  value = <<-EOT
  hello
    world
  EOT
}
JSON and YAML output
Terraform can render JSON or YAML from native values with helper functions such as 
jsonencode
:
example = jsonencode({
  a = 1
  b = "hello"
})
String templates
Terraform supports interpolation with 
${ ... }
 and template directives with %{ ... }
.
# expression interpolation
"Hello, ${var.name}!"

# conditional template
"Hello, %{ if var.name != "" }${var.name}%{ else }unnamed%{ endif }!"

# loop template
<
Whitespace trimming uses 
~
 inside template directives.
References
Terraform expressions can reference values from several sources:

.
 for managed resources.
var.
 for input variables.
local.
 for locals.
module.
 for child module outputs.
data..
 for data resources.
path.module
, path.root
, and path.cwd
 for filesystem paths.
terraform.workspace
 for the current workspace name.

Special values also appear in certain contexts, including 
count.index
, each.key
, each.value
, and self
.
Operators and function calls
Terraform supports logical operators such as 
!
, &&
, and ||
; arithmetic operators such as *
, /
, %
, +
, and -
; and the usual comparison operators.
(, )

# argument expansion
min([55, 2453, 2]...)
Conditional expressions
condition ? true_val : false_val

var.a != "" ? var.a : "default-a"
for expressions
A 
for
 expression transforms one complex value into another. Each input element may contribute zero or one output element.
[for s in var.list : upper(s)]

[for k, v in var.map : length(k) + length(v)]

{ for s in var.list : s => upper(s) }
You can also filter values with an 
if
 clause:
[for s in var.list : upper(s) if s != ""]
Grouping mode is enabled by adding 
...
 at the end of the value expression:
locals {
  users_by_role = {
    for name, user in var.users : user.role => name...
  }
}
dynamic blocks
Expressions can assign argument values, but they cannot directly repeat or conditionally emit nested blocks. That is where 
dynamic
 blocks come in.
resource "aws_elastic_beanstalk_environment" "example" {
  dynamic "setting" {
    for_each = var.settings
    content {
      namespace = setting.value["namespace"]
      name      = setting.value["name"]
      value     = setting.value["value"]
    }
  }
}
dynamic
 can generate nested blocks inside resources, data sources, providers, and provisioners. It cannot generate meta-argument blocks such as lifecycle
.
splat expressions
Splat expressions are a concise alternative to some 
for
 expressions:
[for o in var.list : o.id]
var.list[*].id

[for o in var.list : o.interfaces[0].name]
var.list[*].interfaces[0].name
Splat syntax works with list-like collections, not maps or objects. It can also turn a single optional value into a list-like expression in some contexts:
for_each = var.website[*]
Type constraints
Module and provider authors can use type constraints to validate user input. Terraform's type system is stronger than it first appears. You can constrain not only the outer type, but also the shape and element types inside it.
Collection and structural types
list(string)
list(number)
list(any)

object({ name = string, age = number })

tuple([string, number, bool])
Terraform also performs automatic conversions between similar complex types, such as object and map, or tuple and list, when the values fit the required shape. That flexibility is convenient, but it also means module authors should think carefully about how strict they want input constraints to be.
The special any placeholder
any
 is not really a type. It is a placeholder that Terraform resolves to a concrete type during type-checking. For example, a value such as ["a", "b", "c"]
 can satisfy list(any)
, and Terraform will infer a more specific list element type behind the scenes.
Optional object attributes
variable "with_optional_attribute" {
  type = object({
    a = string
    b = optional(string)
  })
}
Version constraints
Version constraints appear when selecting modules, providers, or the Terraform CLI version itself:
version = ">= 1.2.0, < 2.0.0"

=
!=
>  >=  <  <=
~>
~>
 allows changes to the rightmost specified version component.
Resources and providers
Managed resources
A 
resource
 block declares the desired shape of a real infrastructure object:
resource "resource_type" "local_name" {
  # arguments...
}
The resource type decides which arguments exist. The local name only matters inside the current module. Together, the type and local name form the module-local identity of the resource.
Lifecycle of a managed resource
When Terraform creates a new resource, it stores the remote object's identifier in state. On later runs, Terraform compares the real object with the configuration and decides whether to update it in place, replace it, or leave it alone.
When a configuration is applied, Terraform generally does four things:

Create resources that exist in configuration but not in state.
Destroy resources that exist in state but no longer exist in configuration.
Update resources whose arguments changed and support in-place changes.
Replace resources whose arguments changed but cannot be updated in place.

That last case depends heavily on provider behavior and the underlying API. Terraform decides the graph; the provider decides what each API operation can actually do.
Reading resource attributes
Within the same module, resource attributes are accessed as 
..
.
Besides user-supplied arguments, resources also expose read-only attributes that come back from the provider API, such as generated IDs.
Dependencies
Terraform infers most dependencies from expressions. If one resource argument references another resource, Terraform treats that as a dependency edge in the graph.
For dependencies that cannot be inferred from expressions, use the 
depends_on
 meta-argument.
Local-only resources
Some resource types do not represent remote infrastructure at all. They only store data in Terraform state. These local-only resources are often used for intermediate values such as generated random IDs or local key material.
Providers
Every resource type belongs to a provider. A provider is a Terraform plugin that implements one or more resource types and data source types.
A module needs providers for every resource it uses, and provider configuration is usually supplied by the root module. Providers can also expose multiple configurations, often to target different regions or accounts.
provider "google" {
  region = "us-central1"
}

provider "google" {
  alias  = "europe"
  region = "europe-west1"
}

resource "google_compute_instance" "example" {
  provider = google.europe
}
Resources implicitly depend on their selected provider configuration, so Terraform will not try to create the resource before the provider is ready.
Resource meta-arguments
depends_on
depends_on
 handles dependencies that expression analysis cannot see. It should be used sparingly.
resource "aws_iam_role" "example" {
  name = "example"
}

resource "aws_iam_role_policy" "example" {
  role = aws_iam_role.example.name
}

resource "aws_instance" "example" {
  iam_instance_profile = aws_iam_role.example.name

  depends_on = [
    aws_iam_role_policy.example,
  ]
}
count
count
 creates several similar resource instances from one block:
resource "aws_instance" "server" {
  count = 4

  ami           = "ami-a1b2c3d4"
  instance_type = "t2.micro"

  tags = {
    Name = "Server ${count.index}"
  }
}
Instances are referenced with index syntax such as 
aws_instance.server[0]
.
for_each
for_each
 is more flexible than count
 when instances differ in meaningful ways. It accepts a map or a set(string)
.
resource "azurerm_resource_group" "rg" {
  for_each = {
    a_group       = "eastus"
    another_group = "westus2"
  }

  name     = each.key
  location = each.value
}
Resources created by 
for_each
 are referenced with key syntax such as azurerm_resource_group.rg["a_group"]
.
The keys must be known before apply, cannot come from impure functions such as 
uuid
 or timestamp
, and cannot be sensitive values.
You can also chain 
for_each
 from one resource to another:
resource "aws_vpc" "example" {
  for_each   = var.vpcs
  cidr_block = each.value.cidr_block
}

resource "aws_internet_gateway" "example" {
  for_each = aws_vpc.example
  vpc_id   = each.value.id
}
lifecycle
The 
lifecycle
 block customizes replacement and update behavior:
resource "azurerm_resource_group" "example" {
  lifecycle {
    create_before_destroy = true
  }
}



Argument
Meaning




create_before_destroy
Create the replacement first, then delete the old object.


prevent_destroy
Fail if the plan would delete the resource.


ignore_changes
Ignore selected attribute differences when deciding whether an update is needed. The special value all
 suppresses all updates.



timeouts
Some resource types provide a nested 
timeouts
 block:
resource /* ... */ {
  timeouts {
    create = "60m"
    update = "30m"
    delete = "2h"
  }
}
Provisioners
Provisioners are the escape hatch for actions that do not fit Terraform's declarative model. Use them reluctantly. They add uncertainty and sit outside the normal planning model.
Terraform cannot reason very well about provisioner side effects. Provisioners also tend to need direct network access, credentials, and timing assumptions that make runs less predictable.
self, when, and on_failure
Provisioners use 
self
 to refer to the parent resource. They also support when
 and on_failure
:
resource "aws_instance" "web" {
  provisioner "local-exec" {
    when    = destroy
    command = "echo 'Destroy-time provisioner'"
  }
}
If a create-time provisioner fails, Terraform marks the resource tainted so the next 
apply
 can replace it.
connection settings
Many provisioners need SSH or WinRM. Connection details can be declared at the resource level or on a specific provisioner:
provisioner "file" {
  connection {
    type     = "ssh"
    user     = "root"
    password = var.root_password
    host     = var.host
  }
}

provisioner "file" {
  connection {
    type     = "winrm"
    user     = "Administrator"
    password = var.admin_password
    host     = var.host
  }
}
null_resource and common provisioners
null_resource
 exists for provisioner-driven workflows that are not tied to a real managed resource.
resource "null_resource" "cluster" {
  triggers = {
    cluster_instance_ids = join(",", aws_instance.cluster.*.id)
  }

  provisioner "remote-exec" {
    inline = [
      "bootstrap-cluster.sh ${join(" ", aws_instance.cluster.*.private_ip)}",
    ]
  }
}
The common built-in provisioners are:



Provisioner
Meaning




file
Copy files or directories from the machine running Terraform to the target resource.


local-exec
Run a local command after a resource action.


remote-exec
Connect to the remote resource and run commands there.



Data sources
A data source, declared with a 
data
 block, reads information from an external system and exposes the result to the configuration. It is still provider-backed, but it only reads.
data "aws_ami" "example" {
  most_recent = true

  owners = ["self"]
  tags = {
    Name   = "app-server"
    Tested = "true"
  }
}
If the query arguments are known during planning, Terraform reads the data source during refresh. If those arguments depend on values that will only exist after apply, Terraform delays the read until apply time.
Data sources support the same dependency patterns and most of the same meta-arguments as managed resources.
Variables, locals, and outputs
Modules in Terraform behave a bit like functions. Input variables are the parameters, outputs are the return values, and locals are internal named expressions.
Input variables
Input variables parameterize a module so it can be reused in different configurations. Root module variables can be set from the CLI or variable files. Child module variables must be passed through the corresponding 
module
 block.
variable "image_id" {
  type        = string
  description = ""

  validation {
    condition     = bool-expr
    error_message = ""
  }

  sensitive = false
}

variable "availability_zone_names" {
  type    = list(string)
  default = ["us-west-1a"]
}
Variable values can come from 
-var
, -var-file
, environment variables, or automatically loaded files such as terraform.tfvars
.
Locals
Locals are named expressions used to simplify or normalize configuration logic:
locals {
  common_tags = {
    Project = "demo"
    Owner   = "infra"
  }
}
Locals can reference other locals as long as there is no dependency cycle.
Outputs
Outputs expose values from a module to its caller or to the CLI:
output "vpc_id" {
  value = aws_vpc.main.id
}
How to read Terraform
Terraform makes more sense once you treat it as a graph engine wrapped around provider APIs. Configuration declares vertices and edges. State records which remote objects correspond to which addresses. Providers translate graph operations into API calls.
Most Terraform work is not about memorizing syntax. It is about knowing which values are known at plan time, where dependencies come from, what the provider can update in place, and when a resource has to be replaced. Once those four things are clear, the language stops feeling mysterious.

Argument	Meaning
create_before_destroy	Create the replacement first, then delete the old object.
prevent_destroy	Fail if the plan would delete the resource.
ignore_changes	Ignore selected attribute differences when deciding whether an update is needed. The special value all suppresses all updates.

Provisioner	Meaning
file	Copy files or directories from the machine running Terraform to the target resource.
local-exec	Run a local command after a resource action.
remote-exec	Connect to the remote resource and run commands there.

The post Terraform: a practical guide to infrastructure as code appeared first on 绿色记忆.

Ceph学习笔记

Alex — Sat, 21 Apr 2018 09:01:57 +0000

简介

Ceph是一个高性能、可扩容的分布式存储系统，它提供三大功能：

对象存储：提供RESTful接口，也提供多种编程语言绑定。兼容S3、Swift
块存储：由RBD提供，可以直接作为磁盘挂载，内置了容灾机制
文件系统：提供POSIX兼容的网络文件系统CephFS，专注于高性能、大容量存储

Ceph集群由一系列节点（机器）组成，在这些节点上运行以下组件：

Ceph OSDs：OSD即对象存储守护程序，但是它并非针对对象存储。OSD负责存储数据、处理数据复制、恢复、回填（Backfilling）、再平衡。此外OSD还对其它OSD进行心跳检测，检测结果汇报给Monitor
Monitors：监视器，维护集群状态的多种映射，同时提供认证和日志记录服务
MDSs：元数据服务器，存储CephFS的元数据信息

Ceph将客户端的数据作为对象存储在它的存储池中，基于CRUSH算法，Ceph计算出每个对象应该位于那个PG，计算哪个OSD负责存储PG

架构

组件层次

数据读写流程

术语

术语	说明
RADOS	可靠的、自动化的分布式对象存储（Reliable, Autonomic Distributed Object Store）是Ceph的核心之一 librados是RADOS提供的库，上层的RBD、RGW和CephFS都是通过librados访问RADOS的
RGW	即RADOS Gateway，指Ceph的对象存储API或者RGW守护进程
RBD	即RADOS Block Device，指Ceph提供的基于复制性的分布式的块设备。类似于LVM中的逻辑卷，RBD只能属于一个Pool
MDS	即Ceph元数据服务器，是CephFS服务依赖的元数据服务
CephFS	Ceph File System，是Ceph对外提供的文件系统服务
Pool	存储池是Ceph中一些对象的逻辑分组。它不是一个连续的分区，而是一个逻辑概念，类似LVM中的卷组（Volume Group）存储池分为两个类型： Replicated 复制型，对象具有多份拷贝，确保部分OSD丢失时数据不丢失，需要更多的磁盘空间。复制份数可以动态调整，可以置为1 Erasure-coded 纠错码型，节约空间，但是速度慢，不支持所有对象操作（例如局部写）
PG	归置组（Placement Group），PG是Pool组织对象的方式，便于更好的分配数据和定位数据，Pool由若干PG组成 PG 的数量会影响Ceph集群的行为和数据的持久性。集群扩容后可以增大PG数量：5个以下OSD设置为128即可 PG的特点：同一个PG中所有的对象，在相同一组OSDs上被复制。复制型Pool中PG可以有一个作为主（Primary）OSD，其它作为从OSD。一个对象仅仅属于一个PG，也就是说对象存储在固定的一组OSDs上 PG在OSD的/var/lib/ceph/osd/ceph-2/current目录下，表现为目录
CRUSH	CRUSH即基于可扩容哈希的受控复制（Controlled Replication Under Scalable Hashing），是一种数据分发算法，类似于哈希和一致性哈希。哈希的问题在于数据增长时不能动态添加Bucket，一致性哈希的问题在于添加Bucket时数据迁移量比较大，其他数据分发算法依赖中心的Metadata服务器来存储元数据因而效率较低，CRUSH则是通过计算、接受多维参数的来解决动态数据分发的场景 CRUSH算法接受的参数包括： Cluster map，也就是硬盘分布的逻辑位置，例如这有多少个机房、多少个机柜、硬盘是如何分布的等等。Cluster map是类似树的结构，子节点是真正存储数据的device，每个device都有id和权重，中间节点是bucket，bucket有多种类型用于不同的查询算法，例如一个机柜一个机架一个机房就是bucket Placement rules，它指定了一份数据有多少备份，数据的分布有什么限制条件（例如同一份数据不能放在同一个机柜里）。每个Rule对应一系列操作： take，选取一个bucket select，选择n个类型为t的项 emit，提交 CRUSH与一致性哈希最大的区别在于接受的参数多了Cluster map和Placement rules，这样就可以根据目前Cluster的状态动态调整数据位置，同时通过算法得到一致的结果基于此算法，Ceph存储集群能够动态的扩容、再平衡、恢复
Object	Ceph最底层的存储单元是Object，每个Object包含元数据和原始数据一个RBD会包含很多个Object
OSD	对象存储守护进程（Object Storage Daemon），负责响应客户端请求返回具体数据的进程。Ceph集群中有大量OSD 一个节点上通常只运行一个OSD守护进程，此守护进程在一个存储驱动器上只运行一个 filestore
EC	Erasure Code（EC），即纠删码，是一种前向错误纠正技术（Forward Error Correction，FEC），主要应用在网络传输中避免包的丢失，存储系统利用它来提高可靠性。相比多副本复制而言，纠删码能够以更小的数据冗余度获得更高数据可靠性，但编码方式较复杂，需要大量计算。纠删码只能容忍数据丢失，无法容忍数据篡改，纠删码正是得名与此 EC将n份原始数据，增加m份数据，并能通过n+m份中的任意n份数据，还原为原始数据。即如果有任意小于等于m份的数据失效，仍然能通过剩下的数据还原出来纠删码技术在分布式存储系统中的应用主要有三类：阵列纠删码（Array Code: RAID5、RAID6等）：RAID是EC的特例，RAID5只支持一个盘失效，RAID6支持两个盘失效，而EC支持多个盘失效 RS(Reed-Solomon)里德-所罗门类纠删码 LDPC(LowDensity Parity Check Code)低密度奇偶校验纠删码：目前主要用于通信、视频和音频编码等领域，与RS编码相比，LDPC编码效率要略低，但编码和解码性能要优于RS码以及其他的纠删码

组件

MON

监视器维护集群状态的多种映射—— 包monmap、OSD map、PG map、CRUSH map、MDS map，同时提供认证和日志记录服务。Ceph会记录Monitor、OSD、PG的每次状态变更历史（此历史称作epoch）。客户端连到单个监视器并获取当前映射就能确定所有监视器、 OSD 和元数据服务器的位置。依赖于CRUSH算法和当前集群状态映射，客户端就能计算出任何对象的位置，直连OSD读写数据。

Ceph客户端、其它守护进程通过配置文件发现mon，但是mon之间的相互发现却依赖于monmap的本地副本。所有mon会基于分布式一致性算法Paxos，确保各自本地的monmap是一致的，当新增一个mon后，所有现有mon的monmap都自动更新为最新版本。

监视器同步

使用多个mon时，每个mon都会检查其它mon是否具有更新的集群状态映射版本 —— 存在一个或多个epoch大于当前mon的最高epoch。太过落后的mon可能会离开quorum，同步后再加入quorum。执行同步时，mon分为三类角色：

Leader：具有最新版本状态映射的mon
Provider：同上，但是它的最新状态是从Leader同步获得
Requester：落后于Leader，必须获取最新集群状态映射才能重回quorum

时钟偏移

如果mon的时钟不同步，可能会导致：

守护进程忽略收到的消息（时间戳过时）
消息未及时收到时，超时触发得太快或太晚

OSD

日志

OSD使用日志的原因有两个：

速度：日志使得 OSD 可以快速地提交小块数据的写入， Ceph 把小片、随机 IO 依次写入日志，这样，后端文件系统就有可能归并写入动作，并最终提升并发承载力。因此，使用 OSD 日志能展现出优秀的突发写性能，实际上数据还没有写入 OSD ，因为文件系统把它们捕捉到了日志
一致性：OSD需要一个能保证原子化复合操作的文件系统接口。 OSD 把一个操作的描述写入日志，并把操作应用到文件系统。这确保了对象（例如归置组元数据）的原子更新。每隔一段时间（由filestore max sync interval 和 filestore min sync interval控制）， OSD 会停止写入，把日志同步到文件系统，这样允许 OSD 修整日志里的操作并重用空间。若失败， OSD 从上个同步点开始重放日志。日志的原子性表现在，它不使用操作系统的文件缓存（基于内存），避免断电丢数据的问题

注意：OSD进程在往数据盘上刷日志数据的过程中，是停止写操作的。

通常使用独立SSD来存储日志，原因是：

避免针对单块磁盘的双重写入 —— 先写日志，再写filestore
SSD性能好，可以降低延迟提升IOPS

OSD状态矩阵

	IN	OUT
UP	正常状态，OSD位于集群中，且接收数据	OSD虽然在运行，但是被踢出集群 —— CRUSH不会再分配归置组给它
DOWN	这种状态不正常，集群处于非健康状态	正常状态

Bluestore

在Luminous中，Bluestore已经代替Filestore作为默认的存储引擎。Bluestore直接管理裸设备，不使用OS提供的文件系统接口，因此它不会收到OS缓存影响。

使用Bluestore时，你不需要配备SSD作为独立的日志存储，Bluestore不存在双重写入问题，它直接把数据落盘到块上，然后在RockDB中更新元数据（指定数据块的位置）。

一个基于Bluestore的OSD最多可以利用到三块磁盘，例如下面的最优化性能组合：

使用HDD作为数据盘
使用SSD作为RockDB元数据盘
使用NVRAM作为RockDB WAL

一些概念：

Acting Set：牵涉到PG副本的OSD集合
Up Set：指Acting Set中排除掉Down掉的OSD的子集

Ceph依赖于Up Set来处理客户端请求。如果 Up Set 和 Acting Set 不一致，这可能表明集群内部在重均衡或者有潜在问题。

写入数据前，归置组必须处于 active 、而且应该是 clean 状态。假设一存储池的归置组有 3 个副本，为让 Ceph 确定归置组的当前状态，一归置组的主 OSD （即 acting set 内的第一个 OSD ）会与第二和第三 OSD 建立连接，并就归置组的当前状态达成一致意见。

由于以下原因，集群状态可能显示为HEALTH WARN：

刚刚创建了一个存储池，归置组还没互联好
归置组正在恢复
刚刚增加或删除了一个 OSD
刚刚修改了 CRUSH 图，并且归置组正在迁移
某一归置组的副本间的数据不一致
Ceph 正在洗刷一个归置组的副本
Ceph 没有足够空余容量来完成回填操作

这些情况下，集群会自行恢复，并返回 HEALTH OK 状态，归置组全部变为active+clean。

归置组状态表

状态	说明
Creating	在你创建存储池时，Ceph会创建指定数量的PG，对应此状态创建PG完毕后，Acting Set中的OSD将进行互联，互联完毕后，PG变为Active+Clean状态，PG可以接受数据写入
Peering	Acting Set中的OSD正在进行互联，它们需要就PG中对象、元数据的状态达成一致。互联完成后，所有OSD达成一致意见，但是不代表所有副本的内容都是最新的
Active	互联完成后归置组状态会变为Active
Clean	主OSD和副本OSD已成功互联，并且没有偏离的归置组。 Ceph 已把归置组中的对象复制了规定次数
Degraded	当客户端向主 OSD 写入数据时，由主 OSD 负责把数据副本写入其余副本 OSD 。主 OSD 把对象写入存储器后，在副本 OSD 创建完对象副本并报告给主 OSD 之前，主 OSD 会一直停留在 degraded 状态如果OSD挂了， Ceph 会把分配到此 OSD 的归置组都标记为 degraded。只要它归置组仍然处于active 状态，客户端仍可以degraded归置组写入新对象如果OSD挂了（down）长期（ mon osd down out interval ，默认300秒）不恢复，Ceph会将其标记为out，并将其上的PG重新映射到其它OSD
Recovering	当挂掉的OSD重启（up）后，其内的PG中的对象副本可能是落后的，副本更新期间OSD处于此状态
Backfilling	新 OSD 加入集群时， CRUSH 会把现有集群内的部分归置组重分配给它。强制新 OSD 立即接受重分配的归置组会使之过载，用归置组回填可使这个过程在后台开始回填执行期间，你可能看到以下状态之一： backfill_wait，等待时机，回填尚未开始 backfill_too_full，需要进行回填，但是因存储空间不足而不能完成
Remapped	负责某个PG的Acting Set发生变更时，数据需要从久集合迁移到新集合。此期间老的主OSD仍然需要提供服务，直到数据迁移完成
Stale	默认情况下，OSD每0.5秒会一次报告其归置组、出流量、引导和失败统计状态，此频率高于心跳如果：归置组的主 OSD 所在的 Acting Set 没能向MON报告或者其它MON已经报告，说主 OSD 已 down了则MONs就会把此归置组标记为 stale 集群运行期间，出现此状态，所有PG的主OSD挂了
Inactive	归置组不能处理读写请求，因为它们在等着一个持有最新数据的 OSD 回到 up 状态
Unclean	归置组里有些对象的副本数未达到期望次数，它们应该在恢复中
Down	归置组的权威副本OSD宕机，必须等待其开机，或者被标记为lost才能继续

CRUSH

简介

CRUSH 算法通过计算数据存储位置来确定如何存储和检索。 CRUSH授权Ceph 客户端直接连接 OSD ，而非通过一个中央服务器或代理。数据存储、检索算法的使用，使 Ceph 避免了单点故障、性能瓶颈、和伸缩的物理限制。

CRUSH 需要一张集群的 Map，利用该Map中的信息，将数据伪随机地、尽量平均地分布到整个集群的 OSD 里。此Map中包含：

OSD 列表
把设备汇聚为物理位置的“桶”（Bucket，也叫失败域，Failure Domain）列表
指示 CRUSH 如何复制存储池中的数据的规则列表

通过CRUSH map来建模存储设备的物理位置，Ceph能够避免潜在的关联性故障 —— 例如一个机柜中的设备可能共享电源、网络供应，它们更加可能因为断电而同时出现故障，Ceph会刻意的避免把数据副本放在同一机柜。

新部署的OSD自动被放置到CRUSH map中，位于一个host节点（OSD所在主机名）。在默认的CRUSH失败域（Failure Domain）设置中，副本/EC分片会自动分配在不同的host节点上，避免单主机的单点故障。在大型集群中，管理员需要更加仔细的考虑失败域设置，将副本分散到不同的Rack、Row。

crush location

OSD在CRUSH map中的位置，称为CRUSH location。此Location以如下形式来描述：

# 一系列键值对，虽然是有层次结构的，但是列出的顺序无所谓
# 键必须是有效的CRUSH type。默认支持root,regin, datacenter, room, row, pod, pdu, rack, chassis, host
# 你不需要声明所有键，默认情况下Ceph自动把新OSD放在root=default host=hostname下，因此这两个键你可以不声明
root=default row=a rack=a2 chassis=a2a host=a2a1

你可以在Ceph配置文件中，用crush location选项来声明。每当OSD启动时，它会验证当前CRUSH map是否匹配crush location设置，如果不匹配会更新CRUSH map。设置下面的选项可以禁用此行为：

osd crush update on start = false

crush结构

CRUSH map是一个树状的层次结构，它是对存储设备物理位置松散的建模。

在这个层次结构中，叶子节点是Device，对应了OSD守护程序（通常管理一块或几块磁盘）。设备的以name.id来识别，通常是osd.N。设备可以关联一个设备类别（Device Class），取值例如hdd、ssd，CRUSH rule可以使用到设备类别。

除了叶子节点之外的，都称为桶（Bucket），每个桶都具有类型，默认支持的类型包括root,regin, datacenter, room, row, pod, pdu, rack, chassis, host。大部分集群仅仅使用一部分类型的桶。

每个节点都具有一个权重（Weight）字段，指示子树负责存储的数据的比例。权重应该仅仅在叶子节点上设置，由Ceph自动向上类加。权重的单位通常是TB。

执行命令

ceph osd crush tree

可以查看CRUSH的层次，包括节点权重。

规则

CRUSH rule定义了数据如何跨越设备分布的规则。大部分情况下你可以通过命令行来创建CRUSH rule，少数情况下需要手工便捷CRUSH map。

TUNABLES

随着Ceph的发展，CRUSH算法被不断的优化。Ceph允许你自由选择新或旧的算法变体，这依赖Tunable实现。

要使用新的Tunable，客户端、服务器必须同时支持。Tunable的命名就是最初支持对应算法变体的那个Ceph版本的名称（例如jewel）。

RBD

缓存

用户空间的Ceph块设备实现（librbd）不能使用Linux的页面缓存，因此它自己实现了一套基于内存的LRU缓存——RBD Cacheing。

此缓存的行为类似于页面缓存，当OS发送屏障/Flush请求时，内存中的脏数据被刷出到OSD。

CephFS

这是一个POSIX兼容的文件系统，它使用Ceph的存储集群来保存数据。

一个Ceph集群可以有0-N个CephFS文件系统，每个CephFS具有可读名称和一个集群文件系统ID（FSCID）。每个CephFS可以指定多个处于standby状态的MDS进程。

每个CephFS包含若干Rank，默认是1个。Rank可以看作是元数据分片。CephFS的每个守护进程（ceph-mds）默认情况下无Rank启动，Mon会自动为其分配Rank。每个守护进程最多持有一个Rank。

如果Rank没有关联到ceph-mds，则其状态为failed，否则其状态为up。

每个ceph-mds都有一个关联的名称，典型情况下设置为所在的节点的主机名。每当ceph-mds启动时，会获得一个GID，在进程生命周期中，它都使用此GID。

如果MDS进程超过 mds_beacon_grace seconds没有和MON联系，则它被标记为laggy。

RGW

Ceph对象存储网关是基于librados构建的一套RESTful服务，提供对Ceph存储集群的访问。此服务提供两套接口：

S3兼容接口：Amazon S3的子集
Swift兼容接口： OpenStack Swift的子集

这两套接口可以混合使用。

对象存储网关由守护程序radosgw负责，它作为客户端和Ceph存储集群之间的媒介。radosgw具有自己的用户管理系统。

从firefly版本开始，对象存储网关在Civetweb上运行，Civetweb内嵌在ceph-radosw这个Daemon中。在老版本中，对象网关基于Apache+FastCGI。

Dashboard

Ceph仪表盘是一个内置的、基于Web的管理/监控工具。通过它你能够管理集群中各种资源。仪表盘作为Ceph Manager的模块实现。

命令

ceph orch

包含一系列集群编排有关的命令。

orch ls

列出对编排器可见的服务：

ceph orch ls [] [] [--export] [plain|json|json-pretty|yaml] [--refresh]

ceph orch ls
# 守护进程类型              数量                     归置规则               使用的镜像
NAME                       RUNNING  REFRESHED  AGE  PLACEMENT             IMAGE NAME                            IMAGE ID      
alertmanager                   1/1  77s ago    2w   count:1               docker.io/prom/alertmanager:v0.20.0   0881eb8f169f  
crash                          2/3  79s ago    2w   *                     docker.io/ceph/ceph:v15               mix           
grafana                        1/1  77s ago    2w   count:1               docker.io/ceph/ceph-grafana:6.7.4     80728b29ad3f  
mds.cephfs                     2/3  79s ago    2w   ceph-1;ceph-2;ceph-3  docker.io/ceph/ceph:v15               mix           
mgr                            1/1  77s ago    2w   ceph-1                docker.io/ceph/ceph:v15               5b724076c58f  
mon                            2/3  79s ago    40m  count:3               docker.io/ceph/ceph:v15               mix           
nfs.ganesha                    1/1  78s ago    7d   count:1               docker.io/ceph/ceph:v15               5b724076c58f  
node-exporter                  2/3  79s ago    2w   *                     docker.io/prom/node-exporter:v0.18.1  mix           
osd.all-available-devices      2/3  79s ago    2w   *                     docker.io/ceph/ceph:v15               mix           
prometheus                     1/1  77s ago    2w   count:1               docker.io/prom/prometheus:v2.18.1     de242295e225  
rgw.china.zircon               2/3  79s ago    2w   count:3               docker.io/ceph/ceph:v15               mix

orch ps

列出对编排器可见的守护进程，守护进程是服务的实例：

orch ps [] [] [] [] [plain|json|json-pretty|yaml] [--refresh] 

ceph orch ps
NAME                            HOST    STATUS         REFRESHED  AGE  VERSION    IMAGE NAME                            IMAGE ID      CONTAINER ID  
alertmanager.ceph-1             ceph-1  running (69m)  3m ago     2w   0.20.0     docker.io/prom/alertmanager:v0.20.0   0881eb8f169f  bef9ab4dcc98  
crash.ceph-1                    ceph-1  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  3bb0c129d4d4  
crash.ceph-2                    ceph-2  error          3m ago     2w     docker.io/ceph/ceph:v15                         
crash.ceph-3                    ceph-3  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  f5c22d2c854b  
grafana.ceph-1                  ceph-1  running (69m)  3m ago     2w   6.7.4      docker.io/ceph/ceph-grafana:6.7.4     80728b29ad3f  17d84abdd9e6  
mds.cephfs.ceph-1.nivqqf        ceph-1  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  4be1504a4c6f  
mds.cephfs.ceph-2.djnipz        ceph-2  error          3m ago     2w     docker.io/ceph/ceph:v15                         
mds.cephfs.ceph-3.cgngbk        ceph-3  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  7e514989bc6c  
mgr.ceph-1.adpioc               ceph-1  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  a66dd815c2b1  
mon.ceph-1                      ceph-1  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  0c87ed6da097  
mon.ceph-2                      ceph-2  error          3m ago     2w     docker.io/ceph/ceph:v15                         
mon.ceph-3                      ceph-3  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  836ec2a7c34d  
nfs.ganesha.ceph-3              ceph-3  running (68m)  3m ago     7d   3.3        docker.io/ceph/ceph:v15               5b724076c58f  440a1bcef7c5  
node-exporter.ceph-1            ceph-1  running (69m)  3m ago     2w   0.18.1     docker.io/prom/node-exporter:v0.18.1  e5a616e4b9cf  26bf34b93188  
node-exporter.ceph-2            ceph-2  error          3m ago     2w     docker.io/prom/node-exporter:v0.18.1            
node-exporter.ceph-3            ceph-3  running (69m)  3m ago     2w   0.18.1     docker.io/prom/node-exporter:v0.18.1  e5a616e4b9cf  fb60a5b31bfd  
osd.0                           ceph-2  error          3m ago     2w     docker.io/ceph/ceph:v15                         
osd.1                           ceph-1  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  49cad5daf8f8  
osd.2                           ceph-3  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  17ef075e16a4  
prometheus.ceph-1               ceph-1  running (69m)  3m ago     2w   2.18.1     docker.io/prom/prometheus:v2.18.1     de242295e225  7b61f27c6a0e  
rgw.china.zircon.ceph-1.dsctvb  ceph-1  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  b7d6166aae36  
rgw.china.zircon.ceph-2.ulzfto  ceph-2  error          3m ago     2w     docker.io/ceph/ceph:v15                         
rgw.china.zircon.ceph-3.qjhszd  ceph-3  running (69m)  3m ago     2w   15.2.10    docker.io/ceph/ceph:v15               5b724076c58f  5d1d6d6e6899

orch apply

设置某种组件（服务/守护进程）的数量或者归置规则，格式：

# 更新守护程序副本数量、归置规则，或者apply一段YAML格式的配置
orch apply [mon|mgr|rbd-mirror|crash|alertmanager|grafana|node-exporter|prometheus] []  
 [--dry-run] [plain|json|json-pretty|yaml] [--unmanaged] 

# 扩缩容iSCSI服务
orch apply iscsi    [] [] [--dry-run]
 [plain|json|json-pretty|yaml] [--unmanaged]  

# 更新指定fs_name的MDS实例数
orch apply mds  [] [--dry-run] [--unmanaged] [plain|json|json-pretty|yaml]

# 扩缩容NFS服务
orch apply nfs   [] [] [--dry-run] [plain|json|json-pretty|
 yaml] [--unmanaged] 

# 创建OSD守护进程
orch apply osd [--all-available-devices] [--dry-run] [--unmanaged] [plain|json|json-pretty|yaml]

# 为指定的Zone更新RGW实例的数量
orch apply rgw   [] [] [--ssl] [] 
[--dry-run] [plain|json|json-pretty|yaml] [--unmanaged]

下面是一些简单的例子：

# 指定副本数
ceph orch apply mon 3
# 制定归置规则
ceph orch apply mon ceph-1 ceph-2 ceph-3

# 为所有空闲设备创建OSD
ceph orch apply osd --all-available-devices

orch daemon

管理守护进程。

add子命令，添加一个守护进程：

# 添加守护进程
ceph orch daemon add [mon|mgr|rbd-mirror|crash|alertmanager|grafana|node-exporter|prometheus []

ceph orch daemon add iscsi    [] []
ceph orch daemon add mds  [] 
ceph orch daemon add nfs   [] []
ceph orch daemon add osd []
ceph orch daemon add rgw   [] [] [--ssl] []

redeploy子命令，重新部署某个守护进程，可以指定使用的镜像：

ceph orch daemon redeploy  []

如果节点上的守护进程容器被意外删除，也就是

podman ps

看不到对应容器，可以使用redeploy命令重新部署。

rm子命令，删除某个守护进程：

ceph orch daemon rm ... [--force]

你也可以启动、停止、重启、重新配置某个守护进程：

ceph orch daemon start|stop|restart|reconfig

如果需要启动、停止、重启、重新配置某种服务的所有守护进程：

ceph orch start|stop|restart|redeploy|reconfig

orch device

管理块设备。

显示某些主机上的块设备：

ceph orch device ls [...] [plain|json|json-pretty|yaml] [--refresh] [--wide]

清除块设备上的内容：

ceph orch device zap   [--force]

orch host

管理主机。

添加主机，可选的，添加标签：

ceph orch host add  [] [...]

为主机添加/移除标签：

ceph orch host label add  
ceph orch host label rm

列出主机：

ceph orch host ls [plain|json|json-pretty|yaml]

检查是否可以在不损害可用性的前提下，停止主机：

ceph orch host ok-to-stop

删除主机：

ceph orch host rm

修改主机地址：

ceph orch host set-addr

orch osd rm

删除OSD实例：

ceph orch osd rm ... [--replace] [--force]

检查删除OSD操作的进度：

ceph orch osd rm status [plain|json|json-pretty|yaml]

orch pause

暂停编排器的后台任务

orch resume

恢复暂停的编排器后台任务

orch set backend

选择编排器后端：

ceph orch set backend

orch status

显示使用的编排器后端，以及它的状态：

ceph orch status [plain|json|json-pretty|yaml]

ceph orch status
Backend: cephadm
Available: True

cephadm就是一个编排器后端，下文会有介绍。

orch upgrade

升级相关操作：

orch upgrade check [] []    # 检查镜像可用版本
orch upgrade pause                               # 暂停升级
orch upgrade resume                              # 恢复暂停的省级
orch upgrade start [] []    # 触发升级
orch upgrade status                              # 升级状态
orch upgrade stop                                # 停止进行中的升级

ceph log

查看日志：

ceph log last [] [debug|info|sec|warn|error] [*|cluster|audit|cephadm]

# 查看cephadm的最新日志
ceph log last cephadm

通过cephadm部署

Cephadm是最新的Ceph部署工具，他利用容器和Systemd，仅仅支持Octopus或者更新的版本。

Cephadm的外部依赖包括容器运行时（Docker或者Podman），以及Python3。

安装Cephadm

cd /tmp
curl --silent --remote-name --location https://github.com/ceph/ceph/raw/octopus/src/cephadm/cephadm
chmod +x cephadm

安装支持cephadm命令及其依赖：

./cephadm add-repo --release octopus
./cephadm install

单节点自举

cephadm bootstrap --mon-ip 10.0.2.1
cephadm shell -- ceph -s

上述命令会安装一个单MON节点的Ceph集群。改命令会：

创建MON和MGR守护进程到本机
为Ceph集群生成SSH密钥，并添加到roo用户的/root/.ssh/authorized_keys
生成最小化配置的 /etc/ceph/ceph.conf，用于和新集群通信
生成Ceph管理密钥 /etc/ceph/ceph.client.admin.keyring
复制公钥副本到/etc/ceph/ceph.pub

安装Ceph Common

cephadm install ceph-common

这样你就可以直接使用ceph命令了：

ceph status

添加节点

你需要提前为节点安装好Python3

列出现有节点：

ceph orch host ls

orch子命令用于Ceph集群相关的编排。

将集群的公钥安装到新节点的authorized_keys：

ssh-copy-id -f -i /etc/ceph/ceph.pub root@10.0.2.2
ssh-copy-id -f -i /etc/ceph/ceph.pub root@10.0.2.3

添加节点，注意要提供主机名：

ceph orch host add ceph-2
ceph orch host add ceph-3

修改节点地址

ceph orch host set-addr ceph-1 ceph-1.gmem.cc

添加MON

# 设置哪些子网中的主机可以作为MON
ceph config set mon public_network 10.0.2.0/24

# 确保三个MON
ceph orch apply mon 3

# 你也可以强制指定在哪些主机上部署MON
ceph orch apply mon ceph-1 ceph-2 ceph-3

添加OSD

使用下面的命令，可以将集群主机所有空闲设备作为OSD：

ceph orch apply osd --all-available-devices

将特定主机的特定磁盘作为OSD：

ceph orch daemon add osd ceph-1:/dev/vdb

部署CephFS

ceph fs volume create cephfs --placement="ceph-1 ceph-2 ceph-3"

部署RGW

ceph orch apply rgw china beijing '--placement=3' --port=80

部署NFS

NFS Ganesha是一个用户模式的NFS，支持v3 4.0 4.1 4.2，可以同时运行这些协议。

使用下面的命令来部署NFS Ganesha网关。

# 为NFS创建存储池
ceph osd pool create nfs-ganesha 64 replicated
#                   服务ID  存储池      命名空间
ceph orch apply nfs ganesha nfs-ganesha china

通过ceph-deploy部署

ceph-deploy是一个ceph部署工具，服务器只需要提供SSH、sudo、一些Python包即可完成ceph的安装部署。

准备好服务器集群后，选取一台作为管理主机，在其上执行：

wget -q -O- 'https://download.ceph.com/keys/release.asc' | sudo apt-key add -
#                                  debian-luminous
echo deb https://download.ceph.com/debian-jewel/ $(lsb_release -sc) main | sudo tee /etc/apt/sources.list.d/ceph.list
sudo apt-get update
sudo apt-get install ceph-deploy


# 也可以通过pip安装
apt install python-pip
pip install ceph-deploy


# BUG太多，直接Git最新源码安装吧
git clone https://github.com/ceph/ceph-deploy.git
cd ceph-deploy
chmod +x setup.py 
python setup.py install

安装NTP客户端

为了防止时钟不同步导致问题，建议安装NTP客户端，并保持和NTP服务器的同步。

创建部署用户

# 在所有节点上执行
ansible k8s -m raw -a 'useradd -d /home/ceph-ops -m ceph-ops'
ansible k8s -m raw -a 'echo "ceph-ops ALL = (root) NOPASSWD:ALL" | sudo tee /etc/sudoers.d/ceph-ops'
ansible k8s -m raw -a 'chmod 0440 /etc/sudoers.d/ceph-ops'
ansible k8s -m raw -a 'echo "ceph-ops:password" | chpasswd'

# 在管理节点上执行
# 生成密钥对，默认生成~/.ssh下的id_rsa和id_rsa.pub
ssh-keygen
# 将公钥拷贝到被管理机，便于免密码登陆
ansible k8s -m raw -a "mkdir /home/ceph-ops/.ssh"
ansible k8s -m raw -a "scp -oStrictHostKeyChecking=no root@master-node:/root/.ssh/id_rsa.pub /home/ceph-ops/.ssh/authorized_keys"
ansible k8s -m raw -a "chown -R ceph-ops:ceph-ops /home/ceph-ops/.ssh"

安装ceph

在集群中的管理主机上，执行：

ceph-deploy install {hostname [hostname] ...} --release {code-name}
# 示例：
ceph-deploy --username ceph-ops install Carbon Radon Neon Boron Xenon --release jewel
ceph-deploy --username ceph-ops install Carbon Radon Neon Boron Xenon  --release luminous


# 如果网络速度太慢，ceph-deploy会提前退出。这种情况下手工、通过代理安装为好
export http_proxy=http://10.0.0.1:8087
export https_proxy=http://10.0.0.1:8087

# 实际上就是安装这些软件
apt install ceph ceph-osd ceph-mds ceph-mon radosgw

卸载ceph

# 卸载软件
ceph-deploy uninstall {hostname [hostname] ...}
# 示例：
ceph-deploy --username ceph-ops uninstall  Carbon Radon Neon

# 下面的命令可以在Ubuntu上执行，清除配置文件
ceph-deploy purge {hostname [hostname] ...}
# 示例：
ceph-deploy --username ceph-ops purge  Carbon Radon Neon

创建集群

临时配置目录

# 在管理节点上执行：
# 创建一个目录，存放ceph-deploy生成的配置文件
mkdir /tmp/ceph
cd /tmp/ceph

新建集群

# 创建一个新集群，host为mon节点
ceph-deploy --cluster {cluster-name} new {host [host], ...}

# 示例
ceph-deploy --username ceph-ops new Xenon

分发配置文件

# 修改好当前目录的ceph.conf，执行下面的命令，分发到所有节点的/etc/ceph目录
# ceph.conf至少要提供网络配置
# public network = 10.0.0.0/16
# cluster network = 10.0.0.0/16

# 示例
ceph-deploy --username ceph-ops --overwrite-conf config push Carbon Radon Neon Boron Xenon

配置文件示例

[client]
rbd_cache = true
rbd_cache_max_dirty = 25165824
rbd_cache_max_dirty_age = 5
rbd_cache_size = 268435456

[global]
fsid = 9b92d057-a4bc-473e-b6ab-462092fcf205
max_open_files = 131072
mon_initial_members = Carbon, Radon, Neon
mon_host = 10.0.0.100,10.0.1.1,10.0.2.1
osd pool default min size = 1
osd pool default pg num = 384
osd pool default pgp num = 384
osd pool default size = 2
mon_max_pg_per_osd = 256
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx

[mon]
mon_allow_pool_delete = true

[osd]
public network = 10.0.0.0/16
cluster network = 10.0.0.0/16
filestore max sync interval = 15
filestore min sync interval = 10
filestore op thread = 32
journal max write bytes = 1073714824
journal max write entries = 10000
journal queue max bytes = 10485760000
journal queue max ops = 50000
ms_bind_port_max = 7100
osd_client_message_size_cap = 2147483648
osd_crush_update_on_start = true
osd_deep_scrub_stride = 131072
osd_disk_threads = 4
osd_journal_size = 10240
osd_map_cache_bl_size = 128
osd_max_backfills = 4
osd_max_object_name_len = 256
osd_max_object_namespace_len = 64
osd_max_write_size = 512
osd_op_threads = 8
osd_recovery_op_priority = 4

初始mon

执行下面的命令，部署初始mon节点，并收集key：

ceph-deploy --username ceph-ops mon create-initial

# 将在当前目录生成以下文件：
# ceph.client.admin.keyring
# ceph.bootstrap-mgr.keyring
# ceph.bootstrap-osd.keyring
# ceph.bootstrap-mds.keyring
# ceph.bootstrap-rgw.keyring
# ceph.bootstrap-rbd.keyring

# 目标主机的/etc/ceph/ceph.conf被创建，如果此文件已经存在，你必须用--overwrite-conf选项重新运行上述命令

增减mon

# 增加
ceph-deploy mon create {host-name [host-name]...}
# 删除
ceph-deploy mon destroy {host-name [host-name]...}

# 示例：
ceph-deploy --username ceph-ops mon create Radon
ceph-deploy --username ceph-ops mon create Carbon

密钥收集

以ceph-deploy作为工具，将一台主机作为OSD或MDS时，需要收集MON、OSD、MDS的初始keyring：

ceph-deploy gatherkeys {monitor-host}

# 示例：
ceph-deploy --username ceph-ops gatherkeys Carbon Radon Neon Boron Xenon

不再使用ceph-deploy或者另外建立一个新集群时，需要删除管理主机、本地目录的密钥：

ceph-deploy forgetkeys

增加OSD

列出磁盘

ceph-deploy disk list {node-name [node-name]...}
# 示例：
ceph-deploy --username ceph-ops disk list Carbon Radon Neon Boron Xenon

擦净分区

下面的命令可以擦净（删除分区表）磁盘，以供Ceph使用：

ceph-deploy disk zap {osd-server-name} {disk-name}
# 示例（luminous）：
ceph-deploy --username ceph-ops disk zap xenial-100 /dev/vdb
ceph-deploy --username ceph-ops disk zap xenial-100 /dev/vdc
ceph-deploy --username ceph-ops disk zap Carbon     /dev/sdb
ceph-deploy --username ceph-ops disk zap Radon      /dev/sdb
ceph-deploy --username ceph-ops disk zap Neon       /dev/sdb
# 示例（jewel）：
ceph-deploy --username ceph-ops disk zap xenial-100:vdb
ceph-deploy --username ceph-ops disk zap xenial-100:vdc
ceph-deploy --username ceph-ops disk zap Carbon:sdb
ceph-deploy --username ceph-ops disk zap Radon:sdb
ceph-deploy --username ceph-ops disk zap Neon:sdb

警告：所有数据会被删除。

准备OSD

此命令在ceph-deploy 2.0.0中已经废除

使用prepare命令来准备磁盘，会自动创建分区。在大部分OS中，activate会随后自动执行

ceph-deploy osd prepare {node-name}:{data-disk}[:{journal-disk}]
# 示例：
ceph-deploy --username ceph-ops osd prepare --fs-type xfs xenial-100:vdb
ceph-deploy --username ceph-ops osd prepare --fs-type xfs xenial-100:vdc
ceph-deploy --username ceph-ops osd prepare --fs-type xfs Carbon:sdb
ceph-deploy --username ceph-ops osd prepare --fs-type xfs Radon:sdb

建议：将日志存储在独立磁盘中以最优化性能，如果将日志和数据存储在一起，会有损性能。

激活OSD

此命令在ceph-deploy 2.0.0中已经废除

很多操作系统上，不需要手工激活OSD。

ceph-deploy osd activate {node-name}:{data-disk-partition}[:{journal-disk-partition}]
# 示例
ceph-deploy --username ceph-ops osd activate xenial-100:vdb
ceph-deploy --username ceph-ops osd activate xenial-100:vdc
ceph-deploy --username ceph-ops osd activate Carbon:sdb
ceph-deploy --username ceph-ops osd activate Radon:sdb

激活之后，系统运行ceph-osd进程，OSD进入up+in状态。

创建OSD

即prepare + activate：

ceph-deploy osd create {node-name}:{disk}[:{path/to/journal}]
# 示例
ceph-deploy osd create osdserver1:sdb:/dev/ssd1

# 示例（luminous）：
ceph-deploy --username ceph-ops osd create --data /dev/vdb --bluestore xenial-100  
ceph-deploy --username ceph-ops osd create --data /dev/vdc --bluestore xenial-100  
ceph-deploy --username ceph-ops osd create --data /dev/sdb --bluestore Carbon
ceph-deploy --username ceph-ops osd create --data /dev/sdb --bluestore Radon
# 指定分区也可以
ceph-deploy --username ceph-ops osd create --data /dev/sda3 --bluestore Carbon

增加MDS

ceph-deploy --username ceph-ops mds create Carbon

部署MGR

仅仅luminous支持，否则报错Error EACCES: access denied could not create mgr

ceph-deploy --username ceph-ops mgr create Carbon

部署RGW

ceph-deploy --username ceph-ops rgw create Radon

默认情况下RGW监听7480端口，你可以验证RGW是否正常工作：

curl http://Carbon:7480

清除主机

如果只想清除 /var/lib/ceph 下的数据、并保留 Ceph 安装包，可以：

ceph-deploy purgedata {hostname} [{hostname} ...]
# 示例：
ceph-deploy --username ceph-ops purgedata Carbon Radon

如果向同时清除数据、Ceph安装包：

ceph-deploy purge {hostname} [{hostname} ...]

管理和分发

管理主机

要允许某些主机以管理员权限执行 Ceph 命令，可以：

ceph-deploy admin {host-name [host-name]...}

# 示例：
ceph-deploy --username ceph-ops admin Carbon Radon Neon Boron Xenon

上述命令执行后，当前目录中的ceph.client.admin.keyring被分发到所有指定的主机，在这些主机上可以执行ceph -s命令了。

分发配置文件

要将修改过的、当前目录下的配置文件分发给集群内其它主机，可以：

ceph-deploy config push {host-name [host-name]...}

拉取配置文件

要获取某台主机的配置文件，可以：

ceph-deploy config pull {host-name [host-name]...}

配置

启动Ceph服务时，初始化进程会启动一系列守护进程，这些进程至少包含两类：

ceph-mon 监控进程
ceph-osd Ceph OSD的守护进程

要使用Ceph文件系统功能，则需要额外运行：

ceph-mds Ceph元数据服务

要使用Ceph对象存储功能，则需要额外运行：

ceph-rgw RADOS网关守护进程

运行时配置

要列出当前使用的所有配置值，可以访问守护进程的管理套接字。

在节点上执行下面的命令，获得管理套接字的位置：

ceph-conf --name mon.$(hostname -s) --show-config-value admin_socket
# /var/run/ceph/ceph-mon.a.asok

调用下面的命令列出所有配置：

ceph daemon /var/run/ceph/ceph-mon.a.asok config show

对于osd或者其它守护进程，也可以使用上述方式获取运行时配置。

配置文件

所有守护进程从同一个配置文件ceph.conf中检索自己感兴趣的信息。该配置文件中包含了集群身份、认证配置、集群成员、主机名、主机 IP 地址、Keyring路径、日志路径、数据路径，以及其它运行时选项。

按照以下顺序来搜索，后面的可以覆盖前面的：

编译进二进制文件的默认值
ceph-mon的集群中心配置数据库
本机上的配置文件：
1. /etc/ceph/ceph.conf
2. ~/.ceph/config
3. ./ceph.conf
环境变量：$CEPH_CONF
命令行参数：-c path/path
管理员在运行时设置的选项

一个Ceph进程启动时，它会先从命令行、环境变量、本地配置文件收集配置项，然后连接ceph-mon读取集群中心配置信息，然后启动。

配置项格式

配置项的名称唯一，标准格式是小写字母 + 下划线

在命令行中指定配置项时，下划线_可以替换为短横线

在配置文件中指定配置项时，下划线可以替换为空格或短横线

配置项列表

配置项	说明
公共选项 [global]
host	用于指定节点的主机名
mon host	指定mon节点的地址，逗号分隔
auth cluster required	集群身份验证设置，默认值cephx。如果启用，集群守护进程之间必须相互验证身份
auth service required	服务身份验证设置，默认值cephx。如果启用，服务端需要验证客户端身份
auth client required	客户端身份验证设置，默认值cephx。如果启用，客户端需要验证服务端身份
keyring	钥匙串的位置默认值：/etc/ceph/$cluster.$name.keyring,/etc/ceph/$cluster.keyring,/etc/ceph/keyring,/etc/ceph/keyring.bin
public network	公共网络配置，CIDR格式，多个则用逗号分隔
cluster network	集群网络配置，CIDR格式，多个则用逗号分隔如果配置了集群网， OSD 将把心跳、对象复制和恢复流量路由到集群网
fsid	存储集群的唯一标识，便于允许在同一套硬件上部署多个集群
max open files	设置操作系统级的 max open fds 建议值：131072
fatal signal handlers	如果设置为true，则安装 SEGV 、 ABRT 、 BUS 、 ILL 、 FPE 、 XCPU 、 XFSZ 、 SYS 信号处理器，用于产生有用的日志信息
chdir	进程一旦启动、运行就进入这个目录。默认 /
mon选项 [mon]
mon addr	监听地址:端口，可以针对每个mon.$id段分别配置，或者在mon段下配置： 10.0.0.10:6789,10.0.0.11:6789,10.0.0.12:6789
mon data	mon存储数据的路径，默认/var/lib/ceph/mon/$cluster-$id
mon initial members	集群初始化监视器ID，逗号分隔。这些MON必须在线以建立quorum，正确设置此参数可能让集群更快的可用
mon osd full ratio	磁盘利用率总计多少认为满了，默认 .95 当Ceph集群利用率达到此比率时，作为防止数据丢失的安全措施，它会阻止你读写 OSD 注意：删除OSD、OSD out都会导致利用率增加，甚至超过full ratio导致锁死如果一些 OSD 快满了，但其他的仍有足够空间，你可能配错了CRUSH权重
mon osd nearfull ratio	磁盘利用率总计多少认为快满了，默认.85
mon sync timeout	mon从其provider获取下一个更新消息的超时
mon tick interval	监视器的心跳间隔，单位为秒。默认5
mon clock drift allowed	监视器间允许的时钟漂移量。默认.050
mon timecheck interval	和 leader 的时间偏移检查间隔。默认300秒
mon osd min down reports	OSD连续多少次向mon报告某个OSD宕掉，mon才采纳，默认3
mon osd min down reporters	类似上面，mon要求多少个OSD都报告某个OSD宕掉，才采纳，默认1
mon osd min up ratio	把 OSD 标记为 down 前，保持处于 up 状态的 OSD 最小比例。默认.3
mon osd min in ratio	把 OSD 标记为 out 前，保持处于 in 状态的 OSD 最小比例。默认.3
mon osd auto mark in	是否把任何启动中的 OSD 标记为在集群中。默认false
mon osd auto mark auto out in	是否把正在启动、且被自动标记为 out 状态的 OSD 标记为 in 。默认true
mon osd auto mark new in	是否把正在启动的新 OSD 标记为 in 。默认true
mon osd down out interval	在 OSD 停止响应多少秒后把它标记为 down 且 out。默认300
mon osd downout subtree limit	最大可以把什么级别的CRUSH单元标记为out，默认rack
osd选项 [osd]
osd data	osd存储数据的路径，默认/var/lib/ceph/osd/$cluster-$id
osd map cache size	OSD map缓存大小，默认500M，建议1024
osd map cache bl size	OSD进程的In-Memory OSD map缓存大小，默认50，建议128
osd heartbeat interval	和其它OSD进行心跳检查的间隔，默认6秒
osd heartbeat grace	多久没有心跳，认为其它OSD宕掉
osd max write size	OSD一次写入的最大尺寸，默认90MB，建议512
osd mkfs options {fs-type}	为OSD新建文件系统时的选项
osd mount options {fs-type}	为OSD挂载文件系统时的选项
osd journal	OSD 日志路径，可以指向文件或块设备（例如SSD分区）默认 /var/lib/ceph/osd/$cluster-$id/journal
osd journal size	日志文件的尺寸（MB），如果为0，且日志路径为块设备，则自动使用整个设备推荐最少2G，有的用户则以 10GB 日志尺寸起步。合理的值是： osd journal size = {2 * (期望吞吐量* filestore max sync interval)} 期望吞吐量应考虑两个参数：硬盘吞吐量（即持续数据传输速率）、网络吞吐量，例如一个 7200 转硬盘的速度大致是 100MB/s 。硬盘和网络吞吐量中较小的一个是相对合理的吞吐量
osd client message size cap	客户端允许在内存中的最大数据量。默认524288000，建议2147483648
crush location	此OSD的CRUSH location设置
crush location hook	用于生成crush location的钩子
osd max scrubs	OSD 的最大并发洗刷操作数除了为对象复制多个副本外， Ceph 还要洗刷归置组以确保数据完整性。这种洗刷类似对象存储层的 fsck ，对于每个归置组， Ceph 生成一个所有对象的目录，并比对每个主对象及其副本以确保没有对象丢失或错配。轻微洗刷（每天）检查对象尺寸和属性，深层洗刷（每周）会读出数据并用校验和方法确认数据完整性
osd scrub begin hour	被调度的洗刷操作，允许的运行区间起点，默认0
osd scrub end hour	被调度的洗刷操作，允许的运行区间终点，默认24
osd scrub load threshold	系统负载高于该值，不进行洗刷操作，默认0.5
osd scrub min interval	系统负载不高的前提下，多久进行一次洗刷，默认每天一次，606024秒
osd scrub max interval	不论系统负载如何，最大多久进行一次洗刷，默认每周
osd deep scrub interval	深度洗刷的间隔，默认每周
osd deep scrub stride	深度洗刷允许读取的字节数。默认524288，建议131072
osd op threads	OSD 操作线程数， 0 禁用多线程。增大数量可以增加请求处理速度，默认2，建议8 增加此线程数会增大CPU开销
osd disk threads	硬盘线程数，用于在后台执行磁盘密集型操作，像数据洗刷和快照修复。默认1，建议4 增加此线程数会增大CPU开销
osd max backfills	当集群新增或移除 OSD 时，按照 CRUSH 算法应该重新均衡集群，它会把一些归置组移出或移入多个 OSD 以回到均衡状态。归置组和对象的迁移会导致集群运营性能显著降低，为维持运营性能， Ceph 用 backfilling 来执行此迁移，它可以使得 Ceph 的回填操作优先级低于用户读写请求单个 OSD 允许的最大回填操作数。默认10，建议4
osd backfill full ratio	OSD 的占满率达到多少时拒绝接受回填请求，默认85%
osd recovery op priority	恢复操作优先级，取值1-63，值越高占用资源越高。默认10，建议4
osd recovery delay start	当集群启动、或某 OSD 守护进程崩溃后重启时，此 OSD 开始与其它 OSD 们建立互联（Peering），这样才能正常工作如果某 OSD 崩溃并重启，通常会落后于其他 OSD ，也就是没有同归置组内最新版本的对象。这时， OSD 守护进程进入恢复模式并检索最新数据副本，并更新运行图。根据 OSD 宕掉的时间长短， OSD 的对象和归置组可能落后得厉害，另外，如果挂的是一个失效域（如一个机柜），多个 OSD 会同时重启，这样恢复时间更长、更耗资源为保持性能， Ceph 进行恢复时会限制恢复请求数、线程数、对象块尺寸，这样在降级状态下也能保持良好的性能对等关系建立完毕后， Ceph 开始对象恢复前等待的时间。默认0秒
osd recovery max active	每个OSD同时处理的活跃恢复请求最大数，增大此值能加速恢复，但它们会增加OSD的负担，甚至导致其无法提供服务
osd recovery max chunk	恢复时一次推送的数据块的最大尺寸，可以用于防止网络拥塞
osd recovery threads	数据恢复时的线程数，默认1
osd mount options xfs	OSD的xfs挂载选项，默认rw,noatime,inode64，建议rw,noexec,nodev,noatime,nodiratime,nobarrier
rbd客户端调优 [client]
rbd cache	是否启用RBD缓存，默认true 用于用户空间块设备实现——librbd
rbd cache size	RBD缓存大小，默认33554432，建议268435456
rbd cache max dirty	缓存为write-back时允许的最大dirty字节数，如果为0，使用write-through。默认25165824，建议25165824
rbd cache max dirty age	在被刷新到存储盘前dirty数据存在缓存的时间，默认1秒，建议5
filestore选项 [osd]
filestore max inline xattr size	每个对象在文件系统中存储XATTR（扩展属性）的最大尺寸，不得超过文件系统限制。默认值根据底层文件系统自动设置
filestore max inline xattrs	每个对象在文件系统中存储XATTR（扩展属性）的最大数量
filestore max sync interval	filestore 需要周期性地静默（暂停）写入、同步文件系统 —— 创建了一个提交点，然后就能释放相应的日志条目了。较高的同步频率可减小执行同步的时间及保存在日志里的数据量，但是日志利用率较低较低的频率使得后端的文件系统能优化归并较小的数据和元数据写入，因此可能使同步更有效默认5秒。建议15
filestore min sync interval	从日志到数据盘最小同步间隔。默认.01秒，建议10
filestore op threads	并发文件系统操作数。默认2，建议32
filestore flusher	是否启用回写器（Flusher）。回写器强制使用sync file range 来写出大块数据，这样处理可能减小最终同步的代价，禁用回写器有时可能提高性能默认false
filestore flusher max fds	回写器的最大文件描述符数量。默认512
filestore fsync flushes journal data	在fsync时是否也回写日志数据
filestore queue max ops	文件存储在阻止新操作加入队列之前，可以接受的最大操作数。取值示例25000
filestore queue max bytes	文件存储单个操作的最大字节数。取值示例10485760
filestore queue committing max ops	文件存储单次可以提交的最大操作数
filestore queue committing max bytes	文件存储单次可以提交的最大字节数
filestore journal parallel	允许并行记日志，对 btrfs 默认开
filestore journal writeahead	允许预写日志，对 xfs 默认开
journal选项 [osd]
journal dio	启用日志的Direct I/O，要求journal block align=true。默认true
journal aio	使用libaio库进行日志的异步写，要求journal dio =true。0.61+默认true
journal block align	日志按块对齐。默认true
journal max write bytes	日志写操作单次最大字节数。建议1073714824
journal max write entries	日志写操作单次最大条目数。建议10000
journal queue max ops	排队等候日志写的操作最大数。建议50000
journal queue max bytes	排队等候日志写的最大字节数。建议10485760000
journal align min size	对于大于此尺寸的数据，进行对齐操作
journal zero on create	在创建文件系统（ mkfs ）期间用 0 填充整个日志
pool/pg/crush相关 [global]
osd pool default size	对象默认副本份数
osd pool default min size	降级情况下，默认允许写操作的最小可用副本份数
osd pool default pg num	归置组的默认数量
osd pool default pgp num	为归置使用的归置组数量，默认值等同于 mkpool 的 pgp_num 参数。当前 PG 和 PGP 应该相同
mon max pool pg num	每个存储的最大归置组数量。默认65536
mon pg create interval	在同一个 OSD 里创建 PG 的间隔秒数。默认30
mon pg stuck threshold	多长时间无响应，则认为PG卡住了
mon pg min inactive	如果大于此数量的PG处于inactive状态超过mon_pg_stuck_threshold，则显示集群为HEALTH_ERR。默认1
mon pg warn min per osd	如果每OSD平均可用PG低于此数量，则显示集群为HEALTH_WARN。默认30
mon pg warn max per osd	如果每OSD平均可用PG高于此数量，则显示集群为HEALTH_WARN。默认300
osd crush chooseleaf type	在CRUSH 规则内用于 chooseleaf 的桶类型。用序列号而不是名字，默认1
osd crush initial weight	新加入到CRUSH map中的OSD的权重默认情况下，权重是OSD的磁盘容量，单位TB
osd pool default crush rule	创建复制型池时，使用的默认CRUSH规则。默认-1，表示使用ID最低的规则
osd pool erasure code stripe unit	EC池中的对象条带尺寸
osd pool default flags	新存储池的默认标志
ms选项
ms tcp nodelay	禁用 nagle 算法，默认true
ms initial backoff	出错时重连的初始等待时间
ms max backoff	出错重连时等待的最大时间
ms nocrc	禁用网络消息的 crc 校验， CPU 不足时可提升性能
mds选项
mds cache memory limit	MDS缓存最大使用多少内存

配置变量

变量	说明
$cluster	展开为存储集群的名称，在相同硬件上运行多个集群时有用
$type	展开为守护进程类型，例如mds, osd, or mon
$id	展开为守护进程或者客户端的标识符，对于osd.0其标识符为0
$host	展开为主机名
$name	展开为$type.$id
$pid	展开为守护进程的PID

配置段落

配置文件是INI格式的，可以分为以下段落：

段落	用途
global	这里的配置影响 Ceph 集群里的所有守护进程
osd	影响存储集群里的所有 ceph-osd 进程，覆盖global相同选项
mon	影响集群里的所有 ceph-mon 进程，覆盖global相同选项
mds	影响集群里的所有 ceph-mds 进程，覆盖global相同选项
client	影响所有客户端（如挂载的 Ceph 文件系统、挂载的块设备等等）

你还可以针对特定的实例配置段落：

[osd.1]，针对ID为1的OSD的配置
[mon.HOSTNAME]，针对名称为HOSTNAME的MON的配置

启动选项

进程连接ceph-mon、进行身份验证、抓取集群中心配置信息时需要一些配置，这些配置必须存放在本地：

选项	说明
mon_host	ceph-mon的主机列表
mon_dns_serv_name	ceph-mon的DNS名称，默认 ceph-mon
mon_data, osd_data, mds_data, mgr_data	守护进程在本地存放数据的路径
keyring, keyfile,key	连接ceph-mon进行身份验证时，使用的凭证

集群中心配置

ceph-mon集群管理了配置配置选项的数据库，用于供整个集群来消费。为了简化管理，大部分的Ceph选项应该在此数据库中管理。

集群中心配置的分段情况，和上文的配置段落一致。

不使用集群配置

传入命令行选项

--no-mon-config

，可以让进程不去读取集群中心配置，使用场景：

希望所有配置信息在本地文件中管理
ceph-mon目前宕机，但是需要进行一些维护工作

掩码

集群中心配置的配置项，可以关联一个掩码，用于限定选项应用到哪种守护进程、哪种客户端。例如host:foo，限制foo选项仅仅应用到运行在host上的进程或客户端。

命令

以下命令可以用于修改集群中心配置：

命令	说明
ceph config dump	Dump出整个集群中心配置
ceph config get [who]	获取指定的客户端/守护进程存放在集群中心的配置，例如mds.a
ceph config set [who] [opt] [val]	设置指定客户端/守护进程的配置项，示例： # 启用特定OSD的调试日志 ceph config set osd.123 debug_osd 20
ceph tell [who] config set [opt] [val]	临时设置配置项，目标重启后失效
ceph config show [who]	显示指定客户端/守护进程的当前使用的配置信息，可能和集群中心配置不一样
ceph config assimilate-conf -i -o	从-i选项读取所有配置信息，注入到集群中心配置。任何无法识别、无效的配置项存放到-o

存储池选项

在运行时，你可以使用

ceph osd pool set

命令来修改这些选项：

选项	说明
size	对象副本数
min_size	I/O 需要的最小副本数
crush_rule	此存储池使用的CRUSH规则
compression_algorithm	BlueStore使用的压缩算法，可选值lz4, snappy, zlib, zstd
compression_mode	BlueStore使用的压缩模式，可选值none, passive, aggressive, force
compression_min_blob_size compression_max_blob_size	BlueStore启用压缩的阈值
hashpspool	设置或者取消HASHPSPOOL标记。1设置0取消
nodelete	设置或取消NODELETE标记。1设置0取消
nopgchange	设置或取消NOPGCHANGE标记
nosizechange	设置或取消NOSIZECHANGE标记
write_fadvise_dontneed	设置或取消WRITE_FADVISE_DONTNEED标记
noscrub	设置或取消NOSCRUB标记
nodeep-scrub	设置或取消NODEEP_SCRUB标记
hit_set_type	启用缓存存储池的命中集跟踪，设置命中集类型，生产环境仅仅支持bloom
hit_set_count	为缓存存储池保留的命中集数量。此值越高， OSD消耗的内存越多
hit_set_fpp	bloom 命中集类型的误检率（false positive probability）
cache_target_dirty_ratio	缓存存储池包含的修改（脏）对象达到多少比例时就把它们回写到后端的存储池
cache_target_dirty_high_ratio	缓存存储池内包含的已修改（脏）对象达到什么比例时，缓存层代理就会更快地把脏对象刷回到后端存储池
cache_target_full_ratio	缓存存储池包含的干净对象达到多少比例时，缓存代理就把它们清除出缓存存储池
target_max_bytes	回写（Flushing）或清除（Evicting）对象的阈值，按字节数
target_max_objects	回写（Flushing）或清除（Evicting）对象的阈值，按对象数
scrub_min_interval	在负载低时，洗刷存储池的最大间隔秒数
scrub_max_interval	不管集群负载如何，都要洗刷存储池的最大间隔秒数
deep_scrub_interval	深度洗刷存储池的间隔秒数

运维

操控集群

UPSTART

Ubuntu系统下，基于ceph-deploy部署集群后，可以用这种方法来操控集群。

列出节点上所有Ceph进程：

initctl list | grep ceph

启动节点上所有Ceph进程：

start ceph-all

启动节点上特定类型的Ceph进程：

sudo start ceph-osd-all
sudo start ceph-mon-all
sudo start ceph-mds-all

启动特定类型的Ceph进程的某个实例：

sudo start ceph-osd id={id}
sudo start ceph-mon id={hostname}
sudo start ceph-mds id={hostname}

停止特定类型的Ceph进程的某个实例：

sudo stop ceph-osd id={id}
sudo stop ceph-mon id={hostname}
sudo stop ceph-mds id={hostname}

SYSVINIT

在 CentOS 、 Redhat 、 Fedora 和 SLES 发行版上可以通过传统的 sysvinit 运行 Ceph ， Debian/Ubuntu 的较老的版本也可以用此方法。

命令格式：

# 启动、重启或停止
sudo /etc/init.d/ceph [options] [start|restart|stop] [daemonType|daemonID]

# 示例：

# -a 表示在所有节点执行
sudo /etc/init.d/ceph -a start
sudo /etc/init.d/ceph -a stop
sudo /etc/init.d/ceph start osd
sudo /etc/init.d/ceph -a stop osd
sudo /etc/init.d/ceph start osd.0
sudo /etc/init.d/ceph stop osd.0

监控集群

检查集群状态

执行

ceph status

或则

ceph -s

可以查看集群的状态：

active+clean：说明集群健康运行
undersized+degraded：如果有OSD节点宕机，可能进入此状态。降级后还是可以正常读写数据
undersized+degraded+peered：如果超过min size要求的OSD宕机，则不可读写，显示为此状态。min size默认2，副本份数默认3。执行下面的命令可以修改min size：
```
ceph osd pool set rbd min_size 1
```
peered相当于已经配对（PG - OSDs），但是正在等待OSD上线
remapped+backfilling：默认情况下，OSD宕机5分钟后会被标记为out状态，Ceph认为它已经不属于集群了。Ceph会按照一定的规则，将已经out的OSD上的PG重映射到其它OSD，并且从现存的副本来回填（Backfilling）数据到新OSD

执行

ceph health

可以查看简短的健康状态。

执行

ceph -w

可以持续的监控发生在集群中的各种事件。

检查存储用量

执行命令

ceph df

可以查看集群的数据用量及其在存储池内的分布情况：

GLOBAL:
                       # 已用存储空间总量（包括所有副本）
    SIZE     AVAIL     RAW USED     %RAW USED 
    323G      318G        4966M          1.50 

# 这一段显示的数值，不包含副本、克隆、快照的用量
POOLS:
                             # 大概使用率              # 大概对象数
    NAME     ID     USED      %USED     MAX AVAIL     OBJECTS 
    rbd      1      3539M      1.14          300G        1018

检查MON状态

# 基本信息
ceph mon stat
# 详细信息
ceph mon dump
# 法定人数状态、monmap内容
ceph quorum_status -f json-pretty

检查MDS状态

ceph mds stat
ceph mds dump

检查OSD状态

通过PG这个中间层，Ceph确保了数据不会被绑死在某个特定的OSD。要追踪错误根源，你需要检查归置组、以及底层的OSD。

执行下面的命令，获取最简短的OSD状态：

ceph osd stat
# 输出
12 osds: 12 up, 12 in

执行

ceph osd dump

则可以获得详细信息，包括在CRUSH map中的权重、UUID、是in还是out：

osd.0 up   out weight 0 up_from 70 up_thru 172 down_at 65 last_clean_interval [51,60) 10.5.39.13:6800/48 10.5.39.13:6801/48 10.5.39.13:6802/48 10.5.39.13:6803/48 exists,up 354a6547-3437-46d6-a928-f5633eb7f059
osd.1 up   in  weight 1 up_from 74 up_thru 327 down_at 63 last_clean_interval [55,60) 10.5.39.42:6800/48 10.5.39.42:6801/48 10.5.39.42:6802/48 10.5.39.42:6803/48 exists,up 0fb4bb77-7c84-45ac-919a-2cc350fc62b9

执行

ceph osd tree

可以在OSD树中打印各OSD的位置、状态、权重。如果OSD的in数量大于up数量，可以通过此命令快速定位：

# 仅仅包含out的OSD
ceph osd tree out
# ID CLASS WEIGHT  TYPE NAME               STATUS REWEIGHT PRI-AFF 
# -1       4.89999 root default                                    
# -2             0     host k8s-10-5-38-25                         
#  2   hdd       0         osd.2              DNE        0

检查PG状态

执行命令

ceph pg stat

可以查看全局性的PG统计信息。

可以获取PG列表：

# 输出的第一列为PG ID
ceph pg dump
# 导出为JSON
ceph pg dump -o {filename} --format=json

执行下面的命令可以查看PG到OSD的映射关系：

# PG ID 格式为 存储池号.归置组ID，归置组ID为一个十六进制数字
ceph pg map 1.13d
# 输出
osdmap e790 pg 1.13d (1.13d) -> up [4,6,5] acting [4,6,5]

执行

ceph status

也可以看到PG的统计性信息。

执行

ceph pg 1.13d query

可以查看某个PG的非常细节的信息。

操控MON

增加

MONID=Neon
MONADDR=10.0.3.1:6789

# 创建目录
mkdir /var/lib/ceph/mon/ceph-$MONID

# 获取密钥和monmap
ceph auth get mon. -o /tmp/keyring
ceph mon getmap -o /tmp/monmap

# 初始化Mon
sudo ceph-mon -i $MONID --mkfs --monmap /tmp/monmap --keyring /tmp/keyring

# 启动Mon
ceph-mon -i $MONID --public-addr $MONADDR

删除

ceph mon rm Xenon

monmap

导出monmap：

ceph mon getmap -o monmap

打印monmap的内容：

monmaptool --print monmap

从monmap中删除一个MON：

monmaptool  monmap --rm xenon

添加一个MON到monmap中：

monmaptool  monmap --add Xenon 10.0.5.1:6789

导入monmap到MON节点：

ceph-mon -i Xenon --inject-monmap monmap

操控OSD

增加

# 空间使用率达到 near full 比率后， OSD 失败可能导致集群空间占满。因此，你需要提前扩容
# 执行下面的命令创建一个新的OSD，其OSD号会输出到控制台：

# uuid、id可选，如果不指定则自动生成。不能和现有OSD的uuid、id重复。不建议手工指定id
ceph osd create [{uuid} [{id}]]


# 如果希望OSD使用独立磁盘或者分区，可以先创建好文件系统，再挂载到适当位置
sudo mkfs -t {fstype} /dev/{drive}
# 示例
mkfs -t xfs -f /dev/sda3
# 挂载点
mkdir /var/lib/ceph/osd/ceph-{osd-num}
# 挂载
mount /dev/sda3 /var/lib/ceph/osd/ceph-14

# 初始化OSD数据目录：
ceph-osd -i {osd-num} --mkfs --mkkey

# 注册OSD认证密钥：
ceph auth add osd.{osd-num} osd 'allow *' mon 'allow rwx' -i /var/lib/ceph/osd/${cluster-name}-{osd-num}/keyring
# 示例
ceph auth add osd.14 osd 'allow *' mon 'allow rwx' -i /var/lib/ceph/osd/ceph-14/keyring

# 你需要把OSD加入到CRUSH map，这样数据才会分配到此OSD上： 
# 把OSD加入到CRUSH树的适当位置（桶）
# 如果指定了不止一个桶，则将OSD加入到最靠近叶子节点的桶中，并把此桶移动到你指定的其它桶中
# 如果你指定了root桶，则此OSD直接挂在root下，则是不建议的，CRUSH规则期望OSD位于主机这种桶类型的下级节点
ceph osd crush add {id-or-name} {weight}  [{bucket-type}={bucket-name} ...]
# 示例
ceph osd crush add 14 0.11589
# 如果设置osd_crush_update_on_start=true，则可以OSD启动后自动加入到CRUSH树并更新权重
# 警告，如果上述参数设置为false，且你没有将osd添加到适当位置，则osd可能无法承载PG

查询

ceph osd find 14
{
    "osd": 14,
    "ip": "10.0.1.1:6804/3146",
    "crush_location": {
        "host": "Carbon",
        "root": "default"
    }
}

启动

一旦启动了 OSD ，其状态就变成了 up+in ，此时可以通过ceph -w来观察数据迁移。归置组状态会变为active, some degraded objects，最终变回active+clean

# Debian/Ubuntu 上用 Upstart：
start ceph-osd id={osd-num}
# CentOS/RHEL 上用 sysvinit：
/etc/init.d/ceph start osd.{osd-num}
# 基于systemd的系统
systemctl start ceph-osd@14.service

删除

删除OSD之前，应该评估集群容量，保证操作之后，集群不会到达 near full 比率

# 首先从CRUSH map中移除
ceph osd crush remove {name}
# 删除其认证密钥
ceph auth del osd.{osd-num}
# 删除OSD
ceph osd rm {osd-num}

标记为宕机

ceph osd down {osd-num}

标记为踢出

踢出OSD后，Ceph会进行数据迁移，达到再平衡。归置组状态会变为active, some degraded objects，最终变回active+clean。

ceph osd out {osd-num}

对于某些小型测试集群，踢出一个OSD即导致CRUSH进入临界状态，某些归置组一直卡在active+remapped状态。如果遇到这种情况，你可以：

# 把被踢出的集群重新加进来
ceph osd in {osd-num}
# 将其权重标记为0，而非踢出
ceph osd crush reweight osd.{osd-num} 0

等待数据迁移完毕后，再将OSD踢出。

标记为进入

你可能需要更新CRUSH map才能让新进入的OSD接受数据：

ceph osd in {osd-num}

标记为丢失

标记OSD为lost，可能导致数据丢失，谨慎：

ceph osd lost {id} [--yes-i-really-mean-it]

设置权重

# 权重默认是以TB为单位
ceph osd reweight {osd-num} {weight}

清理OSD

ceph osd scrub {osd-num}
# 清理所有
ceph osd scrub all

深度清理OSD

ceph osd deep-scrub all

修复OSD

ceph osd repair N

测试OSD性能

ceph tell osd.N bench [TOTAL_DATA_BYTES] [BYTES_PER_WRITE]

空间不足处理

Ceph不允许向满的 OSD 写入数据，以免丢失数据。在运营着的集群中，你应该能收到集群空间将满的警告。mon osd full ratio 默认为 0.95 ，也就是说达到 95% 时它将阻止客户端写入数据； mon osd backfillfull ratio 默认为 0.90 ，也就是说达到容量的 90% 时它会阻塞，防止回填启动； OSD 将满比率默认为 0.85 ，也就是说达到容量的 85% 时它会产生健康警告。

使用下面的命令临时修改设置，否则你可能没有机会清理不需要的RBD以腾出空间：

ceph osd set-nearfull-ratio 0.95
ceph osd set-full-ratio 0.99
ceph osd set-backfillfull-ratio 0.99

操控MDS

增加

首先，在/var/lib/ceph/mds/mds.N创建一个数据挂载点。N是MDS的ID，通常就是主机名。

然后，修改Ceph配置，添加一个mds段。修改完毕后进行配置分发：

[mds.N]
host = {hostname}

如果启用了CephX，需要创建认证密钥：

sudo ceph auth get-or-create mds.N mon 'profile mds' mgr 'profile mds' mds 'allow *' osd 'allow *' > \
    /var/lib/ceph/mds/ceph-N/keyring

移除

执行下面的命令将目标mds标记为宕机：

ceph mds fail

移除MDS的/var/lib/ceph/mds/ceph-NAME下对应目录，然后，删除/etc/systemd/system/ceph-mds.target.wants/下的对应项目：

systemctl stop ceph-mds@Neon.service
systemctl disable ceph-mds@Neon.service
rm -rf /var/lib/ceph/mds/ceph-Neon

如果服务是通过/etc/init.d/ceph加载的，则：

service ceph stop
update-rc.d ceph disable

状态

查看守护进程的简短状态：

ceph mds stat

启动

service ceph start mds.NAME

引用守护进程

你可以使用多种方式来引用一个MDS守护进程：

ceph mds fail 5446     # 基于GID
ceph mds fail myhost   # 基于名称
ceph mds fail 3:0      # 基于FSCID:rank
ceph mds fail myfs:0   # 基于文件系统名称:rank

管理故障转移

和MDS进程的Standby行为相关的配置项包括：

# 如果设置为true则standby会持续的从Rank中读取元数据日志，从而维持一个有效的元数据缓存，这可以加速Failover
mds_standby_replay = true
# 仅仅作为具有指定名称的MDS的Standby
mds_standby_for_name = Carbon
# 仅仅作为指定Rank的Standby
mds_standby_for_rank
# 仅仅作为指定文件系统的Standby
mds_standby_for_fscid

如果不进行任何配置，没有持有Rank的那些MDS进程，可以作为任何Rank的Standby。

配置示例：

# a、b两个MDS互备，负责Rank 0
[mds.a]
mds standby replay = true
mds standby for rank = 0

[mds.b]
mds standby replay = true
mds standby for rank = 0

修改配置

ceph tell mds.{mds-id} config set {setting} {value}
# 示例
ceph tell mds.0 config set debug_ms 1

启用诊断信息

ceph mds stat

手工故障转移

标记当前活动MDS为失败，触发故障转移：

ceph mds fail 0

操控CephFS

创建

要创建一个文件系统，你至少需要两个存储池，一个存放数据，另外一个存放元数据。注意：

元数据池的副本份数要设置的高，因为任何元数据的丢失都会导致整个文件系统不可用
元数据池应该使用高速存储，例如SSD，因为这对客户端操作的延迟有直接影响

示例：

# ceph fs new   
# 示例，可以使用现有的存储池
ceph fs new cephfs rbd-ssd rbd-hdd

# Error EINVAL: pool 'rbd-ssd' already contains some objects. Use an empty pool instead.
# 出现上述错误，可以：
ceph fs new cephfs rbd-ssd rbd-hdd --force

创建了文件系统之后，在Luminous版本中，集群状态中显示：

mds: cephfs-1/1/1 up  {0=Carbon=up:active}

列出

ceph fs ls

状态

查看CephFS的详细状态，包括MDS列表、Rank列表等：

ceph fs status

删除

ceph fs rm  [--yes-i-really-mean-it]

关闭

mds set  down true

查看选项

要获取某个文件系统的信息，可以：

ceph fs get cephfs

设置选项

fs set   

# 示例
# 设置单个文件的大小，默认1TB
fs set cephfs max_file_size 1099511627776

增减数据池

fs add_data_pool  
fs rm_data_pool

设为默认

如果集群中有多个文件系统，而客户端在挂载时没有明确指定使用哪个，则使用默认文件系统：

ceph fs set-default cephfs

使用EC池

EC池可以作为Ceph的数据池，但是需要启用overwirte：

ceph osd pool set my_ec_pool allow_ec_overwrites true

注意：EC池不能用来存储元数据。

配额

CephFS支持对任何一个子目录进行配额。但是，需要注意以下限制：

需要客户端协作，因此被篡改过的客户端可以突破配额
配额不是非常精确的
内核客户端，仅仅在4.17+才支持配额。用户空间客户端fuse、libcephfs都支持配额

设置配额（设置为0则移除配额）：

setfattr -n ceph.quota.max_bytes -v 100000000 /some/dir     # 按字节数
setfattr -n ceph.quota.max_files -v 10000 /some/dir         # 按文件数

查看配额：

getfattr -n ceph.quota.max_bytes /some/dir
getfattr -n ceph.quota.max_files /some/dir

挂载CephFS

内核驱动

你可以直接使用Linux内核提供的驱动来挂载CephFS：

mkdir /mnt/cephfs
mount -t ceph 10.0.1.1:6789:/ /mnt/cephfs

如何启用了CephX，需要指定访问密钥，否则会报22错误：

mount -t ceph 10.0.1.1:6789:/ /mnt/cephfs -o name=admin,secret=AQDRNBZbCp3WMBAAynSCCFPtILwHeI3RLDADKA==
# 或者指定包含密钥的文件
mount -t ceph 10.0.1.1:6789:/ /mnt/cephfs -o name=admin,secretfile=/etc/ceph/admin.secret

如果报can't read superblock，说明客户端内核不支持。

要实现自动挂载，你需要修改fstab：

{ipaddress}:{port}:/ {mountpoint} {fs-type} [name=username,secret=key|secretfile=file],[{mount.options}]

# 示例
10.0.1.1:6789:/ /mnt/cephfs  ceph name=admin,secretfile=/etc/ceph/cephfs.key,noatime,_netdev    0       2

FUSE

要在用户空间挂载CephFS，你需要：

将Ceph配置文件拷贝到客户端，命名为/etc/ceph/ceph.conf

将Keyring拷贝到客户端，命名为/etc/ceph/ceph.keyring：

sudo scp -i ~/Documents/puTTY/gmem.key root@xenon.gmem.cc:/etc/ceph/ceph.client.admin.keyring /etc/ceph/ceph.keyring

执行挂载：

sudo ceph-fuse -m 10.0.1.1:6789 /mnt/cephfs
# ceph-fuse[847]: starting ceph client                                                                                                                                                     
# 2018-06-07 19:18:25.503086 7fa5c44e1000 -1 init, newargv = 0x7fa5cd643b40 newargc=9                                                                                                      
# ceph-fuse[847]: starting fuse

如果有多个CephFS，你可以为ceph-fuse指定命令行选项--client_mds_namespace，或者在客户端的ceph.conf中添加client_mds_namespace配置。

要实现自动挂载，你需要修改fstab：

none    /mnt/ceph  fuse.ceph ceph.id={user-ID}[,ceph.conf={path/to/conf.conf}],_netdev,defaults  0 0

# 示例
none    /mnt/ceph  fuse.ceph ceph.id=admin,_netdev,defaults  0 0
none    /mnt/ceph  fuse.ceph ceph.id=admin,ceph.conf=/etc/ceph/ceph.conf,_netdev,defaults  0 0

操控存储池

设置默认参数

# 设置新建存储池时使用的默认参数
osd pool default pg num = 128
osd pool default pgp num = 128

运行时修改参数

ceph osd pool set {pool-name} option-name num
# 示例
ceph osd pool set  .rgw.root pg_num 128
ceph osd pool set  .rgw.root pgp_num 128

创建存储池

# 创建存储池
# crush-ruleset-name：使用的默认CRUSH规则集名称
# 复制型的默认规则集由选项osd pool default crush replicated ruleset控制
# 
ceph osd pool create {pool-name} {pg-num} [{pgp-num}] [replicated] \
        [crush-ruleset-name] [expected-num-objects]
ceph osd pool create {pool-name} {pg-num}  {pgp-num}   erasure \
        [erasure-code-profile] [crush-ruleset-name] [expected_num_objects]


# 示例
ceph osd pool create rbd-ssd 384 replicated replicated_rule_ssd

初始化存储池

创建存储池之后，在管理节点上，使用rbd工具来初始化池：

rbd pool init

读写存储池配置

# 修改存储池配置
ceph osd pool set {pool-name} {key} {value}
# 读取存储池配置
ceph osd pool get {pool-name} {key}

列出存储池

ceph osd lspools
# 输出
# 1 rbd,3 rbd-ssd,4 rbd-hdd,

列出池中对象

# 列出存储池中的对象
rados -p rbd ls

显示池用量

# 显示所有存储池的使用情况
rados df

# 或者
ceph df

# 更多细节
ceph df detail
# USED       %USED       MAX AVAIL     OBJECTS     DIRTY     READ      WRITE      RAW USED 
# 用量       用量百分比                对象数量              读速度    写数量     用量x副本份数

存储池配额

# 设置最大对象数量、最大字节数
ceph osd pool set-quota {pool-name} [max_objects {obj-count}] [max_bytes {bytes}]
# 示例：
ceph osd pool set-quota data max_objects 10000

要取消配额，设置为0即可。

存储池快照

# 制作存储池快照
ceph osd pool mksnap {pool-name} {snap-name}
# 删除存储池快照
ceph osd pool rmsnap {pool-name} {snap-name}

删除存储池

# 删除存储池
ceph osd pool delete {pool-name} [{pool-name} --yes-i-really-really-mean-it]

# 示例
ceph osd pool rm rbd-ssd rbd-ssd --yes-i-really-really-mean-it
ceph osd pool rm rbd-hdd rbd-hdd --yes-i-really-really-mean-it

清空存储池

# 列出池中对象，逐个删除
for i in `rados -p rbd-ssd ls`; do echo $i; rados -p rbd-ssd rm $i; done

操控镜像

镜像就是块设备，所谓块是一系列连续的字节序列（例如512KB）。基于块的存储接口，是磁盘、CD、软盘、甚至磁带都使用的，是存储对象最广泛使用的方式。

Ceph的块设备具有以下特点：thin-provisioned（精简配备）、可改变大小、跨越多OSD存储。

列出镜像

rbd ls {poolname}

如果不指定池名称，则列出默认池中的镜像。

下面的命令可以列出池中延迟删除的镜像：

rbd trash ls {poolname}

查看镜像磁盘占用

rbd du --pool rbd-ssd

注意：rbd info输出的是thin provisioning的大小，不是实际磁盘空间占用。

除了上面的命令，还可以：

rbd diff k8s/kubernetes-dynamic-pvc | awk '{ SUM += $2 } END { print SUM/1024/1024 " MB" }'

查看镜像信息

rbd info {pool-name}/{image-name}
rbd info {image-name}

# 输出示例：
rbd image 'kubernetes-dynamic-pvc-0783b011-6a04-11e8-a266-3e299ab03dc6':
        # 总大小（thin-provisioning的大小，不是实际占用磁盘大小），分布在多少个对象中
        size 2048 MB in 512 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.7655b643c9869
        format: 2
        features: layering
        flags:
        create_timestamp: Thu Jun  7 11:36:58 2018

查看镜像状态

可以看到什么客户端在使用（watch）镜像：

rbd status k8s/kubernetes-dynamic-pvc-ca081cd3-01a0-11eb-99eb-ce0c4cdcd662
# Watchers:
#         watcher=192.168.106.18:0/756489925 client.254697953 cookie=18446462598732840981

创建镜像

rbd create --size {megabytes} {pool-name}/{image-name}
# 示例
# 创建大小为1G的镜像
rbd create test --size 1G

如果不指定存储池，则在默认池中创建镜像。

修改镜像大小

# 修改镜像大小
rbd --image test resize --size 2G
# 不但可以扩大，还可以缩小
rbd --image test resize --size 1G --allow-shrink

映射为块设备

# 将镜像映射为本地块设备，可以进行格式化、挂载
rbd map test
# 格式化
mkfs.xfs -f /dev/rbd0
# 挂载
mount /dev/rbd0 /test

# 显示映射到本地块设备的镜像
rbd showmapped

# 卸载
umount /dev/rbd0
# 解除映射
rbd unmap /dev/rbd0

删除镜像

rbd rm {pool-name}/{image-name}

rbd --image test rm

延迟删除

# 放入回收站
rbd trash mv {pool-name}/{image-name}
# 彻底删除
rbd trash rm {pool-name}/{image-id}
# 还原
rbd trash restore {image-id}

快照管理

# 创建快照
rbd snap create --image test --snap test_snap
# 列出镜像的所有快照
rbd snap ls --image test

# 回滚到指定快照
rbd snap rollback --image test --snap test_snap
# 另一种写法
rbd snap rollback rbd/test@test_snap

# 删除快照，注意删除是异步进行的，空间不会立刻释放
rbd snap rm --image test --snap test_snap
rbd snap purge --image test

# 保护快照
rbd snap protect --image test --snap test_snap
# 取消保护
rbd snap unprotect --image test --snap test_snap

# 清除指定镜像的所有快照
rbd snap purge {pool-name}/{image-name}

镜像克隆

# 克隆镜像，注意只有镜像格式2才支持克隆
# 从快照创建克隆
rbd clone --image test --snap test_snap test_clone
# 列出快照的所有克隆
rbd children --image test --snap test_snap
# 将父镜像（被克隆的镜像的快照）的数据扁平化到子镜像，从而解除父子关联
rbd flatten --image test_clone

镜像镜像

从Jewel开始，RBD镜像可以异步的跨越两个集群进行镜像（Mirroring）。通过配置，你可以镜像池中的所有、或者一部分镜像。

启用镜像复制

rbd mirror pool enable {pool-name} {mode}

# 启用名为local的集群的镜像复制，默认为pool
rbd --cluster local mirror pool enable image-pool pool
rbd --cluster remote mirror pool enable image-pool pool

mode取值：

pool，池中所有启用了journaling特性的镜像都被复制
image，只有明确配置的镜像才进行复制

禁用镜像复制

rbd mirror pool disable {pool-name}

rbd --cluster local mirror pool disable image-pool
rbd --cluster remote mirror pool disable image-pool

操控对象

创建对象

# 在池中创建一个对象，其内容来自文件
echo "Hello World" > /tmp/file
rados -p rbd put helloworld /tmp/file

查看对象

# 查看对象
rados -p rbd ls | grep helloworld

操控CRUSH

# 根据CRUSH Map，列出OSD树
ceph osd tree
#                 缩进显示树层次
# ID  CLASS WEIGHT  TYPE NAME               STATUS REWEIGHT PRI-AFF 
#  -1       5.73999 root default                                    
#  -2       0.84000     host k8s-10-5-38-25                         
#   0   hdd 0.84000         osd.0               up  1.00000 1.00000 
#  -5       0.45000     host k8s-10-5-38-70                         
#   1   hdd 0.45000         osd.1               up  1.00000 1.00000 

# 移动桶的位置
# 将rack01移动到{root=default} 
ceph osd crush move rack01 root=default

操控PG

镜像和PG对应关系

# 显示镜像和PG的关系
ceph osd map rbd  test
#                                                 此镜像存放在1.b5这个PG中
#                                                        此PG位于 osd.3 osd.1 osd.6中
#                                                                      主副本 位于osd.3中
# osdmap e26 pool 'rbd' (1) object 'test' -> pg 1.40e8aab5 (1.b5) -> up ([3,1,6], p3) acting ([3,1,6], p3)

# 显示PG和镜像的关系
ceph pg map 1.c0
# osdmap e1885 pg 1.c0 (1.c0) -> up [9,8] acting [9,8]

Dump出PG统计信息

Dump出所有PG：

pg dump {all|summary|sum|delta|pools|osds|pgs|pgs_brief [all|summary|sum|delta|pools|osds|pgs|pgs_brief...]}
# 示例
ceph pg dump [--format {format}]  # format取值plain或json

Dump出卡在指定状态中的PG的统计信息：

# threshold默认30秒
ceph pg dump_stuck inactive|unclean|stale|undersized|degraded [--format {format}] [-t|--threshold {seconds}]

修复PG

ceph pg repair 1.c0
# instructing pg 1.c0 on osd.9 to repair

优先回填或修复

ceph pg force-backfill  [...]  
ceph pg force-recovery  [...] 
# 取消
ceph pg cancel-force-backfill  [...]
ceph pg cancel-force-recovery  [...]

调整PG数量

计算PG合理值

参考官网的算法进行计算。

确保集群健康

执行调整之前，必须保证集群处于健康状态。

调整数据同步参数

为避免调整PG数量导致业务性能受到严重影响，应该调整一些参数：

ceph tell osd.* injectargs '--osd-max-backfills 1'
ceph tell osd.* injectargs '--osd-recovery-max-active 1'

其它相关的参数还包括：

osd_backfill_scan_min = 4 
osd_backfill_scan_max = 32 
osd recovery threads = 1 
osd recovery op priority = 1

调整PG数量

按照2的幂进行翻倍增长，例如原来32个，可以先调整为64个。

注意：不要一下子把PG设置为太大的值，这会导致大规模的rebalance，影响系统性能。

调整PGP数量

等到上一步操作后，集群变为Active+Clean状态后，再将pgp_num设置的和pg_num一致。

操控RGW

手工安装

# 在RGW节点安装软件
# yum install ceph-radosgw

RGW_HOST=$(hostname -s)

# 在RGW节点，配置ceph.conf
cat << EOF >> /etc/ceph/ceph.conf
[client.rgw.$RGW_HOST]
rgw_frontends = "civetweb port=7480"
EOF

# 拷贝配置到所有Ceph节点

# 在RGW节点，创建数据目录
mkdir -p /var/lib/ceph/radosgw/ceph-rgw.$RGW_HOST

# 在RGW节点，创建用户，输出Keyring
ceph auth get-or-create client.rgw.$RGW_HOST osd 'allow rwx' mon 'allow rw' \
    -o /var/lib/ceph/radosgw/ceph-rgw.$RGW_HOST/keyring
chown -R ceph:ceph /var/lib/ceph/radosgw

# 在RGW节点，启用Systemd服务
systemctl enable ceph-radosgw.target
systemctl enable ceph-radosgw@rgw.$RGW_HOST
systemctl start ceph-radosgw@rgw.$RGW_HOST

修改端口

[client.rgw.Carbon]
rgw_frontends = "civetweb port=80"

推送修改后的配置文件后，重启RGW服务：

systemctl restart ceph-radosgw.service

启用SSL

[client.rgw.Carbon]
# 指定包含了私钥和证书的PEM
rgw_frontends = civetweb port=443s ssl_certificate=/etc/ceph/private/keyandcert.pem
# Luminous开始，可以同时绑定SSL和非SSL端口
rgw_frontends = civetweb port=80+443s ssl_certificate=/etc/ceph/private/keyandcert.pem

配置桶分片

RGW在index_pool池中存放桶（Bucket）索引数据，此池默认名为.rgw.buckets.index。

从0.94版本开始，支持对桶索引进行分片，避免单个桶中对象数量过多时出现性能瓶颈：

# 每个桶的最大索引分片数，默认0，表示不支持分片
rgw_override_bucket_index_max_shards = 0

你可以在global段配置上面的选项。

启用用户

要使用RGW的RESTful接口，你需要：

创建初始的S3接口的用户
创建Swift接口的子用户
验证用户可以访问网关

要创建S3接口用户，需要在网关机上执行：

radosgw-admin user create --uid="rgw" --display-name="rgw"

access_key、secret_key会打印在屏幕上，要访问网关，客户端必须提供这两个key：

{
    "user_id": "rgw",
    "display_name": "rgw",
    "email": "",
    "suspended": 0,
    "max_buckets": 1000,
    "auid": 0,
    "subusers": [],
    "keys": [
        {
            "user": "rgw",
            "access_key": "IN01UCU1M1996LK6OM88",
            "secret_key": "AuuAbroSUlWLykbQHCbFLVO6RU2ozUEjIFkYeoqc"
        }
    ],
    "swift_keys": [],
    "caps": [],
    "op_mask": "read, write, delete",
    "default_placement": "",
    "placement_tags": [],
    "bucket_quota": {
        "enabled": false,
        "check_on_raw": false,
        "max_size": -1,
        "max_size_kb": 0,
        "max_objects": -1
    },
    "user_quota": {
        "enabled": false,
        "check_on_raw": false,
        "max_size": -1,
        "max_size_kb": 0,
        "max_objects": -1
    },
    "temp_url_keys": [],
    "type": "rgw"
}

要创建Swift子用户，需要在网关机上执行：

radosgw-admin subuser create --uid=alex --subuser=alex:swift --access=full

你需要为Swift子用户创建secret key：

radosgw-admin key create --subuser=alex:swift --key-type=swift --gen-secret

现在，你可以用自己熟悉的语言的S3、Swift客户端来验证用户是否可用。

操控桶

radosgw-admin bucket list                # 列出桶
radosgw-admin bucket limit check         # 显示桶的分片情况
radosgw-admin bucket link                # 将桶链接到用户
radosgw-admin bucket unlink              # 取消桶到用户的链接
radosgw-admin bucket stats               # 显示桶的统计信息
radosgw-admin bucket rm                  # 删除桶
radosgw-admin bucket check               # 检查桶索引
radosgw-admin bucket reshard             # 对桶进行重分片
radosgw-admin bucket sync disable        # 禁止桶同步
radosgw-admin bucket sync enable         # 启用桶同步

要创建桶，你需要使用合法的User ID + AWS Access Key发起请求，Ceph没有提供对应的命令行。需要注意以下约束：

桶名称必须唯一
桶名称不能格式化为IP地址
桶名称在3-63字符之间
桶名称不得包含大写字母、下划线，但是可以包含短横线
桶名称必须以小写字母或数字开头
桶名称必须由一系列的标签组成，每个标签用点号.分隔

我们可以使用MinIO客户端创建桶：

# 添加配置
#                                               access_key           secret_key
mc config host add rgw https://rgw.gmem.cc:7480 IN01UCU1M1996LK6OM88 AuuAbroSUlWLykbQHCbFLVO6RU2ozUEjIFkYeoqc

# 创建桶
mc mb rgw/test

现在通过Rgw命令行可以看到这个桶：

radosgw-admin buckets list
# [
#     "test"
# ]

管理身份验证

Ceph默认开启了cephx协议，加密认证需要消耗少量的资源。

启用cephx后，Cephe会自动在包括/etc/ceph/ceph.$name.keyring在内的位置寻找钥匙串，你可以指定keyring选项来修改默认路径，但是不推荐。

手工启用

在禁用了cephx的集群上，启用它的步骤为：

创建 client.admin 密钥：

# 如果你使用的自动部署工具已经生成此文件，切勿执行此命令，会覆盖
ceph auth get-or-create client.admin mon 'allow *' mds 'allow *' osd 'allow *' -o /etc/ceph/ceph.client.admin.keyring

创建mon集群所需的钥匙串、密钥：

ceph-authtool --create-keyring /tmp/ceph.mon.keyring --gen-key -n mon. --cap mon 'allow *'

将上述钥匙串复制到所有mon的mon data目录，例如：
```
cp /tmp/ceph.mon.keyring /var/lib/ceph/mon/ceph-a/keyring
```

为每个OSD生成密钥：

ceph auth get-or-create osd.{$id} mon 'allow rwx' osd 'allow *' -o /var/lib/ceph/osd/ceph-{$id}/keyring

为每个 MDS 生成密钥：

ceph auth get-or-create mds.{$id} mon 'allow rwx' osd 'allow *' mds 'allow *' -o /var/lib/ceph/mds/ceph-{$id}/keyring

添加以下内容到配置文件的global段：

auth cluster required = cephx
auth service required = cephx
auth client required = cephx

启动或重启Ceph集群：

# 停止当前节点上的所有Ceph守护进程
sudo stop ceph-all
sudo start ceph-all

禁用认证

修改配置文件global段：

auth cluster required = none
auth service required = none
auth client required = none

然后重启Ceph集群。

身份验证命令

# 列出keyring
ceph auth ls
# 添加OSD的keyring
ceph auth add {osd} {--in-file|-i} {path-to-osd-keyring}

管理CRUSH map

手工管理

任何时后你都可以Dump、反编译、修改、编译、注入CURSH map。如果要完全基于手工方式管理，不使用自动生成的CRUSH map，可以设置：

osd crush update on start = false

查看Dump

执行命令

ceph osd crush dump

，可以将整个CRUSH导出为可读形式：

# 下面的输出时安装后最初的状态，没有任何OSD

{   
    # 设备列表，最初为空                                                                                                                                                                       
    "devices": [],   
    # 桶类型定义列表                                                                                                                                                               
    "types": [                                                                                                                                                                           
        {                                                                                                                                                                                
            "type_id": 0,                                                                                                                                                                
            "name": "osd"                                                                                                                                                                
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 1,                                                                                                                                                                
            "name": "host"                                                                                                                                                               
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 2,                                                                                                                                                                
            "name": "chassis"                                                                                                                                                            
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 3,                                                                                                                                                                
            "name": "rack"                                                                                                                                                               
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 4,                                                                                                                                                                
            "name": "row"                                                                                                                                                                
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 5,                                                                                                                                                                
            "name": "pdu"                                                                                                                                                                
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 6,                                                                                                                                                                
            "name": "pod"                                                                                                                                                                
        },                                                                                                                                                                               
        {                                                                                                                                                                                
            "type_id": 7,                                                                                                                                                                
            "name": "room"                                                                                                                                                               
        },
        {
            "type_id": 8,
            "name": "datacenter"
        },
        {
            "type_id": 9,
            "name": "region"
        },
        {
            "type_id": 10,
            "name": "root"
        }
    ],
    # 桶列表，可以形成树状结构
    "buckets": [
        {
            "id": -1,
            "name": "default",
            "type_id": 10,
            "type_name": "root",
            "weight": 0,
            "alg": "straw2",
            "hash": "rjenkins1",
            "items": []
        }
        # 加入一个OSD节点（基于目录），自动生成如下两个Bucket：
        {                                                                                                                                                                          
            "id": -2,                                                                                                                                                              
            "name": "k8s-10-5-38-25",                                                                                                                                              
            "type_id": 1,                                                                                                                                                          
            "type_name": "host",                                                                                                                                                   
            "weight": 55050,                                                                                                                                                       
            "alg": "straw2",                                                                                                                                                       
            "hash": "rjenkins1",                                                                                                                                                   
            "items": [                                                                                                                                                             
                {                                                                                                                                                                  
                    "id": 0,                                                                                                                                                       
                    "weight": 55050,                                                                                                                                               
                    "pos": 0                                                                                                                                                       
                }                                                                                                                                                                  
            ]                                                                                                                                                                      
        },                                                                                                                                                                         
        {                                                                                                                                                                          
            "id": -3,                                                                                                                                                              
            "name": "k8s-10-5-38-25~hdd",                                                                                                                                          
            "type_id": 1,                                                                                                                                                          
            "type_name": "host",                                                                                                                                                   
            "weight": 55050,                                                                                                                                                       
            "alg": "straw2",                                                                                                                                                       
            "hash": "rjenkins1",                                                                                                                                                   
            "items": [                                                                                                                                                             
                {
                    "id": 0,
                    "weight": 55050,
                    "pos": 0
                }
            ]
        },

    ],
    # 规则列表
    "rules": [
        {
            "rule_id": 0,
            "rule_name": "replicated_rule",
            # 所属规则集
            "ruleset": 0,
            # 此规则是否用于RAID，取值replicated 或 raid4
            "type": 1,
            # 如果Pool的副本份数不在此范围内，则CRUSH不会使用当前规则
            "min_size": 1,
            "max_size": 10,
            "steps": [
                {
                    # 选择一个桶，并迭代其子树
                    "op": "take",
                    "item": -1,
                    "item_name": "default"
                },
                {
                    # 在上一步的基础上，确定每个副本如何放置
                    "op": "chooseleaf_firstn",
                    # 取值0，此Step适用pool-num-replicas个副本（所有）
                    # 取值>0 & < pool-num-replicas，适用num个副本
                    # 取值<0，适用pool-num-replicas -num个副本
                    "num": 0,
                    "type": "host"
                },
                {
                    "op": "emit"
                }
            ]
        }
    ],
    # 可微调参数，以及一些状态信息
    "tunables": {                                                                                                                                                                        
        "choose_local_tries": 0,                                                                                                                                                         
        "choose_local_fallback_tries": 0,                                                                                                                                                
        "choose_total_tries": 50,                                                                                                                                                        
        "chooseleaf_descend_once": 1,                                                                                                                                                    
        "chooseleaf_vary_r": 1,                                                                                                                                                          
        "chooseleaf_stable": 1,                                                                                                                                                          
        "straw_calc_version": 1,                                                                                                                                                         
        "allowed_bucket_algs": 54,    
        # 使用的Profile，执行ceph osd crush tunables hammer后此字段改变，连带其它tunables字段自动改变                                                                                                                                                   
        "profile": "jewel",                                                                                                                                                              
        "optimal_tunables": 1,                                                                                                                                                           
        "legacy_tunables": 0,                                                                                                                                                            
        "minimum_required_version": "jewel",                                                                                                                                             
        "require_feature_tunables": 1,                                                                                                                                                   
        "require_feature_tunables2": 1,                                                                                                                                                  
        "has_v2_rules": 0,                                                                                                                                                               
        "require_feature_tunables3": 1,                                                                                                                                                  
        "has_v3_rules": 0,                                                                                                                                                               
        "has_v4_buckets": 1,                                                                                                                                                             
        "require_feature_tunables5": 1,
        "has_v5_rules": 0
    },
    "choose_args": {}
}

编辑Dump

执行下面的命令，导出当前Map：

ceph osd getcrushmap -o curshmap

然后，需要反编译为文本：

crushtool -d curshmap -o curshmap.src

源文件内容示例：

# begin crush map
tunable choose_local_tries 0
tunable choose_local_fallback_tries 0
tunable choose_total_tries 50
tunable chooseleaf_descend_once 1
tunable chooseleaf_vary_r 1
tunable straw_calc_version 1
tunable allowed_bucket_algs 54

# devices

# types
type 0 osd
type 1 host
type 2 chassis
type 3 rack
type 4 row
type 5 pdu
type 6 pod
type 7 room
type 8 datacenter
type 9 region.Values.storageclass.fsType
type 10 root

# buckets
root default {
        id -1           # do not change unnecessarily
        # weight 0.000
        alg straw2           
        hash 0  # rjenkins1
}
# rules
rule replicated_rule {
        id 0
        type replicated
        min_size 1
        max_size 10
        step take default
        step chooseleaf firstn 0 type host
        step emit
}

# end crush map

我们可以根据实际需要，对源文件进行修改，例如将算法改为straw，解决CentOS 7上CEPH_FEATURE_CRUSH_V4 1000000000000特性不满足的问题：

sed -i 's/straw2/straw/g' curshmap.src

修改源文件完毕后，执行下面的命令编译：

crushtool -c curshmap.src -o curshmap

最后，注入最新编译的Map：

ceph osd setcrushmap -i curshmap
# 会输出修订版号

修改设备类型

默认情况下，Ceph自动根据硬件类型，设置OSD的设备类型为hdd, ssd或nvme。你可以手工进行设置：

# 你需要移除当前设置的设备类型，才能重新设置
ceph osd crush rm-device-class  [...]
# 示例
ceph osd crush rm-device-class osd.3 osd.4 osd.5 osd.6 osd.7 osd.8 osd.0 osd.10 osd.1 osd.12 osd.2 osd.13 


ceph osd crush set-device-class   [...]
# 示例
ceph osd crush set-device-class ssd osd.3 osd.4 osd.5 osd.6 osd.7 osd.8 osd.0 osd.10 osd.1 osd.12 osd.2 osd.13

查看规则

列出集群中的CRUSH rule：

ceph osd crush rule ls

Dump出规则的内容：

ceph osd crush rule dump

删除规则

ceph osd crush rule rm replicated_rule_ssd

创建规则

创建一个规则，仅仅使用指定类型的设备：

ceph osd crush rule create-replicated    
# 示例：仅仅使用ssd类型的设备，失败域为host，也就是数据副本必须位于不同的主机上
ceph osd crush rule create-replicated replicated_rule_ssd default host ssd
ceph osd crush rule create-replicated replicated_rule_hdd default host hdd

应用规则

为存储池指定所使用的规则：

ceph osd pool set  crush_rule 
# 修改规则
ceph osd pool set rbd-ssd crush_rule replicated_rule_ssd
# 创建存储池时指定规则
ceph osd pool create rbd-ssd 384 replicated replicated_rule_ssd

编辑规则

CRUSH rule的语法如下：

rule  {
        ruleset 
        type [ replicated | erasure ]
        min_size 
        max_size 
        # 根据桶名称来选取CRUSH子树，并迭代，可限定设备类型
        step take  [class ]
        # choose：选择指定数量、类型的桶
        # chooseleaf：选择指定数量、类型的桶，并选择每个这些桶的一个叶子节点
        step [choose|chooseleaf] [firstn|indep]  
        step emit
}

示例一，将主副本存放在SSD中，第二副本存放在HDD中：

rule ssd-primary-affinity {
    ruleset 0
    type replicated
    min_size 2
    max_size 3
    # 选择名为SSD的桶
    step take ssd
    # 在上述桶中的host类型的子树中选择叶子节点，存储1个副本（第一个）
    step chooseleaf firstn 1 type host
    # 执行
    step emit
    # 选择名为HDD的桶
    step take hdd
    # 在上述桶中的host类型的子树中选择叶子节点，存储N-1个副本（所有其它副本）
    step chooseleaf firstn -1 type host
    step emit
}

示意二，在第一个机架上存储两个副本，第二个机架上存储一个副本：

rule 3_rep_2_racks {
   ruleset 1
   type replicated
   min_size 2
   max_size 3
   step take default
   # 选择一个Rack，存储2个副本
   step choose firstn 2 type rack
   # 在上述选定的Rack中选择Host
   step chooseleaf firstn 2 type host
   step emit
}

增加OSD

如果要添加OSD到CRUSH map中，执行：

ceph osd crush set {name} {weight} root={root} [{bucket-type}={bucket-name} ...]
# 示例
ceph osd crush set osd.14 0 host=xenial-100
ceph osd crush set osd.0 1.0 root=default datacenter=dc1 room=room1 row=foo rack=bar host=foo-bar-1

调整OSD权重

ceph osd crush reweight {name} {weight}

移除OSD

ceph osd crush remove {name}

增加Bucket

ceph osd crush add-bucket {bucket-name} {bucket-type}

移动Bucket

ceph osd crush move {bucket-name} {bucket-type}={bucket-name}, [...]

移除Bucket

ceph osd crush remove {bucket-name}

调整Tunable

# 自动优化
ceph osd crush tunables optimal
# 最大兼容性，存在老旧内核的cephfs/rbd客户端时
ceph osd crush tunables legacy


# 选择一个PROFILE，例如jewel
ceph osd crush tunables {PROFILE}

避免作为主OSD

# weight在0-1之间，默认1，值越小，CRUSH 越避免将目标OSD作为主
ceph osd primary-affinity

分配Pool到特定OSD

使用CRUSH rule，可以限定某个Pool仅仅使用一部分OSD：

# SSD主机
host ceph-osd-ssd-server-1 {
      id -1
      alg straw
      hash 0
      item osd.0 weight 1.00
      item osd.1 weight 1.00
}

# HDD主机
host ceph-osd-hdd-server-1 {
      id -3
      alg straw
      hash 0
      item osd.4 weight 1.00
      item osd.5 weight 1.00
}

# HDD的根桶
root hdd {
      id -5
      alg straw
      hash 0
      item ceph-osd-hdd-server-1 weight 2.00
}

# SSD的根桶
root ssd {
      id -6
      alg straw
      hash 0
      item ceph-osd-ssd-server-1 weight 2.00
}


# 仅仅使用HDD的规则
rule hdd {
      ruleset 3
      type replicated
      min_size 0
      max_size 10
      step take hdd
      # 选择
      step chooseleaf firstn 0 type host
      step emit
}

# 仅仅使用SSD的规则
rule ssd {
      ruleset 4
      type replicated
      min_size 0
      max_size 4
      step take ssd
      step chooseleaf firstn 0 type host
      step emit
}

# 在SSD上存储主副本，其它副本存放在HDD
rule ssd-primary {
      ruleset 5
      type replicated
      min_size 5
      max_size 10
      step take ssd
      step chooseleaf firstn 1 type host
      step emit
      step take hdd
      step chooseleaf firstn -1 type host
      step emit
}

修改日志尺寸

前提条件：

集群处于OK状态
所有PG处于active+clean状态

步骤，针对每个需要改变尺寸的OSD，一个个的处理：

修改Cephe配置，设置
```
osd_journal_size = NEWSIZE
```
禁止数据迁移（防止OSD进入out状态）：
```
ceph osd set noout
```
停止目标OSD实例
刷出缓存：
```
ceph-osd -i  OSDID --flush-journal
```

删除日志：

# 基于Helm部署时，需要到宿主机上的osd_directory下寻找对应目录
cd /var/lib/ceph/osd/ceph-osd.OSDID
rm journal

创建一个新的日志文件：
```
ceph-osd --mkjournal -i OSDID
```
启动OSD

验证新的日志尺寸被使用：

# Helm安装的情况下，需要在OSD容器中执行
ceph --admin-daemon /var/run/ceph/ceph-osd.OSDID.asok config get osd_journal_size

确保集群处于OK状态，所有PG处于active+clean状态

处理完所有OSD后，执行：

ceph osd unset noout

，清除noout标记

性能测试

rbd bench

# 默认4K，可以--io-size定制
# 默认16线程，可以--io-threads定制

# 随机读
rbd bench -p rbd-hdd --image benchmark --io-total 128M --io-type read --io-pattern rand
# elapsed: 25 ops:  32768 ops/sec:  1284.01  bytes/sec: 5259316.53
# elapsed: 15 ops: 327680 ops/sec: 20891.46  bytes/sec: 85571410.91
# HDD差20倍

# 顺序读
rbd bench -p rbd-hdd --image benchmark --io-total 64M --io-type read --io-pattern seq
# elapsed: 46 ops:  163840 ops/sec:   3528.06  bytes/sec: 14450938.87
# elapsed: 45 ops: 1638400 ops/sec:   35672.87 bytes/sec: 146116057.32
# HDD差10倍

# 随机写
rbd bench -p rbd-hdd --image benchmark --io-total 128M --io-type write --io-pattern rand
# elapsed: 85  ops:  32768 ops/sec: 383.24  bytes/sec: 1569743.22
# elapsed: 111 ops: 327680 ops/sec: 2936.78 bytes/sec: 12029055.24
# HDD差7倍

# 顺序写
rbd bench -p rbd-hdd --image benchmark --io-total 128M --io-type write --io-pattern seq
# elapsed: 3  ops: 32768  ops/sec:  9382.16 bytes/sec: 38429334.91
# elapsed: 17 ops: 327680 ops/sec: 18374.69 bytes/sec: 75262749.05
# HDD差1倍

运行时修改参数

要动态、临时（重启后消失）的修改组件的参数，可以使用tell命令。

控制恢复进程

# 临时修改所有OSD和恢复相关的选项
ceph tell osd.* injectargs '--osd-max-backfills 1'             # 并发回填操作数
ceph tell osd.* injectargs '--osd-recovery-threads 1'          # 恢复线程数量
ceph tell osd.* injectargs '--osd-recovery-op-priority 1'      # 恢复线程优先级  
ceph tell osd.* injectargs '--osd-client-op-priority 63'       # 客户端线程优先级
ceph tell osd.* injectargs '--osd-recovery-max-active 1'       # 最大活跃的恢复请求数

管理Watcher

加入黑名单

可以将RBD上的Watcher加入黑名单，这样可以解除RBD的Watcher，再其它机器上挂载RBD：

rbd status  kubernetes-dynamic-pvc-22d9e659-6e31-11e8-92e5-c6b9f35768f0                                                                                                     
# Watchers:                                                                                                                                                                                
#         watcher=10.0.3.1:0/158685765 client.3524447 cookie=18446462598732840965

# 添加到黑名单
ceph osd blacklist add 10.0.3.1:0/158685765
# blacklisting 10.0.3.1:0/158685765 until 2018-08-21 18:04:31.855791 (3600 sec)

rbd status  kubernetes-dynamic-pvc-22d9e659-6e31-11e8-92e5-c6b9f35768f0
# Watchers: none

显示黑名单

ceph osd blacklist ls
# listed 1 entries
# 10.0.3.1:0/158685765 2018-08-21 18:04:31.855791

移除黑名单

ceph osd blacklist rm 10.0.3.1:0/158685765

清空黑名单

ceph osd blacklist clear

RADOS管理

管理池

# 列出池
rados lspools
.rgw.root
default.rgw.control
default.rgw.meta
default.rgw.log
rbd
rbd-ssd
rbd-hdd

# 创建池pool-name，使用auid 123，使用crush规则4
mkpool pool-name [123[ 4]] 

# 复制池的内容
cppool pool-name dest-pool

# 移除池
rmpool pool-name pool-name --yes-i-really-really-mean-it

# 清空池中对象
purge pool-name --yes-i-really-really-mean-it

# 显示每个池的对象数量、空间占用情况
rados df

# 列出池中对象
rados ls -p rbd

# 将池的所有者设置为auid 123
rados chown 123  -p rbd

管理快照

# 列出池快照
rados lssnap -p rbd

# 创建池快照
rados mksnap snap-name -p rbd

# 删除池快照
rados rmsnap mksnap snap-name -p rbd

# 从快照中恢复对象
rados rollback  

# 列出对象的快照
rados listsnaps

读写对象

# 读对象
rados get object-name /tmp/obj -p rbd

# 使用指定的偏移量写对象
rados put object-name /tmp/obj --offset offset

# 附加内容到对象
rados append  [infile

# 截断对象为指定的长度
rados truncate  length

# 创建对象
rados create 

# 移除对象
rados rm  ...[--force-full]

# 复制对象
rados cp  [target-obj]

读写对象属性

# 列出扩展属性
rados listxattr 
# 获取扩展属性
rados getxattr  attr
# 设置扩展属性
rados setxattr  attr val
# 移除扩展属性
rados rmxattr  attr

# 显示属性
rados stat

列出不一致PG

rados list-inconsistent-pg pool-name

列出不一致对象

rados list-inconsistent-obj  40.14  --format=json-pretty

列出不一致快照

rados list-inconsistent-snapset 40.14

配置仪表盘

启用仪表盘

ceph mgr module enable dashboard

SSL支持配置

# 使用自签名证书
ceph dashboard create-self-signed-cert

# 使用外部提供的证书
ceph dashboard set-ssl-certificate -i dashboard.crt
ceph dashboard set-ssl-certificate-key -i dashboard.key

# 禁用SSL
ceph config set mgr mgr/dashboard/ssl false

设置用户

ceph dashboard ac-user-create admin  administrator -i - <<<"pswd"

管理RGW

# 创建用户
radosgw-admin user create --uid=rgw --display-name=rgw --system

# 设置access_key和secret_key
ceph dashboard set-rgw-api-access-key -i - <<< "$(radosgw-admin user info --uid=rgw | jq -r .keys[0].access_key)"
ceph dashboard set-rgw-api-secret-key -i - <<< "$(radosgw-admin user info --uid=rgw | jq -r .keys[0].secret_key)"

# 禁用SSL校验
ceph dashboard set-rgw-api-ssl-verify False

诊断

调试日志

注意：详尽的日志每小时可能超过 1GB ，如果你的系统盘满了，这个节点就会停止工作。

临时启用调试日志

# 通过中心化配置下发
ceph tell osd.0 config set debug_osd 0/5

# 到目标主机上，针对OSD进程设置
ceph daemon osd.0 config set debug_osd 0/5

配置日志级别

可以为各子系统定制日志级别：

# debug {subsystem} = {log-level}/{memory-level}

[global]
        debug ms = 1/5
[mon]
        debug mon = 20
        debug paxos = 1/5
        debug auth = 2
[osd]
        debug osd = 1/5
        debug filestore = 1/5
        debug journal = 1
        debug monc = 5/20
[mds]
        debug mds = 1
        debug mds balancer = 1
        debug mds log = 1
        debug mds migrator = 1

子系统列表：

子系统	日志级别	内存日志级别
default	0	5
lockdep	0	1
context	0	1
crush	1	1
mds	1	5
mds balancer	1	5
mds locker	1	5
mds log	1	5
mds log expire	1	5
mds migrator	1	5
buffer	0	1
timer	0	1
filer	0	1
striper	0	1
objecter	0	1
rados	0	5
rbd	0	5
rbd mirror	0	5
rbd replay	0	5
journaler	0	5
objectcacher	0	5
client	0	5
osd	1	5
optracker	0	5
objclass	0	5
filestore	1	3
journal	1	3
ms	0	5
mon	1	5
monc	0	10
paxos	1	5
tp	0	5
auth	1	5
crypto	1	5
finisher	1	1
reserver	1	1
heartbeatmap	1	5
perfcounter	1	5
rgw	1	5
rgw sync	1	5
civetweb	1	10
javaclient	1	5
asok	1	5
throttle	1	1
refs	0	0
compressor	1	5
bluestore	1	5
bluefs	1	5
bdev	1	3
kstore	1	5
rocksdb	4	5
leveldb	4	5
memdb	4	5
fuse	1	5
mgr	1	5
mgrc	1	5
dpdk	1	5
eventtrace	1	5

加快日志滚动

如果磁盘空间有限，可以配置/etc/logrotate.d/ceph，加快日志滚动：

rotate 7
weekly
size 500M
compress
sharedscripts

然后设置定时任务，定期检查并清理：

30 * * * * /usr/sbin/logrotate /etc/logrotate.d/ceph >/dev/null 2>&1

集成K8S

基于Helm

简介

为了将Ceph部署到K8S集群中，可以利用ceph-helm项目。目前此项目存在一些限制：

public和cluster网络必须一样
如果Storage的用户不是admin，你需要在Ceph集群中手工创建用户，并在K8S中创建对应的Secrets
ceph-mgr只能运行单副本

仓库

执行下面的命令把ceph-helm添加到本地Helm仓库：

# 此项目使用Helm本地仓库保存Chart，如果没有启动本地存储，请启动
nohup /usr/local/bin/helm serve  --address 0.0.0.0:8879 > /dev/null 2>&1 &

git clone https://github.com/ceph/ceph-helm
pushd ceph-helm/ceph
make
popd
# 构建成功后Chart归档文件位于 ./ceph-0.1.0.tgz

覆盖值

可用值的说明如下：

# 部署哪些组件
deployment:
  ceph: true
  storage_secrets: true
  client_secrets: true
  rbd_provisioner: true
  rgw_keystone_user_and_endpoints: false

# 修改这些值可以指定其它镜像
images:
  ks_user: docker.io/kolla/ubuntu-source-heat-engine:3.0.3
  ks_service: docker.io/kolla/ubuntu-source-heat-engine:3.0.3
  ks_endpoints: docker.io/kolla/ubuntu-source-heat-engine:3.0.3
  bootstrap: docker.io/ceph/daemon:tag-build-master-luminous-ubuntu-16.04
  dep_check: docker.io/kolla/ubuntu-source-kubernetes-entrypoint:4.0.0
  daemon: docker.io/ceph/daemon:tag-build-master-luminous-ubuntu-16.04
  ceph_config_helper: docker.io/port/ceph-config-helper:v1.7.5
  # 如果使用官方提供的StorageClass，你需要扩展kube-controller镜像，否则报executable file not found in $PATH
  rbd_provisioner: quay.io/external_storage/rbd-provisioner:v0.1.1
  minimal: docker.io/alpine:latest
  pull_policy: "IfNotPresent"

# 不同Ceph组件使用什么节点选择器
labels:
  jobs:
    node_selector_key: ceph-mon
    node_selector_value: enabled
  mon:
    node_selector_key: ceph-mon
    node_selector_value: enabled
  mds:
    node_selector_key: ceph-mds
    node_selector_value: enabled
  osd:
    node_selector_key: ceph-osd
    node_selector_value: enabled
  rgw:
    node_selector_key: ceph-rgw
    node_selector_value: enabled
  mgr:
    node_selector_key: ceph-mgr
    node_selector_value: enabled

pod:
  dns_policy: "ClusterFirstWithHostNet"
  replicas:
    rgw: 1
    mon_check: 1
    rbd_provisioner: 2
    mgr: 1
  affinity:
      anti:
        type:
          default: preferredDuringSchedulingIgnoredDuringExecution
        topologyKey:
          default: kubernetes.io/hostname
  # 如果集群资源匮乏，可以调整下面的资源请求
  resources:
    enabled: false
    osd:
      requests:
        memory: "256Mi"
        cpu: "100m"
      limits:
        memory: "1024Mi"
        cpu: "1000m"
    mds:
      requests:
        memory: "10Mi"
        cpu: "100m"
      limits:
        memory: "50Mi"
        cpu: "500m"
    mon:
      requests:
        memory: "50Mi"
        cpu: "100m"
      limits:
        memory: "100Mi"
        cpu: "500m"
    mon_check:
      requests:
        memory: "5Mi"
        cpu: "100m"
      limits:
        memory: "50Mi"
        cpu: "500m"
    rgw:
      requests:
        memory: "5Mi"
        cpu: "100m"
      limits:
        memory: "50Mi"
        cpu: "500m"
    rbd_provisioner:
      requests:
        memory: "5Mi"
        cpu: "100m"
      limits:
        memory: "50Mi"
        cpu: "500m"
    mgr:
      requests:
        memory: "5Mi"
        cpu: "100m"
      limits:
        memory: "50Mi"
        cpu: "500m"
    jobs:
      bootstrap:
        limits:
          memory: "1024Mi"
          cpu: "2000m"
        requests:
          memory: "128Mi"
          cpu: "100m"
      secret_provisioning:
        limits:
          memory: "1024Mi"
          cpu: "2000m"
        requests:
          memory: "128Mi"
          cpu: "100m"
      ks_endpoints:
        requests:
          memory: "128Mi"
          cpu: "100m"
        limits:
          memory: "1024Mi"
          cpu: "2000m"
      ks_service:
        requests:
          memory: "128Mi"
          cpu: "100m"
        limits:
          memory: "1024Mi"
          cpu: "2000m"
      ks_user:
        requests:
          memory: "128Mi"
          cpu: "100m"
        limits:
          memory: "1024Mi"
          cpu: "2000m"

secrets:
  keyrings:
    mon: ceph-mon-keyring
    mds: ceph-bootstrap-mds-keyring
    osd: ceph-bootstrap-osd-keyring
    rgw: ceph-bootstrap-rgw-keyring
    mgr: ceph-bootstrap-mgr-keyring
    admin: ceph-client-admin-keyring
  identity:
    admin: ceph-keystone-admin
    user: ceph-keystone-user
    user_rgw: ceph-keystone-user-rgw

# !! 根据实际情况网络配置
network:
  public:   10.0.0.0/16
  cluster:  10.0.0.0/16
  port:
    mon: 6789
    rgw: 8088

# !! 在此添加需要的Ceph配置项
conf:
  # 对象存储网关服务相关
  rgw_ks:
    config:
      rgw_keystone_api_version: 3
      rgw_keystone_accepted_roles: "admin, _member_"
      rgw_keystone_implicit_tenants: true
      rgw_s3_auth_use_keystone: true
  ceph:
    override:
    append:
    config:
      global:
        mon_host: null
      osd:
        ms_bind_port_max: 7100

ceph:
  rgw_keystone_auth: false
  enabled:
    mds: true
    rgw: true
    mgr: true
  storage:
    # 基于目录的OSD，在宿主机上存储的路径
    # /var/lib/ceph-helm/osd会挂载到容器的/var/lib/ceph/osd目录
    osd_directory: /var/lib/ceph-helm
    mon_directory: /var/lib/ceph-helm
    # 将日志收集到/var/log，便于fluentd来采集
    mon_log: /var/log/ceph/mon
    osd_log: /var/log/ceph/osd

# !! 是否启用基于目录的OSD，需要配合节点标签ceph-osd=enabled
# 存储的位置由上面的storage.osd_directory确定，沿用现有的文件系统
osd_directory:
  enabled: false

# 如果设置为1，则允许Ceph格式化磁盘，这会导致数据丢失
enable_zap_and_potentially_lose_data: true
# !! 基于块设备的OSD，需要配合节点标签ceph-osd-device-dev-***=enabled
osd_devices:
  - name: dev-vdb
    # 使用的块设备
    device: /dev/vdb
    # 日志可以存储到独立块设备上，提升性能，如果不指定，存放在device
    journal: /dev/vdc
    # 是否删除其分区表
    zap: "1"

bootstrap:
  enabled: false
  script: |
    ceph -s
    function ensure_pool () {
      ceph osd pool stats $1 || ceph osd pool create $1 $2
    }
    ensure_pool volumes 8

# 启用的mgr模块
ceph_mgr_enabled_modules:
  - restful
  - status

# 配置mgr模块
ceph_mgr_modules_config:
  dashboard:
    port: 7000
  localpool:
    failure_domain: host
    subtree: rack
    pg_num: "128"
    num_rep: "3"
    min_size: "2"

# 在部署/升级后，执行下面的命令
# 这些命令通过kubectl来执行
ceph_commands:
- ceph osd pool create  pg_num
- ceph osd crush tunables 

# Kubernetes 存储类配置
storageclass:
  provision_storage_class: true
  provisioner: ceph.com/rbd
  # 存储类名称
  name: ceph-rbd
  monitors: nullcurshmap.src
  # 使用的RBD存储池的名称
  pool: rbd
  admin_id: admin
  admin_secret_name: pvc-ceph-conf-combined-storageclass
  admin_secret_namespace: ceph
  user_id: admin
  user_secret_name: pvc-ceph-client-key
  # RBD设备的镜像格式和特性
  image_format: "2"
  image_features: layering

endpoints:
  # 集群域名后缀
  cluster_domain_suffix: k8s.gmem.cc
  identity:
    name: keystone
    namespace: null
    auth:
      admin:
        region_name: RegionOne
        username: admin
        password: password
        project_name: admin
        user_domain_name: default
        project_domain_name: default
      user:
        role: admin
        region_name: RegionOne
        username: swift
        password: password
        project_name: service
        user_domain_name: default
        project_domain_name: default
    hosts:
      default: keystone-api
      public: keystone
    host_fqdn_override:
      default: null
    path:
      default: /v3
    scheme:
      default: http
    port:
      admin:
        default: 35357
      api:
        default: 80
  object_store:
    name: swift
    namespace: null
    hosts:
      default: ceph-rgw
    host_fqdn_override:
      default: null
    path:
      default: /swift/v1
    scheme:
      default: http
    port:
      api:
        default: 8088
  ceph_mon:
    namespace: null
    hosts:
      default: ceph-mon
    host_fqdn_override:
      default: null
    port:
      mon:
        default: 6789

Ext4文件系统上基于目录的OSD配置，覆盖值示例：

network:
  public: 10.0.0.0/8
  cluster: 10.0.0.0/8

conf:
  ceph:
    config:
      global:
        # Ext4文件系统
        filestore_xattr_use_omap: true
      osd:
        ms_bind_port_max: 7100
        # Ext4文件系统
        osd_max_object_name_len: 256
        osd_max_object_namespace_len: 64
        osd_crush_update_on_start : false

ceph:
  storage:
    osd_directory: /var/lib/ceph-helm
    mon_directory: /var/lib/ceph-helm
    mon_log: /var/log/ceph/mon
    osd_log: /var/log/ceph/osd

# 和操作系统共享一个分区，基于目录的OSD
osd_directory:
  enabled: true

storageclass:
  name: ceph-rbd
  pool: rbd

创建K8S资源

为Ceph创建名字空间：

kubectl create namespace ceph

创建RBAC资源：

kubectl create -f ceph-helm/ceph/rbac.yaml

为了部署Ceph集群，需要为K8S集群中，不同角色（参与到Ceph集群中的角色）的节点添加标签：

ceph-mon=enabled，部署mon的节点上添加
ceph-mgr=enabled，部署mgr的节点上添加
ceph-osd=enabled，部署基于设备、基于目录的OSD的节点上添加
ceph-osd-device-NAME=enabled。部署基于设备的OSD的节点上添加，其中NAME需要替换为上面 ceph-overrides.yaml中的OSD设备名，即：
1. ceph-osd-device-dev-vdb=enabled
2. ceph-osd-device-dev-vdc=enabled

对应的K8S命令：

# 部署Ceph Monitor的节点
kubectl label node xenial-100 ceph-mon=enabled ceph-mgr=enabled
# 对于每个OSD节点
kubectl label node xenial-100 ceph-osd=enabled ceph-osd-device-dev-vdb=enabled ceph-osd-device-dev-vdc=enabled
kubectl label node xenial-101 ceph-osd=enabled ceph-osd-device-dev-vdb=enabled ceph-osd-device-dev-vdc=enabled

Release

helm install --name=ceph local/ceph --namespace=ceph -f ceph-overrides.yaml

检查状态

确保所有Pod正常运行：

# kubectl -n ceph get pods
NAME                                    READY     STATUS    RESTARTS   AGE
ceph-mds-7cb7c647c7-7w6pc               0/1       Pending   0          18h
ceph-mgr-66cb85cbc6-hsm65               1/1       Running   3          1h
ceph-mon-check-758b88d88b-2r975         1/1       Running   1          1h
ceph-mon-gvtq6                          3/3       Running   3          1h
ceph-osd-dev-vdb-clj5f                  1/1       Running   15         1h
ceph-osd-dev-vdb-hldw5                  1/1       Running   15         1h
ceph-osd-dev-vdb-l4v6t                  1/1       Running   15         1h
ceph-osd-dev-vdb-v5jmd                  1/1       Running   15         1h
ceph-osd-dev-vdb-wm4v4                  1/1       Running   15         1h
ceph-osd-dev-vdb-zwr65                  1/1       Running   15         1h
ceph-osd-dev-vdc-27wfk                  1/1       Running   15         1h
ceph-osd-dev-vdc-4w4fn                  1/1       Running   15         1h
ceph-osd-dev-vdc-cpkxh                  1/1       Running   15         1h
ceph-osd-dev-vdc-twmwq                  1/1       Running   15         1h
ceph-osd-dev-vdc-x8tpb                  1/1       Running   15         1h
ceph-osd-dev-vdc-zfrll                  1/1       Running   15         1h
ceph-rbd-provisioner-5544dcbcf5-n846s   1/1       Running   4          18h
ceph-rbd-provisioner-5544dcbcf5-t84bz   1/1       Running   3          18h
ceph-rgw-7f97b5b85d-nc5fq               0/1       Pending   0          18h

其中MDS、RGW的Pod处于Pending状态，这是由于没有给任何节点添加标签：

# rgw即RADOS Gateway，是Ceph的对象存储网关服务，它是基于librados接口封装的FastCGI服务
# 提供存储和管理对象数据的REST API。对象存储适用于图片、视频等各类文件
# rgw兼容常见的对象存储API，例如绝大部分Amazon S3 API、OpenStack Swift API
ceph-rgw=enabled
# mds即Metadata Server，用于支持文件系统
ceph-mds=enabled

现在从监控节点，检查一下Ceph集群的状态：

# kubectl -n ceph exec -ti ceph-mon-gvtq6 -c ceph-mon -- ceph -s
  cluster:
    # 集群标识符
    id:     08adecc5-72b1-4c57-b5b7-a543cd8295e7
    health: HEALTH_OK
 
  services:
    # 监控节点
    mon: 1 daemons, quorum xenial-100
    # 管理节点
    mgr: xenial-100(active)
    # OSD（Ceph Data Storage Daemon）
    osd: 12 osds: 12 up, 12 in
  
  data:
    # 存储池、PG数量
    pools:   0 pools, 0 pgs
    # 对象数量
    objects: 0 objects, 0 bytes
    # 磁盘的用量，如果是基于文件系统的OSD，则操作系统用量也计算在其中
    usage:   1292 MB used, 322 GB / 323 GB avail

    # 所有PG都未激活，不可用
    pgs:     100.000% pgs not active
             # undersize是由于OSD数量不足（复制份数3，此时仅仅一个OSD），peerd表示128个PG配对到OSD
             128 undersized+peered
    # 将复制份数设置为1后，输出变为
    pgs:     100.000% pgs not active
             128 creating+peering
    # 过了一小段时间后，输出变为
    pgs: 128 active+clean
    # 到这里，PVC才能被提供，否则PVC状态显示 Provisioning，Provisioner日志中出现类似下面的：
    # attempting to acquire leader lease...
    # successfully acquired lease to provision for pvc ceph/ceph-pvc
    # stopped trying to renew lease to provision for pvc ceph/ceph-pvc, timeout reached

如果K8S集群没有默认StorageClass，可以设置：

kubectl patch storageclass ceph-rbd -p '{"metadata": {"annotations":{"storageclass.kubernetes.io/is-default-class":"true"}}}'

这样没有显式声明StorageClass的PVC将自动通过ceph-rbd进行卷提供。

创建存储池

# 创建具有384个PG的名为rbd的复制存储池
ceph osd pool create rbd 384 replicated
ceph osd pool set rbd min_size 1

# 开发环境下，可以把Replica份数设置为1
ceph osd pool set rbd size 1
# min_size 会自动被设置的比size小
# 减小size后，可以立即看到ceph osd status的used变小

# 初始化池，最好在所有节点加入后，调整好CURSH Map后执行
rbd pool init rbd

# 可以创建额外的用户，例如下面的，配合Value storageclass.user_id=k8s使用
ceph auth get-or-create-key client.k8s mon 'allow r' osd 'allow rwx pool=rbd' | base64
# 如果使用默认用户admin，则不需要生成上面这步。admin权限也是足够的


# 其它命令
# 查看块设备使用情况（需要MGR）
ceph osd status
+----+------------+-------+-------+--------+---------+--------+---------+-----------+
| id |    host    |  used | avail | wr ops | wr data | rd ops | rd data |   state   |
+----+------------+-------+-------+--------+---------+--------+---------+-----------+
| 0  | xenial-100 |  231M | 26.7G |    0   |  3276   |    0   |     0   | exists,up |
| 1  | xenial-103 |  216M | 26.7G |    0   |   819   |    0   |     0   | exists,up |
| 2  | xenial-101 |  253M | 26.7G |    0   |     0   |    0   |     0   | exists,up |
| 3  | xenial-103 |  286M | 26.7G |    0   |     0   |    0   |     0   | exists,up |
| 4  | xenial-101 |  224M | 26.7G |    0   |  1638   |    0   |     0   | exists,up |
| 5  | xenial-105 |  211M | 26.7G |    0   |     0   |    0   |     0   | exists,up |
| 6  | xenial-100 |  243M | 26.7G |    0   |     0   |    0   |     0   | exists,up |
| 7  | xenial-102 |  224M | 26.7G |    0   |  2457   |    0   |     0   | exists,up |
| 8  | xenial-102 |  269M | 26.7G |    0   |  1638   |    0   |     0   | exists,up |
| 9  | xenial-104 |  252M | 26.7G |    0   |  2457   |    0   |     0   | exists,up |
| 10 | xenial-104 |  231M | 26.7G |    0   |     0   |    0   |     0   | exists,up |
| 11 | xenial-105 |  206M | 26.7G |    0   |     0   |    0   |     0   | exists,up |
+----+------------+-------+-------+--------+---------+--------+---------+-----------+

使用存储池

可以先使用ceph命令尝试创建RBD并挂载：

# 镜像格式默认2
# format 1 - 此格式兼容所有版本的 librbd 和内核模块，但是不支持较新的功能，像克隆。此格式目前已经废弃
# 2 - librbd 和 3.11 版以上内核模块才支持。此格式增加了克隆支持，未来扩展更容易
rbd create  test --size 1G --image-format 2 --image-feature layering

# 映射为本地块设备，如果卡住，可能有问题，一段时间后会有提示
rbd map test
# CentOS 7 下可能出现如下问题：
#   rbd: sysfs write failed
#   In some cases useful info is found in syslog - try "dmesg | tail".
#   rbd: map failed: (5) Input/output error
# dmesg | tail
#   [1180891.928386] libceph: mon0 10.5.39.41:6789 feature set mismatch, 
#     my 2b84a042a42 < server's 40102b84a042a42, missing 401000000000000                                            
#   [1180891.934804] libceph: mon0 10.5.39.41:6789 socket error on read
# 解决办法是把Bucket算法从straw2改为straw

# 挂载为目录
fdisk /dev/rbd0
mkfs.ext4 /dev/rbd0
mkdir /test
mount /dev/rbd0 /test

# 测试性能
# 1MB块写入
sync; dd if=/dev/zero of=/test/data bs=1M count=512; sync
# 512+0 records in
# 512+0 records out
# 536870912 bytes (537 MB) copied, 4.44723 s, 121 MB/s
# 16K随机写
fio -filename=/dev/rbd0 -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=512M -numjobs=30 -runtime=60 -name=test
# WRITE: bw=35.7MiB/s (37.5MB/s), 35.7MiB/s-35.7MiB/s (37.5MB/s-37.5MB/s), io=2148MiB (2252MB), run=60111-60111msec 
# 16K随机读
fio -filename=/dev/rbd0 -direct=1 -iodepth 1 -thread -rw=randread -ioengine=psync -bs=16k -size=512M -numjobs=30 -runtime=60 -name=test
# READ: bw=110MiB/s (116MB/s), 110MiB/s-110MiB/s (116MB/s-116MB/s), io=6622MiB (6943MB), run=60037-60037msec

# 删除测试镜像
umount /test
rbd unmap test
rbd remove test

确认Ceph RBD可以挂载、读写后，创建一个PVC：

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: ceph-pvc
  namespace: ceph
spec:
  accessModes:
   - ReadWriteOnce
  resources:
    requests:
       storage: 1Gi
  storageClassName: ceph-rbd

查看PVC是否绑定到PV：

kubectl -n ceph create -f ceph-pvc.yaml

kubectl -n ceph get pvc

# NAME       STATUS    VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS   AGE
# ceph-pvc   Bound     pvc-43caef06-46b4-11e8-bed8-deadbeef00a0   1Gi        RWO            ceph-rbd       3s

# 在Monitor节点上确认RBD设备已经创建
rbd ls
# kubernetes-dynamic-pvc-fbddb77d-46b5-11e8-9204-8a12961e4b47
rbd info kubernetes-dynamic-pvc-fbddb77d-46b5-11e8-9204-8a12961e4b47
# rbd image 'kubernetes-dynamic-pvc-fbddb77d-46b5-11e8-9204-8a12961e4b47':
#         size 128 MB in 32 objects
#         order 22 (4096 kB objects)
#         block_name_prefix: rbd_data.11412ae8944a
#         format: 2
#         features: layering
#         flags: 
#         create_timestamp: Mon Apr 23 05:20:07 2018

需要在其它命名空间中使用此存储池时，拷贝一下Secret：

kubectl -n ceph get secrets/pvc-ceph-client-key -o json --export | jq '.metadata.namespace = "default"' | kubectl create -f -

卸载

helm delete ceph --purge
kubectl delete namespace ceph

此外，如果要重新安装，一定要把所有节点的一下目录清除掉：

rm -rf /var/lib/ceph-helm
rm -rf /var/lib/ceph

既有Ceph集群

只需要安装相应的Provisioner，配置适当的StorageClass即可。示例：

Provisioner：https://git.gmem.cc/alex/helm-charts/src/branch/master/ceph-provisioners
安装脚本：https://git.gmem.cc/alex/k8s-init/src/branch/master/4.infrastructure/0.ceph-external.sh

基于CephFS的卷

Kubernetes卷的动态Provisioning，目前需要依赖于external-storage项目，K8S没有提供内置的Provisioner。此项目存在不少问题，生产环境下可以考虑静态提供。

Provisioner会自动在Ceph集群的默认CephFS中创建“卷”，Ceph支持基于libcephfs+librados来实现一个基于CephFS目录的虚拟卷。

你可以在默认CephFS中看到volumes/kubernetes目录。kubernetes目录对应一个虚拟卷组。每个PV对应了它的一个子目录。

性能调优

最佳实践

基本

监控节点对于集群的正确运行非常重要，应当为其分配独立的硬件资源。如果跨数据中心部署，监控节点应该分散在不同数据中心或者可用性区域
日志可能会让集群的吞吐量减半。理想情况下，应该在不同磁盘上运行操作系统、OSD数据、OSD日志。对于高吞吐量工作负载，考虑使用SSD进行日志存储
纠删编码（Erasure coding）可以用于存储大容量的一次性写、非频繁读、性能要求不高的数据。纠删编码存储消耗小，但是IOPS也降低
目录项（Dentry）和inode缓存可以提升性能，特别是存在很多小对象的情况下
使用缓存分层（Cache Tiering）可以大大提升集群性能。此技术可以在热、冷Tier之间自动的进行数据迁移。为了最大化性能，请使用SSD作为缓存池、并且在低延迟节点上部署缓存池
部署奇数个数的监控节点，以便仲裁投票（Quorum Voting），建议使用3-5个节点。更多的节点可以增强集群的健壮性，但是mon之间需要保持数据同步，这会影响性能
诊断性能问题的时候，总是从最底层（磁盘、网络）开始，然后再检查块设备、对象网关等高层接口
在大型集群里用单独的集群网络（Cluster Newwork）可显著地提升性能和安全性

文件系统

限制最大文件大小，创建极大的文件会导致删除过程很缓慢
避免在生产环境下使用试验特性。你应该使用单个活动MDS、不使用快照（默认如此）
避免增大max_mds，可能导致大于1个的MDS处于Active
客户端选择：
1. FUSE，容易使用、容易升级和服务器集群保持一致
2. 内核，性能好
3. 不同客户端的功能并不完全一致，例如FUSE支持客户端配额，内核不支持
对于Ceph 10.x，最好使用4.x内核。如果必须使用老内核，你应该使用FUSE作为客户端

基础设施要求

处理器

OSD需要消耗CPU资源，可以将其绑定到一个核心上。如果使用纠删码，则需要更多的CPU资源。此外，集群处于Recovery状态时，OSD的CPU消耗显著增加

MON不怎么消耗CPU资源，几个G内存的单核心物理机即可。

MDS相当消耗CPU资源，考虑4核心或更多CPU。如果依赖于CephFS处理大量工作，应当分配专用物理机

内存

MON/MDS需要不少于2G内存。OSD通常需要1G内存（和存储容量有关）。此外，集群处于Recovery状态时，OSD的内存消耗显著增加，因此配备2G内存更好

网络

最好具有万兆网络，公共网络、集群网络需要物理隔离（双网卡连接到独立交换机）。对于数百TB规模的集群，千兆网络也能够正常工作

集群网络往往消耗更多的带宽，此外，高性能的集群网络对于Recovery的效率很重要。

如果交换机支持，应当启用Jumbo帧，可以提升网络吞吐量。

磁盘

在生产环境下，最好让OSD使用独立的驱动器，如果和OS共享驱动，最好使用独立的分区。

通常使用SATA SSD作为日志存储，预算足够可以考虑PCIE SSD。Intel S3500的4K随机写 IOPS可达10K+

关于RAID：

最好不要使用RAID
如果有RAID卡，并且磁盘数量太多，而对应的内存数量不足（每个OSD大概需要2G内存），可以RAID0
不要使用RAID5，因为随机IO的性能降低

关于filestore：

建议使用SSD存储日志，以减少访问时间、读取延迟，实现吞吐量的显著提升
可以为创建SSD分区，每个分区作为一个OSD的日志存储，但是最好不要超过4个

BIOS设置

启用超线程Hyper-Threading技术
关闭节能
关闭NUMA

内核参数

# 修改pid max
# 执行命令
echo 4194303 > /proc/sys/kernel/pid_max
# 或者
sysctl -w kernel.pid_max=4194303

# read_ahead, 数据预读到内存，提升磁盘读操作能力
echo "8192" > /sys/block/sda/queue/read_ahead_kb

# 禁用交换文件
echo "vm.swappiness = 0" | tee -a /etc/sysctl.conf

# I/O Scheduler：SSD使用用noop，SATA/SAS使用deadline
echo "deadline" > /sys/block/sda/queue/scheduler
echo "noop" > /sys/block/sda/queue/scheduler

文件系统

底层文件系统的稳定性和性能对于Ceph很重要。在开发、非关键部署时可以使用btrfs，这也是未来的方向。关键的生产环境下应该使用XFS。

在高可扩容性的存储环境下，XFS和btrfs相比起ext3/4有很大优势。XFS和btrfs都是日志式文件系统，更健壮，容易从崩溃、断电中恢复。日志文件系统会在执行写操作之前，把需要进行的变更记录到日志。

OSD依赖于底层文件系统的扩展属性（Extended Attributes，XATTRs），来存储各种内部对象状态和属性。XFS支持64KB的XATTRs，但是ext4就太小了，你应该为运行在ext4上的OSD配置：

# 新版本Ceph此配置项已经没了
filestore xattr use omap = true

关于文件系统的一些知识：

XFS 、 btrfs 和 ext4 都是日志文件系统
XFS很成熟
btrfs相对年轻，他是一个写时复制（COW）文件系统，因而支持可写文件系统快照。此外它还支持透明压缩、完整性校验

归置组

PG数量

PG的数量应当总是和PGP相同。PGP是为了实现定位而创建的PG。再平衡仅仅再pgp_num被修改后才会触发，仅仅修改pg_num不会触发。

随着OSD数量的变化，选取适当的PG数量很重要。因为PG数量对集群行为、数据持久性（Durability，灾难性事件发生时保证数据堡丢失）有很大影响。此外，归置组很耗计算资源，所以很多存储池x很多归置组会导致性能下降。建议的取值：

对于小于5个OSD的集群：设置为128
5-10个OSD的集群：设置为512
10-50个OSD的集群：设置为1024
超过50个OSD的集群，需要自己权衡，利用pgcalc来计算适合的PG数量

《Ceph分布式存储学习指南》一书中建议的PG数量算法：

每个池的PG数量 = OSD总数 * 100 / 最大副本数 / 池数

计算结果需要向上舍入到2的N次幂。此外该书倾向于让所有池具有相同的PG数量。

再平衡

加入新的OSD后，考虑设置权重为0，然后逐渐增加权重，这样可以避免性能下降

监控

ceph-exporter

DigitalOcean开源了Ceph的Exporter，本文使用gmemcc的fork版本。Ceph Exporter和MON节点通信，所有信息都通过rados_mon_command()调用获得。

此Exporter可以在任意Ceph客户端节点上运行，和任何形式的Ceph客户端一样，你需要提供ceph.conf、ceph.USER.keyring两个配置文件。

常用选项

选项	说明
telemetry.addr	监听的地址和端口，示例：*:9100
telemetry.path	查询指标的URL路径，示例：/metrics
ceph.config	Ceph配置文件路径
ceph.user	使用的Ceph用户，示例：admin
exporter.config	Ceph Exporter配置文件的位置，示例：/etc/ceph/exporter.yml
rgw.mode	是否收集RGW的指标：0禁用，1启用，2后台

构建镜像

你可以直接使用预构建好的镜像：

digitalocean/ceph_exporter:2.0.1-luminous

或者，从源码构建：

sudo apt install librados-dev

git clone https://github.com/gmemcc/ceph_exporter.git
cd ceph_exporter
go install
make
docker build -t docker.gmem.cc/digitalocean/ceph_exporter .

内置Prometheus支持

对于Luminous12.2或者Mimic13.2版本，MGR已经内置了Prometheus模块，不再需要ceph_exporter了。

执行下面的命令启用Prometheus模块：

ceph mgr module enable prometheus

然后，你就可以访问任意MGR节点的http://MGR_HOST:9283/metrics，抓取指标了。Prometheus配置示例：

scrape_configs:               
- job_name: ceph                           
  static_configs:                          
  - targets:
    # 列出所有MGR节点，防止故障转移时数据丢失                      
    - 10.0.1.1:9283                        
    labels:                                
      cluster: ceph

Grafana仪表盘可以参考这个示例：https://grafana.com/dashboards/7056

附录

CEPH_FEATURE

R表示必须支持的特性，S表示该版本内核可以支持，-*-表示从这个版本开始支持。

Feature	OCT	3.8	3.9	3.10	3.14	3.15	3.18	4.1	4.5	4.6
CEPH_FEATURE_NOSRCADDR	2	R	R	R	R	R	R	R	R	R
CEPH_FEATURE_SUBSCRIBE2	10									-R-
CEPH_FEATURE_RECONNECT_SEQ	40			-R-	R	R	R	R	R	R
CEPH_FEATURE_PGID64	200		R	R	R	R	R	R	R	R
CEPH_FEATURE_PGPOOL3	800		R	R	R	R	R	R	R	R
CEPH_FEATURE_OSDENC	2000		R	R	R	R	R	R	R	R
CEPH_FEATURE_CRUSH_TUNABLES	40000	S	S	S	S	S	S	S	S	S
CEPH_FEATURE_MSG_AUTH	800000						-S-	S	S	S
CEPH_FEATURE_CRUSH_TUNABLES2	2000000		S	S	S	S	S	S	S	S
CEPH_FEATURE_REPLY_CREATE_INODE	8000000		S	S	S	S	S	S	S	S
CEPH_FEATURE_OSDHASHPSPOOL	40000000		S	S	S	S	S	S	S	S
CEPH_FEATURE_OSD_CACHEPOOL	800000000				-S-	S	S	S	S	S
CEPH_FEATURE_CRUSH_V2	1000000000				-S-	S	S	S	S	S
CEPH_FEATURE_EXPORT_PEER	2000000000				-S-	S	S	S	S	S
CEPH_FEATURE_OSD_ERASURE_CODES***	4000000000
CEPH_FEATURE_OSDMAP_ENC	8000000000					-S-	S	S	S	S
CEPH_FEATURE_CRUSH_TUNABLES3	20000000000					-S-	S	S	S	S
CEPH_FEATURE_OSD_PRIMARY_AFFINITY	20000000000					-S-	S	S	S	S
CEPH_FEATURE_CRUSH_V4 ****	1000000000000							-S-	S	S
CEPH_FEATURE_CRUSH_TUNABLES5	200000000000000								-S-	S
CEPH_FEATURE_NEW_OSDOPREPLY_ENCODING	400000000000000								-S-	S

版本代码

代码	版本
Luminous	12
Jewel	10
已归档版本
argonaut	0.48
bobtail	0.56
Cuttlefish	0.61
Dumpling	0.67
Emperor	0.72
Firefly	0.80
Giant	0.87
Hammer	0.94
Infernalis	9.2.0
Kraken	11.0.2

参考资源

新特性

Firefly

纠删码支持
缓存分层
键/值 OSD后端
独立的RadosGW（使用civetweb）

Giant

LRC纠删码
CephFS日志恢复，诊断工具

Hammer

RGW对象版本化
对象桶分片
Crush straw2算法

Infernalis

纠删码到达稳定，支持很多新特性
支持Swift API新特性，例如对象过期设置

Jewel

CephFS到达稳定
RGW多站点可达（支持主/主配置）
AWS4兼容
RBD镜像（mirroring）
引入BlueStore

Kraken

BlueStore到达稳定
AsyncMessenger
RGW：通过ES来索引元数据
S3桶生命周期API支持
RGW：支持导出为NFS v3接口
Rados支持在基于纠删码的池上进行overwrite操作
基于纠删码池的RBD卷

Luminous

集成Web仪表盘Ceph Dashboard
直接管理裸设备的BlueStore到达稳定并且作为默认选项
纠删码池完全支持overwirte，可以和CephFS/RDB一起使用
引入组件ceph-mgr，如果该组件停止，则指标不会更新，某些依赖于指标的请求，例如ceph df，无法工作
可扩容能力提升，可部署10000OSD的集群
每个OSD支持关联一个设备类（例如hdd/ssd），允许CRUSH规则将数据简单地映射到系统中的设备的子集。通常不需要手动编写CRUSH规则或手动编辑CRUSH
支持优化CRUSH权重，以保持OSD之间数据的近乎完美的分布
OSD可以根据后端设备是HDD还是SSD来调整其默认配置
RGW引入了上传对象的服务器端加密，用于管理加密密钥的三个选项有：自动加密（仅推荐用于测试设置），客户提供的类似于Amazon SSE-C规范的密钥，以及通过使用外部密钥管理服务
RGW具有初步的类似AWS的存储桶策略API支持。现在，策略是一种表达一系列新授权概念的方式。未来，这将成为附加身份验证功能的基础，例如STS和组策略等
RGW通过使用rados命名空间合并了几个元数据索引池
引入组件rbd-mirror，负责RBD卷的镜像复制
rbd trash命令支持延迟的镜像删除
镜像可以通过rbd mirroringreplay delay配置选项支持可配置的复制延迟
多Active MDS到达稳定状态

Mimic

引入一个新的、全功能和美观的仪表盘 Dashboard V2
RADOS：配置选项可被mon中心化存储和管理
RADOS：在恢复和再平衡时，mon使用的磁盘大大减小
RADOS：引入一个异步恢复特性，减少在OSD从错误恢复期间，请求的tail latency
RGW：支持将一个Zone（或者Buckets的子集）复制到外部云服务，例如S3
RGW：支持S3多因子身份验证
RGW：前端Beast到达stable
CephFS：使用多MDS时快照功能到达stable
RBD：镜像克隆不需要显式的protect/unprotect步骤
RBD：镜像支持深克隆（包含parent镜像、关联快照的数据的克隆）到新池，支持修改数据布局

Nautilus

仪表盘：增加很多新功能，全方位的查看各种指标，对Ceph进行管理
RADOS：每个池的PG数量，现在可以随时减小了。集群可以根据用量和管理员的提示，自动优化PG数量
RADOS：v2 wire protocol支持传输加密
RADOS：mon/osd使用的物理设备的健康指标（例如SMART）可以得到跟踪，并且在预期出现磁盘失败前进行警告
RADOS：在recovery/backfill时，OSD更有效的优先恢复重要的PG、对象
RADOS：例如磁盘失败后的恢复，这样长期运行的后台操作的进度，在ceph status中报告
RGW：Beast替换civetweb作为默认Web前端
CephFS：MDS稳定性得到很大优化，特别是针对大缓存、长时间运行的具有大内存的客户端
CephFS：在Rook管理的环境下，CephFS可以通过NFS-Ganesha集群暴露出去
CephFS：支持查询进行中的针对MDS的scrub的进度
RBD：镜像可以在最小宕机时间内进行迁移，这可以支持在池之间迁移镜像、修改镜像布局
RBD：rbd perf image iotop 以及 rbd perf image iostat命令可以提供iostat风格的、针对所有RBD镜像的监控
RBD：ceph-mgr的Prometheus Exporter支持暴露所有RBD镜像的IO监控指标
RBD：在一个池中，可以使用命名空间来隔离RBD，实现多租户

Octopus

新的工具cephadm，用于支持容器化部署
Health警告可以被临时/永久的静默
Dashboard：UI增强、安全性增强
管理功能的增强
RADOS：从N版引入的PG括缩，默认启用
RADOS：Bluestore包含了多项改进和性能增强
RBD：镜像支持一种新的，基于快照的模式，不再依赖于journaling特性
RBD：克隆操作保持源镜像的稀疏性（sparseness）
RBD：改进了rbd-nbd 工具，可以使用新的内核特性
RBD：缓存性能增强

常见问题

CephFS问题诊断

无法创建

创建新CephFS报错Error EINVAL: pool 'rbd-ssd' already contains some objects. Use an empty pool instead，解决办法：

ceph fs new cephfs rbd-ssd rbd-hdd --force

mds.0 is damaged

断电后出现此问题。MDS进程报错： Error recovering journal 0x200: (5) Input/output error。诊断过程：

# 健康状况
ceph health detail
# HEALTH_ERR mds rank 0 is damaged; mds cluster is degraded
# mds.0 is damaged

# 文件系统详细信息，可以看到唯一的MDS Boron启动不了
ceph fs status
# cephfs - 0 clients
# ======
# +------+--------+-----+----------+-----+------+
# | Rank | State  | MDS | Activity | dns | inos |
# +------+--------+-----+----------+-----+------+
# |  0   | failed |     |          |     |      |
# +------+--------+-----+----------+-----+------+
# +---------+----------+-------+-------+
# |   Pool  |   type   |  used | avail |
# +---------+----------+-------+-------+
# | rbd-ssd | metadata |  138k |  106G |
# | rbd-hdd |   data   | 4903M | 2192G |
# +---------+----------+-------+-------+

# +-------------+
# | Standby MDS |
# +-------------+
# |    Boron    |
# +-------------+

# 显示错误原因
ceph tell mds.0 damage
# terminate called after throwing an instance of 'std::out_of_range'
#   what():  map::at
# Aborted

# 尝试修复，无效
ceph mds repaired 0

# 尝试导出CephFS日志，无效
cephfs-journal-tool journal export backup.bin
# 2019-10-17 16:21:34.179043 7f0670f41fc0 -1 Header 200.00000000 is unreadable
# 2019-10-17 16:21:34.179062 7f0670f41fc0 -1 journal_export: Journal not readable, attempt object-by-object dump with `rados`Error ((5) Input/output error)

# 尝试重日志修复，无效
# 尝试将journal中所有可回收的 inodes/dentries 写到后端存储（如果版本比后端更高）
cephfs-journal-tool event recover_dentries summary
# Events by type:
# Errors: 0
# 2019-10-17 16:22:00.836521 7f2312a86fc0 -1 Header 200.00000000 is unreadable

# 尝试截断日志，无效
cephfs-journal-tool journal reset 
# got error -5from Journaler, failing
# 2019-10-17 16:22:14.263610 7fe6717b1700  0 client.6494353.journaler.resetter(ro) error getting journal off disk
# Error ((5) Input/output error)


# 删除重建，数据丢失
ceph fs rm cephfs  --yes-i-really-mean-it



## 又一次遇到此问题

# 深度清理，发现200.00000000存在数据不一致
ceph osd deep-scrub all
40.14 shard 14: soid 40:292cf221:::200.00000000:head data_digest
  0x6ebfd975 != data_digest 0x9e943993 from auth oi 40:292cf221:::200.00000000:head
  (22366'34 mds.0.902:1 dirty|data_digest|omap_digest s 90 uv 34 dd 9e943993 od ffffffff alloc_hint [0 0 0])                                                                                  
40.14 deep-scrub 0 missing, 1 inconsistent objects
40.14 deep-scrub 1 errors

# 查看RADOS不一致对象详细信息
rados list-inconsistent-obj  40.14  --format=json-pretty
{
    "epoch": 23060,
    "inconsistents": [
        {
            "object": {
                "name": "200.00000000",
            },
            "errors": [],
            "union_shard_errors": [
                # 错误原因，校验信息不一致
                "data_digest_mismatch_info"
            ],
            "selected_object_info": {
                "oid": {
                    "oid": "200.00000000",
                },
            },
            "shards": [
                {
                    "osd": 7,
                    "primary": true,
                    "errors": [],
                    "size": 90,
                    "omap_digest": "0xffffffff"
                },
                {
                    "osd": 14,
                    "primary": false,

# errors：分片之间存在不一致，而且无法确定哪个分片坏掉了，原因：
#    data_digest_mismatch 此副本的摘要信息和主副本不一样
#    size_mismatch 此副本的数据长度和主副本不一致
#    read_error 可能存在磁盘错误
                    "errors": [
                        # 这里的原因是两个副本的摘要不一致
                        "data_digest_mismatch_info"
                    ],
                    "size": 90,
                    "omap_digest": "0xffffffff",
                    "data_digest": "0x6ebfd975"
                }
            ]
        }
    ]
}
# 转为处理inconsistent问题，停止OSD.14，Flush 日志，启动OSD.14，执行PG修复
# 无效…… 执行PG修复后Ceph会自动以权威副本覆盖不一致的副本，但是并非总能生效，
# 例如，这里的情况，主副本的数据摘要信息丢失

# 删除故障对象
rados -p rbd-ssd  rm 200.00000000

OSD问题诊断

启动后立即崩溃

通常可以认为属于Ceph的Bug。这些Bug可能因为数据状态引发，有些时候将崩溃OSD的权重清零，可以恢复：

# 尝试解决osd.17启动后立即宕机
ceph osd reweight 17 0

PG问题诊断

所有PG卡在unkown

如果创建一个存储池后，其所有PG都卡在此状态，可能原因是CRUSH map不正常。你可以配置osd_crush_update_on_start为true让集群自动调整CRUSH map。

卡在peering

ceph -s显示如下状态，长期不恢复：

cluster:                 
    health: HEALTH_WARN                                                    
            Reduced data availability: 2 pgs inactive, 2 pgs peering
            19 slow requests are blocked > 32 sec
  data:
    pgs:     0.391% pgs not active
             510 active+clean
             2   peering

此案例中，使用此PG的Pod呈Known状态。

检查卡在inactive状态的PG：

ceph pg dump_stuck inactive

PG_STAT STATE   UP     UP_PRIMARY ACTING ACTING_PRIMARY  
17.68   peering [3,12]          3 [3,12]              3
16.32   peering [4,12]          4 [4,12]              4

输出其中一个PG的诊断信息，片断如下：

// ceph pg 17.68 query
{                                                   
    "info": {                                                
        "stats": {
            "state": "peering",
            "stat_sum": {
                "num_objects_dirty": 5
            },
            "up": [
                3,
                12
            ],
            "acting": [
                3,
                12
            ],
            // 因为哪个OSD而阻塞
            "blocked_by": [
                12
            ],
            "up_primary": 3,
            "acting_primary": 3
        }
    },
    "recovery_state": [
        // 如果顺利，第一个元素应该是 "name": "Started/Primary/Active"
        {
            "name": "Started/Primary/Peering/GetInfo",
            "enter_time": "2018-06-11 18:32:39.594296",
            // 但是，卡在向OSD 12 请求信息这一步上
            "requested_info_from": [
                {
                    "osd": "12"
                }
            ]
        },
        {
            "name": "Started/Primary/Peering",
        },
        {
            "name": "Started",
        }
    ]
}

没有获得osd-12阻塞Peering的明确原因。

查看日志，osd-12位于10.0.0.104，osd-3位于10.0.0.100，后者为Primary OSD。

osd-3日志，在18:26开始出现，和所有其它OSD之间心跳检测失败。此时10.0.0.100负载很高，卡死。

osd-12日志，在18:26左右大量出现：

osd.12 466 heartbeat_check: no reply from 10.0.0.100:6803 osd.4 since back 2018-06-11 18:26:44.973982 ...

直到18:44分仍然无法进行心跳检测，重启osd-12后一切恢复正常。

incomplete

检查无法完成的PG：

ceph pg dump_stuck

# PG_STAT STATE      UP     UP_PRIMARY ACTING ACTING_PRIMARY
# 17.79   incomplete [9,17]          9 [9,17]              9
# 32.1c   incomplete [16,9]         16 [16,9]             16
# 17.30   incomplete [16,9]         16 [16,9]             16
# 31.35   incomplete [9,17]          9 [9,17]              9

查询PG 17.30的诊断信息：

// ceph pg  17.30 query
{
  "state": "incomplete",
  "info": {
    "pgid": "17.30",
    "stats": {
      // 被osd.11阻塞而无法完成，此osd已经不存在
      "blocked_by": [
        11
      ],
      "up_primary": 16,
      "acting_primary": 16
    }
  },
  // 恢复的历史记录
  "recovery_state": [
    {
      "name": "Started/Primary/Peering/Incomplete",
      "enter_time": "2018-06-17 04:48:45.185352",
      // 最终状态，此PG没有完整的副本
      "comment": "not enough complete instances of this PG"
    },
    {
      "name": "Started/Primary/Peering",
      "enter_time": "2018-06-17 04:48:45.131904",
      "probing_osds": [
        "9",
        "16",
        "17"
      ],
      // 期望检查已经不存在的OSD
      "down_osds_we_would_probe": [
        11
      ],
      "peering_blocked_by_detail": [
        {
          "detail": "peering_blocked_by_history_les_bound"
        }
      ]
    }
  ]
}

可以看到17.30期望到osd.11寻找权威数据，而osd.11已经永久丢失了。这种情况下，可以尝试强制标记PG为complete。

首先，停止PG的主OSD：

service ceph-osd@16 stop

然后，运行下面的工具：

ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-16  --pgid 17.30 --op mark-complete
# Marking complete 
# Marking complete succeeded

最后，重启PG的主OSD：

service ceph-osd@16 start

单副本导致的stale

不做副本的情况下，单个OSD宕机即导致数据不可用：

ceph health detail 
# 注意Acting Set仅仅有一个成员
# pg 2.21 is stuck stale for 688.372740, current state stale+active+clean, last acting [7]
# 但是其它PG的Acting Set则不是
# pg 3.4f is active+recovering+degraded, acting [9,1]

如果OSD的确出现硬件故障，则数据丢失。此外，你也无法对这种PG进行查询操作。

inconsistent

定位出问题PG的主OSD，停止它，刷出日志，然后修复PG：

ceph health detail
# HEALTH_ERR 2 scrub errors; Possible data damage: 2 pgs inconsistent
# OSD_SCRUB_ERRORS 2 scrub errors
# PG_DAMAGED Possible data damage: 2 pgs inconsistent
#     pg 15.33 is active+clean+inconsistent, acting [8,9]
#     pg 15.61 is active+clean+inconsistent, acting [8,16]

# 查找OSD所在机器
ceph osd find 8
 
# 登陆到osd.8所在机器
systemctl stop ceph-osd@8.service
ceph-osd -i 8 --flush-journal
systemctl start ceph-osd@8.service
ceph pg repair 15.61

对象问题诊断

unfound

持有对象权威副本的OSD宕机或被剔除，会导致该问题出现。例如两个配对的OSD（共同处理某个PG）：

osd.1宕机
osd.2独自处理了一些写操作
osd1开机
osd.1+osd2配对，由于osd.2独自的写操作，缺失的对象排队等候在osd.1上恢复
恢复完成之前，osd.2宕机，或者被移除

在上面这个事件序列中，osd.1知道权威副本存在，但是却找不到，这种情况下针对目标对象的请求会被阻塞，直到权威副本的持有者osd上线。

执行下面的命令，定位存在问题的PG：

ceph health detail | grep unfound
# OBJECT_UNFOUND 1/90055 objects unfound (0.001%)
#     pg 33.3e has 1 unfound objects
#    pg 33.3e is active+recovery_wait+degraded, acting [17,6], 1 unfound

进一步，定位存在问题的对象：

// ceph pg 33.3e list_missing
{
    "offset": {
        "oid": "",
        "key": "",
        "snapid": 0,
        "hash": 0,
        "max": 0,
        "pool": -9223372036854775808,
        "namespace": ""
    },
    "num_missing": 1,
    "num_unfound": 1,
    "objects": [
        {
            "oid": {
                // 丢失的对象
                "oid": "obj_delete_at_hint.0000000066",
                "key": "",
                "snapid": -2,
                "hash": 2846662078,
                "max": 0,
                "pool": 33,
                "namespace": ""
            },
            "need": "1723'1412",
            "have": "0'0",
            "flags": "none",
            "locations": []
        }
    ],
    "more": false
}

如果丢失的对象太多，more会显示为true。

执行下面的命令，可以查看PG的诊断信息：

// ceph pg 33.3e query
{
  "state": "active+recovery_wait+degraded",
  "recovery_state": [
    {
      "name": "Started/Primary/Active",
      "enter_time": "2018-06-16 15:03:32.873855",
      // 丢失的对象所在的OSD
      "might_have_unfound": [
        {
          "osd": "6",
          "status": "already probed"
        },
        {
          "osd": "11",
          "status": "osd is down"
        }
      ],
    } 
  ]
}

上面输出中的osd.11，先前已经出现硬件故障，被移除了。这意味着unfound的对象已经不可恢复。你可以标记：

# 回滚到前一个版本，如果是新创建对象则忘记其存在。不支持EC池
ceph pg 33.3e mark_unfound_lost revert
# 让Ceph忘记unfound对象的存在
ceph pg 33.3e mark_unfound_lost delete

ceph-deploy

TypeError: 'Logger' object is not callable

/usr/lib/python2.7/dist-packages/ceph_deploy/osd.py第376行，替换为：

LOG.info(line.decode('utf-8'))

Could not locate executable 'ceph-volume' make sure it is installed and available

应该安装ceph-deploy的1.5.39版本，2.0.0版本仅仅支持luminous：

apt remove ceph-deploy
apt install ceph-deploy=1.5.39 -y

部署MON后ceph-s卡死

在我的环境下，是因为MON节点识别的public addr为LVS的虚拟网卡的IP地址导致。修改配置，显式指定MON的IP地址即可：

[mon.master01-10-5-38-24]
public addr = 10.5.38.24 
cluster addr = 10.5.38.24

[mon.master02-10-5-38-39]
public addr = 10.5.38.39
cluster addr = 10.5.38.39

[mon.master03-10-5-39-41]
public addr = 10.5.39.41
cluster addr = 10.5.39.41

ceph-helm

在我的环境下部署，出现一系列和权限有关的问题，如果你遇到相同问题且不关心安全性，可以修改配置：

# kubectl -n ceph edit configmap ceph-etc
apiVersion: v1
data:
  ceph.conf: |
    [global]
    fsid = 08adecc5-72b1-4c57-b5b7-a543cd8295e7
    mon_host = ceph-mon.ceph.svc.k8s.gmem.cc
    # 添加以下三行
    auth client required = none
    auth cluster required = none
    auth service required = none
    [osd]
    # 在大型集群里用单独的“集群”网可显著地提升性能
    cluster_network = 10.0.0.0/16
    ms_bind_port_max = 7100
    public_network = 10.0.0.0/16
kind: ConfigMap

如果需要保证集群安全，请参考下面几个案例。

ceph-mgr报Operation not permitted

问题现象：

此Pod一直无法启动，查看容器日志，发现：

timeout 10 ceph --cluster ceph auth get-or-create mgr.xenial-100 mon 'allow profile mgr' osd 'allow *' mds 'allow *' -o /var/lib/ceph/mgr/ceph-xenial-100/keyring

0 librados: client.admin authentication error (1) Operation not permitted

问题分析：

连接到可以访问的ceph-mon，执行命令：

kubectl -n ceph exec -it ceph-mon-nhx52 -c ceph-mon -- ceph

发现报同样的错误。这说明client.admin的Keyring有问题。登陆到ceph-mon，获取Keyring列表：

# kubectl -n ceph exec -it ceph-mon-nhx52 -c ceph-mon bash
# ceph --cluster=ceph  --name mon. --keyring=/var/lib/ceph/mon/ceph-xenial-100/keyring auth list   
 
installed auth entries:

client.admin
        key: AQAXPdtaAAAAABAA6wd1kCog/XtV9bSaiDHNhw==
        auid: 0
        caps: [mds] allow
        caps: [mgr] allow *
        caps: [mon] allow *
        caps: [osd] allow *

client.bootstrap-mds
        key: AQAgPdtaAAAAABAAFPgqn4/zM5mh8NhccPWKcw==
        caps: [mon] allow profile bootstrap-mds
client.bootstrap-osd
        key: AQAUPdtaAAAAABAASbfGQ/B/PY4Imoa4Gxsa2Q==
        caps: [mon] allow profile bootstrap-osd
client.bootstrap-rgw
        key: AQAJPdtaAAAAABAAswtFjgQWahHsuy08Egygrw==
        caps: [mon] allow profile bootstrap-rgw

而当前使用的client.admin的Keyring内容为：

[client.admin]
  key = AQAda9taAAAAABAAgWIsgbEiEsFRJQq28hFgTQ==
  auid = 0
  caps mds = "allow"
  caps mon = "allow *"
  caps osd = "allow *"
  caps mgr = "allow *"

内容不一致。使用auth list获得的client.admin的Keyring，可以发现是有效的：

ceph --cluster=ceph --name mon. --keyring=/var/lib/ceph/mon/ceph-xenial-100/keyring auth get client.admin > client.admin.keyyring
ceph --name client.admin --keyring client.admin.keyyring # OKskydns_skydns_dns_cachemiss_count_total{instance="172.27.100.134:10055"}

检查一下各Pod的/etc/ceph/ceph.client.admin.keyring，可以发现都是从Secret ceph-client-admin-keyring挂载的。那么这个Secret是如何生成的呢？执行命令：

kubectl -n ceph get job --output=yaml --export | grep ceph-client-admin-keyring -B 50

可以发现Job ceph-storage-keys-generator负责生成该Secret。查看其Pod日志可以生成Keyring、创建Secret的记录。进一步查看Pod的资源定义，可以看到负责创建的脚本/opt/ceph/ceph-storage-key.sh挂载自ConfigMap ceph-bin中的ceph-storage-key.sh。

解决此问题最简单的办法就是修改Secret，将其修改为集群中实际有效的Keyring：

# 导出Secret定义
kubectl -n ceph get  secret ceph-client-admin-keyring --output=yaml --export > ceph-client-admin-keyring
# 获得有效Keyring的Base64编码
cat client.admin.keyyring | base64
# 将Secret中的编码替换为上述Base64，然后重新创建Secret
kubectl -n ceph apply -f ceph-client-admin-keyring

此外Secret pvc-ceph-client-key中存放的也是admin用户的Key，其内容也需要替换到有效的：

kubectl -n ceph edit secret  pvc-ceph-client-key

pvc无法提供

原因和上一个问题类似，还是权限问题。

查看无法绑定的PVC日志：

# kubectl -n ceph describe pvc
 Normal   Provisioning        53s   ceph.com/rbd ceph-rbd-provisioner-5544dcbcf5-n846s 708edb2c-4619-11e8-abf2-e672650d97a2  External provisioner is provisioning volume for claim
"ceph/ceph-pvc"
  Warning  ProvisioningFailed  53s   ceph.com/rbd ceph-rbd-provisioner-5544dcbcf5-n846s 708edb2c-4619-11e8-abf2-e672650d97a2  Failed to provision volume with StorageClass "general"
: failed to create rbd image: exit status 1, command output: 2018-04-22 13:44:35.269967 7fb3e3e3ad80 -1 did not load config file, using default settings.
2018-04-22 13:44:35.297828 7fb3e3e3ad80 -1 auth: unable to find a keyring on /etc/ceph/ceph.client.admin.keyring,/etc/ceph/ceph.keyring,/etc/ceph/keyring,/etc/ceph/keyring.bin: (2)
 No such file or directoryConnection to localhost closed by remote host.
Connection to localhost closed.e3e3ad80  0 librados: client.admin authentication error (1) Operation not permitted

rbd-provisioner需要读取StorageClass定义，获取需要的凭证信息：

# kubectl -n ceph get storageclass --output=yaml
apiVersion: v1                                                                                                                                                                      
items:                                                                                                                                                                              
- apiVersion: storage.k8s.io/v1                                                                                                                                                     
  kind: StorageClass                                                                                                                                                                
  metadata:                                                                                                                                 
    name: general
  parameters:
    adminId: admin
    adminSecretName: pvc-ceph-conf-combined-storageclass
    adminSecretNamespace: ceph
    imageFeatures: layering
    imageFormat: "2"
    monitors: ceph-mon.ceph.svc.k8s.gmem.cc:6789
    pool: rbd
    userId: admin
    userSecretName: pvc-ceph-client-key
  provisioner: ceph.com/rbd
  reclaimPolicy: Delete

可以看到牵涉到两个Secret：pvc-ceph-conf-combined-storageclass、pvc-ceph-client-key，你需要把正确的Keyring内容写入其中。

pvc无法Attach

症状：PVC可以Provision，RBD可以通过Ceph命令挂载，但是Pod无法启动，Describe之显示：

auth: unable to find a keyring on /etc/ceph/keyring: (2) No such file or directory
monclient(hunting): authenticate NOTE: no keyring found; disabled cephx authentication
librados: client.admin authentication error (95) Operation not supported

解决办法：把ceph.client.admin.keyring拷贝一份为 /etc/ceph/keyring即可。

ceph-osd报Operation not permitted

原因和上一个问题一样。查看无法启动的容器日志：

kubectl -n ceph logs ceph-osd-dev-vdb-bjnbm -c osd-prepare-pod
# ceph --cluster ceph --name client.bootstrap-osd --keyring /var/lib/ceph/bootstrap-osd/ceph.keyring health                                                             
# 0 librados: client.bootstrap-osd authentication error (1) Operation not permitted                                                         
# [errno 1] error connecting to the cluster

进一步查看，可以发现/var/lib/ceph/bootstrap-osd/ceph.keyring挂载自ceph-bootstrap-osd-keyring下的ceph.keyring：

# kubectl -n ceph get secret ceph-bootstrap-osd-keyring --output=yaml --export
apiVersion: v1
data:
  ceph.keyring: W2NsaWVudC5ib290c3RyYXAtb3NkXQogIGtleSA9IEFRQVlhOXRhQUFBQUFCQUFSQ2l1bVY1NFpOU2JGVWwwSDZnYlJ3PT0KICBjYXBzIG1vbiA9ICJhbGxvdyBwcm9maWxlIGJvb3RzdHJhcC1vc2QiCgo=
kind: Secret
metadata:
  creationTimestamp: null
  name: ceph-bootstrap-osd-keyring
  selfLink: /api/v1/namespaces/ceph/secrets/ceph-bootstrap-osd-keyring
type: Opaque

# BASE64解码后：
[client.bootstrap-osd]
  key = AQAYa9taAAAAABAARCiumV54ZNSbFUl0H6gbRw==
  caps mon = "allow profile bootstrap-osd"

获得实际有效的Keyring：

kubectl -n ceph exec -it ceph-mon-nhx52 -c ceph-mon -- ceph --cluster=ceph --name mon. --keyring=/var/lib/ceph/mon/ceph-xenial-100/keyring auth get client.bootstrap-osd
# 注意上述命令的输出的第一行exported keyring for client.bootstrap-osd不属于Keyring
[client.bootstrap-osd]
        key = AQAUPdtaAAAAABAASbfGQ/B/PY4Imoa4Gxsa2Q==
        caps mon = "allow profile bootstrap-osd"

修改Secret：

kubectl -n ceph edit secret ceph-bootstrap-osd-keyring

替换为上述Keyring。

ceph-osd报No cluster conf with fsid

报错信息：

# kubectl -n ceph logs  ceph-osd-dev-vdc-cpkxh -c osd-activate-pod
ceph_disk.main.Error: Error: No cluster conf found in /etc/ceph with fsid 08adecc5-72b1-4c57-b5b7-a543cd8295e7
# 每个OSD都包同样的错误

对应的配置文件内容：

kubectl -n ceph get configmap ceph-etc --output=yaml
apiVersion: v1
data:
  ceph.conf: |
    [global]
    fsid = a4426e8a-c46d-4407-95f1-911a23a0dd6e
    mon_host = ceph-mon.ceph.svc.k8s.gmem.cc
    [osd]
    cluster_network = 10.0.0.0/16
    ms_bind_port_max = 7100
    public_network = 10.0.0.0/16
kind: ConfigMap
metadata:
  name: ceph-etc
  namespace: ceph

可以看到，fsid不一致。修改一下ConfigMap中的fsid即可解决此问题。

容器无法Attach PV

报错信息：

describe pod报错：timeout expired waiting for volumes to attach/mount for pod
kubelet报错：executable file not found in $PATH, rbd output

原因分析：动态提供的持久卷，包含两个阶段：

卷提供，原本由控制平面负责，controller-manager中需要包含rbd命令，才能在Ceph集群中创建供K8S使用的镜像。目前这个职责由external_storage项目的rbd-provisioner完成
卷依附/分离，由使用卷的Pod所在的Node的kubelet负责完成。这些Node需要安装rbd命令，并提供有效的配置文件

解决方案：

# 安装软件
apt install -y ceph-common
# 从ceph-mon拷贝以下文件：
# /etc/ceph/ceph.client.admin.keyring
# /etc/ceph/ceph.conf

应用上述方案后，如果继续报错：rbd: map failed exit status 110, rbd output: rbd: sysfs write failed In some cases useful info is found in syslog。则查看一下系统日志：

dmesg | tail

# [ 3004.833252] libceph: mon0 10.0.0.100:6789 feature set mismatch, my 106b84a842a42 
#     < server's 40106b84a842a42, missing 400000000000000
# [ 3004.840980] libceph: mon0 10.0.0.100:6789 missing required protocol features

对照本文前面的特性表，可以发现内核版本必须4.5+才可以（CEPH_FEATURE_NEW_OSDOPREPLY_ENCODING）。

最简单的办法就是升级一下内核：

# Desktop
apt install --install-recommends linux-generic-hwe-16.04 xserver-xorg-hwe-16.04 -y
# Server
apt install --install-recommends linux-generic-hwe-16.04 -y

sudo apt-get remove linux-headers-4.4.* -y && \
sudo apt-get remove linux-image-4.4.* -y && \
sudo apt-get autoremove -y && \
sudo update-grub

或者，将tunables profile调整到hammer版本的Ceph：

ceph osd crush tunables hammer
# adjusted tunables profile to hammer

OSD启动失败报文件名太长

报错信息：ERROR: osd init failed: (36) File name too long

报错原因：使用的文件系统为EXT4，存储的xattrs大小有限制，有条件的话最好使用XFS

解决办法：修改配置文件，如下：

osd_max_object_name_len = 256
osd_max_object_namespace_len = 64

无法打开/proc/0/cmdline

报错信息：Fail to open '/proc/0/cmdline' error No such file or directory

报错原因：在CentOS 7上，将ceph-mon和ceph-osd（基于目录）部署在同一节点（基于Helm）报此错误，分离后问题消失。此外部署mon的那些节点还设置了虚IP，其子网和Ceph的Cluster/Public网络相同，这导致了某些OSD监听的地址不正确。

再次遇到此问题，原因是一个虚拟网卡lo:ngress使用和eth0相同的网段，导致OSD使用了错误的网络。

解决办法是写死OSD监听地址：

[osd.2]                                                                                                                                                                                    
public addr = 10.0.4.1                                                                                                                                                                     
cluster addr = 10.0.4.1

无法挂载RBD

报错信息：Input/output error，结合dmesg | tail可以看到更细节的报错

报错原因，可能情况：

CentOS7下报错，提示客户端不满足特性CEPH_FEATURE_CRUSH_V4（1000000000000）。解决办法，将Bucket算法改为straw。注意，之后加入的OSD仍然默认使用straw2，使用的镜像的标签为tag-build-master-luminous-ubuntu-16.04。

write error: File name too long

external storage中的CephFS可以正常Provisioning，但是尝试读写数据时报此错误。原因是文件路径过长，和底层文件系统有关，为了兼容部分Ext文件系统的机器，我们限制了osd_max_object_name_len。

解决办法，不使用UUID，而使用namespace + pvcname来命名目录。修改cephfs-provisioner.go，118行：

// create random share name
share := fmt.Sprintf("%s-%s", options.PVC.Namespace,options.PVC.Name)
// create random user id
user := fmt.Sprintf("%s-%s", options.PVC.Namespace,options.PVC.Name)

重新编译即可。

K8S相关

rbd image *** is still being used

describe pod发现：

rbd image rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 is still being used

说明有其它客户端正在占用此镜像。如果尝试删除镜像，你会发现无法成功：

rbd rm rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 

librbd::image::RemoveRequest: 0x560e39df9af0 check_image_watchers: image has watchers - not removing
Removing image: 0% complete...failed.
rbd: error: image still has watchers
This means the image is still open or the client using it crashed. Try again after closing/unmapping it or waiting 30s for the crashed client to timeout.

要知道watcher是谁，可以执行：

rbd status rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 
Watchers:
        watcher=10.5.39.12:0/1652752791 client.94563 cookie=18446462598732840961

可以发现10.5.39.12正在占用镜像。

另一种获取watcher的方法是，使用rbd的header对象。执行下面的命令获取rbd的诊断信息：

rbd info rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 

rbd image 'kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6':
        size 8192 MB in 2048 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.134474b0dc51
        format: 2
        features: layering
        flags: 
        create_timestamp: Wed Jul 11 17:49:51 2018

字段block_name_prefix的值rbd_data.134474b0dc51，将data换为header即为header对象。然后使用命令：

rados listwatchers -p rbd-unsafe rbd_header.134474b0dc51

watcher=10.5.39.12:0/1652752791 client.94563 cookie=18446462598732840961

既然知道10.5.39.12占用镜像，断开连接即可。在此机器上执行下面的命令，显示当前映射的rbd镜像列表：

rbd showmapped

id pool       image                                                       snap device    
0  rbd-unsafe kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 -    /dev/rbd0 
1  rbd-unsafe kubernetes-dynamic-pvc-0729f9a6-84f0-11e8-9b75-5a3f858854b1 -    /dev/rbd1

此机器上的rbd0虽然映射，但是没有挂载。解除映射：

rbd unmap /dev/rbd0

再次检查rbd镜像状态，发现没有watcher了：

rbd status rbd-unsafe/kubernetes-dynamic-pvc-c0ac2cff-84ef-11e8-9a2a-566b651a72d6 

Watchers: none

rbd: map failed signal: aborted (core dumped)

kubectl describe报错Unable to mount volumes for pod... timeout expired waiting for volumes to attach or mount for pod...

检查发现目标rbd没有Watcher，Pod所在机器的Kubectl报错rbd: map failed signal: aborted (core dumped)。此前曾经在该机器上执行过rbd unmap操作。

手工 rbd map后问题消失。

断电后无法启动OSD

journal do_read_entry: bad header magic

报错信息：journal do_read_entry(156389376): bad header magic......FAILED assert(interval.last > last)

这是12.2版本已知的BUG，断电后可能出现OSD无法启动，可能导致数据丢失。

Couldn't init storage provider (RADOS)

RGW实例无法启动，通过journalctl看到上述信息。

要查看更多信息，需要查看RGW日志：

2020-10-22 16:51:55.771035 7fb1b0f20e80  0 ceph version 12.2.5 (cad919881333ac92274171586c827e01f554a70a) luminous (stable), process (unknown), pid 2546439
2020-10-22 16:51:55.792872 7fb1b0f20e80  0 librados: client.rgw.ceph02 authentication error (22) Invalid argument
2020-10-22 16:51:55.793450 7fb1b0f20e80 -1 Couldn't init storage provider (RADOS)

可以发现是和身份验证有关的问题。

通过

systemctl status ceph-radosgw@rgw.$RGW_HOST

得到命令行，手工运行：

radosgw -f --cluster ceph  --name client.rgw.ceph02 --setuser ceph --setgroup ceph -d --debug_ms 1

发现报错和上面一样。尝试增加--keyring参数，问题解决：

radosgw -f --cluster ceph  --name client.rgw.ceph02        \
  --setuser ceph --setgroup ceph -d --debug_ms 1           \
  --keyring=/var/lib/ceph/radosgw/ceph-rgw.ceph02/keyring

看来是Systemd服务没有找到keyring导致。

零散问题

禁用IPv6的机器上无法开启Prometheus模块

报错信息：Unhandled exception from module 'prometheus' while running on mgr.master01-10-5-38-24: error('No socket could
be created',)

解决办法：

ceph config-key set mgr/prometheus/server_addr 0.0.0.0

反复警告mon... clock skew

原因是时钟不同步警告阈值太低，在global段增加配置并重启MON：

mon clock drift allowed = 2
mon clock drift warn backoff = 30

或者执行下面的命令即时生效：

ceph tell mon.* injectargs '--mon_clock_drift_allowed=2'
ceph tell mon.* injectargs '--mon_clock_drift_warn_backoff=30'

或者检查ntp相关配置，保证时钟同步精度。

深度清理导致高IO

深度清理很消耗IO，如果长时间无法完成，可以禁用：

ceph osd set noscrub
ceph osd set nodeep-scrub

问题解决后，可以再启用：

ceph osd unset noscrub
ceph osd unset nodeep-scrub

使用CFQ作为IO调度器时，可以调整OSD IO线程的优先级：

# 设置调度器
echo cfq > /sys/block/sda/queue/scheduler

# 检查当前某个OSD的磁盘线程优先级类型
ceph daemon osd.4 config get osd_disk_thread_ioprio_class

# 修改IO优先级
ceph tell osd.* injectargs '--osd_disk_thread_ioprio_priority 7'
# IOPRIO_CLASS_RT最高 IOPRIO_CLASS_IDLE最低
ceph tell osd.* injectargs '--osd_disk_thread_ioprio_class idle'

如果上述措施没有问题时，可以考虑配置以下参数：

osd_deep_scrub_stride = 131072                                                                                                                                                           
# 每次Scrub的块数量范围
osd_scrub_chunk_min = 1                                                                                                                                                                  
osd_scrub_chunk_max = 5                                                                                                                                                                  
osd scrub during recovery = false                                                                                                                                                        
osd deep scrub interval = 2592000                                                                                                                                                        
osd scrub max interval = 2592000                                                                                                                                                         
# 单个OSD并发进行的Scrub个数
osd max scrubs = 1       
# Scrub起止时间                                                                                                                                                                
osd max begin hour = 2                                                                                                                                                                   
osd max end hour = 6                                                                                                                                                                     
# 系统负载超过多少则禁止Scrub
osd scrub load threshold = 4                                                                                                                                                             
# 每次Scrub后强制休眠0.1秒
osd scrub sleep = 0.1                                                                                                                                                                      
# 线程优先级
osd disk thread ioprio priority = 7
osd disk thread ioprio class = idle

强制unmap

如果Watcher被黑名单，则尝试Unmap镜像时会报错：rbd: sysfs write failed rbd: unmap failed: (16) Device or resource busy

可以使用下面的命令强制unmap：

rbd unmap -o force ...

增加pg_num和pgp_num后无法A+C

部分PG状态卡死，可能原因是OSD允许的PG数量受限，修改全局配置项mon_max_pg_per_osd并重启MON即可。

此外注意：调整PG数量后，一定要进入A+C状态后，再进行下一次调整。

无法删除RBD镜像

下面第二个镜像对应的K8S PV已经删除：

rbd ls
# kubernetes-dynamic-pvc-35350b13-46b8-11e8-bde0-a2c14c93573f
# kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4

但是对应的RBD没有删除，手工删除：

rbd remove kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4

报错：

2018-04-23 13:37:25.559444 7f919affd700 -1 librbd::image::RemoveRequest: 0x5598e77831d0 check_image_watchers: image has watchers - not removing
Removing image: 0% complete...failed.
rbd: error: image still has watchers
This means the image is still open or the client using it crashed. Try again after closing/unmapping it or waiting 30s for the crashed client to timeout.

查看RBD状态：

# rbd info kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4
rbd image 'kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4':
        size 8192 MB in 2048 objects
        order 22 (4096 kB objects)
        block_name_prefix: rbd_data.1003e238e1f29
        format: 2
        features: layering
        flags: 
        create_timestamp: Mon Apr 23 11:42:59 2018

#rbd status kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4
Watchers:
        watcher=10.0.0.101:0/4275384344 client.65597 cookie=18446462598732840963

到10.0.0.101这台机器上查看：

# df | grep e6e3339859d4
/dev/rbd2        8125880  251560   7438508   4% /var/lib/kubelet/plugins/kubernetes.io/rbd/rbd/rbd-image-kubernetes-dynamic-pvc-78740b26-46eb-11e8-8349-e6e3339859d4

重启Kubelet后可以删除RBD。

Error EEXIST: entity osd.9 exists but key does not match

# 删除密钥
ceph auth del osd.9
# 重新收集目标主机的密钥
ceph-deploy --username ceph-ops gatherkeys Carbon

创建新Pool后无法Active+Clean

pgs:     12.413% pgs unknown                                                                                                                                                         
             20.920% pgs not active                                                                                                                                                      
             768 active+clean                                                                                                                                                            
             241 creating+activating                                                                                                                                                     
             143 unknown

可能是由于PG总数太大导致，降低PG数量后很快Active+Clean

Orphaned pod无法清理

报错信息：Orphaned pod "a9621c0e-41ee-11e8-9407-deadbeef00a0" found, but volume paths are still present on disk : There were a total of 1 errors similar to this. Turn up verbosity to see them

临时解决办法：

rm -rf /var/lib/kubelet/pods/a9621c0e-41ee-11e8-9407-deadbeef00a0/volumes/rook.io~rook/

osd启动报错：ERROR: osd init failed: (1) Operation not permitted

可能原因是OSD使用的keyring和MON不一致。对于ID为14的OSD，将宿主机/var/lib/ceph/osd/ceph-14/keyring的内容替换为

ceph auth get osd.14

的输出前两行即可。

Mount failed with '(11) Resource temporarily unavailable'

在没有停止OSD的情况下执行ceph-objectstore-tool命令，会出现此错误。

neither `public_addr` nor `public_network` keys are defined for monitors

通过ceph-deploy添加MON节点时出现此错误，将public_network配置添加到配置文件的global段即可。

journalctl删除pv后卡在Terminating

可能原因：

对应的PVC没有删除，还在引用此PV。先删除PV即可

chown: cannot access '/var/log/ceph': No such file or directory

OSD无法启动，报上面的错误，可以配置：

ceph:
  storage:
    osd_log: /var/log

HEALTH_WARN application not enabled on

#池 # 功能
ceph osd pool application enable rbd block-devices

The post Ceph学习笔记 appeared first on 绿色记忆.

OpenStack学习笔记

Alex — Fri, 19 Jan 2018 09:00:57 +0000

简介

OpenStack是一个开源的IaaS解决方案，使用它，你可以通过仪表盘或者利用OpenStack API控制/Provision大规模的计算、存储、网络资源池。

通过“驱动”，OpenStack支持大量商业、开源的计算、存储、网络相关技术框架，从而能够管理各种各样的基础设施。不管是裸金属机器、虚拟机、还是容器，都可以基于OpenStack进行管理，并共享网络、存储等底层资源：

Kubernetes、CloudFoundry等PaaS平台可以构建在OpenStack之上。

项目组成

OpenStack由若干子项目组成，它们围绕着计算、存储、网络这三个核心概念组织：

计算：提供并管理网络中大量的虚拟机，主要由Nova子项目负责
存储：供服务器、应用程序使用的对象存储、块存储，分别由Swift、Cinder子项目负责
网络：可拔插、可扩容、API驱动的网络和IP管理

这三类子项目还具有一些共享的服务：identity、镜像管理（image management）、一个基于Web的UI接口。

总览图

OpenStack项目的总览图如下，其中粗体标出了它的核心子项目，包括Horizon、Heat、Nova、Neutron、Swift、Cinder等：

服务交互

以Bigdata as Service场景为例，各子项目的交互关系如下图：

简单的说明一下：

Keystone提供身份验证服务
Ceilometer提供监控服务
Horizon提供一个管理UI
Nova负责分配虚拟机
Glance提供镜像服务，镜像文件存放在Swift中
Cinder为虚拟机提供块存储卷
Cinder将卷备份到Swift中
Neuron为虚拟机提供网络连接

每个子项目，或者叫OpenStack服务，都通过公共的Identity Service进行身份验证，服务之间通过公共API进行交互。每个服务至少包含一个API进程，此进程监听API请求，进行预处理然后转交给服务的其它部分进行处理。

每个服务可以有多个进程，这些进程之间的通信方式通常是AMQP。服务的状态持久化在数据库中。多种消息代理、RDBMS被支持，例如RabbitMQ、MySQL、MariaDB。

客户端访问

用户访问OpenStack的方式有几种：

通过Horizon提供的Web仪表盘
提供CLI客户端
提供SDK进行编程

不管是何种方式，在底层都会向不同的OpenStack服务发送REST请求。

组件简介

Nova

Nova是OpenStack云中的计算组织控制器。支持OpenStack云中实例（instances）生命周期的所有活动都由Nova处理。这样使得Nova成为一个负责管理计算资源、网络、认证、所需可扩展性的平台。

Neutron

Neutron是openstack核心项目之一，提供云计算环境下的虚拟网络功能。OpenStack网络（neutron）管理OpenStack环境中所有虚拟网络基础设施（VNI），物理网络基础设施（PNI）的接入层。

Cinder

Cinder接口提供了一些标准功能，允许创建和附加块设备到虚拟机，如“创建卷”，“删除卷”和“附加卷”。还有更多高级的功能，支持扩展容量的能力，快照和创建虚拟机镜像克隆。

Octavia

Octavia 是 openstack lbaas的支持的一种后台程序，提供为虚拟机流量的负载均衡。实质是类似于trove，调用 nova 以及neutron的api生成一台安装好haproxy和keepalived软件的虚拟机，并连接到目标网路。

Swift

Swift 不是文件系统或者实时的数据存储系统，而是对象存储，用于长期存储永久类型的静态数据。这些数据可以检索、调整和必要时进行更新。Swift最适合虚拟机镜像、图片、邮件和存档备份这类数据的存储。

Glance

Glance（OpenStack Image Service）是一个提供发现，注册，和下载镜像的服务。Glance提供了虚拟机镜像的集中存储。通过 Glance 的 RESTful API，可以查询镜像元数据、下载镜像。虚拟机的镜像可以很方便的存储在各种地方，从简单的文件系统到对象存储系统（比如 OpenStack Swift）。

Horizon

Horizon 为 Openstack 提供一个 WEB 前端的管理界面 (UI 服务 )通过 Horizon 所提供的 DashBoard 服务 , 管理员可以使用通过 WEB UI 对 Openstack 整体云环境进行管理 , 并可直观看到各种操作结果与运行状态。

Ironic

Ironic包含一个API和多个插件，用于安全性和容错性地提供物理服务器。它可以和nova结合被使用为hypervisor驱动，或者用bifrost使用为独立服务。默认情况下，它会使用PXE和IPMI去与裸金属机器去交互。Ironic也支持使用供应商的插件而实现额外的功能。

Cyborg

Cyborg（以前称为Nomad）旨在为加速资源（即FPGA,GPU,SoC, NVMe SSD,DPDK/SPDK,eBPF/XDP …）提供通用管理框架。

Kolla

kolla 的使命是为 openstack 云平台提供生产级别的、开箱即用的交付能力。kolla 的基本思想是一切皆容器，将所有服务基于 Docker 运行，并且保证一个容器只跑一个服务（进程），做到最小粒度的运行 docker。

Kuryr

Kubernetes Kuryr是 OpenStack Neutron 的子项目，其主要目标是通过该项目来整合 OpenStack 与Kubernetes 的网络。该项目在 Kubernetes 中实现了原生 Neutron-based 的网络，因此使用 Kuryr-Kubernetes 可以让你的 OpenStack VM 与 Kubernetes Pods 能够选择在同一个子网上运作，并且能够使用 Neutron 的 L3 与 Security Group 来对网络进行路由，以及阻挡特定来源 Port。

Manila

Manila项目全称是File Share Service，文件共享即服务，用来提供云上的文件共享，支持CIFS协议和NFS协议。

Tacker

Tacker是一个在OpenStack内部孵化的项目, 他的作用是NVF管理器，用于管理NVF的生命周期。Tacker的重点是配置VNF, 并监视他们。如果需要，还可重启和/或扩展（自动修复）NVF。整个进程贯穿ETSIMANO所描述的整个生命周期。

命令

openstack

configuration

显示详细配置信息：

# --unmask表示明文显示密码
openstack configuration show [--mask | --unmask]

domain

一个Domain，是用户、组、项目的集合。任何组、项目仅仅属于单个Domain。

openstack domain create
    [--description ]
    [--enable | --disable]
    [--or-show]
    # 禁止删除或修改，除非去掉此标记
    [--immutable | --no-immutable]
    

openstack domain delete  [ ...]

openstack domain list
    [--sort-column SORT_COLUMN]
    [--name ]
    [--enabled]

openstack domain set
    [--name ]
    [--description ]
    [--enable | --disable]
    [--immutable | --no-immutable]
    

openstack domain show

project

管理项目

openstack project create
    [--domain ]
    [--parent ]
    [--description ]
    [--enable | --disable]
    [--property ]
    [--or-show]
    [--immutable | --no-immutable]
    [--tag ]
    

openstack project delete [--domain ]  [ ...]

openstack project list
    [--sort-column SORT_COLUMN]
    [--domain ]
    [--parent ]
    [--user ]
    [--my-projects]
    [--long]
    [--sort [:]]
    [--tags [,,...]]
    [--tags-any [,,...]]
    [--not-tags [,,...]]
    [--not-tags-any [,,...]]

openstack project set
    [--name ]
    [--domain ]
    [--description ]
    [--enable | --disable]
    [--property ]
    [--immutable | --no-immutable]
    [--tag ]
    [--clear-tags]
    [--remove-tag ]
    

openstack project show
    [--domain ]
    [--parents]
    [--children]

project purge

清除和指定项目关联的资源

openstack project purge
    [--dry-run]
    [--keep-project]
    (--auth-project | --project )
    [--project-domain ]

group

用户的组。

# 添加用户到组
openstack group add user
    [--group-domain ]
    [--user-domain ]
    
    
    [ ...]
openstack group remove user
    [--group-domain ]
    [--user-domain ]
    
    
    [ ...]

# 检查组是否包含用户
openstack group contains user
    [--group-domain ]
    [--user-domain ]
    
    

# 创建组
openstack group create
    [--domain ]
    [--description ]
    [--or-show]
    


openstack group delete [--domain ]  [ ...]

openstack group list
    [--sort-column SORT_COLUMN]
    [--domain ]
    [--user ]
    [--user-domain ]
    [--long]
openstack group show [--domain ] 

openstack group set
    [--domain ]
    [--name ]
    [--description ]

user

用户管理

openstack user create
    # 用户的默认domain
    [--domain ]
    # 用户的默认project
    [--project ]
    [--project-domain ]
    # 指定密码
    [--password ]
    # 交互的输入密码
    [--password-prompt]
    [--email ]
    [--description ]
    # 禁止连续身份验证失败后，锁定用户
    [--ignore-lockout-failure-attempts]
    [--no-ignore-lockout-failure-attempts]
    # 禁止密码过期
    [--ignore-password-expiry]
    [--no-ignore-password-expiry]
    # 禁止首次使用必须修改密码
    [--ignore-change-password-upon-first-use]
    [--no-ignore-change-password-upon-first-use]
    # 锁定密码，不给修改
    [--enable-lock-password]
    [--disable-lock-password]
    # 启用多因子身份验证
    [--enable-multi-factor-auth]
    [--disable-multi-factor-auth]
    [--multi-factor-auth-rule ]
    # 启用/禁用
    [--enable | --disable]
    # 显示已有的用户
    [--or-show]
    
openstack user delete [--domain ]  [ ...]

openstack user list
    [--sort-column SORT_COLUMN]
    [--domain ]
    [--group  | --project ]
    [--long]
openstack user show [--domain ] 

# 修改密码
openstack user password set
    [--password ]
    [--original-password ]


openstack user set
    [--name ]
    [--domain ]
    [--project ]
    [--project-domain ]
    [--password ]
    [--password-prompt]
    [--email ]
    [--description ]
    [--ignore-lockout-failure-attempts]
    [--no-ignore-lockout-failure-attempts]
    [--ignore-password-expiry]
    [--no-ignore-password-expiry]
    [--ignore-change-password-upon-first-use]
    [--no-ignore-change-password-upon-first-use]
    [--enable-lock-password]
    [--disable-lock-password]
    [--enable-multi-factor-auth]
    [--disable-multi-factor-auth]
    [--multi-factor-auth-rule ]
    [--enable | --disable]

role

可以创建角色，将角色映射给用户或组。

# 将角色赋予组或用户
openstack role add
    [--system  | --domain  | --project ]
    [--user  | --group ]
    [--group-domain ]
    [--project-domain ]
    [--user-domain ]
    [--inherited]
    [--role-domain ]
    
openstack role remove
    [--system  | --domain  | --project ]
    [--user  | --group ]
    [--group-domain ]
    [--project-domain ]
    [--user-domain ]
    [--inherited]
    [--role-domain ]
    

# 创建角色
openstack role create
    [--description ]
    [--domain ]
    [--or-show]
    [--immutable | --no-immutable]
    

openstack role delete [--domain ]  [ ...]

openstack role list [--sort-column SORT_COLUMN] [--domain ]

openstack role set
    [--description ]
    [--domain ]
    [--name ]
    [--immutable | --no-immutable]
    

openstack role show [--domain ]

role assignment

角色和用户的映射关系。

openstack role assignment list
    [--role ]
    [--role-domain ]
    [--user ]
    [--user-domain ]
    [--group ]
    [--group-domain ]
    [--domain ]
    [--project ]
    [--project-domain ]
    [--effective]
    [--inherited]
    [--names]

implied role

指定角色之间的包含关系。

#                             被隐含的角色           目标角色
openstack implied role create --implied-role  

openstack implied role delete --implied-role  

openstack implied role list [--sort-column SORT_COLUMN]

trust

提供特定项目中，用户之间的角色代理，支持可选的替身机制（impersonation）。需要 OS-TRUST扩展。

consumer

在Identity服务的OS-OAUTH1扩展中使用，用于创建request token 、access token，仅仅支持Identity v3。

openstack consumer create [--description ]
openstack consumer delete  [ ...]
openstack consumer list [--sort-column SORT_COLUMN]
openstack consumer set [--description ] 
openstack consumer show

credential

管理凭证：

openstack credential create
    [--type ]
    [--project ]
    
    

openstack credential delete  [ ...]

openstack credential list
    [--sort-column SORT_COLUMN]
    [--user ]
    [--user-domain ]
    [--type ]

openstack credential set
    --user 
    --type 
    --data 
    [--project ]
    

openstack credential show

application credential

使用应用凭证，用户可以给自己的应用程序授予对云资源的有限访问权限。

# 创建新的凭证
openstack application credential create
    [--secret ]
    [--role ]
    [--expiration ]
    [--description ]
    [--unrestricted]
    [--restricted]
    [--access-rules ]
    

openstack application credential delete
    
    [ ...]

openstack application credential list
    [--sort-column SORT_COLUMN]
    [--user ]
    [--user-domain ]

openstack application credential show

access rule

对应用程序凭证的权限进行细粒度控制。每个访问规则包含一下要素：

服务类型 + 请求路径 + 请求方法

openstack access rule delete  [ ...]

openstack access rule list
    [--user ]
    [--user-domain ]

openstack access rule show

token

创建或吊销一个令牌

openstack token issue

openstack token revoke

access token

Identity服务的OS-OAUTH1扩展使用访问令牌。consumer可以代表被授权用户来获得新的Identity API token。

openstack access token create
    # consumer的键/密钥
    --consumer-key 
    --consumer-secret 
    --request-key 
    --request-secret 
    --verifier

request token

Identity服务的OS-OAUTH1扩展使用请求令牌。consumer使用此令牌来请求access token

# 验证请求令牌
openstack request token authorize
    --request-key 
    --role 

# 创建请求令牌
openstack request token create
    --consumer-key 
    --consumer-secret 
    --project 
    [--domain ]

policy

策略是一组规则，可以被远程服务消费。

openstack policy create [--type ] 

openstack policy delete  [ ...]

openstack policy list [--sort-column SORT_COLUMN] [--long]

openstack policy set [--type ] [--rules ] 

openstack policy show

network rbac

基于RBAC的、针对网络资源的授权控制策略。让用户获得某个项目的网络资源的访问权限

openstack network rbac create
    --type 
    --action 
    (--target-project  | --target-all-projects)
    [--target-project-domain ]
    [--project ]
    [--project-domain ]
    

openstack network rbac delete  [ ...]

openstack network rbac list
    [--sort-column SORT_COLUMN]
    [--type ]
    [--action ]
    [--long]

openstack network rbac set
    [--target-project ]
    [--target-project-domain ]
    

openstack network rbac show

quota

很多API都支持资源配额

openstack quota set
    # 为指定的class设置配额
    [--class]
    # 核心数配额
    [--cores ]
    # 固定IP数量配额
    [--fixed-ips ]
    [--injected-file-size ]
    [--injected-path-size ]
    [--injected-files ]
    [--instances ]
    [--key-pairs ]
    [--properties ]
    [--ram ]
    [--server-groups ]
    [--server-group-members ]
    [--backups ]
    [--backup-gigabytes ]
    [--gigabytes ]
    [--per-volume-gigabytes ]
    [--snapshots ]
    [--volumes ]
    [--floating-ips ]
    [--secgroup-rules ]
    [--secgroups ]
    [--networks ]
    [--subnets ]
    [--ports ]
    [--routers ]
    [--rbac-policies ]
    [--subnetpools ]
    [--volume-type ]
    [--force]
    # 此配额针对的项目或者class
    

openstack quota list
    [--sort-column SORT_COLUMN]
    [--project ]
    [--detail]
    (--compute | --volume | --network)

openstack quota show [--class | --default] []

# 显示针对所有项目的默认配额
openstack quota show --default

# 增大默认安装下admin项目的资源配额
openstack quota set --cores 32 admin
openstack quota set --ram 131072 admin
openstack quota set --gigabytes 8192 admin
openstack quota set --volumes 32 admin
openstack quota set --snapshots 32 admin
openstack quota set --instances 16 admin

limit

用于在项目级别进行资源配额。

# 创建一个配额
openstack limit create
    [--description ]
    # 此配额影响的区域
    [--region ]
    # 此配额针对的项目
    --project 
    # 负责资源的服务
    --service 
    # 资源额度
    --resource-limit 
    

openstack limit delete  [ ...]

openstack limit list
    [--sort-column SORT_COLUMN]
    [--service ]
    [--resource-name ]
    [--region ]
    [--project ]

openstack limit set
    [--description ]
    [--resource-limit ]
    

openstack limit show

registered limit

用于定义OpenStack部署中的默认资源限制

openstack registered limit create
    [--description ]
    [--region ]
    --service 
    --default-limit 
    

openstack registered limit delete
    
    [ ...]

openstack registered limit list
    [--sort-column SORT_COLUMN]
    [--service ]
    [--resource-name ]
    [--region ]

openstack registered limit set
    [--service ]
    [--resource-name ]
    [--default-limit ]
    [--description ]
    [--region ]
    

openstack registered limit show

limits

显示计算、存储资源用量的限制

openstack limits show
    [--sort-column SORT_COLUMN]
    (--absolute | --rate)
    [--reserved]
    [--project ]
    [--domain ]

usage

显示项目的资源用量

openstack usage list
    [--sort-column SORT_COLUMN]
    # 用量统计的起始时间，默认4周前
    [--start ]
    # 用量统计的结束日期，默认明天
    [--end ]

openstack usage show
    [--project ]
    [--start ]
    [--end ]

region

区域是OpenStack部署中的最大的分区。你可以配置多个sub-region，甚至形成树形结构。

openstack region create
    [--parent-region ]
    [--description ]
    

openstack region delete  [ ...]

openstack region list
    [--sort-column SORT_COLUMN]
    [--parent-region ]

openstack region set
    [--parent-region ]
    [--description ]
    

openstack region show

availability zone

可用区是云存储、计算、网络服务的逻辑分区。对等的AZ具有构成HA的效果，这和Region不同。

# 列出可用区
openstack availability zone list
    [--sort-column SORT_COLUMN]
    [--compute]
    [--network]
    [--volume]
    [--long]

aggregate

聚合是一组分组host的机制：

# 添加/删除主机到聚合中
openstack aggregate add host  
openstack aggregate remove host  

# 为聚合请求缓存镜像
openstack aggregate cache image   [ ...]

# 创建一个聚合，可以看到聚合是在某个AZ内部的
openstack aggregate create
    [--zone ]
    [--property ]
    

openstack aggregate delete  [ ...]

# 为聚合设置元数据（键值对），然后为Flavor设置scope为aggregate_instance_extra_specs的
# 额外规格，规格键值和元数据一致，可以将Flavor映射到聚合。从Flavor创建的实例将位于聚合的主机中
openstack aggregate set
    [--name ]
    [--zone ]
    [--property ]
    [--no-property]
    
openstack aggregate unset [--property ] 

openstack aggregate show 
openstack aggregate list [--sort-column SORT_COLUMN] [--long]

host

运行Hypervisor的物理机器。

openstack host list [--sort-column SORT_COLUMN] [--zone ]

openstack host set
    [--enable | --disable]
    [--enable-maintenance | --disable-maintenance]
    

openstack host show [--sort-column SORT_COLUMN]

hypervisor

openstack hypervisor list
    [--sort-column SORT_COLUMN]
    [--matching ]
    [--long]

openstack hypervisor show

hypervisor stats

openstack hypervisor stats show

keypair

OpenSSH公钥管理，用于访问创建的server（虚拟机）。

# 创建公钥
# 如果什么参数都不指定，则生成新的公钥
openstack keypair create
    [--public-key  | --private-key ]
    [--type ]
    [--user ]
    [--user-domain ]
    

openstack keypair delete
    [--user ]
    [--user-domain ]
    
    [ ...]

openstack keypair list
    [--sort-column SORT_COLUMN]
    [--user ]
    [--user-domain ]
    [--project ]
    [--project-domain ]

openstack keypair show
    [--public-key]
    [--user ]
    [--user-domain ]

versions show

显示所有服务的版本、端点、是否弃用之类的信息

openstack versions show

catalog

显示服务的类型、名称、端点列表：

openstack catalog list [--sort-column SORT_COLUMN]
openstack catalog show 

openstack catalog list
# +-----------+-----------+-----------------------------------------+
# | Name      | Type      | Endpoints                               |
# +-----------+-----------+-----------------------------------------+
# | glance    | image     | zircon                                  |
# |           |           |   public: http://os.gmem.cc:9292        |
# |           |           |                                         |
# | keystone  | identity  | zircon                                  |
# |           |           |   internal: http://os.gmem.cc:5000/v3/  |
# |           |           | zircon                                  |
# |           |           |   public: http://os.gmem.cc:5000/v3/    |
# |           |           | zircon                                  |
# |           |           |   admin: http://os.gmem.cc:5000/v3/     |
# |           |           |                                         |
# | nova      | compute   | zircon                                  |
# |           |           |   internal: http://os.gmem.cc:8774/v2.1 |
# |           |           | zircon                                  |
# |           |           |   public: http://os.gmem.cc:8774/v2.1   |
# |           |           | zircon                                  |
# |           |           |   admin: http://os.gmem.cc:8774/v2.1    |
# |           |           |                                         |
# | placement | placement | zircon                                  |
# |           |           |   public: http://os.gmem.cc:8778        |
# |           |           | zircon                                  |
# |           |           |   admin: http://os.gmem.cc:8778         |
# |           |           | zircon                                  |
# |           |           |   internal: http://os.gmem.cc:8778      |
# |           |           |                                         |
# +-----------+-----------+-----------------------------------------+

extension

很多OpenStack API包含API扩展，这些扩展提供额外的功能。

# 列出API扩展
openstack extension list
    [--sort-column SORT_COLUMN]
    [--compute]
    [--identity]
    [--network]
    [--volume]
    [--long]

# 显示API扩展
openstack extension show

endpoint

管理服务的API端点

# 关联项目到端点
openstack endpoint add project
    [--project-domain ]
    
    
openstack endpoint remove project
    [--project-domain ]
    
    

# 创建新的端点
openstack endpoint create
    # 所属的区域
    [--region ]
    [--enable | --disable]
    # 端点所属的服务
    
    # admin, public 还是 internal
    
    

openstack endpoint delete  [ ...]

openstack endpoint list
    [--sort-column SORT_COLUMN]
    [--service ]
    [--interface ]
    [--region ]
    [--endpoint  | --project ]
    [--project-domain ]

openstack endpoint set
    [--region ]
    [--interface ]
    [--url ]
    [--service ]
    [--enable | --disable]
    

openstack endpoint show

endpoint group

一组端点，可以一起关联到项目。

# 关联端点组到项目
openstack endpoint group add project
    [--project-domain ]
    
    
openstack endpoint group remove project
    [--project-domain ]
    
    


# 创建端点组
openstack endpoint group create
    [--description DESCRIPTION]
    
    
openstack endpoint group delete  [ ...]
openstack endpoint group set
    [--name ]
    [--filters ]
    [--description ]
    
openstack endpoint group list
    [--sort-column SORT_COLUMN]
    [--endpointgroup  | --project ]
    [--domain ]
openstack endpoint group show

flavor

表示一种虚拟机的规格。

openstack flavor create
    [--id ]
    # 内存大小，MB
    [--ram ]
    # 磁盘大小，GB
    [--disk ]
    # 临时磁盘大小
    [--ephemeral ]
    # 交换分区大小
    [--swap ]
    # VCPU数量，默认1
    [--vcpus ]
    # RX/TX 因子，默认1.0
    [--rxtx-factor ]
    # 是否可以被其它项目使用
    [--public | --private]
    [--property ]
    # 所属项目
    [--project ]
    [--description ]
    [--project-domain ]
    # 传统的名字是  XX.SIZE_NAME 格式，现在已经没有要求。不排除某些工具依赖于这种名称格式
    

openstack flavor list
    [--sort-column SORT_COLUMN]
    [--public | --private | --all]
    [--long]
    [--marker ]
    [--limit ]

openstack flavor set
    [--no-property]
    [--property ]
    [--project ]
    [--description ]
    [--project-domain ]
    
openstack flavor unset
    [--property ]
    [--project ]
    [--project-domain ]
    

openstack flavor show 


# 创建一个Flavor
openstack flavor create FLAVOR_NAME --id FLAVOR_ID \
    --ram RAM_IN_MB --disk ROOT_DISK_IN_GB --vcpus NUMBER_OF_VCPUS

# 创建Flavor并分配给一个租户
openstack flavor create --public m1.extra_tiny --id auto \
    --ram 256 --disk 0 --vcpus 1
openstack flavor set --project PROJECT_ID m1.extra_tiny



# 列出所有flavor
openstack flavor create --id 0 --vcpus 1 --ram 64 --disk 1 m1.nano
openstack flavor create --id 1 --vcpus 1 --ram 512 --disk 8 m1.tiny
openstack flavor create --id 2 --vcpus 1 --ram 2048 --disk 32 m1.small
openstack flavor create --id 3 --vcpus 2 --ram 4096 --disk 64 m1.medium
openstack flavor create --id 4 --vcpus 4 --ram 8192 --disk 128 m1.large
openstack flavor create --id 5 --vcpus 8 --ram 16384 --disk 256 m1.xlarge

openstack flavor list
# +----+-----------+-------+------+-----------+-------+-----------+
# | ID | Name      |   RAM | Disk | Ephemeral | VCPUs | Is Public |
# +----+-----------+-------+------+-----------+-------+-----------+
# | 0  | m1.nano   |    64 |    1 |         0 |     1 | True      |
# | 1  | m1.tiny   |   512 |    8 |         0 |     1 | True      |
# | 2  | m1.small  |  2048 |   32 |         0 |     1 | True      |
# | 3  | m1.medium |  4096 |   64 |         0 |     2 | True      |
# | 4  | m1.large  |  8192 |  128 |         0 |     4 | True      |
# | 5  | m1.xlarge | 16384 |  256 |         0 |     8 | True      |
# +----+-----------+-------+------+-----------+-------+-----------+

image

管理镜像。

# 允许项目访问镜像
openstack image add project
    [--project-domain ]
    
    
openstack image remove project
    [--project-domain ]
    
    

# 创建镜像
openstack image create
    [--id ]
    # 镜像容器格式：ami, ari, aki, bare, docker, ova, ovf。默认bare
    [--container-format ]
    # 镜像磁盘格式：ami, ari, aki, vhd, vmdk, raw, qcow2, vhdx, vdi, iso, ploop。默认raw
    [--disk-format ]
    # 启动镜像需要的最小磁盘尺寸
    [--min-disk ]
    # 启动镜像需要的最小内存
    [--min-ram ]
    # 镜像文件       从卷生成镜像
    [--file  | --volume ]
    # 从卷生成镜像时，即便卷正在使用，也强制生成镜像
    [--force]
    # 使用本地私钥签名镜像
    [--sign-key-path ]
    # 用于镜像签名校验的，位于key manager中的certificate的UUID
    [--sign-cert-id ]
    # 保护镜像防止被删除
    [--protected | --unprotected]
    # 公共      项目私有    可被社区使用    共享
    [--public | --private | --community | --shared]
    [--property ]
    [--tag ]
    [--project ]
    [--import]
    [--project-domain ]
    

# 设置镜像属性
openstack image set
    [--name ]
    [--min-disk ]
    [--min-ram ]
    [--container-format ]
    [--disk-format ]
    [--protected | --unprotected]
    [--public | --private | --community | --shared]
    [--property ]
    [--tag ]
    [--architecture ]
    [--instance-id ]
    [--kernel-id ]
    [--os-distro ]
    [--os-version ]
    [--ramdisk-id ]
    [--deactivate | --activate]
    [--project ]
    [--project-domain ]
    [--accept | --reject | --pending]
    
openstack image unset [--tag ] [--property ] 

# 删除镜像
openstack image delete  [ ...]

# 将镜像保存到本地
openstack image save [--file ] 

# 列出镜像
openstack image member list
    [--sort-column SORT_COLUMN]
    [--project-domain ]
    

# 显示镜像信息
openstack image show [--human-readable] 


# 示例
# 上传镜像
openstack image create --public --disk-format qcow2 --container-format bare \
  --file cirros-0.5.1-x86_64-disk.img cirros-0.5.1-amd64
# 将卷上传为镜像，上传的QCOW2镜像，会自动shrink
# 注意，默认情况下只有Available状态的卷能够上传为镜像，In-use的用--force也不行
# Force upload to image is disabled, Force option will be ignored.
openstack image create --volume 840e9e25-192c-401b-83f5-898fd82839c4 --force centos8-amd64-prepared

compute agent

计算代理是和Hypervisor相关的，且仅仅被 XenAPI hypervisor driver支持。

compute service

Nova相关的服务。

openstack compute service delete  [ ...]

openstack compute service list
    [--sort-column SORT_COLUMN]
    [--host ]
    [--service ]
    [--long]

openstack compute service set
    [--enable | --disable]
    [--disable-reason ]
    [--up | --down]

console log

显示虚拟机的控制台日志：

openstack console log show [--lines ]

console url

打印各种类型的控制台URL：

openstack console url show
    [--novnc | --xvpvnc | --spice | --rdp | --serial | --mks]

server group

基于某种策略对服务器进行分组。

openstack server group create [--policy ] 

openstack server group delete  [ ...]

openstack server group list
    [--sort-column SORT_COLUMN]
    [--all-projects]
    [--long]

openstack server group show

server create

创建一个实例（虚拟机，也叫服务器server）

openstack server create
    # --image 从镜像创建服务器的启动磁盘
    # --volume 将卷作为服务器的启动磁盘，会自动创建一个块设备，映射boot index为0
    #          在很多Hypervisor（例如libvirt/kvm）这个磁盘将是vda
    #          不要使用 –block-device-mapping  选项来为此磁盘创建重复的映射
    (--image  | --image-property  | --volume )
    # 服务器的密码
    [--password ]
    # 服务器的风格
    --flavor 
    # 加入安全组，可以指定多个
    [--security-group ]
    # 注入到此服务器的OpenSSH公钥
    [--key-name ]
    # 设置属性
    [--property ]
    # 在启动之前，注入到镜像中的文件。可以指定多个
    [--file ]
    # 从metadata服务器来serve的用户数据文件。用于配置新实例
    [--user-data ]
    [--description ]
    # 在哪个AZ中创建此服务器，可以指定：
    #   ::
    #   ::
    #   :
    #   
    [--availability-zone ]
    # 指定在某个宿主机上创建实例
    [--host ]
    [--hypervisor-hostname ]
    # 和 --image 或 --image-property 一起使用时，该选项自动创建boot index 为0的块设备
    # 并且告知计算服务，从镜像创建卷+卷的大小（GB）。此卷在实例销毁后不会删除
    # 不能和 --volume 联用
    [--boot-from-volume ]
    # 在服务器上创建额外的块设备，格式：
    #   =:::
    #     dev-name 为块设备名称，例如vdb xvdc
    #     id 为卷、卷快照、镜像的名字或ID
    #     type：volume, snapshot 或 image。默认volume
    #     size：卷的大小
    #     delete-on-terminate：true或false
    [--block-device-mapping ]
    # 在服务器上创建NIC。要创建多个NIC，则指定多次
    #     net-id和port-id互斥，不能同时指定
    #     v4-fixed-ip 此NIC的IPv4固定IP地址
    #     v6-fixed-ip 此NIC的IPv6固定IP地址
    #     auto 由计算服务自动分配一个网络。不能和其它参数一起使用
    #     none 不连接到网络。不能和其它参数一起使用
    [--nic ]
    # 创建一个NIC，并且连接到该网络。可以指定多次，以创建多个NIC并连接到多个网络
    [--network ]
    # 创建一个NIC，并且连接到该端口。可以指定多次，以创建多个NIC并连接到多个端口
    [--port ]
    # 提供给nova-scheduler的提示信息
    [--hint ]
    # 启用config drive
    [--use-config-drive | --no-config-drive | --config-drive |True]
    # 启动的实例数量
    [--min ]
    [--max ]
    # 等待实例构建完成
    [--wait]
    [--tag ]
    # 实例的名字
    


# 从镜像启动虚拟机，并挂载一个非启动磁盘
## 创建非启动磁盘
openstack volume create --size 8 my-volume
## 创建虚拟机         从镜像创建
nova boot --flavor 2 --image 98901246-af91-43d8-b5e6-a4506aa8f369 \
# 添加块设备      源是卷        卷的ID                                   挂载为卷    虚拟机删除后保留卷  
  --block-device source=volume,id=d620d971-b160-4c4e-8652-2513d74e2080,dest=volume,shutdown=preserve \
  myInstanceWithVolume


# 从SOURCE创建启动卷，并从该卷启动虚拟机
# SOURCE： volume, snapshot, image, 或者 blank
# DEST：volume或local
nova boot --flavor FLAVOR --block-device \
  source=SOURCE,id=ID,dest=DEST,size=SIZE,shutdown=PRESERVE,bootindex=INDEX  NAME

# 从镜像创建一个可启动卷。如果指定--image参数，则Cinder自动将卷标记为可启动的
openstack volume create --image IMAGE_ID --size SIZE_IN_GB bootable_volume


# 挂载Swap或者临时磁盘到虚拟机
nova boot --flavor FLAVOR --image IMAGE_ID --swap 512  --ephemeral size=2 NAME

server add fixed ip

为服务器添加固定IP地址：

openstack server add fixed ip
    # 请求的固定IP地址
    [--fixed-ip-address ]
    [--tag ]
    
    

openstack server remove fixed ip

server add floating ip

为服务器添加浮动IP地址：

openstack server add floating ip
    # 和此浮动IP地址关联的固定IP地址，使用第一个具有此固定IP地址的、此服务器上的port
    [--fixed-ip-address ]
    
    # 分配给上述第一个服务器port的浮动IP地址
    

openstack server remove floating ip

server add network

将服务器连接到某个网络

openstack server add network [--tag ]  

openstack server remove network

server add port

将某个端口连接到服务器

openstack server add port [--tag ]  

openstack server remove port

server add security group

将服务器添加到安全组

openstack server add security group  

openstack server remove security group

server add volume

挂载（Attach）一个卷给服务器

openstack server add volume
    # 服务器上的内部设备名
    [--device ]
    [--tag ]
    # 如果服务器被销毁，此卷是否被删除
    [--enable-delete-on-termination | --disable-delete-on-termination]
    
    

openstack server remove volume  

# 示例
openstack server add volume cirros-amd64 cirros-amd64-diskb

server migration list

服务器迁移，就是将一台宿主机上的实例，转移到另外一台上运行。

OpenStack支持四种迁移模式：热迁移、冷迁移、升降配（resize）、重建（evacuation）

# 显示迁移历史的列表
openstack server migration list
    [--sort-column SORT_COLUMN]
    [--server ]
    [--host ]
    [--status ]
    [--type ]
    [--marker ]
    [--limit ]
    [--changes-since ]
    [--changes-before ]
    [--project ]
    [--user ]

server resize

扩/缩容服务器为新的flavor。实现方式是：

创就一个新的服务器
复制文件到新服务器

扩/缩容操作分为两步完成：第一步迁移，第二步确认

openstack server resize
    [--flavor  | --confirm | --revert]
    [--wait]

server resize confirm

openstack server resize confirm

server resize revert

openstack server resize revert

server migrate

将服务器迁移到另外一个宿主机上。

迁移操作是基于resize操作实现的：

创建一个新的实例，使用相同的flavor
从原始磁盘上拷贝内容到新磁盘

和resize一样，迁移操作是分两步完成的：

执行上述两步的迁移操作
让用户确认，迁移是否成功并移除酒实例，还是执行revert操作 —— 删除新实例并重启老的

openstack server migrate
    # 不宕机迁移
    [--live-migration]
    # 目标主机 
    [ --host ]
    [--shared-migration | --block-migration]
    [--disk-overcommit | --no-disk-overcommit]
    [--wait]

server migrate confirm

确认迁移

openstack server migrate confirm

server migrate revert

撤销迁移

openstack server migrate revert

server evacuate

将服务器在另外一个宿主机上重建。这个命令的使用场景是：实例已经运行，但是后来它所在的宿主机宕掉了。也就是说，仅当管理此实例的compute service宕机了，才可以使用此命令。

如果服务器实例使用临时的（ephemeral）root磁盘，此磁盘位于非共享存储上，则使用原始的glance镜像重建服务器。连接到原实例的port、挂载的卷被保留。

如果服务器实例从volume启动，或者跟磁盘位于共享存储上，则新建实例会重用此启动盘。

server pause

暂停服务器，状态保存在内存中

openstack server pause  [ ...]

server unpause

取消暂停服务器

openstack server unpause  [ ...]

server suspend

暂停服务器，状态保存在磁盘中

openstack server suspend  [ ...]

server resume

从暂停中恢复

openstack server resume  [ ...]

server restore

回退状态为软删除的服务器

openstack server restore  [ ...]

server reboot

重启服务器

#                       强行立即重启
openstack server reboot [--hard | --soft] [--wait]

server start

启动服务器

openstack server start  [ ...]

server stop

停止服务器

openstack server stop  [ ...]

server rebuild

重建服务器

openstack server rebuild
    [--image ]
    [--password ]
    [--property ]
    [--description ]
    [--key-name  | --key-unset]
    [--wait]

server rescue

让服务器进入rescue模式

openstack server rescue
    [--image ]
    [--password ]

server unrescue

从rescue模式恢复：

openstack server unrescue

server shelve

将服务器实例作为镜像，保存在glance中，然后在宿主机上删除此服务器

openstack server shelve  [ ...]

server unshelve

将shelve的实例恢复

openstack server unshelve
    [--availability-zone AVAILABILITY_ZONE]
    
    [ ...]

server ssh

通过SSH连接到服务器

openstack server ssh
    [--login ]
    [--port ]
    [--identity ]
    [--option ]
    [-4 | -6]
    [--public | --private | --address-type ]
    


# 自动使用当前用户的SSH key
openstack server ssh --private -4 --login cirros cirros-amd64-0

server dump create

创建服务器的Dump文件。这会触发一个crash dump（例如Linux的kdump）

openstack server dump create  [ ...]

server delete

（软）删除服务器

openstack server delete [--wait]  [ ...]

server set

设置服务器属性

openstack server set
    [--name ]
    [--root-password]
    [--property ]
    [--state ]
    [--description ]
    [--tag ]
    

openstack server unset
    [--property ]
    [--description]
    [--tag ]

server lock

锁定实例，这样非admin用户就不能对它进行任何操作。

openstack server lock [--reason ]  [ ...]

server unlock

解锁服务器

openstack server unpause  [ ...]

server list

openstack server list
    [--sort-column SORT_COLUMN]
    [--availability-zone ]
    [--reservation-id ]
    [--ip ]
    [--ip6 ]
    [--name ]
    [--instance-name ]
    [--status ]
    [--flavor ]
    [--image ]
    [--host ]
    [--all-projects]
    [--project ]
    [--project-domain ]
    [--user ]
    [--user-domain ]
    [--long]
    [-n | --name-lookup-one-by-one]
    [--marker ]
    [--limit ]
    [--deleted]
    [--changes-before ]
    [--changes-since ]
    [--locked | --unlocked]
    [--tags ]
    [--not-tags ]

server show

#                     显示诊断信息
openstack server show [--diagnostics]

server backup

备份一个运行中的服务器实例，将其磁盘保存为镜像，存放在Glance中。

# 创建备份
openstack server backup create
    # 备份镜像的名字，默认为服务器名
    [--name ]
    # 填充镜像的backup_type字段
    [--type ]
    # 保存的备份数量
    [--rotate ]
    [--wait]

server image

从运行中的实例创建磁盘镜像，并存放到Glance中。

openstack server image create [--name ] [--wait]

server event

服务器事件，记录了针对服务器的各种操作。事件由操作类型（create, delete, reboot ...）+ 操作结果（success, error） + 开始/结束时间组成。

# 事件列表
openstack server event list
    [--sort-column SORT_COLUMN]
    [--long]
    

# 显示事件
openstack server event show

network service provider

一个网络服务提供者，表示一个特定的、实现了网络服务的驱动：

openstack network service provider list [--sort-column SORT_COLUMN]

network

所谓网络，是指一个独立的（isolated）的L2网段。OpenStack具有两种类型的网络：

project：完全隔离的、不和其它项目共享的网络。自服务网络
provider：映射到现有的、数据中心中的物理网络，为server或其它资源提供外部网络访问

仅仅管理员可以创建provider网络

openstack network create
    # 是否允许跨项目共享
    [--share | --no-share]
    # 是否启用网络
    [--enable | --disable]
    # 所属项目
    [--project ]
    [--description ]
    # MTU设置
    [--mtu ]
    [--project-domain ]
    # 在什么AZ中创建此网络。需要Network Availability Zone扩展
    # 此选项可以指定多次，表示网络跨越多个AZ
    [--availability-zone-hint ]
    # 是否启用端口安全，如果指定，则此网络上创建的端口自动应用安全设置
    [--enable-port-security | --disable-port-security]
    # 是否外部网络，如果是，则需要external-net扩展
    [--external | --internal]
    # 是否作为默认外部网络
    [--default | --no-default]
    # 应用到此网络的QoS策略
    [--qos-policy ]
    # 指定此网络是VLAN透明的
    [--transparent-vlan | --no-transparent-vlan]
    # 此虚拟网络所基于其实现的物理机制（physical mechanism）
    #   例如  flat, geneve, gre, local, vlan, vxlan
    [--provider-network-type ]
    # 此虚拟网络所基于的物理网络的名字
    [--provider-physical-network ]
    # 对于VLAN网络，指定VLAN ID
    # 对于GENEVE/GRE/VXLAN，指定Tunnel ID
    [--provider-segment ]
    # 此网络的DNS domain，需要DNS integration扩展
    [--dns-domain ]
    [--tag  | --no-tag]
    # IPv4的CIDR
    --subnet 
    

openstack network delete  [ ...]

openstack network list
    [--sort-column SORT_COLUMN]
    [--external | --internal]
    [--long]
    [--name ]
    [--enable | --disable]
    [--project ]
    [--project-domain ]
    [--share | --no-share]
    [--status ]
    [--provider-network-type ]
    [--provider-physical-network ]
    [--provider-segment ]
    [--agent ]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]

openstack network set
    [--name ]
    [--enable | --disable]
    [--share | --no-share]
    [--description  | --no-qos-policy]
    [--tag ]
    [--no-tag]
    [--provider-network-type ]
    [--provider-physical-network ]
    [--provider-segment ]
    [--dns-domain ]
    
openstack network unset [--tag  | --all-tag] 

openstack network show

subnet

子网是一段IP地址以及关联的配置状态。当新的Port接入到网络中时，子网用于向Port分配IP地址。

openstack subnet create
    [--project ]
    [--project-domain ]
    # --subnet-pool 该子网从此池中获得自己的CIDR
    # --use-default-subnet-pool 使用默认的子网池
    [--subnet-pool  | --use-prefix-delegation USE_PREFIX_DELEGATION | --use-default-subnet-pool]
    # 从子网池中分配子网时，前缀的长度
    [--prefix-length ]
    # CIDR格式的子网IP地址范围
    [--subnet-range ]
    # 是否启用DHCP
    [--dhcp | --no-dhcp]
    # 是否在DNS中发布固定IP
    [--dns-publish-fixed-ip | --no-dns-publish-fixed-ip]
    # 指定子网的网关。三种形式：
    #    将指定的IP地址作为网关
    #   auto 自动在子网内部选择网关地址，默认
    #   none 不使用网关
    [--gateway ]
    # 子网的IP版本，如果使用了subnet pool，则IP版本取决于子网池，该选项被忽略
    [--ip-version {4,6}]
    # IPv6 RA（Router Advertisement）模式
    [--ipv6-ra-mode {dhcpv6-stateful,dhcpv6-stateless,slaac}]
    # IPv6地址模式
    [--ipv6-address-mode {dhcpv6-stateful,dhcpv6-stateless,slaac}]
    # 关联到此子网的网段，网段属于某个网络
    [--network-segment ]
    # 此子网所属的网络
    --network 
    [--description ]
    # 此子网的DHCP自动分配IP地址的范围。可以指定多个
    [--allocation-pool start=,end=]
    # 此子网使用的DNS服务器
    [--dns-nameserver ]
    # 为子网添加额外的路由，示例 destination=10.10.0.0/16,gateway=192.168.71.254 网关为下一跳地址
    [--host-route destination=,gateway=]
    # 子网的服务类型，必须指定为有效的、某个网络端口的device owner，例如network:floatingip_agent_gateway
    # 可以指定多个，以支持多个服务类型
    [--service-type ]
    [--tag  | --no-tag]
    

openstack subnet delete  [ ...]

openstack subnet list
    [--sort-column SORT_COLUMN]
    [--long]
    [--ip-version ]
    [--dhcp | --no-dhcp]
    [--service-type ]
    [--project ]
    [--project-domain ]
    [--network ]
    [--gateway ]
    [--name ]
    [--subnet-range ]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]
openstack subnet show 

openstack subnet set
    [--name ]
    [--dhcp | --no-dhcp]
    [--dns-publish-fixed-ip | --no-dns-publish-fixed-ip]
    [--gateway ]
    [--network-segment ]
    [--description ]
    [--tag ]
    [--no-tag]
    [--allocation-pool start=,end=]
    [--no-allocation-pool]
    [--dns-nameserver ]
    [--no-dns-nameservers]
    [--host-route destination=,gateway=]
    [--no-host-route]
    [--service-type ]
    
openstack subnet unset
    [--allocation-pool start=,end=]
    [--dns-nameserver ]
    [--host-route destination=,gateway=]
    [--service-type ]
    [--tag  | --all-tag]

subnet pool

子网池中包含若干CIDR格式的子网前缀，这些前缀用于分配给子网。

# 创建一个子网池
openstack subnet pool create
    # 子网池的前缀
    --pool-prefix 
    # 子网池默认前缀长度
    [--default-prefix-length ]
    # 最小/最大前缀长度
    [--min-prefix-length ]
    [--max-prefix-length ]
    [--project ]
    [--project-domain ]
    # 关联到此池的address scope对象的名字或ID
    [--address-scope ]
    # 是否作为默认子网池
    [--default | --no-default]
    [--share | --no-share]
    [--description ]
    # 默认的，每个项目的配额 —— 可以从池中分配的IP数量
    [--default-quota ]
    [--tag  | --no-tag]
    

openstack subnet pool delete  [ ...]

openstack subnet pool list
    [--sort-column SORT_COLUMN]
    [--long]
    [--share | --no-share]
    [--default | --no-default]
    [--project ]
    [--project-domain ]
    [--name ]
    [--address-scope ]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]
openstack subnet pool show 

openstack subnet pool set
    [--name ]
    [--pool-prefix ]
    [--default-prefix-length ]
    [--min-prefix-length ]
    [--max-prefix-length ]
    [--address-scope  | --no-address-scope]
    [--default | --no-default]
    [--description ]
    [--default-quota ]
    [--tag ]
    [--no-tag]
    
openstack subnet pool unset [--tag  | --all-tag]

address scope

表示IPv4或IPv6的地址范围，属于某个特定项目，可以被多个项目共享。

# 创建地址范围
openstack address scope create
    [--ip-version {4,6}]
    [--project ]
    [--project-domain ]
    # 是否可以在项目之间共享
    [--share | --no-share]
    

openstack address scope delete  [ ...]

openstack address scope list
    [--sort-column SORT_COLUMN]
    [--name ]
    [--ip-version ]
    [--project ]
    [--project-domain ]
    [--share | --no-share]

openstack address scope set
    [--name ]
    [--share | --no-share]
    

openstack address scope show

router

虚拟路由器是一个逻辑组件，能够在不同网络之间分发数据包。虚拟路由器也提供L3和NAT转发功能，让虚拟网络中的服务器能够访问外部流量。

# 将端口添加到路由器
openstack router add port  
openstack router remove port  

# 将子网连接到路由器
openstack router add subnet  
openstack router remove subnet  

# 在路由器的路由表中添加一个静态路由
openstack router add route
    [--route destination=,gateway=]
    
openstack router remove route
    [--route destination=,gateway=]
    

# 创建路由器
openstack router create
    [--enable | --disable]
    # 集中还是分布式的
    [--distributed | --centralized]
    # 是否高可用
    [--ha | --no-ha]
    [--description ]
    [--project ]
    [--project-domain ]
    [--availability-zone-hint ]
    [--tag  | --no-tag]
    

# 删除路由器
openstack router delete  [ ...]

# 列出路由器
openstack router list
    [--sort-column SORT_COLUMN]
    [--name ]
    [--enable | --disable]
    [--long]
    [--project ]
    [--project-domain ]
    [--agent ]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]

# 设置属性
openstack router set
    [--name ]
    [--description ]
    [--enable | --disable]
    [--distributed | --centralized]
    [--route destination=,gateway=]
    [--no-route]
    [--ha | --no-ha]
    [--external-gateway ]
    [--fixed-ip subnet=,ip-address=]
    [--enable-snat | --disable-snat]
    [--qos-policy  | --no-qos-policy]
    [--tag ]
    [--no-tag]
    
openstack router unset
    [--route destination=,gateway=]
    [--external-gateway]
    [--qos-policy]
    [--tag  | --all-tag]
    

# 显示路由器信息
openstack router show

port

端口是网络上的接入点，它可以将单个设备（例如server上的NIC）连接到网络。端口也描述了其关联的网络配置，例如MAC地址、IP地址

openstack port create
    # 端口所属的网络
    --network 
    [--description ]
    # 端口的设备ID
    [--device ]
    # 端口的MAC地址
    [--mac-address ]
    # 使用端口的实体，例如network:dhcp
    [--device-owner ]
    # 端口的VNIC类型。默认normal
    # direct | direct-physical | macvtap | normal | baremetal | virtio-forwarder
    [--vnic-type ]
    # 在宿主机上分配端口
    [--host ]
    # 此端口所属的DNS域
    [--dns-domain dns-domain]
    # 此端口的DNS名称
    [--dns-name ]
    # 调度此端口所需的NUMA亲和性策略
    [--numa-policy-required | --numa-policy-preferred | --numa-policy-legacy]
    # 此端口期望的IP和/或子网。可以指定多次
    [--fixed-ip subnet=,ip-address= | --no-fixed-ip]
    [--binding-profile ]
    # 启用/禁用端口
    [--enable | --disable]
    # 启用uplink状态传播
    [--enable-uplink-status-propagation | --disable-uplink-status-propagation]
    [--project ]
    [--project-domain ]
    # 额外分配给此端口的DHCP选项
    [--extra-dhcp-option name=[,value=,ip-version={4,6}]]
    # 关联到此端口的安全组
    [--security-group  | --no-security-group]
    # 关联到此端口的QoS策略
    [--qos-policy ]
    # 是否启用端口安全
    [--enable-port-security | --disable-port-security]
    # 添加允许的IP/MAC地址。可以指定多次
    # 不被允许的IP地址，不能作为发往此端口的IP目的地址
    [--allowed-address ip-address=[,mac-address=]]
    [--tag  | --no-tag]
    

openstack port delete  [ ...]

openstack port list
    [--sort-column SORT_COLUMN]
    [--device-owner ]
    [--host ]
    [--network ]
    [--router  | --server  | --device-id ]
    [--mac-address ]
    [--long]
    [--project ]
    [--project-domain ]
    [--fixed-ip subnet=,ip-address=,ip-substring=]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]

openstack port set
    [--description ]
    [--device ]
    [--mac-address ]
    [--device-owner ]
    [--vnic-type ]
    [--host ]
    [--dns-domain dns-domain]
    [--dns-name ]
    [--numa-policy-required | --numa-policy-preferred | --numa-policy-legacy]
    [--enable | --disable]
    [--name ]
    [--fixed-ip subnet=,ip-address=]
    [--no-fixed-ip]
    [--binding-profile ]
    [--no-binding-profile]
    [--qos-policy ]
    [--security-group ]
    [--no-security-group]
    [--enable-port-security | --disable-port-security]
    [--allowed-address ip-address=[,mac-address=]]
    [--no-allowed-address]
    [--data-plane-status ]
    [--tag ]
    [--no-tag]
    
openstack port unset
    [--fixed-ip subnet=,ip-address=]
    [--binding-profile ]
    [--security-group ]
    [--allowed-address ip-address=[,mac-address=]]
    [--qos-policy]
    [--data-plane-status]
    [--numa-policy]
    [--tag  | --all-tag]
    

openstack port show

security group

安全组是虚拟的网络防火墙，网络中的服务器、端口等资源可以受其影响。

安全组是安全组规则的容器。

# 创建安全组
openstack security group create
    [--description ]
    [--project ]
    # 是否五状态
    [--stateful | --stateless]
    [--project-domain ]
    [--tag  | --no-tag]
    

openstack security group delete  [ ...]

openstack security group list
    [--sort-column SORT_COLUMN]
    [--project ]
    [--project-domain ]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]
    [--all-projects]

openstack security group set
    [--name ]
    [--description ]
    [--stateful | --stateless]
    [--tag ]
    [--no-tag]
    
openstack security group unset [--tag  | --all-tag] 

openstack security group show

security group rule

安全组中的一条规则。

# 创建一条规则
openstack security group rule create
    # 此规则针对的远程IP，可以使用CIDR
    #   0.0.0.0/0 表示默认IPv4规则
    #   ::/0 表示默认IPv6规则
    [--remote-ip  | --remote-group ]
    # 目标（远程）端口。可以使用端口范围，例如  137:139
    # 对于TCP/UDP必须，对于ICMP忽略此字段
    [--dst-port ]
    # 协议： 默认any表示任何协议
    #   ah, dccp, egp, esp, gre, icmp, igmp, ipv6-encap, ipv6-frag, ipv6-icmp, ipv6-nonxt, 
    #   ipv6-opts, ipv6-route, ospf, pgm, rsvp, sctp, tcp, udp, udplite, vrrp 
    [--protocol ]
    [--description ]
    # 针对特定的ICMP类型
    [--icmp-type ]
    [--icmp-code ]
    # 此规则针对入站还是出站流量，默认ingress
    [--ingress | --egress]
    # 以太网上的流量类型  IPv4, IPv6
    [--ethertype ]
    [--project ]
    [--project-domain ]
    # 所属的组
    

openstack security group rule delete  [ ...]

openstack security group rule list
    [--sort-column SORT_COLUMN]
    [--protocol ]
    [--ethertype ]
    [--ingress | --egress]
    [--long]
    [--all-projects]
    []

openstack security group rule show 


# 完全开放默认安全组
openstack security group rule create --remote-ip 0.0.0.0/0  --protocol any --ingress --ethertype IPv4 default
openstack security group rule create --remote-ip ::/0  --protocol any --ingress --ethertype IPv6 default
openstack security group rule create --remote-ip 0.0.0.0/0  --protocol any --egress --ethertype IPv4 default
openstack security group rule create --remote-ip ::/0  --protocol any --egress --ethertype IPv6 default

network auto allocated topology

可以让管理员快速的设置某个项目的外部连接性。每个项目只能有一个此对象。

openstack network auto allocated topology create
    [--project ]
    [--project-domain ]
    [--check-resources]
    [--or-show]

openstack network auto allocated topology delete
    [--project ]
    [--project-domain ]

network flavor

扩展network flavor允许用户在创建资源时，选择管理员配置的“网络风格”

# 添加一个service profile到network flavor
openstack network flavor add profile  
openstack network flavor remove profile  

# 创建network flavor
openstack network flavor create
    # 此flavor应用到的网络服务类型，例如VPN
    # 执行 openstack network service provider list  获得网络服务类型列表
    --service-type 
    [--description DESCRIPTION]
    [--project ]
    [--project-domain ]
    [--enable | --disable]
    

openstack network flavor delete  [ ...]

openstack network flavor list [--sort-column SORT_COLUMN]

openstack network flavor set
    [--description DESCRIPTION]
    [--disable | --enable]
    [--name ]
    

openstack network flavor show

network flavor profile

用于管理员创建/删除/列出/显示网络服务的profile。

openstack network flavor profile create
    [--project ]
    [--project-domain ]
    [--description ]
    [--enable | --disable]
    [--driver DRIVER]
    [--metainfo METAINFO]

openstack network flavor profile delete
    
    [ ...]

openstack network flavor profile list [--sort-column SORT_COLUMN]

openstack network flavor profile set
    [--project-domain ]
    [--description ]
    [--enable | --disable]
    [--driver DRIVER]
    [--metainfo METAINFO]
    

openstack network flavor profile show

network meter

允许管理员来度量某个IP范围的流量。需要L3 metering extension

openstack network meter create
    [--description ]
    [--project ]
    [--project-domain ]
    [--share | --no-share]
    

openstack network meter delete  [ ...]

openstack network meter list [--sort-column SORT_COLUMN]

openstack network meter show

network meter rule

为某个meter设置度量网络流量的规则。需要L3 metering extension

openstack network meter rule create
    [--project ]
    [--project-domain ]
    [--exclude | --include]
    [--ingress | --egress]
    [--remote-ip-prefix ]
    [--source-ip-prefix ]
    [--destination-ip-prefix ]
    

openstack network meter rule delete
    
    [ ...]

openstack network meter rule list [--sort-column SORT_COLUMN]

openstack network meter rule show

network qos policy

将一组网络QoS规则组合到一起，可以应用到一个网络或端口。

openstack network qos policy create
    [--description ]
    [--share | --no-share]
    [--project ]
    [--project-domain ]
    [--default | --no-default]
    

openstack network qos policy delete  [ ...]

openstack network qos policy list
    [--sort-column SORT_COLUMN]
    [--project ]
    [--project-domain ]
    [--share | --no-share]

openstack network qos policy set
    [--name ]
    [--description ]
    [--share | --no-share]
    [--default | --no-default]
    

openstack network qos policy show

network qos rule

上述policy中的一个规则

openstack network qos rule create
    # QoS规则类型
    # minimum-bandwidth, dscp-marking, bandwidth-limit
    [--type ]
    # 最大带宽
    [--max-kbps ]
    # 最大突发带宽。如果不指定或者设置为0表示自动，为80%的最大带宽，适合于典型的TCP流量
    [--max-burst-kbits ]
    # DSCP标记，可以是0，或者8-56之间的偶数（42 44 50 52 54不可以）
    [--dscp-mark ]
    # 最小保障的带宽
    [--min-kbps ]
    # 此规则是用于入站还是出站的流量（从当前项目的角度）
    [--ingress | --egress]
    # 此规则加到哪个策略中
    

openstack network qos rule delete  

openstack network qos rule list
    [--sort-column SORT_COLUMN]
    

openstack network qos rule set
    [--max-kbps ]
    [--max-burst-kbits ]
    [--dscp-mark ]
    [--min-kbps ]
    [--ingress | --egress]
    
    

openstack network qos rule show

network segment

表示一个网络中的隔离的L2的段。一个（虚拟）网络可以包含多个段，同一个网络中的段的L2通信不被保证。

# 创建一个网络段
openstack network segment create
    [--description ]
    # 物理网络的名字
    [--physical-network ]
    # 段的名字
    [--segment ]
    # 此段属于的虚拟网络的名字
    --network 
    # 此段的网络类型：flat, geneve, gre, local, vlan, vxlan
    --network-type 
    

openstack network segment delete
    
    [ ...]

openstack network segment list
    [--sort-column SORT_COLUMN]
    [--long]
    [--network ]

openstack network segment set
    [--description ]
    [--name ]
    

openstack network segment show

network segment range

用于多租户下的网络段分配。可以让管理员全局的，或者基于用户的，来控制网络段范围。

openstack network segment range create
    [--private | --shared]
    [--project ]
    [--project-domain ]
    --network-type 
    [--physical-network ]
    --minimum 
    --maximum 
    

openstack network segment range delete
    
    [ ...]

openstack network segment range list
    [--sort-column SORT_COLUMN]
    [--long]
    [--used | --unused]
    [--available | --unavailable]

openstack network segment range set
    [--name ]
    [--minimum ]
    [--maximum ]
    

openstack network segment range show

network agent

所谓网络代理，负责（在节点上）处理各种任务，以实现虚拟网络。网络代理包括：

neutron-dhcp-agent，负责提供DHCP服务给虚拟机
neutron-l3-agent，负责在自服务网络中提供路由
neutron-metering-agent
neutron-lbaas-agent

# 添加网络到代理
openstack network agent add network [--dhcp]  
openstack network agent remove network [--dhcp]  

# 添加路由器到代理
openstack network agent add router [--l3]  
openstack network agent remove router [--l3]  

# 删除代理
openstack network agent delete  [ ...]

# 设置代理属性
openstack network agent set
    [--description ]
    [--enable | --disable]
    

# 列出代理
openstack network agent list
    [--sort-column SORT_COLUMN]
    [--agent-type ]
    [--host ]
    [--network  | --router ]
    [--long]

# 显示代理详细信息
openstack network agent show

ip availability

显示网络可用的IP地址

# IP可用数量
openstack ip availability list

# 显示详细信息
openstack ip availability show

floating ip

管理浮动IP

# 创建一个浮动IP
openstack floating ip create
    # 在哪个子网上创建浮动IP
    [--subnet ]
    # 浮动IP授予哪个端口
    [--port ]
    # 浮动IP的值
    [--floating-ip-address ]
    # 映射到浮动IP的固定IP
    [--fixed-ip-address ]
    # 浮动IP的QoS策略
    [--qos-policy ]
    [--description ]
    [--project ]
    # 浮动IP的DNS名
    [--dns-domain ]
    [--dns-name ]
    [--project-domain ]
    # 添加标记
    [--tag  | --no-tag]
    # 从什么网络来分配浮动IP
    
openstack floating ip unset
    [--port]
    [--qos-policy]
    [--tag  | --all-tag]
    

openstack floating ip delete  [ ...]
openstack floating ip set
    [--port ]
    [--fixed-ip-address ]
    [--description ]
    [--qos-policy  | --no-qos-policy]
    [--tag ]
    [--no-tag]
    

openstack floating ip show 
openstack floating ip list
    [--sort-column SORT_COLUMN]
    [--network ]
    [--port ]
    [--fixed-ip-address ]
    [--floating-ip-address ]
    [--long]
    [--status ]
    [--project ]
    [--project-domain ]
    [--router ]
    [--tags [,,...]]
    [--any-tags [,,...]]
    [--not-tags [,,...]]
    [--not-any-tags [,,...]]

floating ip pool

浮动IP池管理

openstack floating ip pool list [--sort-column SORT_COLUMN]

floating ip port forwarding

创建浮动IP端口转发规则

openstack floating ip port forwarding create
    # 端口上的固定IPv4地址，浮动IP将其作为转发目标
    --internal-ip-address 
    # 转发到的端口
    --port 
    # 固定地址上的端口
    --internal-protocol-port 
    # 浮动IP上的端口
    --external-protocol-port 
    # 协议
    --protocol 
    [--description ]
    # 此转发规则针对的浮动IP（的IP或ID）

volume service

管理卷服务

openstack volume service list
    [--host ]
    [--service ]
    [--long]

openstack volume service set
    [--enable | --disable]
    [--disable-reason ]

volume

管理卷

# 创建卷
openstack volume create
    # 卷的大小，单位GB
    [--size ]
    # 卷的类型
    [--type ]
    # 将镜像、快照或者另外一个卷，作为新卷的数据来源
    [--image  | --snapshot  | --source  ]
    [--description ]
    # 指定一个alternate用户、项目
    [--user ]
    [--project ]
    # 在指定可用区中创建卷
    [--availability-zone ]
    # 将卷加入到一致性组
    [--consistency-group ]
    [--property  [...] ]
    # 提供给卷调度器的提示信息
    [--hint  [...] ]
    # 卷是否需要支持多重挂载
    [--multi-attach]
    # 是否将卷标记为可启动磁盘
    [--bootable | --non-bootable]
    # 是否只读卷
    [--read-only | --read-write]
    
# 删除卷
openstack volume delete
    [--force | --purge]
     [ ...]

# 列出卷
openstack volume list
    [--project  [--project-domain ]]
    [--user  [--user-domain ]]
    [--name ]
    [--status ]
    [--all-projects]
    [--long]
    [--limit ]
    [--marker ]
# 显示卷的详细信息
openstack volume show
    

# 设置卷属性
openstack volume set
    [--name ]
    [--size ]
    [--description ]
    [--no-property]
    [--property  [...] ]
    [--image-property  [...] ]
    [--state ]
    [--attached | --detached ]
    [--type ]
    [--retype-policy ]
    [--bootable | --non-bootable]
    [--read-only | --read-write]
    
openstack volume unset
    [--property ]
    [--image-property ]

volume type

管理卷类型

openstack volume type create
    [--description ]
    [--public | --private]
    [--property  [...] ]
    [--project ]
    [--project-domain ]
    [--encryption-provider ]
    [--encryption-cipher ]
    [--encryption-key-size ]
    [--encryption-control-location ]
    
openstack volume type delete
     [ ...]

openstack volume type list
    [--long]
    [--default | --public | --private]
    [--encryption-type]
openstack volume type show
    [--encryption-type]
    


openstack volume type set
    [--name ]
    [--description ]
    [--property  [...] ]
    [--project ]
    [--project-domain ]
    [--encryption-provider ]
    [--encryption-cipher ]
    [--encryption-key-size ]
    [--encryption-control-location ]
    
openstack volume type unset
    [--property  [...] ]
    [--project ]
    [--project-domain ]
    [--encryption-type]

volume backend

# 显示卷后端特性
openstack volume backend capability show
    [--sort-column SORT_COLUMN]
    

# 列出后端池
openstack volume backend pool list [--sort-column SORT_COLUMN] [--long]

volume migrate

将卷迁移到一个新的宿主机

openstack volume migrate
    # 目标主机
    --host 
    # 使用一般性的，基于复制的迁移。跳过存储驱动可能的优化
    [--force-host-copy]
    # 锁定卷，防止迁移被其它操作中止
    [--lock-volume]

volume snapshot

管理卷的快照

# 创建一个卷快照
openstack volume snapshot create
    # 目标卷
    [--volume ]
    [--description ]
    # 即使在使用中，也创建快照
    [--force]
    [--property  [...] ]
    [--remote-source  [...]]
    
openstack volume snapshot delete
    [--force]
     [ ...]


# 列出和显示
openstack volume snapshot list
    [--all-projects]
    [--project  [--project-domain ]]
    [--long]
    [--limit ]
    [--marker ]
    [--name ]
    [--status ]
    [--volume ]
openstack volume snapshot show
    

# 设置属性
openstack volume snapshot set
    [--name ]
    [--description ]
    [--no-property]
    [--property  [...] ]
    [--state ]
    
openstack volume snapshot unset
    [--property ]

volume backup

管理卷备份

# 创建卷备份
openstack volume backup create
    [--name ]
    [--description ]
    # 保存到哪个对象容器
    [--container ]
    # 备份快照
    [--snapshot ]
    # 允许备份使用中的卷
    [--force]
    # 进行增量备份
    [--incremental]
    

# 删除卷备份
openstack volume backup delete [--force]  [ ...]

# 列出卷备份
openstack volume backup list
    [--sort-column SORT_COLUMN]
    [--long]
    [--name ]
    [--status ]
    [--volume ]
    [--marker ]
    [--limit ]
    [--all-projects]

# 显示备份详细信息
openstack volume backup show 

# 导出卷备份详细信息
openstack volume backup record export 

# 导入卷备份详细信息
openstack volume backup record import
    
    

# 设置属性
openstack volume backup set
    [--name ]
    [--description ]
    [--state ]

volume backup restore

从备份中恢复卷

openstack volume backup restore

volume qos

管理卷关联的QoS规格，将QoS规格关联到卷类型

# 关联QoS规格到一个卷类型
openstack volume qos associate
    
    
volume qos disassociate

# 创建一个QoS规格
openstack volume qos create
    [--consumer ]
    [--property  [...] ]
    

# 删除一个QoS规格
volume qos delete

# 列出和显示
volume qos list
openstack volume qos show
    

# 设置属性
openstack volume qos set
    [--property  [...] ]
    
openstack volume qos unset
    [--property  [...] ]

consistency group

可以让一组卷同时进行快照，以保证数据一致性

# 将卷加入/移除一致性组
openstack consistency group add volume
    
     [ ...]
openstack consistency group remove volume
    
     [ ...]


# 创建一致性组
openstack consistency group create
    --volume-type  | --consistency-group-source  | --consistency-group-snapshot 
    [--description ]
    [--availability-zone ]
    []

# 删除一致性组
openstack consistency group delete
    # 即使出错也强制删除
    [--force]
     [ ...]



openstack consistency group list
    [--all-projects]
    [--long]
openstack consistency group set
    [--name ]
    [--description ]
    
openstack consistency group show

container

定义Object Storage V1中的一个命名空间。

object

管理对象存储中的对象。

# 上传对象到container
openstack object create
    [--sort-column SORT_COLUMN]
    [--name ]
    
    
    [ ...]

# 删除对象
openstack object delete   [ ...]

# 列出对象
openstack object list
    [--sort-column SORT_COLUMN]
    [--delimiter ]
    [--marker ]
    [--end-marker ]
    [--limit ]
    [--long]
    [--all]
    

# 下载对象到本地
openstack object save [--file ]  

# 设置对象属性
openstack object set --property   
openstack object unset --property   

# 显示对象信息
openstack object show

object store account

账户是container - objects树结构的最根部。

openstack object store account set --property 
openstack object store account unset --property 

openstack object store account show

nova

很多功能和openstack命令重复，建议使用openstack命令，仅仅在使用某些高级特性时，才需要底层的nova命令。

环境变量

OS_USERNAME
OS_PASSWORD
OS_PROJECT_NAME
OS_PROJECT_ID
OS_PROJECT_DOMAIN_NAME
OS_PROJECT_DOMAIN_ID
OS_USER_DOMAIN_NAME
OS_USER_DOMAIN_ID
# Keystone端点URL
OS_AUTH_URL
OS_COMPUTE_API_VERSION
OS_REGION_NAME
# 逗号分隔的，受信任的镜像证书ID
OS_TRUSTED_IMAGE_CERTIFICATE_IDS

add-secgroup

为虚拟机添加安全组

list-secgroup

列出指定虚拟机的安全组

remove-secgroup

将虚拟机从安全组移除

agent-create

创建agent build，类似的agent-delete、agent-list、agent-modify命令完成相关CRUD操作

aggregate-create

管理服务器聚合，类似的aggregate-delete、aggregate-list、aggregate-update、aggregate-show命令完成相关CRUD操作

aggregate-add-host

添加虚拟机到聚合中。类似的aggregate-remove-host用于移除虚拟机

aggregate-cache-images

缓存镜像到聚合的所有虚拟机中

aggregate-set-metadata

更新和聚合关联的元数据

server-group-create

创建（基于策略的）虚拟机分组。类似的server-group-delete、server-group-list、server-group-get命令完成相关CRUD操作

availability-zone-list

列出可用区

list

列出虚拟机

update

修改虚拟机的名字或描述

show

显示单个虚拟机的详细信息

ssh

SSH到虚拟机

start

启动虚拟机

stop

停止虚拟机

backup

通过创建backup类型的快照，来备份一个虚拟机

boot

启动一个新的虚拟机

clear-password

从元数据服务器上清除某个虚拟机的管理密码，不会改变实例的密码

get-password

获取虚拟机的管理密码，调用元数据服务器，而不是虚拟机自身

set-password

设置虚拟机密码

console-log

获取虚拟机控制台日志

reset-state

重置虚拟机状态

lock

锁定虚拟机，非管理员将无法对虚拟机进行操作

unlock

解锁虚拟机

pause

在内存中暂停虚拟机

unpause

解除内存中暂停的虚拟机

suspend

暂停虚拟机到磁盘

resume

恢复暂停到磁盘的虚拟机

reboot

重启虚拟机

rescue

重启虚拟机进入救援模式 —— 从虚拟机的初始镜像或另外一个特定镜像启动虚拟机，将当前book disk挂载为非boot disk

unrescue

重启虚拟机，进入正常模式

trigger-crash-dump

触发虚拟机crash dump

delete

立即关机，同时删除实例

restore

恢复一个软删除的实例

force-delete

强制删除一个虚拟机

rebuild

重建（关机、re-image、启动）虚拟机

shelve

保存虚拟机为镜像

unshelve

将镜像化的虚拟机恢复

shelve-offload

将shelved的虚拟机从宿主机上删除

meta

设置/删除虚拟机的元数据

diagnostics

获取虚拟机诊断信息

evacuate

重建失败宿主机上的某个虚拟机

migrate

迁移虚拟机

resize

修改虚拟机规格，即flavor

resize-confirm

确认修改规格操作

resize-revert

撤销尚未确认的resize操作，虚拟机恢复原状

live-migration

对指定的虚拟机进行在线迁移

live-migration-abort

中止正在进行的在线迁移。需要Nova API版本2.24+

live-migration-force-complete

强制结束正在进行的在线迁移

server-migration-show

显示某次虚拟机迁移的详细信息

server-migration-list

列出指定虚拟机的迁移

migration-list

列出所有迁移

server-tag-add

添加一个或多个tag到虚拟机，类似的server-tag-delete、server-tag-delete-all、server-tag-list、server-tag-set完成相应CRUD操作

flavor-access-add

为某个租户增加某个flavor的权限。类似的flavor-access-remove移除某个租户访问某个flavor的权限

flavor-access-list

查看某个flavor的访问权限列表

flavor-create

创建一个flavor。类似的 flavor-delete、flavor-list、flavor-update、flavor-show命令完成相关CRUD操作。

flavor-key

为某个flavor设置或清除extra_spec。

get-rdp-console

达到虚拟机的RDP控制台

get-serial-console

得到寻机的串口控制台

get-spice-console

得到虚拟机的Spice控制台

get-vnc-console

得到虚拟机的VNC控制台

host-evacuate

重建失败宿主机上的所有实例

host-evacuate-live

对指定宿主机上所有虚拟机执行在线迁移操作

host-servers-migrate

对指定宿主机上所有虚拟机执行迁移操作

host-meta

设置/删除宿主机上所有的虚拟机的元数据

hypervisor-list

列出可用的Hypervisor

hypervisor-servers

列出基于指定Hypervisor的虚拟机

hypervisor-show

查看Hypervisor的详细信息

hypervisor-stats

显示所有Hypervisor的总和统计信息

hypervisor-uptime

显示指定Hypervisor的已启动时间

image-create

通过获取虚拟机快照，来创建新的镜像

instance-action-list

列出针对指定虚拟机的操作历史

interface-attach

为虚拟机添加一个网络接口（Port）

interface-list

列出连接到虚拟机的Port

refresh-network

刷新虚拟机的网络信息

reset-network

重置虚拟机的网络

volume-attach

添加一个卷给虚拟机

volume-detach

将某个卷从虚拟机移除

volume-attachments

列出所有添加到虚拟机的卷

volume-update

将指定的、已经添加到虚拟机的卷的数据，拷贝到另外一个可用（没有被其它虚拟机使用）的卷上，然后将当前挂载的卷换成新的（接收数据拷贝的哪个）

keypair-add

添加访问虚拟机的密钥。类似的 keypair-delete、keypair-list、keypair-show命令完成相关CRUD操作。

quota-class-show

显示一个quota class的配额信息

quota-class-update

更新quota class的配额值

quota-defaults

列出租户的默认配额

quota-delete

为一个用户/租户删除配额，配额值恢复为默认

quota-show

显示指定用户/租户的配额

quota-update

为指定用户/租户更新配额

usage

显示单个租户的用量信息

usage-list

列出所有租户的用量信息

version-list

列出所有API 版本

service-delete

删除服务

service-disable

禁用服务

service-enable

启用服务

service-force-down

强制停止服务

service-list

列出运行中的服务

bash-completion

用于bash自动补全。脚本文件位于：/etc/bash_completion.d/nova，可以直接拷贝到其它机器使用

cinder

absolute-limits

列出针对某个用户的，存储（总计、备份、快照、卷等）用量的硬限制

backup-create

创建一个卷的备份

backup-delete

删除一个卷备份

backup-export

导出备份元数据

backup-import

导入备份元数据

backup-list

列出所有备份

backup-reset-state

显式的更新备份状态

backup-restore

从一个备份恢复

backup-show

显示备份详细信息

backup-update

更新一个备份

create

创建一个卷

delete

删除一个或多个卷

extend

尝试扩展一个卷的尺寸

failover-host

进行故障转移，要求卷是replicated

force-delete

强制删除卷，不管其状态如何

freeze-host

冻结并且禁用指定的卷主机

get-capabilities

显示卷的后端的统计信息、属性

get-pools

显示卷的池信息：

cinder get-pools 

+----------+---------------------+
| Property | Value               |
+----------+---------------------+
| name     | openstack-3@lvm#LVM |
+----------+---------------------+
+----------+---------------------+
| Property | Value               |
+----------+---------------------+
| name     | openstack-4@lvm#LVM |
+----------+---------------------+
+----------+---------------------+
| Property | Value               |
+----------+---------------------+
| name     | openstack-2@lvm#LVM |
+----------+---------------------+
+----------+---------------------+
| Property | Value               |
+----------+---------------------+
| name     | openstack-2@nfs#nfs |
+----------+---------------------+

每个主机上的lvm后端，独立作为一个池。但是在各主机上都配置了的、指向同一NFS export的，只显示了一个池

list

列出所有卷

migrate

将卷迁移到一个新的主机上

qos-associate

为指定的卷类型设置QoS规格

qos-create

创建一个QoS规格

qos-delete

删除一个QoS规格

qos-disassociate

解除一个QoS规格和一个卷类型的关联

qos-disassociate-all

解除一个QoS规格的所有关联

qos-get-association

列出QoS规格的关联

qos-key

设置/删除QoS规格的某个属性

qos-list

列出所有的QoS规格

quota-class-show

列出一个配额类（quota class）的所有配额属性

quota-class-update

更新配额类的属性

quota-defaults

列出租户的默认配额

quota-delete

为一个租户删除配额

quota-show

显示某个租户的当前配额

quota-update

更新一个租户的配额

quota-usage

列出一个租户的配额使用情况

rate-limits

列出一个租户的速率限制

rename

重命名卷

reset-state

在Cinder数据库中显式的重置卷的状态

retype

修改卷的类型

revert-to-snapshot

将某个卷回退到某个快照

service-disable

禁用一个卷服务：

cinder service-disable  openstack-4@nfs  cinder-volume

要删除卷服务，需要：

cinder-manage service remove  cinder-volume openstack-4@nfs

snapshot-create

创建卷快照

snapshot-delete

删除卷快照

snapshot-list

列出卷快照

snapshot-manage

管理卷快照

snapshot-metadata

设置或删除快照元数据

snapshot-metadata-show

查看快照元数据

snapshot-rename

重命名快照

snapshot-reset-state

显式的重置快照状态

snapshot-show

显示卷快照的信息

snapshot-unmanage

停止管理卷快照

transfer-accept

接受一个卷转移（volume transfer）

transfer-create

创建一个卷转移

transfer-delete

撤销一个卷转移

transfer-list

列出所有卷转移

transfer-show

显示卷转移的信息

type-access-add

授予指定项目（租户）访问某个卷类型的权限

type-access-list

列出卷类型的访问权限

type-access-remove

移除卷类型的访问权限

type-create

配置好一个卷后端后，需要使用该命令，创建对应的卷类型，并且将类型关联到后端：

cinder type-create nfs-fast
cinder type-key nfs-fast set volume_backend_name=nfs-fast

cinder type-create nfs-slow
cinder type-key nfs-slow set volume_backend_name=nfs-slow

type-default

显示默认使用的卷类型：

cinder type-default
+--------------------------------------+-------------+---------------------+-----------+
| ID                                   | Name        | Description         | Is_Public |
+--------------------------------------+-------------+---------------------+-----------+
| 464dc192-cc63-4aab-8466-6d4f41cd0fb4 | __DEFAULT__ | Default Volume Type | True      |
+--------------------------------------+-------------+---------------------+-----------+

通过type-update修改默认卷类型的名字，会导致出错。你必须同步修改控制节点的cinder.conf：

default_volume_type = lvm

type-delete

删除卷类型

type-key

设置/删除卷类型的额外规格（extra_spec）

type-list

列出所有卷类型

type-show

显示一个卷类型的详细信息

type-update

根据ID来更新一个卷类型的名字、描述、是否公开：

cinder type-update --name __DEFAULT__ 464dc192-cc63-4aab-8466-6d4f41cd0fb4

unmanage

停止管理卷

upload-to-image

将卷上传到镜像服务，作为镜像使用

样例环境

本章按照官网的样例架构，搭建最小化的OpenStack集群。此集群和生产环境架构的不同之处是：

网络代理（networking agents）部署在控制器节点上，而非专用的网络节点
自服务网络（self-service networks）的隧道（Overlay）流量，通过管理网络（management network）而非专用网络传递

环境需求

节点角色

此集群包含如下角色的节点：

Controller：要求2张NIC
1. 部署Identity Service、Image Service、计算服务的管理部分、网络服务的管理部分、Web仪表盘，以及多种网络代理
2. 部署支持性服务，包括SQL数据库、消息代理、NTP
3. 可选的，部署块存储服务、对象存储服务、编排服务、遥测服务的部分组件
Compute：要求2张NIC
1. 部署计算服务的Hypervisor部分，能够操控Instance。默认Hypervisor是KVM
2. 部署一个网络代理，用于将Instance连接到虚拟网络，并通过安全组为Instance提供防火墙服务
Block Storage：可选的，为Instance提供块存储、共享文件系统服务。在本示例环境中，计算节点和块存储节点之间的流量通过管理网络传输，生产环境下应该有独立的存储网络
Object Storage：可选的，用于对象存储的服务

网络布局

推荐使用两套物理网络：

管理网络（management network，10.1.0.0/16）：通过NAT连接到互联网。绝大部分情况下，节点需要连接到外网（例如安装软件包）时，都应该通过管理网
提供者网络（provider network，10.0.0.0/16）：这是虚拟机的工作负载流量所使用的网络，在：
1. 网络选项一（提供者网络）下，虚拟机直接连接到此网络
2. 网络选项二（自服务网络）下，虚拟机连接到自服务网络，然后NAT到此网络以获得外部连接

网络选项

此集群可以选用两种虚拟网络之一。

提供者网络

Provider networks，也就是外部网络。以最简单的方式部署OpenStack网络服务，通常基于L2（桥接/交换）服务和网络VLAN分段实现。这种选项将虚拟网络桥接到物理网络，依赖于物理网络基础设施完成L3服务。

此外，一个DHCP服务用于为Instance提供IP地址。

这种选项不支持一些高级特性，例如LBaaS、FWaaS。

自服务网络

所谓自服务，是指非特权账户在不需要管理员介入的情况下，管理虚拟化基础设施 —— 例如网络的能力。

这种选项通过提供L3（路由）服务来增强提供者网络，使用的是类似VXLAN之类的overlay segmentation技术。虚拟网络到物理网络的路由通过NAT实现。

OpenStack用户可以在不了解数据网络（data network）底层基础设施的情况下，创建虚拟网络。包括VLAN网络（如果L2插件被相应的配置）。

客户端安装

Ubuntu

安装软件：

sudo -H pip install python-openstackclient  --ignore-installed PyYAML
# placement插件
sudo -H pip install osc-placement

# 修复错误，将下面两个文件开头的import queue 改为 import Queue as queue
sudo vim /usr/local/lib/python2.7/dist-packages/openstack/utils.py
sudo vim /usr/local/lib/python2.7/dist-packages/openstack/cloud/openstackcloud.py

配置Shell自动完成：

openstack complete | sudo tee /etc/bash_completion.d/osc.bash_completion > /dev/null

组件安装

OpenStack由一系列独立安装的、相互协作的组件构成。

源配置

dnf -y install centos-release-openstack-ussuri
yum config-manager --set-enabled powertools
dnf install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
dnf -y upgrade

基础软件

dnf -y install telnet htop bridge-utils xterm

安装时钟同步服务

略，参考Ubuntu的时钟同步

安装数据库

Keystone为OpenStack提供身份（Identity）服务。Keystone可以提供四种Token（代表请求者身份），样例环境使用Fernet Token，同时基于Apache HTTP Server来处理请求。

首先，你需要安装一个数据库：

# 安装mariadb模块
dnf -y install mariadb mariadb-server python2-PyMySQL

创建并修改配置文件：

[mysqld]
bind-address = 10.1.0.10

default-storage-engine = innodb
innodb_file_per_table = on
max_connections = 4096
collation-server = utf8_general_ci
character-set-server = utf8

启用服务：

systemctl enable mariadb.service
systemctl start mariadb.service

启用安全配置：

mysql_secure_installation

安装消息队列

安装RabbitMQ：

dnf -y install rabbitmq-server

systemctl enable rabbitmq-server.service
systemctl start rabbitmq-server.service

创建一个RabbitMQ用户：

rabbitmqctl add_user openstack openstack

为用户openstack授予配置、读写权限：

rabbitmqctl set_permissions openstack ".*" ".*" ".*"

安装Memcached

Identity Service使用Memcached来缓存Tokens。

安装软件：

dnf -y install memcached python3-memcached

修改配置：

OPTIONS="-l 0.0.0.0"

启动服务：

systemctl enable memcached.service
systemctl start memcached.service

安装Etcd

OpenStack组件可能需要使用Etcd来实现分布式键锁定、配置存储、跟踪服务是否存活。

安装软件：

dnf -y install etcd

修改配置文件：

#[Member]
ETCD_DATA_DIR="/var/lib/etcd/default.etcd"
ETCD_LISTEN_PEER_URLS="http://10.1.0.10:2380"
ETCD_LISTEN_CLIENT_URLS="http://10.1.0.10:2379"
ETCD_NAME="openstack"
#[Clustering]
ETCD_INITIAL_ADVERTISE_PEER_URLS="http://10.1.0.10:2380"
ETCD_ADVERTISE_CLIENT_URLS="http://10.1.0.10:2379"
ETCD_INITIAL_CLUSTER="openstack=http://10.1.0.10:2380"
ETCD_INITIAL_CLUSTER_TOKEN="etcd-cluster-01"
ETCD_INITIAL_CLUSTER_STATE="new"

启动服务：

systemctl enable etcd
systemctl start etcd

安装Keystone

为Keystone创建数据库和用户：

CREATE DATABASE IF NOT EXISTS keystone;

GRANT ALL PRIVILEGES ON keystone.* TO 'keystone'@'localhost' IDENTIFIED BY 'keystone';

GRANT ALL PRIVILEGES ON keystone.* TO 'keystone'@'%' IDENTIFIED BY 'keystone';

然后，安装以下包：

dnf -y install openstack-keystone httpd
dnf -y install python3-mod_wsgi

编辑Keystone配置文件：

[database]
# ...
connection = mysql+pymysql://keystone:keystone@os.gmem.cc/keystone


[token]
provider = fernet

初始化数据库：

su -s /bin/sh -c "keystone-manage db_sync" keystone

初始化Fernet密钥存储库：

#                            运行keystone的操作系统用户和组
keystone-manage fernet_setup --keystone-user keystone --keystone-group keystone
keystone-manage credential_setup --keystone-user keystone --keystone-group keystone

启动Identity服务：

keystone-manage bootstrap --bootstrap-password keystone \
  --bootstrap-admin-url http://os.gmem.cc:5000/v3/ \
  --bootstrap-internal-url http://os.gmem.cc:5000/v3/ \
  --bootstrap-public-url http://os.gmem.cc:5000/v3/ \
  --bootstrap-region-id china

编辑Apache配置文件：

ServerName os.gmem.cc

将Keystone的配置文件链接到Apache配置目录：

ln -s /usr/share/keystone/wsgi-keystone.conf /etc/httpd/conf.d/

启动Apache服务：

systemctl enable httpd.service
systemctl start httpd.service

为了后续使用OpenStack工具时进行身份验证，你需要设置环境变量（密码来自上面的 keystone-manage bootstrap 步骤）：

export OS_USERNAME=admin
export OS_PASSWORD=keystone
export OS_PROJECT_NAME=admin
export OS_USER_DOMAIN_NAME=Default
export OS_PROJECT_DOMAIN_NAME=Default
export OS_AUTH_URL=http://os.gmem.cc:5000/v3
export OS_IDENTITY_API_VERSION=3

现在，我们需要需要创建一些OpenStack对象：

# 创建一个域
# openstack domain create --description "An Example Domain" example

# 创建一个项目
# 示例环境为每个服务创建一个用户，这些用户在此项目中获得授权
openstack project create --domain default --description "Service Project" service


# 常规操作（非管理）应该使用非特权的项目和用户进行
openstack project create --domain default --description "Gmem Project" gmem
openstack user create --domain default --password gmem gmem
openstack role create gmem
openstack role add --project gmem --user gmem gmem

安装Glance

安装组件

Glance为OpenStack提供（虚拟机）镜像服务，Glance支持多种后端存储，本样例环境下我们直接存放在文件系统中。

首先，需要为Glance创建数据库：

CREATE DATABASE IF NOT EXISTS glance;

GRANT ALL PRIVILEGES ON glance.* TO 'glance'@'localhost' IDENTIFIED BY 'glance';
GRANT ALL PRIVILEGES ON glance.* TO 'glance'@'%' IDENTIFIED BY 'glance';

使用OpenStack命令行来创建Glance的凭证信息，注意需要进行上述环境变量设置：

openstack user create --domain default --password glance glance

为service项目中的glance用户添加admin角色：

openstack role add --project service --user glance admin

创建Glance服务：

# 服务的类型
openstack service create --name glance --description "OpenStack Image" image

为Glance服务添加一个端点：

openstack endpoint create --region china image public http://os.gmem.cc:9292

下面，需要安装和配置Glance组件。安装软件包：

dnf -y install openstack-glance

修改配置文件：

[database]
connection = mysql+pymysql://glance:glance@os.gmem.cc/glance


[keystone_authtoken]
www_authenticate_uri  = http://os.gmem.cc:5000
auth_url = http://os.gmem.cc:5000
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = Default
user_domain_name = Default
project_name = service
username = glance
password = glance


[paste_deploy]
flavor = keystone


[glance_store]
stores = file,http
default_store = file
filesystem_store_datadir = /var/lib/glance/images/

初始化Glance数据库：

su -s /bin/sh -c "glance-manage db_sync" glance

启动服务：

systemctl enable openstack-glance-api.service
systemctl start openstack-glance-api.service

下载镜像

为了测试OpenStack，建议使用CirrOS镜像。

wget http://download.cirros-cloud.net/0.4.0/cirros-0.4.0-x86_64-disk.img

openstack image create --public --disk-format qcow2 --container-format bare \
  --file cirros-0.4.0-x86_64-disk.img cirros-0.4.0-amd64

安装Placement

在Stein版本之前，placement 的代码在Nova中，服务在compute REST API（nova-api）中。

Placement提供了WSGI脚本placement-api，可以在Apache/Nginx之类的WSGI-capable服务器中使用。取决于你的安装方式，该脚本可能位于/usr/bin或/usr/local/bin下面。

为Placement创建数据库：

CREATE DATABASE IF NOT EXISTS placement;
GRANT ALL PRIVILEGES ON placement.* TO 'placement'@'localhost' IDENTIFIED BY 'placement';
GRANT ALL PRIVILEGES ON placement.* TO 'placement'@'%' IDENTIFIED BY 'placement';

创建用户和端点：

openstack user create --domain default --password placement placement

openstack role add --project service --user placement admin

openstack service create --name placement --description "Placement API" placement

openstack endpoint create --region china placement public  http://os.gmem.cc:8778
openstack endpoint create --region china placement internal http://os.gmem.cc:8778
openstack endpoint create --region china placement admin http://os.gmem.cc:8778

安装和配置Placement组件：

dnf -y install openstack-placement-api

修改配置文件：

[placement_database]
connection = mysql+pymysql://placement:placement@os.gmem.cc/placement


[api]
auth_strategy = keystone


[keystone_authtoken]
auth_url = http://os.gmem.cc:5000/v3
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = Default
user_domain_name = Default
project_name = service
username = placement
password = placement

初始化数据库：

su -s /bin/sh -c "placement-manage db sync" placement

修改Apache配置文件（否则可能计算节点nova报 You don't have permission to access this resource）：


  Require all granted

重启Apache服务：

systemctl restart httpd

安装Nova

控制节点

创建数据库：

CREATE DATABASE IF NOT EXISTS nova_api;
CREATE DATABASE IF NOT EXISTS nova;
CREATE DATABASE IF NOT EXISTS nova_cell0;

GRANT ALL PRIVILEGES ON nova_api.* TO 'nova'@'localhost' IDENTIFIED BY 'nova';
GRANT ALL PRIVILEGES ON nova_api.* TO 'nova'@'%' IDENTIFIED BY 'nova';

GRANT ALL PRIVILEGES ON nova.* TO 'nova'@'localhost' IDENTIFIED BY 'nova';
GRANT ALL PRIVILEGES ON nova.* TO 'nova'@'%' IDENTIFIED BY 'nova';

GRANT ALL PRIVILEGES ON nova_cell0.* TO 'nova'@'localhost' IDENTIFIED BY 'nova';
GRANT ALL PRIVILEGES ON nova_cell0.* TO 'nova'@'%' IDENTIFIED BY 'nova';

创建用户和端点：

openstack user create --domain default --password nova nova
openstack role add --project service --user nova admin
openstack service create --name nova  --description "OpenStack Compute" compute

openstack endpoint create --region china compute public   http://os.gmem.cc:8774/v2.1
openstack endpoint create --region china compute internal http://os.gmem.cc:8774/v2.1
openstack endpoint create --region china compute admin    http://os.gmem.cc:8774/v2.1

安装组件：

dnf -y install openstack-nova-api openstack-nova-conductor openstack-nova-novncproxy openstack-nova-scheduler

修改配置文件：

[DEFAULT]
enabled_apis = osapi_compute,metadata
transport_url = rabbit://openstack:openstack@os.gmem.cc:5672/
; 管理网络的IP地址
my_ip = 10.1.0.10

[api_database]
connection = mysql+pymysql://nova:nova@os.gmem.cc/nova_api

[database]
connection = mysql+pymysql://nova:nova@os.gmem.cc/nova

[api]
auth_strategy = keystone

[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000/
auth_url = http://os.gmem.cc:5000/
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = Default
user_domain_name = Default
project_name = service
username = nova
password = nova

[vnc]
enabled = true
server_listen = $my_ip
server_proxyclient_address = $my_ip

[glance]
api_servers = http://os.gmem.cc:9292

[oslo_concurrency]
lock_path = /var/lib/nova/tmp

[placement]
region_name = china
project_domain_name = Default
project_name = service
auth_type = password
user_domain_name = Default
auth_url = http://os.gmem.cc:5000/v3
username = placement
password = placement

[neutron]
; 参考：安装Neutron

[cinder]
; 参考：安装Cinder

初始化数据库：

su -s /bin/sh -c "nova-manage api_db sync" nova

su -s /bin/sh -c "nova-manage cell_v2 map_cell0" nova

su -s /bin/sh -c "nova-manage cell_v2 create_cell --name=cell1 --verbose" nova

su -s /bin/sh -c "nova-manage db sync" nova

校验一下，确保cell0和cell1正确的注册了：

su -s /bin/sh -c "nova-manage cell_v2 list_cells" nova

启动服务：

systemctl enable \
    openstack-nova-api.service \
    openstack-nova-scheduler.service \
    openstack-nova-conductor.service \
    openstack-nova-novncproxy.service

systemctl start \
    openstack-nova-api.service \
    openstack-nova-scheduler.service \
    openstack-nova-conductor.service \
    openstack-nova-novncproxy.service

计算节点

安装软件：

dnf -y install openstack-nova-compute

修改配置文件：

[DEFAULT]
enabled_apis = osapi_compute,metadata
; 替换为该计算节点上，管理网络的IP
my_ip = 10.1.0.10

[DEFAULT]
transport_url = rabbit://openstack:openstack@os.gmem.cc

[api]
auth_strategy = keystone

[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000/
auth_url = http://os.gmem.cc:5000/
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = Default
user_domain_name = Default
project_name = service
username = nova
password = nova

[vnc]
enabled = true
server_listen = 0.0.0.0
server_proxyclient_address = $my_ip
novncproxy_base_url = http://os.gmem.cc:6080/vnc_auto.html

[glance]
api_servers = http://os.gmem.cc:9292

[oslo_concurrency]
lock_path = /var/lib/nova/tmp

[placement]
region_name = china
project_domain_name = Default
project_name = service
auth_type = password
user_domain_name = Default
auth_url = http://os.gmem.cc:5000/v3
username = placement
password = placement

[libvirt]
virt_type = kvm

[neutron]
; 参考：安装Neutron

[cinder]
; 参考：安装Cinder

启动服务：

systemctl enable libvirtd.service openstack-nova-compute.service
systemctl start libvirtd.service openstack-nova-compute.service

如果nova-compute启动失败，检查日志： /var/log/nova/nova-compute.log。

最后，将该节点加入到cell数据库中：

# 检查计算服务列表
openstack compute service list --service nova-compute

# 发现计算服务主机
# 需要在控制节点上执行
su -s /bin/sh -c "nova-manage cell_v2 discover_hosts --verbose" nova

# 如果希望自动发现新的主机，可以配置控制节点的/etc/nova/nova.conf：
# [scheduler]
# discover_hosts_in_cells_interval = 300

安装Neutron

控制节点

创建数据库：

CREATE DATABASE IF NOT EXISTS neutron;

GRANT ALL PRIVILEGES ON neutron.* TO 'neutron'@'localhost'  IDENTIFIED BY 'neutron';
GRANT ALL PRIVILEGES ON neutron.* TO 'neutron'@'%' IDENTIFIED BY 'neutron';

创建用户和端点：

openstack user create --domain default --password neutron neutron

openstack role add --project service --user neutron admin

openstack service create --name neutron --description "OpenStack Networking" network

openstack endpoint create --region china network public   http://os.gmem.cc:9696
openstack endpoint create --region china network internal http://os.gmem.cc:9696
openstack endpoint create --region china network admin    http://os.gmem.cc:9696

如果使用提供者网络，也就是直接将VM添加到外部网络，不提供自服务网络（以及路由器、浮动IP等），则需要使用admin或其它特权账户。步骤如下：

安装软件：

dnf -y install openstack-neutron openstack-neutron-ml2 openstack-neutron-linuxbridge ebtables

配置Neutron：

[database]
connection = mysql+pymysql://neutron:neutron@os.gmem.cc/neutron

[DEFAULT]
core_plugin = ml2
service_plugins =

transport_url = rabbit://openstack:openstack@os.gmem.cc

auth_strategy = keystone

notify_nova_on_port_status_changes = true
notify_nova_on_port_data_changes = true

[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000
auth_url = http://os.gmem.cc:5000
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = default
user_domain_name = default
project_name = service
username = neutron
password = neutron

[nova]
auth_url = http://os.gmem.cc:5000
auth_type = password
project_domain_name = default
user_domain_name = default
region_name = china
project_name = service
username = nova
password = nova

[oslo_concurrency]
lock_path = /var/lib/neutron/tmp

配置Modular Layer2（ML2）插件。此插件使用Linux bridge来为虚拟机构建L2 VNI：

[ml2]
; 启用Flat/VLAN网络
type_drivers = flat,vlan
; 禁用自服务网络
tenant_network_types =
; 启用 Linux bridge mechanism 
mechanism_drivers = linuxbridge
; 启用端口安全扩展驱动
extension_drivers = port_security

[ml2_type_flat]
; 配置提供者虚拟网络为Flat网络
flat_networks = provider

[securitygroup]
; 增强安全组规则的性能
enable_ipset = true

配置Linux Bridge agent，此Agent为VM构建L2 VNI，并处理安全组：

[linux_bridge]
; 这里填写底层的提供者网络的设备名
physical_interface_mappings = provider:eth0

[vxlan]
; 禁用VXLAN
enable_vxlan = false

[securitygroup]
; 启用安全组，配置基于iptables的防火墙驱动
enable_security_group = true
firewall_driver = neutron.agent.linux.iptables_firewall.IptablesFirewallDriver

确保宿主机内核支持Network bridge filters：

# 二层的网桥在转发包时也会被iptables的FORWARD规则所过滤
net.bridge.bridge-nf-call-iptables  1
net.bridge.bridge-nf-call-ip6tables 1

此外，为了支持网桥，需要加载内核模块

br_netfilter

配置DHCP代理，此代理为虚拟网络提供DHCP服务：

[DEFAULT]
interface_driver = linuxbridge
dhcp_driver = neutron.agent.linux.dhcp.Dnsmasq
enable_isolated_metadata = true

如果使用自服务网络，不需要特权用户就可以管理网络（包括路由）并在自服务网络和提供者网络之间创建连接，也可以为VM提供浮动IP，以便从外部访问VM。步骤如下：

安装软件，同上

配置Neutron，基本同上：

[database]
connection = mysql+pymysql://neutron:neutron@os.gmem.cc/neutron

[DEFAULT]
; 同样使用ML2插件
core_plugin = ml2
; 启用路由服务，允许IP重叠
service_plugins = router
allow_overlapping_ips = true

transport_url = rabbit://openstack:openstack@os.gmem.cc

auth_strategy = keystone

notify_nova_on_port_status_changes = true
notify_nova_on_port_data_changes = true

[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000
auth_url = http://os.gmem.cc:5000
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = default
user_domain_name = default
project_name = service
username = neutron
password = neutron

[nova]
auth_url = http://os.gmem.cc:5000
auth_type = password
project_domain_name = default
user_domain_name = default
region_name = china
project_name = service
username = nova
password = nova

[oslo_concurrency]
lock_path = /var/lib/neutron/tmp

配置Modular Layer2（ML2）插件：

[ml2]
; 启用Flat/VLAN/VXLAN
type_drivers = flat,vlan,vxlan
; 启用自服务网络，基于VXLAN
tenant_network_types = vxlan
; 启用Linux网桥，以及Layer-2 Population
mechanism_drivers = linuxbridge,l2population
; 启用端口安全扩展驱动
extension_drivers = port_security

[ml2_type_flat]
; 配置提供者虚拟网络为Flat网络
flat_networks = provider

[ml2_type_vxlan]
; 设置VXLAN网络标识符的范围
vni_ranges = 1:1000

[securitygroup]
; 增强安全组规则的性能
enable_ipset = true

配置Linux Bridge agent：

[linux_bridge]
; 这里填写底层的提供者网络的设备名
physical_interface_mappings = provider:eth0

[vxlan]
; 启用VXLAN
enable_vxlan = true
; 用于处理Overlay网络的底层网络的本机IP地址
local_ip = 10.1.0.10
l2_population = true

[securitygroup]
; 启用安全组，配置基于iptables的防火墙驱动
enable_security_group = true
firewall_driver = neutron.agent.linux.iptables_firewall.IptablesFirewallDriver

确保宿主机内核支持Network bridge filters，同上
配置DHCP，同上
配置L3代理，此代理为自服务VNI提供路由、NAT：
```
[DEFAULT]
interface_driver = linuxbridge
```

自服务网络是overlay网络，使用VXLAN之类的协议，这些协议具有额外的头，导致实际可能负载减小，如果VM不知道此VNI的特征，会自动设置过大的MTU 1500。Neutron提供的DHCP能自动给VM提供正确的MTU。但是，某些云镜像不使用DHCP，或者忽略DHCP的MTU选项，需要注意。

执行完上述两种网络选项之一后，继续配置元数据代理（metadata agent），元数据代理代替虚拟机（附加Instance ID、Tenant ID等请求头）访问Nova metadata API，获取虚拟机镜像的配置信息：

[DEFAULT]
nova_metadata_host = os.gmem.cc
; 设置适当的共享密钥
metadata_proxy_shared_secret = openstack

配置计算服务（Nova）来使用网络服务：

[neutron]
auth_url = http://os.gmem.cc:5000
auth_type = password
project_domain_name = default
user_domain_name = default
region_name = china
project_name = service
username = neutron
password = neutron
service_metadata_proxy = true
metadata_proxy_shared_secret = openstack

将ML2配置链接为Neutron插件主配置文件：

ln -s /etc/neutron/plugins/ml2/ml2_conf.ini /etc/neutron/plugin.ini

初始化数据库：

su -s /bin/sh -c "neutron-db-manage --config-file /etc/neutron/neutron.conf \
  --config-file /etc/neutron/plugins/ml2/ml2_conf.ini upgrade head" neutron

重启Nova：

systemctl restart openstack-nova-api.service

启动Neutron：

systemctl enable neutron-server.service \
  neutron-linuxbridge-agent.service neutron-dhcp-agent.service \
  neutron-metadata-agent.service
systemctl start neutron-server.service \
  neutron-linuxbridge-agent.service neutron-dhcp-agent.service \
  neutron-metadata-agent.service

如果使用自服务网络选项，还需要启用L3服务：

systemctl enable neutron-l3-agent.service
systemctl start neutron-l3-agent.service

计算节点

安装软件：

dnf -y install openstack-neutron-linuxbridge ebtables ipset

配置身份验证、消息队列：

[DEFAULT]
transport_url = rabbit://openstack:openstack@os.gmem.cc

auth_strategy = keystone


[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000
auth_url = http://os.gmem.cc:5000
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = default
user_domain_name = default
project_name = service
username = neutron
password = neutron

[oslo_concurrency]
lock_path = /var/lib/neutron/tmp

配置网络选项。如果使用提供者网络：

配置Linux bridge Agent：

[linux_bridge]
physical_interface_mappings = provider:eth0

[vxlan]
enable_vxlan = false

[securitygroup]
enable_security_group = true
firewall_driver = neutron.agent.linux.iptables_firewall.IptablesFirewallDriver

确保内核参数（通常需要保证内核模块br_netfilter已加载）：
```
net.bridge.bridge-nf-call-iptables 1
net.bridge.bridge-nf-call-ip6tables 1
```

如果使用自服务网络：

配置Linux bridge Agent：

[linux_bridge]
physical_interface_mappings = provider:eth0

[vxlan]
enable_vxlan = true
local_ip = 10.1.0.11
l2_population = true

[securitygroup]
enable_security_group = true
firewall_driver = neutron.agent.linux.iptables_firewall.IptablesFirewallDriver

同上

配置计算服务，让它使用网络服务：

[neutron]
auth_url = http://os.gmem.cc:5000
auth_type = password
project_domain_name = default
user_domain_name = default
region_name = china
project_name = service
username = neutron
password = neutron

重启Nova：

systemctl restart openstack-nova-compute.service

启动Linux bridge Agent：

systemctl enable neutron-linuxbridge-agent.service
systemctl start neutron-linuxbridge-agent.service

操作校验

列出已加载的扩展列表，确保Neutron相关进程启动：

openstack extension list --network

校验Neutron代理都已经启动：

openstack network agent list

应该启动的代理包括：

控制节点的元数据代理、DHCP代理、Linux bridge代理
计算节点的Linux bridge代理
如果使用自服务网络，控制节点还有L3代理

安装Cinder

样例环境中，使用存储节点上的空白磁盘/dev/sdb ，基于LVM划分初逻辑卷，然后通过iSCSI协议暴露给虚拟机。

控制节点

CREATE DATABASE IF NOT EXISTS cinder;

GRANT ALL PRIVILEGES ON cinder.* TO 'cinder'@'localhost' IDENTIFIED BY 'cinder';
GRANT ALL PRIVILEGES ON cinder.* TO 'cinder'@'%' IDENTIFIED BY 'cinder';

创建用户和端点：

openstack user create --domain default --password cinder cinder

openstack role add --project service --user cinder admin

openstack service create --name cinderv2 --description "OpenStack Block Storage" volumev2
openstack service create --name cinderv3 --description "OpenStack Block Storage" volumev3

openstack endpoint create --region china volumev2 public http://os.gmem.cc:8776/v2/%\(project_id\)s
openstack endpoint create --region china volumev2 internal http://os.gmem.cc:8776/v2/%\(project_id\)s
openstack endpoint create --region china volumev2 admin http://os.gmem.cc:8776/v2/%\(project_id\)s

openstack endpoint create --region china volumev3 public http://os.gmem.cc:8776/v3/%\(project_id\)s
openstack endpoint create --region china volumev3 internal http://os.gmem.cc:8776/v3/%\(project_id\)s
openstack endpoint create --region china volumev3 admin http://os.gmem.cc:8776/v3/%\(project_id\)s

安装组件：

dnf -y install openstack-cinder

修改配置文件：

[DEFAULT]
transport_url = rabbit://openstack:openstack@os.gmem.cc
auth_strategy = keystone
; 管理网络接口的IP地址
my_ip = 10.1.0.10

[database]
connection = mysql+pymysql://cinder:cinder@os.gmem.cc/cinder

[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000
auth_url = http://os.gmem.cc:5000
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = default
user_domain_name = default
project_name = service
username = cinder
password = cinder

[oslo_concurrency]
lock_path = /var/lib/cinder/tmp

初始化数据库：

su -s /bin/sh -c "cinder-manage db sync" cinder

配置Nova来使用存储服务：

[cinder]
os_region_name = china

重新启动Nova：

systemctl restart openstack-nova-api.service

启动Cinder服务：

systemctl enable openstack-cinder-api.service openstack-cinder-scheduler.service
systemctl start openstack-cinder-api.service openstack-cinder-scheduler.service

存储节点

在本样例环境下，需要LVM支持：

yum install lvm2 device-mapper-persistent-data

systemctl enable lvm2-lvmetad.service
systemctl start lvm2-lvmetad.service

在/dev/sdb上创建LVM物理卷，并创建名为cinder-volumes的卷组：

pvcreate /dev/sdb

vgcreate cinder-volumes /dev/sdb

只有虚拟机实例能够访问块设备卷。但是，存储节点的底层OS负责管理卷关联的块设备。默认情况下，LVM卷扫描工具会扫描/dev/目录来寻找包含卷的块设备。如果某个OpenStack项目使用基于LVM的卷，扫描工具会扫描卷并缓存结果，这可能导致很多问题。因此，你必须重新配置LVM，让它仅仅扫描包含cinder-volumes卷组的设备：

devices {
# a表示允许允许使用的卷，r表示拒绝使用的卷     
#                       拒绝所有其它的卷    
filter = [ "a/sdb/", "r/.*/"]

安装组件：

dnf -y install openstack-cinder targetcli python3-keystone

修改配置文件：

[DEFAULT]
transport_url = rabbit://openstack:openstack@os.gmem.cc
auth_strategy = keystone
; 此节点启用的存储后端
enabled_backends = lvm
; 配置镜像服务的API地址
glance_api_servers = http://os.gmem.cc:9292
; 管理网络接口的IP地址
my_ip = 10.1.0.11

[database]
connection = mysql+pymysql://cinder:cinder@os.gmem.cc/cinder

[keystone_authtoken]
www_authenticate_uri = http://os.gmem.cc:5000
auth_url = http://os.gmem.cc:5000
memcached_servers = os.gmem.cc:11211
auth_type = password
project_domain_name = default
user_domain_name = default
project_name = service
username = cinder
password = cinder

[oslo_concurrency]
lock_path = /var/lib/cinder/tmp

[lvm]
volume_driver = cinder.volume.drivers.lvm.LVMVolumeDriver
volume_group = cinder-volumes
target_protocol = iscsi
target_helper = lioadm

启动服务：

systemctl enable openstack-cinder-volume.service target.service
systemctl start openstack-cinder-volume.service target.service

安装Horizon

OpenStack Dashboard组件，即Horizon，此组件仅仅依赖于Identity。

安装软件：

dnf -y install openstack-dashboard

修改配置文件：

OPENSTACK_HOST = "os.gmem.cc"

WEBROOT = '/dashboard/'

# 允许哪些主机访问仪表盘
ALLOWED_HOSTS = ['os.gmem.cc']


# 配置基于Memcache的分布式会话存储
SESSION_ENGINE = 'django.contrib.sessions.backends.cache'
CACHES = {
    'default': {
         'BACKEND': 'django.core.cache.backends.memcached.MemcachedCache',
         'LOCATION': 'os.gmem.cc:11211',
    }
}

# 启用Identity API v3
OPENSTACK_KEYSTONE_URL = "http://%s/identity/v3" % OPENSTACK_HOST

# 确保Domain支持
OPENSTACK_KEYSTONE_MULTIDOMAIN_SUPPORT = True

# 配置API版本
OPENSTACK_API_VERSIONS = {
    "identity": 3,
    "image": 2,
    "volume": 3,
}

# 默认访问的Domain
OPENSTACK_KEYSTONE_DEFAULT_DOMAIN = "Default"

# 通过仪表盘创建的用户的默认角色
OPENSTACK_KEYSTONE_DEFAULT_ROLE = "user"

# 配置网络
OPENSTACK_NEUTRON_NETWORK = {
    # 如果使用提供者网络，需要禁用router
    'enable_router': False,
    'enable_quotas': False,
    'enable_distributed_router': False,
    'enable_ha_router': False,
    'enable_lb': False,
    'enable_firewall': False,
    'enable_vpn': False,
    'enable_fip_topology_check': False,
}

TIME_ZONE = "Asia/Shanghai"

修改配置文件：

WSGIDaemonProcess dashboard
WSGIProcessGroup dashboard
WSGISocketPrefix run/wsgi

WSGIApplicationGroup %{GLOBAL}

WSGIScriptAlias /dashboard /usr/share/openstack-dashboard/openstack_dashboard/wsgi/django.wsgi
Alias /dashboard/static /usr/share/openstack-dashboard/static


  Options All
  AllowOverride All
  Require all granted



  Options All
  AllowOverride All
  Require all granted

重启服务：

systemctl restart httpd.service memcached.service

此后你应该可以通过：http://os.gmem.cc访问仪表盘。

启用HTTPS

修改horizon主配置文件：

# 添加以下配置
USE_SSL = True
CSRF_COOKIE_SECURE = True
SESSION_COOKIE_SECURE = True
SESSION_COOKIE_HTTPONLY = True

修改Dashboard的httpd配置：

WSGISocketPrefix run/wsgi


  ServerName os.gmem.cc

  SSLEngine On
  SSLCertificateFile /etc/httpd/ssl/os.gmem.cc.crt
  SSLCACertificateFile /etc/httpd/ssl/os.gmem.cc.crt
  SSLCertificateKeyFile /etc/httpd/ssl/os.gmem.cc.key
  SetEnvIf User-Agent ".*MSIE.*" nokeepalive ssl-unclean-shutdown

  Header add Strict-Transport-Security "max-age=15768000"

  WSGIDaemonProcess dashboard
  WSGIProcessGroup dashboard

  WSGIApplicationGroup %{GLOBAL}

  WSGIScriptAlias /dashboard /usr/share/openstack-dashboard/openstack_dashboard/wsgi/django.wsgi
  Alias /dashboard/static /usr/share/openstack-dashboard/static

  
    Options All
    AllowOverride All
    Require all granted
  

  
    Options All
    AllowOverride All
    Require all granted

安装必要的httpd模块：

dnf -y install mod_ssl

创建网络

创建提供者网络

在启动实例之前，你需要创建必要的VNI。如果使用网络选项一，则虚拟机通过Provider（External）网络连接到PNI（基于bridging/switching）。

网络架构如下图：

使用下面的命令在OpenStack中创建一个名为provider的网络：

# share 表示允许所有project使用此虚拟网络
# external 表示网络是外部的，默认值internal
openstack network create  --share --external \
# 此虚拟网络所基于的物理网络
# 此名字对应的物理网络接口在linuxbridge_agent.ini中定义
#   physical_interface_mappings = provider:eth0
  --provider-physical-network provider \
# 此虚拟网络的物理实现机制（physical mechanism）
  --provider-network-type flat \
# 网络的名字
  provider

为上述网络创建一个子网：

openstack subnet create --network provider \
# 子网中，用于分配给虚拟机实例的IP地址范围，此IP地址范围由DHCP agent管理
  --allocation-pool start=10.0.100.1,end=10.0.1.255 \
# DNS服务器地址              底层物理网络的网关地址
  --dns-nameserver 10.0.0.1 --gateway 10.0.0.1 \
# 底层物理网络的CIDR
  --subnet-range 10.0.0.0/16 provider

创建自服务网络

前面我们提到过两个网络选项，如果使用选项1，则参考上一小节的内容创建虚拟网络。如果使用选项2，则在创建上述provider网络之后，还需要参考本节内容。

网络架构如下：

使用选项2时，需要创建一个自服务（私有）的虚拟网络，并通过NAT连接到物理网络。此虚拟网络提供DHCP服务器，并且分配IP地址给实例。在这种私有网络中的实例可以直接访问外部网络（NAT），但是外部网络不能直接访问这些实例，除非给实例分配浮动IP。

修改环境变量，使用用户gmem来操作。

创建名为gmem的自服务网络：

openstack network create gmem-net

非特权用户通常无法为上述命令指定额外的参数。OpenStack会依据下面的配置文件来自动选择参数：

[ml2]
tenant_network_types = vxlan

[ml2_type_vxlan]
vni_ranges = 1:1000

创建子网：

openstack subnet create --network gmem-net \
#                           子网的网关地址，不是物理网络上的网关地址
  --dns-nameserver 10.1.0.1 --gateway 192.168.100.1 \
# 子网的CIDR
  --subnet-range 192.168.100.0/24 gmem-subnet

自服务网络通过一个虚拟路由器，连接到提供者网络：

openstack router create gmem-router

将上述子网添加为此虚拟路由器的一个接口（interface）：

openstack router add subnet gmem-router gmem-subnet

将在提供者网络上的生成一个“网关“，连接到路由器：

openstack router set gmem-router --external-gateway provider

到控制节点上进行校验，确保虚拟网络正常工作：

# 检查网络命名空间，应该至少看到：
#   一个qrouter开头的
#   二个qdhcp开头的
ip netns


# 列出路由器的端口，确定提供者网络上的网关地址
openstack port list --router router


# 确认可以从控制节点，或者物理网络上任何节点来访问上述网关地址

创建Flavor

所谓Flavor就是虚拟机的规格，例如内存多大，CPU几个，磁盘几个，等等。最小的默认Flavor消耗512MB内存，这里我们创建一个仅消耗64MB内存的Flavor：

openstack flavor create --id 0 --vcpus 1 --ram 64 --disk 1 m1.nano

创建密钥

大部分的云镜像支持基于PKI的身份验证，而不是密码。在启动实例之前，我们需要为计算服务创建密钥：

openstack keypair create --public-key /home/alex/Documents/puTTY/gmem.crt default

openstack keypair list

添加安全组规则

默认的安全组应用到所有的实例，此安全组禁止对实例的所有远程访问。对于Linux镜像例如CirrOS，我们至少应该允许ICMP（ping）以及SSH：

openstack security group rule create --proto icmp default

openstack security group rule create --proto tcp --dst-port 22 default

创建虚拟机实例

列出可用的基础资源：

openstack flavor list
# +----+---------+-----+------+-----------+-------+-----------+
# | ID | Name    | RAM | Disk | Ephemeral | VCPUs | Is Public |
# +----+---------+-----+------+-----------+-------+-----------+
# | 0  | m1.nano |  64 |    1 |         0 |     1 | True      |
# +----+---------+-----+------+-----------+-------+-----------+

openstack image list
# +--------------------------------------+--------------------+--------+
# | ID                                   | Name               | Status |
# +--------------------------------------+--------------------+--------+
# | 5b337b93-96c6-4803-b0e2-bc0bce0afde9 | cirros-0.5.1-amd64 | active |
# +--------------------------------------+--------------------+--------+

openstack network list
# +--------------------------------------+----------+--------------------------------------+
# | ID                                   | Name     | Subnets                              |
# +--------------------------------------+----------+--------------------------------------+
# | 500cd78a-a05c-4b93-b399-06b26cc108de | provider | 9be1305c-a641-40f0-bd1b-6617e96025e6 |
# +--------------------------------------+----------+--------------------------------------+

openstack security group list
# +--------------------------------------+---------+------------------------+----------------------------------+------+
# | ID                                   | Name    | Description            | Project                          | Tags |
# +--------------------------------------+---------+------------------------+----------------------------------+------+
# | f5b0e967-5903-4b6b-9b9d-8e39a07b52da | default | Default security group | e1c4a3403e1b46cd969e4d626b5cf799 | []   |
# +--------------------------------------+---------+------------------------+----------------------------------+------+

在提供者网络上

openstack server create --flavor m1.nano --image cirros-0.5.1-amd64 \
  --nic net-id=500cd78a-a05c-4b93-b399-06b26cc108de --security-group default \
  --key-name default cirros-amd64-0

当虚拟机构建完毕后，其状态会从BUILD变为ACTIVE：

openstack server list

CirrOS的默认用户密码是cirros / gocubsgo，确认可以登陆。

在虚拟机的宿主机上，可以看到OpenStack创建了一个网桥，连接了提供者物理网络和虚拟机（的tap设备）：

brctl show
# bridge name     bridge id               STP enabled     interfaces
# brq1305444e-cf          8000.100000000012       no              eth0
#                                                         tapa87f2880-fc

Keystone

简介

Keystone是OpenStack的Identity服务，它负责身份验证、授权，以及一系列其它服务。Keystone可以集成到外部的用户管理系统，例如LDAP。

Keystone通常是用户首先与之交互的服务，随后用户使用他的Identity来访问其它OpenStack服务。OpenStack组件也需要访问Keystone来验证用户声明的Identity是否合法。

用户或者服务，可以利用服务目录来得到其它服务（Openstack组件）的位置，服务目录（Service catalog）也是Keystone提供的服务之一。

每个服务可以提供1-N个端点，每个端点可以是admin/internal（可能仅限于OpenStack所在主机访问）/public（可能允许Internet访问）三种类型之一。在生产环境中，这些不同类型的端点可能出于安全方面的考虑，存放在不同的网络中，供不同类型的用户访问。

权限模型

User

代表单个API消费者：

用户就是一个有身份验证信息的API消费实体
用户可以属于多个项目/角色

Group

代表一组User的集合。

Project

代表OpenStack中基本的所有权单元 —— OpenStack中各种计算资源都是归属于某个特定项目的。而Project则是归属于某个Domain的。

租户（Tenant）在OpenStack中，就是项目，其目的就是隔离计算资源。

Domin

是Project、User、Role、Group的高层次容器，后面三者仅仅属于唯一一个domain。Keystone默认提供一个名为Defulat的domain。

架构

Keystone由三类组件构成。

Server

中心化的HTTP服务器，对外提供鉴权的RESTful接口

Drivers

集成在Server里面，用于访问存放在OpenStack外部（例如LDAP或MySQL数据库）的身份信息。

Modules

运行在使用Identity service的那些OpenStack组件中，负责拦截针对这些组件的请求，抽取用户凭证信息，发送到上述Server执行鉴权。

这些Modules基于Python Web Server Gateway Interface和OpenStack组件集成。

Token选型

Token类型	UUID	PKI	PKIZ	Fernet
大小	32 Byte	KB 级别	KB 级别	约 255 Byte
支持本地认证	不支持	支持	支持	不支持
Keystone 负载	大	小	小	大
存储于数据库	是	是	是	否
携带信息	无	user, catalog 等	user, catalog 等	user 等
涉及加密方式	无	非对称加密	非对称加密	对称加密(AES)
是否压缩	否	否	是	否
版本支持	D	G	J	K

K版本之后，通常选择Fernet Token。

Nova

Nova，即OpenStack Compute组件，负责host和管理云主机，是IaaS系统的核心组成部分。可以管理的云主机类型包括虚拟机、物理机（依赖ironic），并对容器提供有限的支持。

Nova和Keystone交互进行身份验证。Placement负责计算资源的跟踪和选择（作为实例的宿主），Glance提供虚拟机镜像，这些组件配合就能让实例运行起来。

OpenStack自身不提供虚拟化软件，而是通过“驱动”和底层的Hypervisor进行交互。交互工作主要由Nova完成。

架构

Nova由一系列分布式的组件构成，每种组件具有自己的职责。面向用户的是一个REST API。内部组件主要通过RPC消息传递机制通信。

API组件监听到请求后，通常会进行数据库读写操作，可选的，会将RPC消息发送给其它Nova组件，然后将REST响应发给客户端。RPC消息是通过 oslo.messaging 库完成的，这个库是基于消息队列的抽象。

大部分组件可以运行在多台宿主机上，并且其中具有一个manager负责监听RPC消息、执行一些周期性工作。一个主要的例外是nova-compute，此组件和它管理的Hypervisor（除了VMware或Ironic驱动）对应，每个Hypervisor对应一个nova-compute。

Nova具有一个逻辑的、中心化的、被所有组件共享的数据库。为了辅助OpenStack升级，对数据库的访问基于一个对象层，此对象层确保一个升级后的控制平面，仍然能和低版本的nova-compute进行交互。具体实现上，nova-compute通过中心化的nova-conductor间接的访问数据库，后者提供基于RPC的接口。

nova-api服务

安装在控制节点上。提供OpenStack Compute API，负责确保一些策略，发起大部分编排活动（例如运行实例）。

nova-api-metadata服务

安装在控制节点上。处理处理获取实例元数据的请求。

nova-compute服务

安装在计算节点上。Worker守护进程，负责调用Hypervisor API，在计算节点上创建、终结虚拟机实例。支持的Hypervisor API包括：

XenAPI for XenServer/XCP
libvirt for KVM or QEMU
VMwareAPI for VMware

该组件的大概工作流程是：

从消息队列里接受Action
调用一系列的系统命令，启动虚拟机
在数据库中更新实例状态

nova-scheduler服务

从队列中取出虚拟机实例的请求，然后决定将其调度在哪台计算节点上。

nova-conductor模块

协调nova-compute s服务和数据库之间的交互。避免nova-compute直接访问数据库。该模块支持水平扩容，避免将其部署在nova-compute运行的节点。

nova-novncproxy进程

提供一个代理，用于通过VNC协议连接到运行中的实例。

nova-spicehtml5proxy进程

提供一个代理，用于通过SPICE协议连接到运行中的实例，支持HTML5客户端。

placenment服务

这个服务目前已经独立出去，它负责跟踪资源库存、使用情况。

消息队列

这是一个中心化的Hub，用于在不同组件之间传递消息。通常使用RabbitMQ。

数据库

存储云基础设施的构建时、运行时状态，包括：

可用的实例类型
使用着哦个的实例
可用的网络
项目
……

任何SQLAlchemy支持的RDBMS都可以。

Cell简介

为了支持Nova部署的水平扩展，Nova引入了分片机制，每个分片叫Cell。利用Cell：

可以在单个Region中将计算节点的数量扩容到成千上万。每个Cell具有自己的数据库、消息队列，这是可扩容的关键
实现故障隔离的特性（一个Cell故障，其它Cell还可以正常工作）
作为一种分组机制，可以将类似的硬件放在同一Cell中

Cell V1

Cell V1的特性：

捕获并中继消息给Cell
处理竞态条件
两级调度架构

Cell V1的缺点：

不支持安全组、主机聚合、可用区等特性
顶级调度功能很弱

Cell V2

当Nova API接收到针对实例的前请求后，实例的信息将从数据库读取，其中包含实例的宿主机名字。如果需要针对实例进行其它操作（通常都需要），那么宿主机名字将用来计算出消息队列的名字，RPC消息随后被写入消息队列，可以到达正确的计算节点。

引入Cell后，上述逻辑将变成：

查找实例的三元组：宿主机名称、数据库连接信息、消息队列连接信息
连接到数据库，获取实例记录
连接到消息队列，并根据宿主机名称，选额消息队列，发送RPC消息

引入Cell V2后，不存在没有Cell的部署架构。Cell V2的优势包括：

数据库、消息队列的分片，成为Nova的一等特性
不需要在顶级复制Cell数据库，Nova API需要自己的数据库，存放例如实例索引的信息
在gloabl和local数据元素之间划分好了界限。Flavor、Keypair之类的全局性质对象，仅仅需要存储在顶级。这样计算节点更加无状态化，不会被全局数据的修改所干扰

Cell部署

所有Nova部署中，都需要一个名为API的数据库，一个特殊的Cell数据库cell0，1-N个cell的数据库。高层次的跟踪信息存放在API数据库中，哪些从未调度成功的实例，存放在cell0。所有成功调度的/运行的实例，都放在其它cell数据库中。

你需要将API数据库的信息配置在nova.conf：

[api_database]
connection = mysql+pymysql://nova:nova@os.gmem.cc/nova_api?charset=utf8

cell0

由于cell数据库数量不定，此外任何部署都至少有cell0和cell1（唯一的Cell使用），因此这些Cell的连接信息，是写在API数据库中（而不是静态编写在文件）的。

# 后续命令需要读写API数据库，因此首先执行api_db sync子命令来初始化schema
su -s /bin/sh -c "nova-manage api_db sync" nova

# 为cell0的数据库创建记录
nova-manage cell_v2 map_cell0 --database_connection \
  mysql+pymysql://nova:nova@os.gmem.cc/nova_cell0
# 如果不指定--database_connection，就像样例环境那样，则自动使用[database]/connection字段
# 中的连接串，但是在结尾添加_cell0后缀

由于cell0中不会存在任何宿主机，不需要对它进行进一步配置。

常规cell

现在，你需要创建第一个常规cell：

# 如果不指定 --database_connection、--transport-url，就像样例环境那样，
# 则自动使用 [database]/connection 和 [DEFAULT]/transport_url
su -s /bin/sh -c "nova-manage cell_v2 create_cell --name=cell1 --verbose" nova

nova-manage cell_v2 create_cell --verbose --name cell1 \
  --database_connection mysql+pymysql://nova:nova@os.gmem.cc/nova
  --transport-url rabbit://openstack:openstack@os.gmem.cc

如果为cell1准备的数据库是空白的，你需要同步数据库schema：

su -s /bin/sh -c "nova-manage db sync" nova

现在，cell1中没有任何宿主机，因此nova-scheduler不会把实例调度到此cell中。

使用下面的命令，可以扫描数据库中计算节点的记录，并将其添加到刚刚创建的cell中。执行命令之前，至少需要安装一个计算节点并添加到cell。

nova-manage cell_v2 discover_hosts

上述命令会连接到所有cell数据库，扫描将自己注册到cell的宿主机，然后在API数据库中映射这些宿主机，这样nova-scheduler就可以进行调度了。

任何时候，你加入新的宿主机到cell，都需要调用此命令（或者启用自动发现）。

添加宿主机到cell

我们知道计算节点通过消息队列和控制平面通信，也不会直接访问数据库。实际上，计算节点属于哪个cell，就看它通过哪个消息队列连接。你只需要配置计算节点的nova.conf：

[DEFAULT]
; 设置为某个cell的--transport-url 
transport_url = rabbit://openstack:openstack@os.gmem.cc

然后再启动nova-compute服务，最后验证、确保节点在下面命令的输出中：

nova service-list --binary nova-compute

就将计算节点添加到cell中了。

自动发现

要实现自动发现添加到cell的计算节点，并通过到API数据库，可以配置所有nova-scheduler节点的nova.conf：

[scheduler]
; 300秒执行一次发现
discover_hosts_in_cells_interval = 300

多Cell陷阱

跨Cell迁移实例

到目前为止（V版），还不支持跨Cell迁移实例。影响的操作包括resize/evacuate/migrate等。

Quota计算

如果Cell不可达，那么针对租户的用量统计信息可能不准确。

从T版开始，可以配置在Placement服务+API数据库上进行Quota统计，这样宕掉/性能很差的Cell不会导致用量统计不准确。

列出实例

多Cell环境下，列出实例的结果可能没有排序、分页可能不正确。

元数据服务

从S版开始，元数据服务可以运行为两种模式之一：全局/PerCell。使用api.local_metadata_per_cell配置项

Metadata

Nova将它启动的实例的配置信息呈现为元数据。cloud-init之类的助手会在虚拟机初始化时，利用元数据进行配置工作，例如设置虚拟机root密码。

通过元数据服务、或者config drive，元数据变的可（被实例使）用。你还可以通过nova api的user data特性来定制实例的元数据。

元数据类别

类别	说明
用户提供	创建实例的用户可以通过多种方式，将元数据传递给实例：实例nova api的keypairs功能，可以设置宿主机的登陆密钥使用nova api的user data特性，可以传递一小块opaque blob
Nova提供	Nova自身会添加一些元数据，例如实例所在宿主机名称、实例所在AZ。 Nova提供OpenStack metadata API，以及EC2-compatible API。两者都是以日期来版本化的
部署者提供	对于创建实例的用户来说未知，由OpenStack的部署者提供。通过vendordata特性可以实现。用于实现在实例创建后，自动加入AD这样的网络管理类功能

元数据代理

控制节点上的Neutron元数据代理服务，负责代替虚拟机Nova metadata API。并自动设置正确的Instance ID、Tenant ID等请求头。

元数据服务

元数据服务为实例提供了一种获取自身元数据的REST API。实例可以通过169.254.169.254或者fe80::a9fe:a9fe访问此REST API，如此奇怪的地址是兼容Amazon EC2的考虑。在Openstack里面，这两个IP通过iptables映射到控制节点。

所有上述三类元数据，都可以通过此REST API访问：

# OpenStack metadata API
curl http://169.254.169.254/openstack
# EC2-compatible API
curl http://169.254.169.254
# 都会显示若干目录（版本信息）
# 2012-08-10
# 2013-04-04
# 2013-10-17
# 2015-10-15
# 2016-06-30
# 2016-10-06
# 2017-02-22
# 2018-08-27
# latest

config drive

Config drive是一种特殊的drive，在实例boot时添加。实例可以挂载此drive，读取其中的文件，从而获取（通常应该从metadata service获取的）信息。

下面的命令示意了如何使用在创建实例时使用config drive：

#                       使用config drive
openstack server create --config-drive true --image my-image-name \
#                               传递一个user data文件
    --flavor 1 --key-name mykey --user-data ./my-user-data.txt \
#   传递两个元数据键值对
    --property role=webservers --property essential=false MYINSTANCE

如果客户机操作系统支持udev，则可以这样挂载config drive：

mkdir -p /mnt/config
mount /dev/disk/by-label/config-2 /mnt/config

否则，这样识别config drive对应的块设备：

blkid -t LABEL="config-2" -odevice
# /dev/vdb

config drive中的文件目录结构，和metadata service的URL结构对应：

cd /mnt/config
find . -maxdepth 2
# .
# EC2兼容的元数据放在这里
# ./ec2
# ./ec2/2009-04-04
# ./ec2/latest
# OpenStack元数据放在这里
# ./openstack
# ./openstack/2012-08-10
# ./openstack/2013-04-04
# ./openstack/2013-10-17
# ./openstack/2015-10-15
# ./openstack/2016-06-30
# ./openstack/2016-10-06
# ./openstack/2017-02-22
# ./openstack/latest

OpenStack元数据格式

OpenStack元数据基于JSON格式分发：

meta_data.json：提供Nova相关的信息
network_data.json：提供从Neutron获取的，网络相关信息

示例：

// curl http://169.254.169.254/openstack/2018-08-27/meta_data.json
{
   "random_seed": "yu5ZnkqF2CqnDZVAfZgarG...",
   "availability_zone": "nova",
   "keys": [
       {
         "data": "ssh-rsa AAAAB3NzaC1y...== Generated by Nova\n",
         "type": "ssh",
         "name": "mykey"
       }
   ],
   "hostname": "test.novalocal",
   "launch_index": 0,
   "meta": {
      "priority": "low",
      "role": "webserver"
   },
   "devices": [
       {
         "type": "nic",
         "bus": "pci",
         "address": "0000:00:02.0",
         "mac": "00:11:22:33:44:55",
         "tags": ["trusted"]
       },
       {
         "type": "disk",
         "bus": "ide",
         "address": "0:0",
         "serial": "disk-vol-2352423",
         "path": "/dev/sda",
         "tags": ["baz"]
       }
   ],
   "project_id": "f7ac731cc11f40efbc03a9f9e1d1d21f",
   "public_keys": {
       "mykey": "ssh-rsa AAAAB3NzaC1y...== Generated by Nova\n"
   },
   "name": "test"
}


// curl http://169.254.169.254/openstack/2018-08-27/network_data.json
{
    "links": [
        {
            "ethernet_mac_address": "fa:16:3e:9c:bf:3d",
            "id": "tapcd9f6d46-4a",
            "mtu": null,
            "type": "bridge",
            "vif_id": "cd9f6d46-4a3a-43ab-a466-994af9db96fc"
        }
    ],
    "networks": [
        {
            "id": "network0",
            "link": "tapcd9f6d46-4a",
            "network_id": "99e88329-f20d-4741-9593-25bf07847b16",
            "type": "ipv4_dhcp"
        }
    ],
    "services": [
        {
            "address": "8.8.8.8",
            "type": "dns"
        }
    ]
}

EC2兼容元数据格式

兼容Amazon EC2 metadata service 2009-04-04版本。这意味着，为EC2设计的虚拟机镜像，可以和OpenStack一起工作。

EC2 API为每个元数据暴露了独立的URL：

# curl http://169.254.169.254/2009-04-04/meta-data/
ami-id
ami-launch-index
ami-manifest-path
block-device-mapping/
hostname
instance-action
instance-id
instance-type
kernel-id
local-hostname
local-ipv4
placement/
public-hostname
public-ipv4
public-keys/
ramdisk-id
reservation-id
security-groups

# curl http://169.254.169.254/2009-04-04/meta-data/block-device-mapping/
ami

# curl http://169.254.169.254/2009-04-04/meta-data/placement/
availability-zone

# curl http://169.254.169.254/2009-04-04/meta-data/public-keys/
0=mykey

# curl http://169.254.169.254/2009-04-04/meta-data/public-keys/0/openssh-key
ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAAAgQDYVEprvtYJXVOBN0XNKVVRNCRX6BlnNbI+US\
LGais1sUWPwtSg7z9K9vhbYAPUZcq8c/s5S9dg5vTHbsiyPCIDOKyeHba4MUJq8Oh5b2i71/3B\
ISpyxTBH/uZDHdslW2a+SrPDCeuMMoss9NFhBdKtDkdG9zyi0ibmCP6yMdEX8Q== Generated\
by Nova

user-data

就是一小段blob，OpenStack不知道它内容的意义。传递user data：

openstack server create --image ubuntu-cloudimage --flavor 1 \
    --user-data mydata.file TEST

在客户机里面访问user data：

# OpenStack
http://169.254.169.254/openstack/{version}/user_data
# EC2
http://169.254.169.254/{version}/user-data

支持cloud-init的镜像，可以利用user data，定制实例的初始化过程。

vendor-data

这类数据可以通过metadata service或config drive读取。对于前者：

// curl http://169.254.169.254/openstack/2018-08-27/vendor_data2.json
{
    "testing": {
        "value1": 1
    }
}

cloud-init

cloud-init是一个在主要Linux发行版中都支持的包，用于在云环境（例如OpenStack）中初始化虚拟机实例。cloud-init在虚拟机第一次运行时执行。

启动过程

cloud-init集成到系统启动的五个Stage，以发挥作用：

Stage	说明
Generator	基于Systemd启动时，此阶段中有一个Generator用于确认cloud-init.target十分需要包含在Boot Goals中。默认情况下此Generator会启用cloud-init，以下情形之一，则不启用：文件 /etc/cloud/cloud-init.disabled 存在内核命令行参数 /proc/cmdline 包含 cloud-init=disabled
Local	此Stage运行一个Systemd服务cloud-init-local.service。该服务在 / 挂载为读写后立即执行，block尽可能多的Systemd启动单元，必须block网络该Stage的意图包括：定位到“local”数据源应用网络配置到系统（包含Fallback）。网络配置的来源可能包括： datasource，云环境通过元数据（Metadata）提供的网络配置信息 fallback，cloud-init的备用网络配置，等价于dhcp on eth0 none，如果/etc/cloud/cloud.cfg包含配置 network: {config: disabled}
Network	此Stage运行一个Systemd服务cloud-init.service。该服务在Local Stage之后，所有网络启动后运行。包含的模块定义在/etc/cloud/cloud.cfg中此Stage会处理所有user-data，所谓处理指：递归的读取 #include 或 #include-once 展开所有压缩内容运行发现的所有 part-handler 此Stage会运行disk_setup、mounts模块，从而进行分区、格式化、配置挂载点（/etc/fstab）。这些模块不能运行的更早，韵味可能依赖于需要从网络才能得到的配置输入，例如用户提供的位于网络资源中的user-data
Config	此Stage运行一个Systemd服务cloud-config.service。包含的模块定义在/etc/cloud/cloud.cfg中对于其他Boot Stage不产生影响的模块运行在此Stage
Final	此Stage运行一个Systemd服务cloud-final.service。它的运行时机相当于rc.local，也就是在启动的最后阶段。可以做的事情包括：安装软件包执行用户定义的、通过user-data传递的脚本

判断首次启动

cloud-init需要判断实例是否第一次启动。在第一次启动时，会运行

per-instance

的配置；在后续启动时，仅运行

per-boot

的配置。

在运行的时候，cloud-init会将内部状态缓存起来，共后续boot读取。缓存存在，意味着两种情况之一：

实例不是第一次启动
文件系统被挂载给一个新实例，该实例是第一次启动。将一个OpenStack卷上传为镜像，然后从此镜像启动新实例，就会导致这种情况

默认情况下，cloud-init检查缓存中的实例ID，和运行时获取的实例ID，来判断是上述两种情况的哪一种。

使用命令

cloud-init clean

可以清空缓存。

配置

cloud-init的主配置文件位于

/etc/cloud/cloud.cfg

，

/etc/cloud/cloud.cfg.d

目录中的所有其它文件都会被合并。CentOS 8云镜像的配置文件如下：

# 需要添加到系统中的用户，特殊值default特指system_info.default_user
users:
 - default

# 禁止root登陆
disable_root: 1
# 禁用密码登陆
ssh_pwauth:   0

mount_default_fields: [~, ~, 'auto', 'defaults,nofail,x-systemd.requires=cloud-init.service', '0', '2']
resize_rootfs_tmp: /dev
ssh_deletekeys:   1
ssh_genkeytypes:  ~
syslog_fix_perms: ~
disable_vmware_customization: false

# 每个Stage都包含一系列的模块，可以启用/禁用
cloud_init_modules:
 - disk_setup
 - migrator
 - bootcmd
 - write-files
 - growpart
 - resizefs
 - set_hostname
 - update_hostname
 - update_etc_hosts
 - rsyslog
 - users-groups
 - ssh

cloud_config_modules:
 - mounts
 - locale
 - set-passwords
 - rh_subscription
 - yum-add-repo
 - package-update-upgrade-install
 - timezone
 - puppet
 - chef
 - salt-minion
 - mcollective
 - disable-ec2-metadata
 - runcmd

cloud_final_modules:
 - rightscale_userdata
 - scripts-per-once
 - scripts-per-boot
 - scripts-per-instance
 - scripts-user
 - ssh-authkey-fingerprints
 - keys-to-console
 - phone-home
 - final-message
 - power-state-change

system_info:
  # 默认用户信息
  default_user:
    name: centos
    lock_passwd: true
    gecos: Cloud User
    groups: [adm, systemd-journal]
    sudo: ["ALL=(ALL) NOPASSWD:ALL"]
    shell: /bin/bash
  distro: rhel
  paths:
    cloud_dir: /var/lib/cloud
    templates_dir: /etc/cloud/templates
  ssh_svcname: sshd

# vim:syntax=yaml

user-data

用户数据支持多种形式：

格式	说明
Gzip压缩内容	任何user-data都可以压缩为gzip格式，cloud-init会解压它，然后再处理
MIME Multi Part Archive	使用此格式，用户可以指定多种类型的数据，例如同时指定一个user-data script和cloud-config。支持的类型包括： # cloud-init devel make-mime --list-types cloud-boothook cloud-config cloud-config-archive cloud-config-jsonp jinja2 part-handler upstart-job x-include-once-url x-include-url x-shellscript 使用make-mime子命令可以生成MIME multi-part文件： cloud-init devel make-mime -a config.yaml:cloud-config \ -a script.sh:x-shellscript > user-data
User-Data Script	就是一段脚本，需要以 #! 开头，包含在MIME Multi Part Archive中时使用Content-Type：text/x-shellscript
Include File	文件包含一系列URL，每个URL一行，这些URL会被读取，从中获取Gzip压缩内容、MIME Multi Part Archive，或者普通文本需要以 #include 开头，包含在MIME Multi Part Archive中时使用Content-Type： text/x-include-url
Cloud Config Data	这是最简单的通过user-data来实现实例定制的方式。就是提供一个YAML配置文件需要以 #cloud-config 开头，包含在MIME Multi Part Archive中时使用Content-Type：text/cloud-config 定制用户、组的例子： #cloud-config # Add groups to the system # The following example adds the ubuntu group with members 'root' and 'sys' # and the empty group cloud-users. groups: - ubuntu: [root,sys] - cloud-users # Add users to the system. Users are added after groups are added. # Note: Most of these configuration options will not be honored if the user # already exists. Following options are the exceptions and they are # applicable on already-existing users: # - 'plain_text_passwd', 'hashed_passwd', 'lock_passwd', 'sudo', # 'ssh_authorized_keys', 'ssh_redirect_user'. users: - default - name: foobar gecos: Foo B. Bar primary_group: foobar groups: users selinux_user: staff_u expiredate: '2012-09-01' ssh_import_id: foobar lock_passwd: false passwd: $6$j212wezy$7H/1LT4f9/N3wpgNunhsIqtMj62OKiS3nyNwuizouQc3u7MbYCarYeAHWYPYb2FT.lbioDm2RrkJPb9BZMN1O/ - name: barfoo gecos: Bar B. Foo sudo: ALL=(ALL) NOPASSWD:ALL groups: users, admin ssh_import_id: None lock_passwd: true ssh_authorized_keys: - - - name: cloudy gecos: Magic Cloud App Daemon User inactive: '5' system: true - name: fizzbuzz sudo: False ssh_authorized_keys: - - - snapuser: joe@joeuser.io - name: nosshlogins ssh_redirect_user: true # Valid Values: # name: The user's login name # expiredate: Date on which the user's account will be disabled. # gecos: The user name's real name, i.e. "Bob B. Smith" # homedir: Optional. Set to the local path you want to use. Defaults to # /home/ # primary_group: define the primary group. Defaults to a new group created # named after the user. # groups: Optional. Additional groups to add the user to. Defaults to none # selinux_user: Optional. The SELinux user for the user's login, such as # "staff_u". When this is omitted the system will select the default # SELinux user. # lock_passwd: Defaults to true. Lock the password to disable password login # inactive: Number of days after password expires until account is disabled # passwd: The hash -- not the password itself -- of the password you want # to use for this user. You can generate a safe hash via: # mkpasswd --method=SHA-512 --rounds=4096 # (the above command would create from stdin an SHA-512 password hash # with 4096 salt rounds) # # Please note: while the use of a hashed password is better than # plain text, the use of this feature is not ideal. Also, # using a high number of salting rounds will help, but it should # not be relied upon. # # To highlight this risk, running John the Ripper against the # example hash above, with a readily available wordlist, revealed # the true password in 12 seconds on a i7-2620QM. # # In other words, this feature is a potential security risk and is # provided for your convenience only. If you do not fully trust the # medium over which your cloud-config will be transmitted, then you # should use SSH authentication only. # # You have thus been warned. # no_create_home: When set to true, do not create home directory. # no_user_group: When set to true, do not create a group named after the user. # no_log_init: When set to true, do not initialize lastlog and faillog database. # ssh_import_id: Optional. Import SSH ids # ssh_authorized_keys: Optional. [list] Add keys to user's authorized keys file # ssh_redirect_user: Optional. [bool] Set true to block ssh logins for cloud # ssh public keys and emit a message redirecting logins to # use instead. This option only disables cloud # provided public-keys. An error will be raised if ssh_authorized_keys # or ssh_import_id is provided for the same user. # # ssh_authorized_keys. # sudo: Defaults to none. Accepts a sudo rule string, a list of sudo rule # strings or False to explicitly deny sudo usage. Examples: # # Allow a user unrestricted sudo access. # sudo: ALL=(ALL) NOPASSWD:ALL # # Adding multiple sudo rule strings. # sudo: # - ALL=(ALL) NOPASSWD:/bin/mysql # - ALL=(ALL) ALL # # Prevent sudo access for a user. # sudo: False # # Note: Please double check your syntax and make sure it is valid. # cloud-init does not parse/check the syntax of the sudo # directive. # system: Create the user as a system user. This means no home directory. # snapuser: Create a Snappy (Ubuntu-Core) user via the snap create-user # command available on Ubuntu systems. If the user has an account # on the Ubuntu SSO, specifying the email will allow snap to # request a username and any public ssh keys and will import # these into the system with username specifed by SSO account. # If 'username' is not set in SSO, then username will be the # shortname before the email domain. # # Default user creation: # # Unless you define users, you will get a 'ubuntu' user on ubuntu systems with the # legacy permission (no password sudo, locked user, etc). If however, you want # to have the 'ubuntu' user in addition to other users, you need to instruct # cloud-init that you also want the default user. To do this use the following # syntax: # users: # - default # - bob # - .... # foobar: ... # # users[0] (the first user in users) overrides the user directive. # # The 'default' user above references the distro's config: # system_info: # default_user: # name: Ubuntu # plain_text_passwd: 'ubuntu' # home: /home/ubuntu # shell: /bin/bash # lock_passwd: True # gecos: Ubuntu # groups: [adm, audio, cdrom, dialout, floppy, video, plugdev, dip, netdev] 写入到文件系统的例子： #cloud-config # vim: syntax=yaml # # This is the configuration syntax that the write_files module # will know how to understand. encoding can be given b64 or gzip or (gz+b64). # The content will be decoded accordingly and then written to the path that is # provided. # # Note: Content strings here are truncated for example purposes. write_files: - encoding: b64 content: CiMgVGhpcyBmaWxlIGNvbnRyb2xzIHRoZSBzdGF0ZSBvZiBTRUxpbnV4... owner: root:root path: /etc/sysconfig/selinux permissions: '0644' - content: \| # My new /etc/sysconfig/samba file SMBDOPTIONS="-D" path: /etc/sysconfig/samba - content: !!binary \| f0VMRgIBAQAAAAAAAAAAAAIAPgABAAAAwARAAAAAAABAAAAAAAAAAJAVAAAAAAAAAAAAAEAAOAAI AEAAHgAdAAYAAAAFAAAAQAAAAAAAAABAAEAAAAAAAEAAQAAAAAAAwAEAAAAAAADAAQAAAAAAAAgA AAAAAAAAAwAAAAQAAAAAAgAAAAAAAAACQAAAAAAAAAJAAAAAAAAcAAAAAAAAABwAAAAAAAAAAQAA .... path: /bin/arch permissions: '0555' - encoding: gzip content: !!binary \| H4sIAIDb/U8C/1NW1E/KzNMvzuBKTc7IV8hIzcnJVyjPL8pJ4QIA6N+MVxsAAAA= path: /usr/bin/hello permissions: '0755' 添加YUM源： #cloud-config # vim: syntax=yaml # # Add yum repository configuration to the system # # The following example adds the file /etc/yum.repos.d/epel_testing.repo # which can then subsequently be used by yum for later operations. yum_repos: # The name of the repository epel-testing: # Any repository configuration options # See: man yum.conf # # This one is required! baseurl: http://download.fedoraproject.org/pub/epel/testing/5/$basearch enabled: false failovermethod: priority gpgcheck: true gpgkey: file:///etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL name: Extra Packages for Enterprise Linux 5 - Testing 添加APT源： #cloud-config # Add primary apt repositories # # To add 3rd party repositories, see cloud-config-apt.txt or the # Additional apt configuration and repositories section. # # # Default: auto select based on cloud metadata # in ec2, the default is .archive.ubuntu.com # apt: # primary: # - arches [default] # uri: # use the provided mirror # search: # search the list for the first mirror. # this is currently very limited, only verifying that # the mirror is dns resolvable or an IP address # # if neither mirror is set (the default) # then use the mirror provided by the DataSource found. # In EC2, that means using .ec2.archive.ubuntu.com # # if no mirror is provided by the DataSource, but 'search_dns' is # true, then search for dns names '-mirror' in each of # - fqdn of this host per cloud metadata # - localdomain # - no domain (which would search domains listed in /etc/resolv.conf) # If there is a dns entry for -mirror, then it is assumed that there # is a distro mirror at http://-mirror./ # # That gives the cloud provider the opportunity to set mirrors of a distro # up and expose them only by creating dns entries. # # if none of that is found, then the default distro mirror is used apt: primary: - arches: [default] uri: http://us.archive.ubuntu.com/ubuntu/ # or apt: primary: - arches: [default] search: - http://local-mirror.mydomain - http://archive.ubuntu.com # or apt: primary: - arches: [default] search_dns: True 在首次启动时更新APT数据库： #cloud-config # Update apt database on first boot (run 'apt-get update'). # Note, if packages are given, or package_upgrade is true, then # update will be done independent of this setting. # # Default: false # Aliases: apt_update package_update: true 执行YUM/APT Upgrade： #cloud-config # Upgrade the instance on first boot # (ie run apt-get upgrade) # # Default: false # Aliases: apt_upgrade package_upgrade: true 配置实例的受信任CA： #cloud-config # # This is an example file to configure an instance's trusted CA certificates # system-wide for SSL/TLS trust establishment when the instance boots for the # first time. # # Make sure that this file is valid yaml before starting instances. # It should be passed as user-data when starting the instance. ca-certs: # If present and set to True, the 'remove-defaults' parameter will remove # all the default trusted CA certificates that are normally shipped with # Ubuntu. # This is mainly for paranoid admins - most users will not need this # functionality. remove-defaults: true # If present, the 'trusted' parameter should contain a certificate (or list # of certificates) to add to the system as trusted CA certificates. # Pay close attention to the YAML multiline list syntax. The example shown # here is for a list of multiline certificates. trusted: - \| -----BEGIN CERTIFICATE----- YOUR-ORGS-TRUSTED-CA-CERT-HERE -----END CERTIFICATE----- - \| -----BEGIN CERTIFICATE----- YOUR-ORGS-TRUSTED-CA-CERT-HERE -----END CERTIFICATE----- 配置DNS： #cloud-config # # This is an example file to automatically configure resolv.conf when the # instance boots for the first time. # # Ensure that your yaml is valid and pass this as user-data when starting # the instance. Also be sure that your cloud.cfg file includes this # configuration module in the appropriate section. # manage_resolv_conf: true resolv_conf: nameservers: ['8.8.4.4', '8.8.8.8'] searchdomains: - foo.example.com - bar.example.com domain: example.com options: rotate: true timeout: 1 在第一次启动时执行命令： #cloud-config # boot commands # default: none # this is very similar to runcmd, but commands run very early # in the boot process, only slightly after a 'boothook' would run. # bootcmd should really only be used for things that could not be # done later in the boot process. bootcmd is very much like # boothook, but possibly with more friendly. # - bootcmd will run on every boot # - the INSTANCE_ID variable will be set to the current instance id. # - you can use 'cloud-init-per' command to help only run once bootcmd: - echo 192.168.1.130 us.archive.ubuntu.com >> /etc/hosts - [ cloud-init-per, once, mymkfs, mkfs, /dev/vdb ] #cloud-config # run commands # default: none # runcmd contains a list of either lists or a string # each item will be executed in order at rc.local like level with # output to the console # - runcmd only runs during the first boot # - if the item is a list, the items will be properly executed as if # passed to execve(3) (with the first arg as the command). # - if the item is a string, it will be simply written to the file and # will be interpreted by 'sh' # # Note, that the list has to be proper yaml, so you have to quote # any characters yaml would eat (':' can be problematic) runcmd: - [ ls, -l, / ] - [ sh, -xc, "echo $(date) ': hello world!'" ] - [ sh, -c, echo "=========hello world'=========" ] - ls -l /root # Note: Don't write files to /tmp from cloud-init use /run/somedir instead. # Early boot environments can race systemd-tmpfiles-clean LP: #1707222. - mkdir /run/mydir - [ wget, "http://slashdot.org", -O, /run/mydir/index.html ] 安装软件包： #cloud-config # Install additional packages on first boot # # Default: none # # if packages are specified, this apt_update will be set to true # # packages may be supplied as a single package name or as a list # with the format [, ] wherein the specifc # package version will be installed. packages: - pwgen - pastebinit - [libpython2.7, 2.7.3-0ubuntu3.1] 调整挂载点： #cloud-config # set up mount points # 'mounts' contains a list of lists # the inner list are entries for an /etc/fstab line # ie : [ fs_spec, fs_file, fs_vfstype, fs_mntops, fs-freq, fs_passno ] # # default: # mounts: # - [ ephemeral0, /mnt ] # - [ swap, none, swap, sw, 0, 0 ] # # in order to remove a previously listed mount (ie, one from defaults) # list only the fs_spec. For example, to override the default, of # mounting swap: # - [ swap ] # or # - [ swap, null ] # # - if a device does not exist at the time, an entry will still be # written to /etc/fstab. # - '/dev' can be ommitted for device names that begin with: xvd, sd, hd, vd # - if an entry does not have all 6 fields, they will be filled in # with values from 'mount_default_fields' below. # # Note, that you should set 'nofail' (see man fstab) for volumes that may not # be attached at instance boot (or reboot). # mounts: - [ ephemeral0, /mnt, auto, "defaults,noexec" ] - [ sdc, /opt/data ] - [ xvdh, /opt/data, "auto", "defaults,nofail", "0", "0" ] - [ dd, /dev/zero ] # mount_default_fields # These values are used to fill in any entries in 'mounts' that are not # complete. This must be an array, and must have 6 fields. mount_default_fields: [ None, None, "auto", "defaults,nofail", "0", "2" ] # swap can also be set up by the 'mounts' module # default is to not create any swap files, because 'size' is set to 0 swap: filename: /swap.img size: "auto" # or size in bytes maxsize: size in bytes cloud-init完毕后重启/关机： #cloud-config ## poweroff or reboot system after finished # default: none # # power_state can be used to make the system shutdown, reboot or # halt after boot is finished. This same thing can be acheived by # user-data scripts or by runcmd by simply invoking 'shutdown'. # # Doing it this way ensures that cloud-init is entirely finished with # modules that would be executed, and avoids any error/log messages # that may go to the console as a result of system services like # syslog being taken down while cloud-init is running. # # If you delay '+5' (5 minutes) and have a timeout of # 120 (2 minutes), then the max time until shutdown will be 7 minutes. # cloud-init will invoke 'shutdown +5' after the process finishes, or # when 'timeout' seconds have elapsed. # # delay: form accepted by shutdown. default is 'now'. other format # accepted is '+m' (m in minutes) # mode: required. must be one of 'poweroff', 'halt', 'reboot' # message: provided as the message argument to 'shutdown'. default is none. # timeout: the amount of time to give the cloud-init process to finish # before executing shutdown. # condition: apply state change only if condition is met. # May be boolean True (always met), or False (never met), # or a command string or list to be executed. # command's exit code indicates: # 0: condition met # 1: condition not met # other exit codes will result in 'not met', but are reserved # for future use. # power_state: delay: "+30" mode: poweroff message: Bye Bye timeout: 30 condition: True 配置实例的SSH Keys： #cloud-config # add each entry to ~/.ssh/authorized_keys for the configured user or the # first user defined in the user definition directive. ssh_authorized_keys: - ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAGEA3FSyQwBI6Z+nCSjUUk8EEAnnkhXlukKoUPND/RRClWz2s5TCzIkd3Ou5+Cyz71X0XmazM3l5WgeErvtIwQMyT1KjNoMhoJMrJnWqQPOt5Q8zWd9qG7PBl9+eiH5qV7NZ mykey@host - ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAQEA3I7VUf2l5gSn5uavROsc5HRDpZdQueUq5ozemNSj8T7enqKHOEaFoU2VoPgGEWC9RyzSQVeyD6s7APMcE82EtmW4skVEgEGSbDc1pvxzxtchBj78hJP6Cf5TCMFSXw+Fz5rF1dR23QDbN1mkHs7adr8GW4kSWqU7Q7NDwfIrJJtO7Hi42GyXtvEONHbiRPOe8stqUly7MvUoN+5kfjBM8Qqpfl2+FNhTYWpMfYdPUnE7u536WqzFmsaqJctz3gBxH9Ex7dFtrxR4qiqEr9Qtlu3xGn7Bw07/+i1D+ey3ONkZLN+LQ714cgj8fRS4Hj29SCmXp5Kt5/82cD/VN3NtHw== smoser@brickies # Send pre-generated SSH private keys to the server # If these are present, they will be written to /etc/ssh and # new random keys will not be generated # in addition to 'rsa' and 'dsa' as shown below, 'ecdsa' is also supported ssh_keys: rsa_private: \| -----BEGIN RSA PRIVATE KEY----- MIIBxwIBAAJhAKD0YSHy73nUgysO13XsJmd4fHiFyQ+00R7VVu2iV9Qcon2LZS/x 1cydPZ4pQpfjEha6WxZ6o8ci/Ea/w0n+0HGPwaxlEG2Z9inNtj3pgFrYcRztfECb 1j6HCibZbAzYtwIBIwJgO8h72WjcmvcpZ8OvHSvTwAguO2TkR6mPgHsgSaKy6GJo PUJnaZRWuba/HX0KGyhz19nPzLpzG5f0fYahlMJAyc13FV7K6kMBPXTRR6FxgHEg L0MPC7cdqAwOVNcPY6A7AjEA1bNaIjOzFN2sfZX0j7OMhQuc4zP7r80zaGc5oy6W p58hRAncFKEvnEq2CeL3vtuZAjEAwNBHpbNsBYTRPCHM7rZuG/iBtwp8Rxhc9I5w ixvzMgi+HpGLWzUIBS+P/XhekIjPAjA285rVmEP+DR255Ls65QbgYhJmTzIXQ2T9 luLvcmFBC6l35Uc4gTgg4ALsmXLn71MCMGMpSWspEvuGInayTCL+vEjmNBT+FAdO W7D4zCpI43jRS9U06JVOeSc9CDk2lwiA3wIwCTB/6uc8Cq85D9YqpM10FuHjKpnP REPPOyrAspdeOAV+6VKRavstea7+2DZmSUgE -----END RSA PRIVATE KEY----- rsa_public: ssh-rsa AAAAB3NzaC1yc2EAAAABIwAAAGEAoPRhIfLvedSDKw7XdewmZ3h8eIXJD7TRHtVW7aJX1ByifYtlL/HVzJ09nilCl+MSFrpbFnqjxyL8Rr/DSf7QcY/BrGUQbZn2Kc22PemAWthxHO18QJvWPocKJtlsDNi3 smoser@localhost dsa_private: \| -----BEGIN DSA PRIVATE KEY----- MIIBuwIBAAKBgQDP2HLu7pTExL89USyM0264RCyWX/CMLmukxX0Jdbm29ax8FBJT pLrO8TIXVY5rPAJm1dTHnpuyJhOvU9G7M8tPUABtzSJh4GVSHlwaCfycwcpLv9TX DgWIpSj+6EiHCyaRlB1/CBp9RiaB+10QcFbm+lapuET+/Au6vSDp9IRtlQIVAIMR 8KucvUYbOEI+yv+5LW9u3z/BAoGBAI0q6JP+JvJmwZFaeCMMVxXUbqiSko/P1lsa LNNBHZ5/8MOUIm8rB2FC6ziidfueJpqTMqeQmSAlEBCwnwreUnGfRrKoJpyPNENY d15MG6N5J+z81sEcHFeprryZ+D3Ge9VjPq3Tf3NhKKwCDQ0240aPezbnjPeFm4mH bYxxcZ9GAoGAXmLIFSQgiAPu459rCKxT46tHJtM0QfnNiEnQLbFluefZ/yiI4DI3 8UzTCOXLhUA7ybmZha+D/csj15Y9/BNFuO7unzVhikCQV9DTeXX46pG4s1o23JKC /QaYWNMZ7kTRv+wWow9MhGiVdML4ZN4XnifuO5krqAybngIy66PMEoQCFEIsKKWv 99iziAH0KBMVbxy03Trz -----END DSA PRIVATE KEY----- dsa_public: ssh-dss AAAAB3NzaC1kc3MAAACBAM/Ycu7ulMTEvz1RLIzTbrhELJZf8Iwua6TFfQl1ubb1rHwUElOkus7xMhdVjms8AmbV1Meem7ImE69T0bszy09QAG3NImHgZVIeXBoJ/JzByku/1NcOBYilKP7oSIcLJpGUHX8IGn1GJoH7XRBwVub6Vqm4RP78C7q9IOn0hG2VAAAAFQCDEfCrnL1GGzhCPsr/uS1vbt8/wQAAAIEAjSrok/4m8mbBkVp4IwxXFdRuqJKSj8/WWxos00Ednn/ww5QibysHYULrOKJ1+54mmpMyp5CZICUQELCfCt5ScZ9GsqgmnI80Q1h3Xkwbo3kn7PzWwRwcV6muvJn4PcZ71WM+rdN/c2EorAINDTbjRo97NueM94WbiYdtjHFxn0YAAACAXmLIFSQgiAPu459rCKxT46tHJtM0QfnNiEnQLbFluefZ/yiI4DI38UzTCOXLhUA7ybmZha+D/csj15Y9/BNFuO7unzVhikCQV9DTeXX46pG4s1o23JKC/QaYWNMZ7kTRv+wWow9MhGiVdML4ZN4XnifuO5krqAybngIy66PMEoQ= smoser@localhost # By default, the fingerprints of the authorized keys for the users # cloud-init adds are printed to the console. Setting # no_ssh_fingerprints to true suppresses this output. no_ssh_fingerprints: false # By default, (most) ssh host keys are printed to the console. Setting # emit_keys_to_console to false suppresses this output. ssh: emit_keys_to_console: false 初始化磁盘： #cloud-config # Cloud-init supports the creation of simple partition tables and file systems # on devices. # Default disk definitions for AWS # -------------------------------- # (Not implemented yet, but provided for future documentation) disk_setup: ephmeral0: table_type: 'mbr' layout: True overwrite: False fs_setup: - label: None, filesystem: ext3 device: ephemeral0 partition: auto # Default disk definitions for Microsoft Azure # ------------------------------------------ device_aliases: {'ephemeral0': '/dev/sdb'} disk_setup: ephemeral0: table_type: mbr layout: True overwrite: False fs_setup: - label: ephemeral0 filesystem: ext4 device: ephemeral0.1 replace_fs: ntfs # Data disks definitions for Microsoft Azure # ------------------------------------------ disk_setup: /dev/disk/azure/scsi1/lun0: table_type: gpt layout: True overwrite: True fs_setup: - device: /dev/disk/azure/scsi1/lun0 partition: 1 filesystem: ext4 # Default disk definitions for SmartOS # ------------------------------------ device_aliases: {'ephemeral0': '/dev/vdb'} disk_setup: ephemeral0: table_type: mbr layout: False overwrite: False fs_setup: - label: ephemeral0 filesystem: ext4 device: ephemeral0.0 # Caveat for SmartOS: if ephemeral disk is not defined, then the disk will # not be automatically added to the mounts. # The default definition is used to make sure that the ephemeral storage is # setup properly. # "disk_setup": disk partitioning # -------------------------------- # The disk_setup directive instructs Cloud-init to partition a disk. The format is: disk_setup: ephmeral0: table_type: 'mbr' layout: 'auto' /dev/xvdh: table_type: 'mbr' layout: - 33 - [33, 82] - 33 overwrite: True # The format is a list of dicts of dicts. The first value is the name of the # device and the subsequent values define how to create and layout the # partition. # The general format is: # disk_setup: # : # table_type: 'mbr' # layout: # overwrite: # # Where: # : The name of the device. 'ephemeralX' and 'swap' are special # values which are specific to the cloud. For these devices # Cloud-init will look up what the real devices is and then # use it. # # For other devices, the kernel device name is used. At this # time only simply kernel devices are supported, meaning # that device mapper and other targets may not work. # # Note: At this time, there is no handling or setup of # device mapper targets. # # table_type=: Currently the following are supported: # 'mbr': default and setups a MS-DOS partition table # 'gpt': setups a GPT partition table # # Note: At this time only 'mbr' and 'gpt' partition tables # are allowed. It is anticipated in the future that # we'll also have "RAID" to create a mdadm RAID. # # layout={...}: The device layout. This is a list of values, with the # percentage of disk that partition will take. # Valid options are: # [, [, is the _percentage_ of the disk to use, while # is the numerical value of the partition type. # # The following setups two partitions, with the first # partition having a swap label, taking 1/3 of the disk space # and the remainder being used as the second partition. # /dev/xvdh': # table_type: 'mbr' # layout: # - [33,82] # - 66 # overwrite: True # # When layout is "true" it means single partition the entire # device. # # When layout is "false" it means don't partition or ignore # existing partitioning. # # If layout is set to "true" and overwrite is set to "false", # it will skip partitioning the device without a failure. # # overwrite=: This describes whether to ride with saftey's on and # everything holstered. # # 'false' is the default, which means that: # 1. The device will be checked for a partition table # 2. The device will be checked for a file system # 3. If either a partition of file system is found, then # the operation will be _skipped_. # # 'true' is cowboy mode. There are no checks and things are # done blindly. USE with caution, you can do things you # really, really don't want to do. # # # fs_setup: Setup the file system # ------------------------------- # # fs_setup describes the how the file systems are supposed to look. fs_setup: - label: ephemeral0 filesystem: 'ext3' device: 'ephemeral0' partition: 'auto' - label: mylabl2 filesystem: 'ext4' device: '/dev/xvda1' - cmd: mkfs -t %(filesystem)s -L %(label)s %(device)s label: mylabl3 filesystem: 'btrfs' device: '/dev/xvdh' # The general format is: # fs_setup: # - label: # filesystem: # device: # partition: # overwrite: # replace_fs: # # Where: # : The file system label to be used. If set to None, no label is # used. # # : The file system type. It is assumed that the there # will be a "mkfs." that behaves likes "mkfs". On a standard # Ubuntu Cloud Image, this means that you have the option of ext{2,3,4}, # and vfat by default. # # : The device name. Special names of 'ephemeralX' or 'swap' # are allowed and the actual device is acquired from the cloud datasource. # When using 'ephemeralX' (i.e. ephemeral0), make sure to leave the # label as 'ephemeralX' otherwise there may be issues with the mounting # of the ephemeral storage layer. # # If you define the device as 'ephemeralX.Y' then Y will be interpetted # as a partition value. However, ephermalX.0 is the _same_ as ephemeralX. # # : # Partition definitions are overwriten if you use the '.Y' notation. # # The valid options are: # "auto\|any": tell cloud-init not to care whether there is a partition # or not. Auto will use the first partition that does not contain a # file system already. In the absence of a partition table, it will # put it directly on the disk. # # "auto": If a file system that matches the specification in terms of # label, type and device, then cloud-init will skip the creation of # the file system. # # "any": If a file system that matches the file system type and device, # then cloud-init will skip the creation of the file system. # # Devices are selected based on first-detected, starting with partitions # and then the raw disk. Consider the following: # NAME FSTYPE LABEL # xvdb # \|-xvdb1 ext4 # \|-xvdb2 # \|-xvdb3 btrfs test # \-xvdb4 ext4 test # # If you ask for 'auto', label of 'test, and file system of 'ext4' # then cloud-init will select the 2nd partition, even though there # is a partition match at the 4th partition. # # If you ask for 'any' and a label of 'test', then cloud-init will # select the 1st partition. # # If you ask for 'auto' and don't define label, then cloud-init will # select the 1st partition. # # In general, if you have a specific partition configuration in mind, # you should define either the device or the partition number. 'auto' # and 'any' are specifically intended for formating ephemeral storage or # for simple schemes. # # "none": Put the file system directly on the device. # # : where NUM is the actual partition number. # # : Defines whether or not to overwrite any existing # filesystem. # # "true": Indiscriminately destroy any pre-existing file system. Use at # your own peril. # # "false": If an existing file system exists, skip the creation. # # : This is a special directive, used for Microsoft Azure that # instructs cloud-init to replace a file system of . NOTE: # unless you define a label, this requires the use of the 'any' partition # directive. # # Behavior Caveat: The default behavior is to _check_ if the file system exists. # If a file system matches the specification, then the operation is a no-op. 自动增长分区大小： #cloud-config # # growpart entry is a dict, if it is not present at all # in config, then the default is used ({'mode': 'auto', 'devices': ['/']}) # # mode: # values: # * auto: use any option possible (any available) # if none are available, do not warn, but debug. # * growpart: use growpart to grow partitions # if growpart is not available, this is an error. # * off, false # # devices: # a list of things to resize. # items can be filesystem paths or devices (in /dev) # examples: # devices: [/, /dev/vdb1] # # ignore_growroot_disabled: # a boolean, default is false. # if the file /etc/growroot-disabled exists, then cloud-init will not grow # the root partition. This is to allow a single file to disable both # cloud-initramfs-growroot and cloud-init's growroot support. # # true indicates that /etc/growroot-disabled should be ignored # growpart: mode: auto devices: ['/'] ignore_growroot_disabled: false
Upstart Job	内容存放为/etc/init/下的一个文件，从而被Upstart调用需要以 #upstart-job 开头，包含在MIME Multi Part Archive中时使用Content-Type：text/upstart-job
Cloud Boothook	存放在/var/lib/cloud并立即执行，没有任何机制保证钩子仅仅执行一次需要以 #cloud-boothook 开头，包含在MIME Multi Part Archive中时使用Content-Type：text/cloud-boothook
Part Handler	一段代码，用于处理新的MIME类型，或者覆盖既有的MIME类型的处理器。以Python编写，包含函数： list_types：本Handler支持的MIME类型列表 handle_part：执行处理示例： #part-handler def list_types(): # return a list of mime-types that are handled by this module return(["text/plain", "text/go-cubs-go"]) def handle_part(data,ctype,filename,payload): # data: the cloudinit object # ctype: '__begin__', '__end__', or the specific mime-type of the part # filename: the filename for the part, or dynamically generated part if # no filename is given attribute is present # payload: the content of the part (empty for begin or end) if ctype == "__begin__": print "my handler is beginning" return if ctype == "__end__": print "my handler is ending" return print "==== received ctype=%s filename=%s ====" % (ctype,filename) print payload print "==== end ctype=%s filename=%s" % (ctype, filename) 需要以 #part-handler 开头，包含在MIME Multi Part Archive中时使用Content-Type：text/part-handler

instance-data

所谓实例数据，是指cloud-init用来配置实例的所有数据的集合。数据来源包括：

云环境的元数据服务（metadata）
用户定制的，提供给实例的config-drive
镜像中的cloud-config seed files
提供文件/元数据服务提供的vendor-data
创建实例时提供的user-data

也就是说，上节的user-data是instance-data的一部分。

Flavor

在OpenStack中，Flavor定义了实例的规格 —— 计算、内存、存储资源的硬件规格。Flavor也可以用来定义实例可以在哪些宿主机上启动。

规格参数

命令行标记	说明
--vcpus	虚拟CPU数量，必须
--ram	内存/MB，必须
--disk	根磁盘大小/GB，必须从镜像创建虚拟机时，根磁盘是一个临时（ephemeral）磁盘，虚拟机的镜像会拷贝到该磁盘上。如果从持久化的卷来启动虚拟机，则不会使用这种磁盘设置为0，其含义是，使用虚拟机镜像的大小作为临时磁盘大小。但是这种情况下会导致filter scheduler不能基于镜像尺寸来选择适当的宿主机。因此，你应该仅仅在从卷启动虚拟机、或者出于测试目的的时候，才将此参数设置为0 要强制必须从0根磁盘大小的Flavor来创建基于卷的虚拟机，设置策略规则：os_compute_api:servers:create:zero_disk_flavor
--ephemeral	额外的临时磁盘/GB，默认0 该参数为虚拟机提供额外的临时分去，虚拟机销毁后，此磁盘消失
--swap	交换分区/MB，默认0
--public --private	公共标记，默认True 指示该Flavor是不是可以被除了Flavor所在项目（租户）的其它租户使用
--property	额外规格说明，可以指定多次，键值对。高级配置下，用作scheduler的提示信息以quota:开头的属性，用于对Flavor进行配额限制，示例： # 确保虚拟机只能消耗50%的物理CPU能力 openstack flavor set FLAVOR-NAME \ --property quota:cpu_quota=10000 \ --property quota:cpu_period=20000 # 限制每秒最多写入10MB到磁盘 openstack flavor set FLAVOR-NAME \ --property quota:disk_write_bytes_sec=10485760 所有quota属性列表（前缀省略）： cpu_shares，相对于domain下其它虚拟机的、使用CPU时间片的权重值 cpu_shares_level，仅仅用于VMware，custom, high, normal, low cpu_period，设置QEMU/LXC的enforcement interval，在周期内，不得消耗大于cpu_quota的带宽 cpu_limit，设置VMware的CPU频率，单位MHZ cpu_reservation，设置VMware可以确保给虚拟机的CPU频率，MHZ cpu_quota，设置最大允许带宽，单位微秒。负数表示无限制 memory_limit，内存上限，单位MB memory_reservation，设置VMware最小保证内存，指定数量的内存一定会分配给虚拟机 disk_io_limit，设置VMware下每秒磁盘IO的上限 disk_io_reservation，设置VMware下保证的IOPS disk_read_bytes_sec，限制读流量 disk_read_iops_sec，限制读IOPS disk_write_bytes_sec，限制写流量 disk_write_iops_sec，限制写IOPS disk_total_bytes_sec，限制流量 disk_total_iops_sec，限制IOPS vif_inbound_average，入站流量平均速度，单位kb vif_inbound_burst，入站流量以peak速度最多连续接收多少kb vif_inbound_peak，入站流量的的最大速度，单位kb vif_outbound_average，出站流量平均速度，单位kb vif_outbound_burst，出站流量以peak速度最多连续接收多少kb vif_outbound_peak，出站流量的的最大速度，单位kb

Quotas

允许使用的资源的配额可以针对项目（租户）或者用户进行设置。

配额类型

配额	说明
cores	每个项目总计允许分配的核心数
instances	每个项目总计允许启动的实例数
key_pairs	每个用户允许的密钥对数量
metadata_items	每个实例允许的元数据数量
ram	每个项目总计允许分配的内存MB
server_groups	每个项目允许的服务器组数量
server_group_members	每个服务器组中成员的数量

默认配额

使用下面的命令查看默认配额值：

openstack quota show --default

用户配额

要查看某个用户的配额，执行：

nova quota-show --user USER --tenant PROJECT

Host Aggregate

主机聚合是一种对宿主机进行分区的机制，聚合中的主机常常具有类似的硬件/性能特征。一个主机可以属于多个聚合。

引入主机聚合最初是为了使用Xen资源池，但是现在作为一种机制，允许管理员将一系列键值对（属性）同时分配到多台主机。

主机聚合不直接对用户暴露，管理员可以将Flavor映射到主机聚合 —— 只需要为聚合设置匹配Flavor的额外规格说明的元数据，即可完成映射。

管理员也可以将一组主机划分为AZ，与主机聚合不同，AZ是面向用户的概念，而且主机仅能属于一个AZ。

启用支持

要让Nova调度器支持主机聚合，需要配置：

[filter_scheduler]
enabled_filters=...,AggregateInstanceExtraSpecsFilter

使用示例

# 在nova可用区中创建一个SSD磁盘的主机的聚合（后面假设聚合的ID为1）
openstack aggregate create --zone nova fast-io

# 为聚合设置元数据
openstack aggregate set --property ssd=true 1

# 添加主机到聚合
openstack aggregate add host 1 node1
openstack aggregate add host 1 node2


# 创建一个Flavor
openstack flavor create --id 6 --ram 8192 --disk 80 --vcpus 4 ssd.large

# 映射Flavor到聚合
openstack flavor set \
# 设置scope为aggregate_instance_extra_specs的额外规格，
#                                             键值和聚合元数据一致
    --property aggregate_instance_extra_specs:ssd=true ssd.large

Placement中的聚合

在Placement中，Aggregate表示相关的资源提供者（resource provider）的分组。在Placement中，Nova的计算节点就是资源提供者。因此，节点在Placement中也可以被加入到聚合。

使用下面的命令，可以查询计算节点的UUID，并将其加入到Placement聚合中：

openstack --os-compute-api-version=2.53 hypervisor list
# +--------------------------------------+---------------------+-----------------+-----------------+-------+
# | ID                                   | Hypervisor Hostname | Hypervisor Type | Host IP         | State |
# +--------------------------------------+---------------------+-----------------+-----------------+-------+
# | 815a5634-86fb-4e1e-8824-8a631fee3e06 | node1               | QEMU            | 192.168.1.123   | up    |
# +--------------------------------------+---------------------+-----------------+-----------------+-------+

openstack --os-placement-api-version=1.2 resource provider aggregate set \
    --aggregate df4c74f3-d2c4-4991-b461-f1a678e1d161 \
    815a5634-86fb-4e1e-8824-8a631fee3e06

从Nova 18.0.0开始，添加主机到Host Aggregate中后，会自动修改对应的Placement聚合。不需要手工操作。删除时类似。

基于Placement的租户隔离

为了使用Placement来进行租户隔离，必须存在和Host Aggregate在UUID+成员关系上匹配的Placement Aggregate。调度过滤器AggregateMultiTenancyIsolation会使用聚合元数据。

需要设置 scheduler.limit_tenants_to_placement_aggregate = True才能启用此特性。

配置示例：

# 创建主机聚合
openstack --os-compute-api-version=2.53 aggregate create myagg
# +-------------------+--------------------------------------+
# | Field             | Value                                |
# +-------------------+--------------------------------------+
# | availability_zone | None                                 |
# | created_at        | 2018-03-29T16:22:23.175884           |
# | deleted           | False                                |
# | deleted_at        | None                                 |
# | id                | 4                                    |
# | name              | myagg                                |
# | updated_at        | None                                 |
# | uuid              | 019e2189-31b3-49e1-aff2-b220ebd91c24 |
# +-------------------+--------------------------------------+

# 添加节点到主机聚合
openstack --os-compute-api-version=2.53 aggregate add host myagg node1

# 获取租户ID
openstack project list -f value | grep 'demo'
9691591f913949818a514f95286a6b90 demo

# 设置此聚合仅仅给租户使用
openstack aggregate set --property filter_tenant_id=9691591f913949818a514f95286a6b90 myagg

# 将主机加入到聚合
openstack --os-placement-api-version=1.2 resource provider aggregate set \
    --aggregate 019e2189-31b3-49e1-aff2-b220ebd91c24 \
    815a5634-86fb-4e1e-8824-8a631fee3e06

为聚合缓存镜像

nova aggregate-cache-images my-aggregate image1 image2

调度器

Nova组件nova-scheduler负责决定在哪台计算节点上创建虚拟机。在调度的场景下，术语host表示运行了nova-compute服务的哪些节点。

调度器的基本配置项是：

[scheduler]
driver = filter_scheduler

[filter_scheduler]
available_filters = nova.scheduler.filters.all_filters
enabled_filters = AvailabilityZoneFilter, ComputeFilter, ComputeCapabilitiesFilter, ImagePropertiesFilter, ServerGroupAntiAffinityFilter, ServerGroupAffinityFilter

默认的调度器驱动是 filter_scheduler，在默认配置下，该调度器选择满足以下所有条件的宿主机：

AvailabilityZoneFilter：位于请求的AZ中
ComputeFilter：能够服务请求
ComputeCapabilitiesFilter：满足实例类型的extra_specs（来自Flavor）
ImagePropertiesFilter：满足实例镜像属性中的架构、Hypervisor类型、虚拟机模式属性
ServerGroupAntiAffinityFilter：满足服务器组的反亲和设置——和组中的其它虚拟机不再同一宿主机上
ServerGroupAffinityFilter：满足服务器组亲和设置

当执行nova evacuate命令重建虚拟机时，调度器服务遵循管理员给出的目标宿主机，如果管理员没有指定目标宿主机，则由调度器来选择适当的宿主机。

预过滤

从R版开始，调度器包含一个前置的过滤步骤，其目的时提升效率，减少候选的主机。

下面是一些常用的预过滤器：

镜像类型支持过滤器： [scheduler]/query_placement_for_image_type_support=True

过滤掉那些不支持用于启动虚拟机的镜像的格式的计算节点。例如，对于libvrit驱动，当使用Ceph作为临时存储后端时，不支持qcow2镜像格式。在混合使用基于Ceph、不使用Ceph作为存储后端的计算节点时，可以启用此过滤器

禁用状态节点过滤器：强制启用

从T版本开始，此过滤器会排除禁用状态的节点（类似于ComputeFilter）。具有trait COMPUTE_STATUS_DISABLED的（计算节点）资源提供者，将被排除，不作为调度候选

Trait由nova-compute服务管理，应该mirror位于os-services中的计算服务记录的disabled状态。例如，如果计算服务的状态是disabled，那么它关联的计算节点资源提供者对象应当具有COMPUTE_STATUS_DISABLED这一trait；当计算服务状态为enabled，对应资源提供者的此trait应该被移除

如果状态改变时计算服务宕了，那么trait将在它重启后同步。如果尝试给对应资源提供者添加/删除trait时出错，则update_available_resource这一定时任务负责重新同步。[DEFAULT]/update_resources_interval负责此同步操作的间隔

Filter scheduler

前面我们提到过，nova.scheduler.filter_scheduler.FilterScheduler是默认的调度器（驱动）。它使用过滤器、权重来选择宿主机。

配置项 [filter_scheduler]/available_filters 列出调度器可以使用的过滤器集合，此配置项可以指定多次：

[filter_scheduler]
; 所有自带过滤器
available_filters = nova.scheduler.filters.all_filters
; 加上这个自己编写的过滤器
available_filters = myfilter.MyFilter

配置项 [filter_scheduler]/filter_scheduler.enabled_filters 列出当前nova-scheduler启用的过滤器。

常用过滤器

过滤器	说明
AggregateImagePropertiesIsolation	从L版开始，Nova仅会传递标准元数据给此过滤器。如果需要使用所有元数据，考虑过滤器AggregateInstanceExtraSpecsFilter 该过滤器对镜像元数据和聚合元数据进行匹配：如果主机属于聚合，且聚合定义了1-N个元数据，这些元数据匹配镜像的属性，则主机作为从镜像启动的虚拟机的候选宿主如果宿主机不属于任何聚合，通过此过滤器（即不会被过滤掉）
AggregateInstanceExtraSpecsFilter	该过滤器对实例类型（Flavor）的、Scope为aggregate_instance_extra_specs的extra_specs 和聚合属性进行匹配为了向后兼容，没有Scope的Specs也可以用来匹配，但是不推荐 —— 当同时使用ComputeCapabilitiesFilter时会出现冲突使用此过滤器，可以实现将Flavor调度到特定的主机集合中
AggregateMultiTenancyIsolation	确保租户隔离（tenant-isolated）的主机聚合（即设置了filter_tenant_id的主机聚合）仅仅能被相关的租户（项目）所使用 filter_tenant_id可以用逗号分隔多个租户如果某个主机属于设置了filter_tenant_id的聚合，那么某个不属于相应租户的用户发起创建虚拟机的请求时，虚拟机不会在此聚合的某个宿主机上创建主机可以不属于任何设置了filter_tenant_id的聚合，通过此过滤器
AggregateNumInstancesFilter	用于限制宿主机上实例的最大数量对于一个聚合，如果设置了max_instances_per_host，那么其中的宿主机上的实例不会超过特定数量如果主机属于多个设置了max_instances_per_host的聚合，验证此主机实例数量是否到达上限时，使用最小的max_instances_per_host值
AggregateTypeAffinityFilter	用于实现实例类型（Flavor）亲和性此过滤器pass（通过）没有设置instance_type的主机，或者所在聚合的元数据instance_type（逗号分隔）包含正在请求创建的虚拟机的instance_type的主机
AllHostsFilter	通过所有主机
AvailabilityZoneFilter	满足调度请求中关于可用区的需求
ComputeCapabilitiesFilter	对Flavor的extra_specs中的属性和 compute capabilities进行匹配如果Extra Spec中包含冒号，则：之前的看作命名空间，之后的看作需要匹配的key。如果命名空间不是capabilities，则忽略此Spec 为了向后兼容，没有Namespace的Specs也可以用来匹配，但是不推荐 —— 当同时使用AggregateInstanceExtraSpecsFilter时会出现冲突某些虚拟化驱动支持报告CPU的trait给placement服务，这种情况下，应该在Flavor中使用trait，而不是使用此过滤器。因为trait提供了CPU特性的一致性命名，而且查询trait的效率更高
ComputeFilter	此过滤器pass（通过）所有启用的、可以工作的计算服务（节点）
DifferentHostFilter	调度到其它宿主机，排除的宿主机由请求时给出的different_host来确定，该字段是一个实例的列表，排除的是这些实例所在的宿主机： { "server": { "name": "server-1", "imageRef": "cedef40a-ed67-4d10-800e-17455edce175", "flavorRef": "1" }, "os:scheduler_hints": { "different_host": [ "a0cf03a5-d921-4877-bb5c-86d26cf818e1", "8c19174f-4220-44f0-824a-cd1eeef10287" ] } } 使用命令： openstack server create --image cedef40a-ed67-4d10-800e-17455edce175 \ --flavor 1 --hint different_host=a0cf03a5-d921-4877-bb5c-86d26cf818e1 \ # 调度提示 --hint different_host=8c19174f-4220-44f0-824a-cd1eeef10287 server-1
ImagePropertiesFilter	根据实例的镜像的属性来过滤宿主机，仅仅通过那些支持镜像属性的宿主机属性包括：架构、Hypervisor类型/版本、虚拟机模式： hw_architecture，架构：i686, x86_64, arm, ppc64 ... img_hv_type，Hypervisor类型：qemu,hyperv ... img_hv_requested_version，Hypervisor版本对于QEMU、KVM，Hypervisor类型都是qemu openstack image set --architecture arm --property img_hv_type=qemu img-uuid
IsolatedHostsFilter	允许定义一个隔离镜像集、隔离宿主机集，两者必须在一起 restrict_isolated_hosts_to_isolated_images 用于限制隔离主机仅仅运行隔离镜像。取值True意味着卷后备的虚拟机不能调度到隔离主机集；取值False则没有任何限制（对比镜像后备的虚拟机）镜像集、宿主机集合必须配置在nova.conf： [filter_scheduler] isolated_hosts = server1, server2 isolated_images = 342b492c-128f-4a42-8d3a-c5088cf27d13, ebd267a6-ca86-4d6c-9a0e-bd132d6b7d09
IoOpsFilter	过滤掉具有太多并发IO实例的宿主机 max_io_ops_per_host指定单个宿主机上IO敏感的实例的最大数量
JsonFilter	此过滤器默认没有启用，且没有广泛测试允许用户为调度器提供一个JSON格式的提示。在提示中：支持操作符 = < > in <= >= not or and 支持判断属性 $free_ram_mb $free_disk_mb $hypervisor_hostname $total_usable_ram_mb $vcpus_total $vcpus_used 等任何HostState 示例： openstack server create --image 827d564a-e636-4fc4-a376-d36f7ebe1747 \ --flavor 1 --hint query='[">=","$free_ram_mb",1024]' server1
PciPassthroughFilter	仅仅通过匹配Flavor的extra_specs中设备请求的宿主机
SameHostFilter	调度到和指定实例（集）相同的宿主机（之一）实例（集）由提示给出： openstack server create --image cedef40a-ed67-4d10-800e-17455edce175 \ --flavor 1 --hint same_host=a0cf03a5-d921-4877-bb5c-86d26cf818e1 \ --hint same_host=8c19174f-4220-44f0-824a-cd1eeef10287 server-1
ServerGroupAffinityFilter	确保调度到指定的服务器组中，服务器组由提示给出 openstack server group create --policy affinity group-1 openstack server create --image IMAGE_ID --flavor 1 \ --hint group=SERVER_GROUP_UUID server-1
ServerGroupAntiAffinityFilter	确保不调度到指定的服务器组中，服务器组由提示给出
SimpleCIDRAffinityFilter	根据宿主机的IP地址CIDR进行过滤，指定两个提示： build_near_host_ip CIDR的第一个IP cidr CIDR的掩码部分 openstack server create --image cedef40a-ed67-4d10-800e-17455edce175 \ --flavor 1 --hint build_near_host_ip=192.168.1.1 --hint cidr=/24 server-1

Weights

经过过滤后，可能仍然有多个宿主机满足需求。那么，到底选择哪一个？这时需要基于权重来确定。

一个宿主机的最初权重由它拥有的硬件资源来确定，每当调度新的实例到它上面，宿主机的权重值就变小。

权重计算算法的参数，配置在nova.conf中：

[DEFAULT]

; 注意：主机聚合可以覆盖这里的权重因子设置
; 内存权重因子
ram_weight_multiplier
; 磁盘权重因子
disk_weight_multiplier
; 处理器权重因子
cpu_weight_multiplier
; IO负载权重因子，负数表示倾向于选择轻负载的宿主机
io_ops_weight_multiplier

; 进行权重判断后，会返回N个最适合主机，然后在随机从中取一个作为最终宿主机
; 该选项决定N的大小
scheduler_host_subset_size

; 默认权重值最大的获胜
scheduler_weight_classes = nova.scheduler.weights.all_weighers

[filter_scheduler]
; 对于主机组进行软亲和时时候
soft_affinity_weight_multiplier
; 对于主机组进行软反亲和时时候
soft_anti_affinity_weight_multiplier
; 对于最近发生创建虚拟机失败的宿主机，设置权重因子
; 设置为负数，则最近失败的主机更加少的机会被选择
build_failure_weight_multiplier
; 在跨Cell移动实例时，使用该权重因子
cross_cell_move_weight_multiplier

Compute capabilities作为Trait

从S版开始，nova-compute会基于计算驱动的capabilities报告为COMPUTE_开头的（资源提供者的）Trait（特性）。

通过配置Flavor，可以指定实例要求、禁止哪些Trait。例如，某个主机聚合支持multi-attach卷，你可以限制某个Flavor仅仅调度到这个主机聚合：

为Flavor设置extra_specs：

trait:COMPUTE_VOLUME_MULTI_ATTACH=required

按照常规方式限制Flavor到主机聚合

openstack --os-compute-api-version=2.53 hypervisor list
# 列出trait
openstack --os-placement-api-version 1.6 resource provider trait list 8fa133f5-a41e-4ef6-a485-cb0d6e167860

关于基于计算驱动capabilities定义的Trait，需要注意：

计算服务拥有这些COMPUTE_开头的Trait的控制权，nova-compute服务启动后，或者update_available_resource定时任务执行后，会自动添加/擅长Traits
用户自定义的Trait，不会被删除。除非定义的Trait以COMPUTE_开头
如果用户通过命令：
```
openstack resource provider trait delete
```
删除某个资源提供者的COMPUTE_*，计算服务会在重启时再次添加

可用区

在OpenStack中，可用区是一个用户可见的逻辑的云分区。在创建主机时，用户可以指定，创建到哪个可用区。

可用区没有在数据库中建模，而是定义为主机聚合的元数据。为主机聚合添加特定的元数据，即可将其中的主机加入到某个可用区。

需要注意主机聚合和AZ的不同：

宿主机可以属于多个主机聚合，但是只能属于一个AZ
默认情况下，主机是默认AZ的成员，即使它不属于任何主机聚合

其它OpenStack服务，例如网络、块存储服务，也有可用区的概念，但是实现方式各不相同。

默认可用区

默认AZ的名字，可以在nova.conf中配置：

[DEFAULT]
default_availability_zone = nova

该配置项指定计算服务（nova-compute组件）的默认可用区的名字。

配置可用区

可用区是在主机聚合上设置的：

# --os-compute-api-version=2.53
openstack aggregate create zircon
openstack aggregate add host zircon centos-11
openstack aggregate add host zircon centos-12
openstack aggregate add host zircon centos-13

# 设置聚合的可用区
openstack aggregate set --property availability_zone=zircon zircon

将主机聚合关联到可用区的操作，需要提前规划。聚合中任何主机上已经实例，则无法设置可用区。

对迁移的影响

导致实例所在宿主机改变的操作包括 evacuate, resize, cold migrate, live migrate 以及 unshelve。其中只有evacuate和live migrate可以绕过调度器，强制指定目标主机。

如果满足以下条件之一，迁移后的实例限定在特定的AZ中：

创建实例时，指定了availability_zone参数，即指明在特地AZ中创建实例
虽然没有指定availability_zone，但是API service配置了 default_schedule_zone
2.77版本之后，Unshelve实例时，指定了availability_zone
cinder.cross_az_attach设置为False，default_schedule_zone也没有设置，但是实例使用了卷，这样会调度到卷所在的AZ

如果实例没有在特定AZ内创建，则它可以被自由的移动到其它AZ， AvailabilityZoneFilter不做任何事情。

需要注意，如果实例在某个AZ内创建的情况下，通过evacuate或者live migrate将其移动到另外一个AZ的主机上，是个危险的操作。因为假设后续你又resize实例，调度器会将其转移到原先的AZ。

资源亲和

Noava的配置项cinder.cross_az_attach，用于限制实例和它使用的卷在相同的AZ中。如果设置为False，则计算和存储资源会位于相同AZ，如果无法满足，则请求会失败：

创建实例时，将一个已存在的卷挂载给它，那么实例将创建到卷所在的AZ
创建实例时，需要创建一个新卷挂载给它，那么Nova将会在实例所在的AZ中创建卷

管理卷

关于在Nova中使用、创建、管理卷，参考openstack server create。

multi-attach

Nova从Q版开始支持Cinder的多重挂载。前提条件：

Compute API最小版本是2.6
底层的Hypervisor驱动必须支持将卷挂载到多个客户机。使用libvirt驱动时，libvirt必须大于3.10，qemu必须大于2.10
不支持swap一个正在使用的multiattach卷

远程访问

OpenStack支持多种控制台来连接到客户机，包括VNC、SPICE、Serial、RDP、MKS（VMware vSphere）。推荐仅仅部署一种类型的控制台支持，此外需要注意某些Hypervisor不支持某些控制台类型。

为了连接到虚拟机控制台，计算节点的5900-5999端口必须开启。

控制台代理

不管使用哪种控制台，都需要部署console proxy服务。该服务负责：

提供用户所在的公共网络和虚拟机所在的私有网络之间的桥梁
中介Token验证
屏蔽Hypervisor相关的连接细节，给用户一致的体验

对于某些Hypervisor + Console驱动的组合，控制台代理是Hypervisor/其它外部服务提供的。其它的则由Nova提供控制台代理服务。Nova控制台代理的工作方式如下（以基于noVNC的VNC控制台为例）：

用户访问OpenStack API，获取控制台访问URL，例如：http://ip:port/?path=%3Ftoken%3Dxyz
用户在浏览器打开控制台
浏览器连接到代理
代理校验用户的Token，映射Token到私有网络中的、实例的VNC服务器的地址:端口
计算节点在vnc.server_proxyclient_address中指定代理应该如何连接到本机的VNC服务器，代理通过此地址连接到VNC服务器

要启用基于noVNC的VNC控制台，OpenStack需要部署以下额外组件：

一个或多个 nova-novncproxy服务，以支持基于浏览器的noVNC客户端。在简单部署场景中，此服务运行在nova-api所在机器上，因为它是公共、私有网络之间的桥梁

基于noVNC的VNC控制台

VNC是很多Hypervisor和客户端支持的图形化控制台。noVNC支持通过浏览器访问VNC。

配置nova-novncproxy服务：

[vnc]
novncproxy_host = 0.0.0.0
novncproxy_port = 6082

配置nova-compute服务：

[vnc]
enabled = True
novncproxy_base_url = http://os.gmem.cc:6082/vnc_auto.html
server_listen = 127.0.0.1
server_proxyclient_address = 127.0.0.1

串口控制台

使用串口控制台（serial console）可以检查虚拟机的内核输出，查看其它虚拟消息。串口控制台在虚拟机的网络连接不可用时特别有效。

从J版开始，OpenStack支持可读写的串口控制台。你需要在计算节点上配置：

[serial_console]
; ...
enabled = true
base_url = ws://os.gmem.cc:6083/
; 监听虚拟控制台请求的地址
listen = 0.0.0.0
; 控制台代理连接到哪个网络接口，通常管理网
proxyclient_address = MANAGEMENT_INTERFACE_IP_ADDRESS

使用下面的命令后的串口控制台的WS地址：

nova get-serial-proxy INSTANCE_NAME

注入密码

Nova支持注入密码到虚拟机的管理员用户，密码会打印在openstack server create命令的输出中。

默认情况下，仪表盘会显示管理员密码并允许修改。如果希望禁用此特性：

PENSTACK_HYPERVISOR_FEATURES = {
...
    'can_set_password': False,
}

对于使用libvirt后端的Hypervisor（KVM/QEMU/LXC），管理员密码注入默认禁用，要启用需要修改：

[libvirt]
inject_password=true

配置文件

[libvirt]
; 使用KVM以提升性能
virt_type = kvm
; 创建的实例的CPU模式，参考
; https://blog.gmem.cc/libvirt-study-note#cpu-mode
cpu_mode=host-passthrough

Placement

osc-placement

默认情况下，很多placement相关的OpenStackt命令不可用，需要安装osc-placement插件。

默认情况下，使用的Placement API版本是1.0。要使用其它版本，需要指定

--os-placement-api-version

命令行标记，或者设置环境变量：

export OS_PLACEMENT_API_VERSION=1.6

Neutron

简介

OpenStack Networking组件，即Neutron，允许你创建网络接口设备、将网络接口设备Attach到虚拟网络。Neutron基于插件化机制设计，用以支持不同的网络设备以及软件。

Neutron负责管理虚拟网络基础设施（Virtual Networking Infrastructure，VNI）的方方面面、以及物理网络基础设施（Physical Networking Infrastructure，PNI）的访问/接入层面。

Neutron支持防火墙、VPN等高级网络特性。

Neutron提供网络、子网、路由器的抽象，这些抽象模拟相应物理实体的特性。例如，网络包含子网，路由器负责再不同子网/网络之间进行封包路由。

任何给定的网络方案（set up），至少包含一个外部网络（External network）。与其它网络不同，外部网络不仅仅是虚拟网络，他是真实物理网络（可以访问OpenStack外部）的一种视图。外部网络上的IP地址，可以从OpenStack外部直接访问到。

除了外部网络之外，任何网络方案至少包含一个内部网络（Internal network），内部网络是虚拟（软件定义的）网络，直接将VM连接在一起。

为了从外部访问VM（或者反之），需要添加虚拟路由器。每个路由器包含一个网关，通向外部网络；包含1-N个接口，通往内部网络。和物理路由器类似，连接到同一个路由器的子网之间可以相互访问。VM可以通过路由器的网关访问外部网络。

当有什么连接到一个子网时，那个连接点（connection）就称为端口（port）。你将外部网络的IP地址分配到内部网络的（由于VM连接到子网而产生的）端口上，这样，外部实体就能直接访问VM。

Neutron支持安全组（security groups），安全组让管理员可以按组来定义防火墙规则。一个VM可以归属1-N个安全组，Neutron根据安全组中的规则，来阻止VM访问端口、端口范围。

组件

一个典型的Netron部署，包含了多个服务（service）和代理（agent），这些组件可能运行在一个或多个节点上。

neutron-server

接受API请求，并路由给适当的OpenStack Networking plug-in进行处理。作为访问数据库的中心点。

插件

Neutron使用插件化的架构，各种可拔插功能依赖于plugin和agent实现。

L2代理

使用通用/厂商特定的技术，来提供网络分段（segmentation）和隔离（isolation），也就是划分出子网（network number相同的主机位于同一个子网，子网是个以太网）。

L2代理应当运行在任何需要网络连接、提供虚拟接口安全性的节点上，包括计算、网络节点。

OpenStack自带了Cisco 虚拟/物理交换机、NEC OpenFlow产品、Open vSwitch、Linux Bridging、VMware NSX产品的代理。

L3代理

运行在网络节点上，提供东西向、南北向的路由能力，并提供FWaaS、VPNaaS之类的高级特性。

消息队列

用于再Neutron服务器和各种代理之间进行消息交换，也用作某些特定插件存储网络状态的数据库。

配置概述

主配置文件neutron.conf，neutron-server和各种Agent都会读取。该文件包含用于Neutron内部RPC的oslo.messaging配置，并且会包含一些和主机相关的信息。此配置文件还包括database、nova、keystone的凭证信息。

此外neutron-server可能会加载plugin特定的配置文件。而Agent则不会加载。原因是插件配置主要是全局范围的选项。

每个不同的Agent可能有自己的配置文件，他们应当在主配置之后加载。因此其中的配置项优先级更高。代理配置文件中，可能包含主机特定的配置，例如local_ip。

ML2

模块化L2（Modular Layer 2 ，ML2）插件是Neutron的L2框架，它允许你在一个部署中使用多种L2网络技术。ML2的扩展点是两种不同类型的驱动

Type驱动

网络类型驱动，定义了OpenStack网络的技术分类，例如VxLAN、flat。

每种实现技术都对应了一个ML2 Type驱动。这些驱动会维护任何需要的、和网络类型相关的状态。它会验证Provider网络上和网络类型有关的信息，并且负责在项目的网络中分配一个空闲的段。

Mechanism驱动

网络机制驱动，定义了OpenStack网络的实现技术，例如flat网络可以利用Linux bridge或者OVS来实现。

Mechanism驱动会利用Type驱动所产生的信息，并且确保这些信息并应用。

Mechanism驱动能通过RPC利用L2代理，也能够直接和外部控制器/设备进行交互。

驱动兼容矩阵

Mechanism驱动和Type驱动的搭配，不是任意的：

Mech\Type	Flat	VLAN	VxLAN	GRE
Open vSwitch	Y	Y	Y	Y
Linx Bridge	Y	Y	Y	N
SRIOV	Y	Y	N	N
MacVTap	Y	N	N	N
L2 population	N	N	Y	Y

Type驱动配置

在ML2的主配置文件/etc/neutron/plugins/ml2/ml2_conf.ini中配置：

[ml2]
; 支持的Type驱动列表
type_drivers = flat,vlan,vxlan,gre


; flat相关配置
[ml2_type_flat]
; 可以从中创建flat网络的物理网络（physical_network）的名称
; 设置为*则允许使用任何物理网络名
; 设置为空则禁用flat网络
flat_networks = provider


; vlan相关配置
[ml2_type_vlan]
; 格式 :: 或者 
; 指定可用作VLAN provider以及租户网络的物理网络名称，以及可分配的VLAN Tag范围
network_vlan_ranges = provider:0:200


; vxlan相关配置
[ml2_type_vxlan]
; 格式 :,:... 列出VxLAN VNI ID范围
vni_ranges = 
; VxLAN的多播组，如果配置，所有广播流量发送到此组；如果不配置，禁用multicast VxLAN模式
vxlan_group =

Mech驱动

在ML2的主配置文件/etc/neutron/plugins/ml2/ml2_conf.ini中配置：

[ml2]
;支持的Mech驱动列表
mechanism_drivers = ovs,l2pop

更多的配置查看相关Agent的配置文件。

L2代理

Linux Bridge

该代理通过配置Linux Bridge来为OpenStack资源实现L2网络。配置文件路径 /etc/neutron/plugins/ml2/linuxbridge_agent.ini

[DEFAULT]
; 是否打开DEBUG级别的日志，默认INFO
debug = False

[agent]
; 每隔多少秒，Agent来轮询本地设备的变化情况
polling_interval = 2
; 封装为外层IP报文时，设置的DSCP值。用于overlay网络。0-63之间的整数
dscp = 
; 如果设置为True，则从内层封包取得DSCP，设置到外层封包上
dscp_inherit = False
; 使用的扩展列表
extensions = 

[linux_bridge]
; 格式：:,:...
; 将物理网络名称映射到Agent节点上的物理网络接口名。这样flat和VLAN网络才能利用这些网络
physical_interface_mappings = provider:eth0
; 格式：:
bridge_mappings

[securitygroup]
; 此L2代理使用的安全组防火墙驱动
firewall_driver = 
; 是否启用neutron security group API，如果不使用安全组，或者使用nova security group API，则禁用
enable_security_group = True
; 十分启用IPSet提升iptables的性能
enable_ipset = True
; 逗号分隔的，允许的ethertypes。0x开头的16进制形式
permitted_ethertypes = 

[vxlan]
; 此Agent是否支持VxLAN
enable_vxlan = Tre
; VxLAN接口协议包的TTL
ttl =
; VxLAN接口协议包的TOS，已经废弃，使用agent段的dscp选项代替
tos = 
; VxLAN接口的多播组
; 如果指定组地址的范围，必须使用CIDR格式
vxlan_group = 224.0.0.1
; 本地的Overlay(Tunnel)网络端点的IP地址，使用一个IPv4/IPv6的、位于宿主机网络接口上的地址
local_ip = 
; VxLAN包的UDP源地址范围
udp_srcport_min = 
udp_srcport_max = 
; VxLAN的UDP目的地址
udp_dstport = 
; 使用Local ARP responder，它提供本地响应，而非在overlay范围内进行ARP广播
; Local ARP responder和allowed-address-pairs扩展存在兼容性问题
arp_responder = 
; 描述组播地址和VLAN（VNI ID）之间的映射关系
; :: 逗号分隔
multicast_ranges

QoS

参考配额和限速 - Neutron QoS

内部DNS

OpenStack支持对以下资源配置DNS：

资源	DNS名	DNS域
端口/Ports	是	否
网络/Networks	否	是
浮动IP	是	是

配置内置解析

要更改默认的域名后缀openstacklocal，需要修改neutron-server节点的：

[default]
dns_domain = os.gmem.cc
; router插件需要启用，否则报错Extensions not found: ['auto-allocated-topology', 'dns-integration'].
service_plugins = router

[ml2]
# dns即DNS Integration。是dns_domain_ports的子集
# dns_domain_ports，额外允许设置port的dns_domain属性
extension_drivers = port_security,dns

重启服务：

systemctl restart neutron-server.service

配置DNS相关属性

你可以为一个Port配置DNS名：

neutron port-create my-net --dns_name my-port

当Port分配给实例时，实例的主机名+域名后缀，会自动成为Port的FQDN，例如centos8-amd64.os.gmem.cc

designate

OpenStack DNS Service，即Designate，是一个支持多租户的OpenStack的DNSaaS服务。它提供集成了keystone身份验证的REST API，能够基于Nova/Neutron动作自动生成DNS记录。Designate支持多种DNS服务器，包括Bind9和PowerDNS 4

组件

designate-api

提供REST API接口。

designate-central

编排Zones和RecordSet的创建、删除和更新。

designate-producer

编排周期性任务。

designate-worker

运行任务，例如Zone的创建/删除/更新，以及来自designate-producer的周期性任务。

designate-mdns

一个小的DNS服务器，负责推送DNS Zone信息到面向客户的DNS服务器，也能够拉取Designate基础设施之外的DNS Zone信息。

designate-agent

某些DNS服务要求在本地执行命令，此代理负责对接到这些DNS服务。

面向客户的DNS服务

为客户提供DNS服务，由designate-worker管理其记录。Bind9、Power DNS 4被支持的很好。

安装配置

客户端安装

sudo apt install python3-designateclient

安装软件

安装openstack-designate以及相关依赖：

dnf install openstack-designate-* bind bind-utils -y

创建数据库

CREATE DATABASE IF NOT EXISTS designate CHARACTER SET utf8 COLLATE utf8_general_ci;
GRANT ALL PRIVILEGES ON designate.* TO 'designate'@'localhost' IDENTIFIED BY 'designate';
GRANT ALL PRIVILEGES ON designate.* TO 'designate'@'%' IDENTIFIED BY 'designate';

创建OS对象

openstack user create --domain default --password designate designate
openstack role add --project service --user designate admin
openstack service create --name designate --description "DNS" dns
openstack endpoint create --region china dns public http://openstack.gmem.cc:9001/

创建一个RNDC key：

rndc-confgen -a -k designate -c /etc/designate/rndc.key -r /dev/urandom
chown named:named /etc/designate/rndc.key
chmod 644 /etc/rndc.key

修改named配置文件

...
include "/etc/designate/rndc.key";

options {
    ...
    allow-new-zones yes;
    request-ixfr no;
    listen-on port 53 { any; };
    recursion no;
    allow-query { any; };
};

controls {
  inet 127.0.0.1 port 953
    allow { 127.0.0.1; } keys { "designate"; };
};

改完重启服务：

systemctl enable named.service
systemctl start named.service

配置OpenStack

[DEFAULT]
transport_url = rabbit://openstack:openstack@openstack.gmem.cc

[service:api]
listen = 0.0.0.0:9001
auth_strategy = keystone
enable_api_v2 = True
enable_api_admin = True
enable_host_header = True
enabled_extensions_admin = quotas, reports

[keystone_authtoken]
auth_type = password
username = designate
password = designate
project_name = service
project_domain_name = Default
user_domain_name = Default
www_authenticate_uri = http://openstack.gmem.cc:5000/
auth_url = http://openstack.gmem.cc:5000/
memcached_servers = openstack.gmem.cc:11211

[storage:sqlalchemy]
connection = mysql+pymysql://designate:designate@openstack.gmem.cc/designate

初始化数据库

su -s /bin/sh -c "designate-manage database sync" designate

创建池

- name: default
  # 池的名字，创建后不可改变。除非删除（连同关联的Zones）并重建
  description: default

  attributes: {}

  # 该池负责管理的Zone的NS记录
  # 记录应当在Designate之外创建, 指向控制节点的公共IP
  ns_records:
    - hostname: ns.openstack.gmem.cc.
      priority: 1

  # 该池使用的DNS服务器列表，也就是Bind服务器的地址
  nameservers:
    - host: 127.0.0.1
      port: 53

  # 该池的目标列表，对于Bind来说，每个BIND服务器对应一个条目
  # designate会在每个Bind服务器上运行rndc命令
  targets:
    - type: bind9
      description: bind9 on openstack-1
      # 列出designate-mdns服务地址，Bind服务器向其发送zone transfers (AXFRs)请求
      # 应当是控制节点的IP
      masters:
        - host: 127.0.0.1
          port: 5354

      options:
        host: 127.0.0.1
        port: 53
        rndc_host: 127.0.0.1
        rndc_port: 953
        rndc_key_file: /etc/designate/rndc.key

执行下面的命令创建池：

su -s /bin/sh -c "designate-manage pool update" designate

启用服务

systemctl start designate-central designate-api
systemctl enable designate-central designate-api

systemctl start designate-worker designate-producer designate-mdns
systemctl enable designate-worker designate-producer designate-mdns

验证

查看DNS服务列表：

openstack dns service list
+--------------------------------------+-------------+--------------+--------+-------+--------------+
| id                                   | hostname    | service_name | status | stats | capabilities |
+--------------------------------------+-------------+--------------+--------+-------+--------------+
| a071880d-a2d4-468a-a452-da4e7856a63c | openstack-1 | api          | UP     | -     | -            |
| e7b8a2dd-c92e-41fb-bd23-c342c76de154 | openstack-1 | central      | UP     | -     | -            |
| 502c5b1f-1036-4a84-9b3e-14c7255b20eb | openstack-1 | mdns         | UP     | -     | -            |
| a2f0d9ad-366b-4ec2-8b92-d2f0765f2333 | openstack-1 | producer     | UP     | -     | -            |
| d64fa762-3598-4477-b7bc-a4394b326177 | openstack-1 | worker       | UP     | -     | -            |
+--------------------------------------+-------------+--------------+--------+-------+--------------+

创建一个DNS Zone：

openstack zone create --email admin@gmem.cc os.gmem.cc.

确认其状态到达ACTIVE：

openstack zone list
+--------------------------------------+-------------+---------+------------+--------+--------+
| id                                   | name        | type    |     serial | status | action |
+--------------------------------------+-------------+---------+------------+--------+--------+
| 2093169d-15d5-4e9c-8b94-a6569ffac7b8 | os.gmem.cc. | PRIMARY | 1618994404 | ACTIVE | NONE   |
+--------------------------------------+-------------+---------+------------+--------+--------+

创建一个记录集（RecordSet）：

openstack recordset create --record '10.1.1.1' --type A os.gmem.cc. horizon

外部DNS

Neutron支持将域名通过designate暴露给外部。

配置neutron-server

[default]
# 决定了配置了dns_domain的port默认所在Zone
dns_domain = os.gmem.cc.
external_dns_driver = designate

[designate]
url = http://openstack.gmem.cc:9001/v2
admin_auth_url = http://openstack.gmem.cc:35357/v2.0
admin_username = neutron
admin_password = neutron
admin_tenant_name = service
allow_reverse_dns_lookup = True
ipv4_ptr_zone_prefix_size = 16
ipv6_ptr_zone_prefix_size = 116

extension_drivers=port_security,dns

UC1：在外部DNS中发布Port

用例说明：用户创建在一个可被外部访问的网络上创建实例，并且希望从集群外部通过域名来访问实例。

参考步骤：

前提条件：
1. 不支持使用 --external 创建的网络
2. 支持FLAT, VLAN, GRE, VXLAN, GENEVE类型的网络
3. 对于FLAT, VLAN, GRE, VXLAN, GENEVE，其segmentation ID必须位于分配给project networks的范围之外

给网络的dns_domain属性分配一个合法的值：

# neutron net-update 5fdf474c-533a-403d-b7dd-cc7d7e1dfa23 --dns_domain os.gmem.cc.
openstack network set --dns-domain os.gmem.cc. provider

查看此Zone中的记录：

openstack recordset list os.gmem.cc.
+--------------------------------------+-------------+------+---------------------------------------------------------------------+--------+--------+
| id                                   | name        | type | records                                                             | status | action |
+--------------------------------------+-------------+------+---------------------------------------------------------------------+--------+--------+
| 22422e08-0c17-4106-a222-35c3e535d37a | os.gmem.cc. | NS   | ns.openstack.gmem.cc.                                               | ACTIVE | NONE   |
| e4683c9e-70c0-4d3b-83e1-bb5530059311 | os.gmem.cc. | SOA  | ns.openstack.gmem.cc. admin.gmem.cc. 1618997152 3586 600 86400 3600 | ACTIVE | NONE   |
+--------------------------------------+-------------+------+---------------------------------------------------------------------+--------+--------+

创建一个端口，配置DNS名：

openstack port create --dns-name t3m1 --network provider \
    --fixed-ip subnet=provider,ip-address=10.2.0.111 --disable-port-security tcnp3-master-1
# | dns_assignment          | fqdn='t3m1.os.gmem.cc.', hostname='t3m1', ip_address='10.2.0.111'         |

再次查看Zone，应该发现名为t3m1.os.gmem.cc.的新A记录：

openstack recordset list os.gmem.cc.
# | f81bc3c2-2272-4f21-93d3-2c4fc9e6435d | t3m1.os.gmem.cc. | A    | 10.2.0.111   | ACTIVE | NONE   |

当把端口授予实例后，原先的A记录被替换，前缀改为实例的主机名。

Cinder

OpenStack Block Storage service，即Cinder为VM提供块设备。块设备如何产生、如何被消费，取决于块设备驱动。如果使用多后端配置，则取决于多个驱动。Cinder具有多种驱动，包括NAS/SAN, NFS, iSCSI, Ceph，等等。

Block Storage API组件和Scheduler服务通常运行在控制节点上。取决于使用的驱动，Volume服务可能运行在控制节点、计算节点，或者独立的存储节点上。

Cinder和Nova交互，从而将卷提供给虚拟机实例。

组件

cinder-api

接受API请求，路由给cinder-volume处理。

cinder-volume

直接（或者通过消息队列）和后端存储服务交互、cinder-scheduler这样的组件交互。

cinder-volume会响应针对后端存储服务的读写请求，从而维持状态。它是通过驱动架构与后端交互的。

cinder-scheduler

这是一个守护程序，负责选取一个最优化的、能够提供卷的节点，并由节点创建卷。

cinder-backup

这是一个守护程序，负责备份任意类型的卷到某个Backup storage provider。它是通过驱动架构与后端交互的。

消息队列

在上述进程之间交换信息。

备份后端配置

nfs

[DEFAULT]
backup_driver = cinder.backup.drivers.nfs.NFSBackupDriver
backup_share = 10.0.0.1:/slow

卷后端配置

lvm

参考上文的样例环境。

需要注意的是，LVM后端可以映射为远程宿主机的磁盘。当卷从位于LVM后端上的快照上创建时，它必须和快照在一个存储节点上，这种情况下，远程映射可能是必须的，需要注意性能问题。不能假设LVM后端是本地磁盘。

nfs

添加到已启用后端列表：

[DEFAULT]
enabled_backends = lvm,nfs

[nfs]
volume_driver = cinder.volume.drivers.nfs.NfsDriver
nfs_shares_config = /etc/cinder/nfs_shares
nfs_mount_point_base = /var/lib/cinder/mnt
volume_backend_name = nfs

配置NFS服务地址，以及使用的NFS导出目录的绝对路径：

10.0.0.1:/cinder

并修改该配置文件的访问权限：

chown root:cinder /etc/cinder/nfsshares
chmod 0640 /etc/cinder/nfsshares

重新启动cinder-volume服务：

systemctl restart openstack-cinder-volume.service

查看cinder服务列表：

cinder service-list

| cinder-volume    | openstack-2@nfs | nova | enabled | up    | 2021-04-15T13:59:30.000000

创建对应的volume type：

cinder type-create nfs
cinder type-key nfs set volume_backend_name=nfs

openstack volume type show nfs
+--------------------+--------------------------------------+
| Field              | Value                                |
+--------------------+--------------------------------------+
| access_project_ids | None                                 |
| description        | None                                 |
| id                 | c31ec381-c1f7-46c3-9119-bf699413f6b1 |
| is_public          | True                                 |
| name               | nfs                                  |
| properties         | volume_backend_name='nfs'            |
| qos_specs_id       | None                                 |
+--------------------+--------------------------------------+

ceph

参考集成Ceph。

Glance

多后端

启用RBD后端

参考如下配置：

[DEFAULT]
# 增加             后端key:后端类型
enabled_backends = rbd:rbd, file:file

[glance_store]
# 增加
default_backend=file
# 注释掉
# stores = file,http,rbd
# default_store = file
filesystem_store_datadir = /var/lib/glance/images/

# 增加
[rbd]
rbd_store_pool = images
rbd_store_user = glance
rbd_store_ceph_conf = /etc/ceph/ceph.conf
rbd_store_chunk_size = 8

重启服务：

systemctl restart  openstack-glance-api.service

查看后端列表：

glance stores-info

+----------+----------------------------------------------------+
| Property | Value                                              |
+----------+----------------------------------------------------+
| stores   | [{"id": "rbd"}, {"id": "file", "default": "true"}] |
+----------+----------------------------------------------------+

向特定后端上传镜像

首先创建一个镜像记录：

glance image-create --disk-format raw --container-format bare --visibility public --name bionic-amd64

然后向此镜像记录上传镜像：

#                                                           指定后端     镜像记录的ID
glance image-upload --file bionic-server-cloudimg-amd64.img --store rbd d828f193-830f-4e1f-ad28-4fc607474368

通过Ceph命令可以看到，存储池中出现一个以镜像ID为名字的RBD镜像：

rbd -p images ls
d828f193-830f-4e1f-ad28-4fc607474368

集成Ceph

通过libvirt（底层是配置QEMU使用librbd），你可以将Ceph的RBD镜像挂载（Attach）给Openstack实例。

OpenStack有三部分可以用到Ceph存储：

镜像：Glance管理的虚拟机镜像（不可变的）可以存放在Ceph中。Openstack将其作为blob并下载使用
卷：虚拟机启动使用的卷，或者后续挂载的额外卷
客户机磁盘：虚拟机启动时使用的系统盘，默认情况下，此系统盘表现为Hypervisor的文件系统中的一个文件，通常位于/var/lib/nova/instances/
/。在Havana版本之前，唯一启动系统盘位于Ceph中的VM方法是，使用boot-from-volume特性。现在，则可以直接启动存储在Ceph中的虚拟机，而不需要使用Cinder。这样，在虚拟机热迁移过程中，可以方便的执行维护操作。另外一个好处是，如果Hypervisor宕机，你可以通过
```
nova evacuate
```
几乎无缝的重新实例化VM，OpenStack会在系统盘对应的RBD镜像上加独占锁以防多个计算节点并发访问之

Glance 能够将镜像存储为一个 Ceph 块设备。通过 Cinder使用COW克隆镜像来启动虚拟机。Ceph不支持 QCOW2 格式的镜像，必须使用RAW格式的镜像。

准备存储池

ceph osd pool create volumes 32; rbd pool init volumes
ceph osd pool create backups 32; rbd pool init backups
ceph osd pool create images 32;  rbd pool init images
ceph osd pool create vms 32;     rbd pool init vms

for i in volumes backups images vms; do ceph osd pool application enable $i rbd; done

安装软件

需要在nova-compute, cinder-backup 和 cinder-volume节点上安装Ceph客户端软件：

dnf install -y ceph-common python-rbd

glance-api节点只需要安装 python-rbd。

配置Ceph客户端

运行glance-api, cinder-volume, nova-compute, cinder-backup的节点，是Ceph客户端，因此首先把/etc/ceph/ceph.conf复制到这些节点。

然后，创建以下Ceph账户：

ceph auth get-or-create client.glance mon 'profile rbd' osd 'profile rbd pool=images' mgr 'profile rbd pool=images'
ceph auth get-or-create client.cinder mon 'profile rbd' osd 'profile rbd pool=volumes, profile rbd pool=vms, profile rbd-read-only pool=images' mgr 'profile rbd pool=volumes, profile rbd pool=vms'
ceph auth get-or-create client.cinder-backup mon 'profile rbd' osd 'profile rbd pool=backups' mgr 'profile rbd pool=backups'

并且把Keyring分发到相应节点：

# 镜像服务使用client-glance
ceph auth get-or-create client.glance | ssh root@openstack-1 tee /etc/ceph/ceph.client.glance.keyring
ssh root@openstack-1 chown glance:glance /etc/ceph/ceph.client.glance.keyring

# 卷服务、计算节点使用client-cinder
ceph auth get-or-create client.cinder | ssh root@openstack-2 tee /etc/ceph/ceph.client.cinder.keyring
ssh root@openstack-2 chown cinder:cinder /etc/ceph/ceph.client.cinder.keyring
ceph auth get-key client.cinder | ssh root@openstack-2 tee /tmp/client.cinder.key
ceph auth get-or-create client.cinder | ssh root@openstack-3 tee /etc/ceph/ceph.client.cinder.keyring
ssh root@openstack-3 chown cinder:cinder /etc/ceph/ceph.client.cinder.keyring
ceph auth get-key client.cinder | ssh root@openstack-3 tee /tmp/client.cinder.key
ceph auth get-or-create client.cinder | ssh root@openstack-4 tee /etc/ceph/ceph.client.cinder.keyring
ssh root@openstack-4 chown cinder:cinder /etc/ceph/ceph.client.cinder.keyring
ceph auth get-key client.cinder | ssh root@openstack-4 tee /tmp/client.cinder.key

# 备份服务使用client.cinder-backup
ceph auth get-or-create client.cinder-backup | ssh root@openstack-1 tee /etc/ceph/ceph.client.cinder-backup.keyring
ssh root@openstack-1 chown cinder:cinder /etc/ceph/ceph.client.cinder-backup.keyring

准备一个UUID，推荐所有节点使用同一UUID：

uuidgen
b3a20e8b-a27a-4623-8ea1-39eb7e34da4c

在每个节点上执行：

cat > secret.xml <
  b3a20e8b-a27a-4623-8ea1-39eb7e34da4c
  
    client.cinder secret
  

EOF

virsh secret-define --file secret.xml

virsh secret-set-value --secret b3a20e8b-a27a-4623-8ea1-39eb7e34da4c --base64 $(cat /tmp/client.cinder.key)
rm -f secret.xml /tmp/client.cinder.key

作为镜像存储

编辑配置文件：

[glance_store]
stores = file,http,rbd
default_store = file
filesystem_store_datadir = /var/lib/glance/images/
rbd_store_pool = images
rbd_store_user = glance
rbd_store_ceph_conf = /etc/ceph/ceph.conf
rbd_store_chunk_size = 8

注意，glance支持多个存储后端，上面的配置增加了一个rbd后端。

要启用copy-on-write的镜像克隆，增加配置：

[DEFAULT]
show_image_direct_url = True

为了防止glance在/var/lib/glance/image-cache/下缓存镜像，配置：

[paste_deploy]
flavor = keystone

作为备份存储

修改备份节点的Cinder配置文件：

backup_driver = cinder.backup.drivers.ceph
backup_ceph_conf = /etc/ceph/ceph.conf
backup_ceph_user = cinder-backup
backup_ceph_chunk_size = 134217728
backup_ceph_pool = backups
backup_ceph_stripe_unit = 0
backup_ceph_stripe_count = 0
restore_discard_excess_bytes = true

作为卷存储

配置Cinder后端

配置cinder.conf：

[DEFAULT]
# 增加一个ceph的后端
enabled_backends = lvm,nfs-fast,nfs-slow,ceph
# 要支持多个Cinder后端，需要配置：
glance_api_version = 2

# 后端配置
[ceph]
volume_driver = cinder.volume.drivers.rbd.RBDDriver
volume_backend_name = ceph
rbd_pool = volumes
rbd_ceph_conf = /etc/ceph/ceph.conf
rbd_flatten_volume_from_snapshot = false
rbd_max_clone_depth = 5
rbd_store_chunk_size = 4
rados_connect_timeout = -1
# 如果启用了cephx身份验证
rbd_user = cinder
rbd_secret_uuid = b3a20e8b-a27a-4623-8ea1-39eb7e34da4c

创建卷类型并关联到新建的后端：

cinder type-create ceph
cinder type-key ceph set volume_backend_name=ceph

到这一步，可以创建Ceph卷了，但是还不能挂载给虚拟机。

配置Nova

libvirt进程需要利用client.cinder的keyring来挂载Ceph卷（不管是作为普通块设备还是启动盘）：

[libvirt]
rbd_user = cinder
rbd_secret_uuid = b3a20e8b-a27a-4623-8ea1-39eb7e34da4c

为了支持直接从Ceph卷启动虚拟机，需要为Nova配置ephemeral后端。

建议在ceph.conf中启用RBD缓存（从Giant版本默认开启）。此外，可以开启client admin socket，以收集指标和辅助故障诊断：

[client]
    rbd cache = true
    rbd cache writethrough until flush = true
    admin socket = /var/run/ceph/guests/$cluster-$type.$id.$pid.$cctid.asok
    log file = /var/log/qemu/qemu-guest-$pid.log
    rbd concurrent management ops = 20

mkdir -p /var/run/ceph/guests/ /var/log/qemu/
chown qemu:libvirt /var/run/ceph/guests /var/log/qemu/

从Ceph卷启动

使用下面的命令可以将镜像转换为raw格式：

qemu-img convert -f {source-format} -O {output-format} {source-filename} {output-filename}
qemu-img convert -f qcow2 -O raw precise-cloudimg.img precise-cloudimg.raw

从raw格式的、存放在Ceph后端的镜像创建卷：

cinder create --image-id {id of image} --display-name {name of volume} {size of volume}

当Glance和Cinder同时使用Ceph后端时，镜像使用copy-on-write方式克隆，因此新卷的很快。

如果通过OpenStack Dashboard操作，参考步骤：

新建一个实例
选择一个关联到copy-on-write克隆的镜像的卷。也就是存放在Ceph中的，创建自位于Ceph中的镜像的卷
选择从卷启动，并使用上一步的卷

配额和限速

配额

所谓配额，是指限制某个项目（租户）或者类（class）能够使用的各种云资源的量。例如CPU核心个数、固定IP个数、实例个数、密钥对个数、内存量、存储量、备份存储量、备份个数、每个卷最大存储量、网络数、子网数，等等。

默认的admin项目的配额比较小，可以用

openstack quota set

修改配额。要查看配额，可以：

# 显示项目的各种配额
openstack limits show --absolute --project admin

# 显示计算配额
openstack quota list --compute --project admin

Flavor限速

每个Flavor都可以被分配额外的属性（Extra Specs），来限制它的CPU、IO、网络的速度。

CPU限速基于cgroups实现。

IO限流由QEMU处理（通过libvirt的blkdeviotune），尽管libvirt提供了基于cgroups的blkiotune特性，但是Nova并没有使用它。

流量塑形（Traffic shaping）也就是出入站带宽限制，基于tc实现。Libvirt以网络接口为级别进行流量塑形，如果它基于cgroups进行塑形，则客户机的所有网络接口被一起限制，因为cgroups运行在进程级别。

IO限速

可以使用以下Extra Specs键：

键	说明
disk_write_bytes_sec	限制字节数/秒，写
disk_read_bytes_sec	限制字节数/秒，读
disk_read_iops_sec	限制IOPS，读
disk_write_iops_sec	限制IOPS，写
disk_total_bytes_sec	限制字节数/秒，读写
disk_total_iops_sec	限制IOPS，读写

配置示例：

# 通过nova-manage命令
nova-manage flavor set_key --name m1.small  --key quota:disk_read_bytes_sec --value 10240000

# 通过nova命令，需要admin凭证
nova flavor-key m1.small  set quota:disk_read_bytes_sec=10240000

# 通过openstack命令，property可以指定多个
openstack flavor set m1.small --property quota:disk_read_bytes_sec=10000

CPU限速

可以使用以下Extra Specs键：

键	说明
cpu_shares	占用CPU时间的权重，不是绝对值。一个设置了2048的VM，会比1024的多用一倍的CPU时间
cpu_period	单位微秒，限制在指定周期（period）内占用CPU带宽（时间）最大值（quota）
cpu_quota	单位微秒，限制在指定周期（period）内占用CPU带宽（时间）最大值（quota）

网络限速

可以使用以下Extra Specs键：

键	说明
vif_inbound_average	inbound表示入站流量限制，outbound表示出站流量限制 average: 期望的平均带宽KB/s peak：最大的峰值带宽KB/s burst：以峰值带宽最多连续发送多少KB
vif_outbound_average
vif_inbound_peak
vif_outbound_peak
vif_inbound_burst
vif_outbound_burst

Neutron QoS

所谓QoS，是指能够确保一定的网络需求的能力，这些网络需求包括带宽、延迟、抖动、可靠性。

交换机、路由器之类的网络设备，能够给流量打标记，并以更高的优先级来处理这些流量，以满足应用提供者和终端用户之间的SLA（Service Level Agreement ）。

在Neutron中，qos是一个高级的插件，它将QoS从OpenStaack网络代码的其他部分解耦出来，它从多个网络级别进行QoS控制，可以通过ml2扩展驱动的方式来使用。目前qos仅仅支持ml2（的SR-IOV, Open vSwitch, linuxbridge驱动）

配置

在控制节点，配置Neutron：

service_plugins = router,metering,qos

[ml2]
extension_drivers = port_security,qos

修改你所使用的网络代理的配置，配置文件位于 /etc/neutron/plugins/ml2/_agent.ini。例如：

[agent]
extensions = qos

在计算/网络节点，修改网络代理配置：

[agent]
extensions = qos

如果希望给浮动IP配置QoS，需要配置L3代理：

[agent]
;                    如果需要支持路由器网关地址的QoS
extensions = fip_qos,gateway_ip_qos

; 使用Open vSwitch时，由于rate limit对于OVS内部端口不工作，作为变通方法，添加配置
ovs_use_veth = True

Differentiated Services（DS，DiffServ）是一种在IP网络中分类、管理网络流量并提供QoS的机制。DS在保障关键流量（例如VoIP、视频流）低延迟的同时，为非关键服务（例如Web流量）提供best-effort服务。

DS在8bit的IP头字段differentiated services（DS）字段（用于替换过时的IPv4 TOS字段）中，写入6bit的DSCP（Differentiated Services Code Point）。RFC 4594对各个DSCP值由规定，例如广播食品CS3的DSCP为24。

当使用VxLAN之类的Overlay网络时，DHCP标记仅仅应用在内层IP头上。在封装期间，DSCP标记不会自动拷贝到外层包头。为了自动在外层包头设置DSCP，需要配置网络代理：

[agent]
dscp = 8
dscp_inherit = true

实现

OpenStack会将QoS规则映射为底层代理的配置。如果使用Linux Bridge作为网络代理：

# 入站
tc qdisc show dev tap2e939f9e-9e
# qdisc tbf 8002: root refcnt 2 rate 512Kbit burst 16Kb lat 50.0ms

# 出站
tc filter show dev tap2e939f9e-9e parent ffff:
# filter protocol all pref 49 basic chain 0
# filter protocol all pref 49 basic chain 0 handle 0x1
#   police 0x1 rate 1024Kbit burst 32Kb mtu 64Kb action drop overhead 0b
#     ref 1 bind 1

# DSCP
iptables -t mangle -nL neutron-linuxbri-qos-o2e939f
Chain neutron-linuxbri-qos-o2e939f (1 references)
target prot opt source destination
DSCP all -- 0.0.0.0/0 0.0.0.0/0 DSCP set 0x10

使用

使用默认的policy.json时，仅仅管理员能够创建QoS策略。下面是个例子：

# 创建一个规则
openstack network qos policy create bw-limiter
# 设置出站带宽限制
openstack network qos rule create --type bandwidth-limit --max-kbps 3000
  --max-burst-kbits 2400 --egress bw-limiter


# 创建一个DSCP标记规则
openstack network qos policy create dscp-marking
# 设置DSCP值
openstack network qos rule create --type dscp-marking --dscp-mark 26 \
    dscp-marking

注意：对于OVS和Linux Bridge来说，QoS实现需要burst值才能确保正确的带宽限制行为。设置合理的burst值非常重要，如果仅设置bandwidth-limit，即使它的值是合理的，带宽也会被throttled。对于TCP流量来说，推荐burst为bandwidth-limit的80%，如果burst设置的过低，则实际获得的带宽可能小于预期。

为某个网络端口配置/解除QoS策略：

# 设置
openstack port set --qos-policy bw-limiter 88101e57-76fa-4d12-b0e0-4fc7634b874a
# 解除
openstack port unset --qos-policy 88101e57-76fa-4d12-b0e0-4fc7634b874a

# 创建端口时可以直接指定QoS策略
openstack port create --qos-policy bw-limiter --network private port1

你也可以将浮动IP、网络关联到QoS策略：

# 关联浮动IP到QoS策略
openstack floating ip create --qos-policy bw-limiter public
openstack floating ip set --qos-policy bw-limiter d0ed7491-3eb7-4c4f-a0f0-df04f10a067c
# 解除关联
openstack floating ip set --no-qos-policy d0ed7491-3eb7-4c4f-a0f0-df04f10a067c
openstack floating ip unset --qos-policy d0ed7491-3eb7-4c4f-a0f0-df04f10a067c
# 关联整个网络到QoS策略
openstack network set --qos-policy bw-limiter private

关联到浮动IP的QoS策略，将在浮动IP挂载到某个端口的时候生效。

每个项目可以配置一个默认QoS策略：

openstack network qos policy create --default bw-limiter

你可以在运行时动态修改QoS策略的规则，这些修改会传播到每个Attach到策略的端口：

# 修改规则
openstack network qos rule set --max-kbps 2000 --max-burst-kbits 1600 \
  --ingress bw-limiter 92ceb52f-170f-49d0-9528-976e2fee2d6f

诊断和调试

日志级别

要调整Nova日志级别，修改配置：

log_config_append=/etc/nova/logging.conf

在/etc/nova/logging.conf中配置日志级别：

[logger_nova]
level = INFO
handlers = stderr
qualname = nova

新特性

12.Queens

Cinder Multi-Attach

此功能使用户能够将单个块存储卷挂载到多个服务器，以及从多个服务器访问单个块存储卷。此功能的用例包括 active-active 和 hot-standby 场景——有多台服务器需要访问卷上的数据，以在出现故障时快速恢复或能够处理系统中增加的负载。在 Queens 发行版中，有三个驱动程序支持 multi-attach ：LVM、NetApp / SolidFire 和 Oracle ZFSSA

vGPU支持

在 Nova 中，对 vGPU 的支持让云管理员能够定义 flavor 以请求 vGPU 的特定资源和分辨率。最终用户可以启动具有 vGPU 的虚拟机，这对于图像密集型工作负载以及人工智能和机器学习工作负载来说是一项重要的功能

Cyborg

Cyborg是用于管理硬件和软件加速资源（如 GPU，FPGA，CryptoCards 和 DPDK/SPDK）的架构，对NFV工作负载的电信公司而言，加速是一项必备的功能。通过Cyborg，运维人员可以列出、识别和发现加速器，将加速器连接到实例并将其分离、安装和卸载驱动器。它可以单独使用，或与 Nova 或 Ironic 结合使用

Ironic 救援模式

之前在 Nova 中可以实现虚拟机实例修复，现在 Ironic 中可以实现裸机实例修复。运维人员可以对错误配置的裸机节点进行故障排除，或从诸如丢失的SSH密钥等问题中恢复

Kuryr CNI 守护进程

OpenStack是在私有云中部署容器的首选平台，Queens版本扩展了微服务功能。Kuryr 增加了一个 CNI 守护进程来增加 Kubernetes 操作的可扩展性。为了支持高可用（HA），CNI 守护进程能够监控 Pod 事件，不需要为每个事件等待 Kubernetes API。即便控制器宕机了，也可以创建 Pod。

Zun容器服务

Zun 是一个新的OpenStack 项目，它允许用户无需管理服务器或集群即可快速启动和运行容器。它通过与 Neutron，Cinder，Keystone 和其他核心 OpenStack 服务集成，无缝地将先进的企业网络、存储和身份验证功能添加到容器中

OpenStack-Helm

提供了一系列 Helm 图表和工具，用于在 Kubernetes之上管理 OpenStack的生命周期，并将 OpenStack 作为独立服务运行

LOCI

OCI 生成兼容 Open Container Initiative 的 OpenStack 服务镜像，可以放入像 OpenStack-Helm 这样的重量级部署工具，或者单独使用来交付像 Cinder 块存储这样的独立服务。 LOCI 提供了现有 OpenStack Kolla 项目的一种替代方案（为每个容器镜像提供一个更完整的打包方法）。LOCI 采取的方法更符合 Kubernetes 运行镜像的方式，其中容器本身非常小，管理位于容器外部

14.Stein

容器功能的强化

提供运行容器所需的裸机和网络功能：

OpenStack Magnum，经过认证的Kubernetes安装程序，显著提升了Kubernetes集群的启动时间—无论节点数量多少，每个节点从10-12分钟降至5分钟
通过OpenStack云供应商，您现在可以在Manila、Cinder和Keystone服务的支持下启动完全集成的Kubernetes集群，从而充分利用其底层的OpenStack云平台
Neutron，OpenStack网络服务，针对在组中创建端口的容器用例，更快速的创建批量端口
Ironic，裸机配置服务，持续改进部署模板，以便于独立用户请求分配裸机节点并提交配置数据，而不需要预先配置驱动器

网络功能强化

Neutron，网段范围管理，云管理员可通过新的扩展API动态管理网段范围，而不是采用之前编辑配置文件的方法。StarlingX和边缘用例将得益于此，更易于管理
对于网络密集型应用程序，拥有最小可用网络带宽至关重要。在Rocky周期中开始工作，提供基于最小带宽需求的调度，该功能已在Stein中交付。作为强化功能的一部分，Neutron将带宽视为一种资源，并与OpenStack Nova计算服务协作，将实例调度到满足其带宽需求的主机上
对API的改进增加了OpenStack体系结构和部署的灵活性，增加了对服务质量（QoS）策略规则aliases的支持，使调用者能够更高效地执行删除、显示和更新QoS规则等请求

增强资源管理

Blazar，资源预留服务，引进了新的资源分配API，运营商可查询其云计算资源的保留状态
Placement是引入Stein版本的一个新项目，是从Nova项目中分离出来的。可定位候选资源供应商，简化了为工作负载迁移指定主机的任务。对于常见的调度操作，API性能提升了50%。Train版本中将删除Nova中的Placement服务，其后安装Nova需要使用单独的Placement服务

15.Train

增强安全性

支持软件RAID：具有Ironic 裸机服务可保护服务免受磁盘故障的影响。欧洲核研究组织欧洲核子研究组织（CERN）领导了此功能的上游开发，并且已经将该功能在超过1000个节点上投入生产
基于硬件的加密：Nova 是OpenStack的计算功能，其新框架支持对guest存储器进行基于硬件的加密，以保护用户免遭攻击者或流氓管理员在使用libvirt计算驱动程序时窥探其工作负载。此功能对于多租户环境和具有可公开访问的硬件的环境很有用
数据保护流程：Karbor 为检查，还原，计划和触发操作添加了事件通知。此功能允许用户使用位于根磁盘上的新添加的数据备份映像引导服务器

16.Ussuri

要求CentOS 8

增强AI支持

完成了Nova Cyborg Interaction功能，使两者在某些方面进行紧密的联系，用于启动和管理具有GPU等加速器的实例

增强安全性

Nova API策略引入了具有scope_type功能的新默认角色
Ironic及其远程代理之间的交互身份验证得到了补充
Kolla 添加了对后端API服务的TLS加密的初始支持

优化用户体验

Glance 优化了对Multiple Strores的操作，单次操作，后台同步
Keystone对创建应用程序凭据和信任关系的用户体验进行了极大改善

Cinder增强

为volume-type设置最大和最小的Size
使用时间比较运算符过滤卷列表的能力
将卷上载到Image Service时，支持Glance multistore和镜像数据托管
添加了一些新的后端驱动程序，并且许多当前的驱动程序都增加了对更多功能的支持

Cyborg增强

随着Nova-Cyborg集成的完成，用户现在可以使用由Cyborg管理的加速器启动实例
实现了新的API，用以列出由Cyborg管理的设备，可以查看和管理加速器的列表
Cyborg通过在v2 API中采用microversions的模式，旨在将来版本中提供向后兼容的办法
Cyborg客户端现在基于OpenStack SDK，并支持大多数Version 2 API
通过增加更多的单元/功能测试并减少技术负担来提高总体质量

Glance增强

增强了Multiple Stores功能，用户现在可以向多个Stores导入单个镜像，在多个Stores中复制现有的imgae，并从单个Store中删除镜像
新导入了插件以解压镜像
再次为glance-store引入了S3 driver

Horizon增强

支持范围内省的规则，该规则允许每个节点子集具有（并保留）规则，例如不同的硬件交付
支持硬件退役工作流程，以实现托管云中硬件退役的自动化
非管理员使用Ironic可以使用多租户概念和其他策略选项
Ironic及其远程代理之间的交互身份验证得到了补充，从而可以在不受信任的网络上进行部署
UEFI和设备选择现在可用于软件RAID

Keystone增强

使用联合身份验证方法时，用于创建应用程序凭据和信任关系的用户体验已得到极大改善。角色分配来自映射的组成员身份的联盟用户将在令牌过期后将这些组成员身份保留为可配置的TTL，在此期间其应用程序凭证将保持有效
现在，可以通过在Keystone中直接创建联盟用户并将其链接到其身份提供者，而无需依赖于映射API，就可以为联盟用户指定具体的角色分配
当引导新的Keystone部署时，管理员角色现在默认设置为“ immutable”选项，这可以防止意外删除或修改它，除非有意删除了“ immutable”选项
Keystonemiddleware不再支持Identity v2.0 API，该身份在先前的发行周期中已从keystone中删除
恢复资源驱动程序的可配置性，因此，如果内置sql驱动程序不满足业务要求，现在可以创建自定义资源驱动程序

Kolla/容器化部署

所有镜像，脚本和Ansible剧本都使用Python 3，并且对Python 2的支持也已删除
添加了对CentOS 8主机和镜像的支持
添加了对后端API服务的TLS加密的初始支持，从而提供了API流量的端到端加密。目前支持Keystone
增加了对开放虚拟网络（OVN）部署以及与Neutron集成的支持
增加了对部署Zun CNI（容器网络接口）组件的支持，从而使带有容器的Docker可以支持Zun capsules(pods)
添加了对Elasticsearch Curator的支持，以帮助管理集群日志数据
添加了将Mellanox网络设备与Neutron一起使用所必需的组件
简化了外部Ceph集成的配置，可以轻松地从Ceph-Ansible部署的Ceph集群过渡到在OpenStack中启用它

Kuryr连接到容器网络

支持IPv6
DPDK支持嵌套设置以及其他各种与DPDK和SR-IOV相关功能的改进
与NetworkPolicy支持相关的多个修复程序

Manila共享文件系统

共享组已从试验性功能逐渐发展成熟。从API版本2.55开始，不再需要X-OpenStack-Manila-API-Experimental标头来创建/更新/删除共享组类型，组规范，组配额和共享组本身
兼容时，可以从跨存储池的快照创建共享。这项新功能可以通过分散先前局限于托管快照的后端的工作负载来更好地利用后端资源
引入了新的配额控制机制，以限制项目及其用户可创建的共享副本的数量和大小
现在可以按时间间隔查询异步用户消息

Neutron增强

OVN驱动程序现在已合并到Neutron存储库中，并且是核心 Neutron ML2 drivers之一，例如linuxbridge或openvswitch。与openvswitch驱动程序相比，OVN驱动程序的优点包括具有分布式SNAT流量的DVR，分布式DHCP以及无需网络节点即可运行的可能性。当然其他ML2驱动程序仍然受到完全支持。当前默认代理还是openvswitch，但计划是使用OVN驱动程序成为将来的默认选择
添加了对无状态安全组的支持。用户现在可以将安全组集创建为无状态，这意味着conntrack将不会用于该组中的任何规则。一个端口只能使用无状态或有状态安全组。在某些用例中，无状态安全组将允许操作员选择优化的数据路径性能，而有状态安全组会在系统上施加额外的处理
已添加用于地址范围和子网池的基于角色的访问控制（RBAC）。地址范围和子通常由运营商定义并向用户公开。此更改使操作员可以在地址范围和子网池上使用更精细的访问控制
Neutron API中添加了对创建过程中标记资源的支持。用户现在可以设置资源标签，例如直接在POST请求中移植端口。这将大大提高kubernetes网络操作的性能。API调用的数量，例如Kuryr已发送给Neutron的邮件大大减少

Nova增强

Nova不再支持Python 2，Python 3.6和3.7则受支持
支持在Nova cells间进行冷迁移和重新调整虚拟机大小
支持precaching glance image到计算节点
支持在创建虚拟机时通过Cyborg来附加加速设备
进一步支持QOS最小的带宽功能(拓展了以下操作evacuate、live migrate、unshelve)
支持nova-manage placement auditCLI，以查找和清理孤立的资源分配
Nova API策略引入了具有scope_type功能的新默认角色。这些新更改提高了安全级别和可管理性。在处理具有“读取”和“写入”角色的系统和项目级别令牌的访问权限方面，新策略更加丰富
从卷启动的虚拟机能够使用Rescue操作，允许将稳定的磁盘设备连接到救援实例
计算节点支持多种虚拟GPU类型
移除os-consoles和os-networksREST APIs
移除nova-dhcpbridge、nova-console、nova-xvpvncproxy服务

Octavia增强

Octavia提供负载均衡服务

Octavia现在支持在特定可用性区域中部署负载平衡器。这允许将负载平衡功能部署到边缘环境
Octavia amphora驱动程序已添加了一项技术预览功能，可以改善控制平面的弹性。如果控制平面主机在负载均衡器配置操作期间发生故障，备用控制器可以恢复进行中的配置并完成请求
用户现在可以指定侦听器和池可接受的TLS密码。这允许负载平衡器强制执行安全合规性要求

Placement增强

Placement 放置服务，通过使分配重试计数可配置，提高了常见的并发分配写入次数（例如繁忙的群集管理程序）情况下的鲁棒性

Swift增强

为Swift容器和对象添加了新的系统命名空间
使用新的名称空间添加了新的Swift对象版本API
添加了对使用新API的S3版本控制的支持
添加了使用SIGUSR1执行“无缝”重载的功能，其中WSGI服务器套接字从不停止接受连接

17.Victoria

Cinder增强

改进了对配置的默认卷类型的处理，并使用microversion 3.62添加了新的块存储API调用，可以为单个项目设置项目级别的默认卷类型
添加了一些新的后端驱动程序，同时当前的大部分驱动程序都添加了对更多功能的支持。例如，NFS驱动程序现在支持卷加密
使用流行的Zstandard压缩算法，增加了对cinder备份的支持

Cyborg增强

自Ussuri发行以来，用户可以使用由Cyborg管理的加速器启动实例，该发行版还支持两项操作Rebuild and Evacuate
Cyborg支持新的加速器驱动程序（Intel QAT和Inspur FPGA），并达成协议，希望实施新驱动程序的供应商至少应提供完整的驱动程序报告结果
支持Program API，现在，用户可以在给定预加载的bitstream的情况下对FPGA进行编程
在此版本中，部分实施了针对cyborg的策略刷新（带有作用域的RBAC）（设备配置文件API），我们在基本策略和device_profile策略中实现了新的默认规则，并为所有策略添加了基本测试框架。对于向后兼容性，将旧规则保留为不推荐使用的规则，并使用与当前相同的默认值，以便现有部署将保持原样运行。实施所有功能后，我们将为用户提供两个周期的过渡期

Glance增强

增强了多个商店功能，管理员现在可以设置策略以允许用户复制其他租户拥有的镜像
概览允许配置多cinder存储
一目了然的RBD和Filesystem驱动程序现在支持稀疏镜像上传
增强了RBD驱动程序块上传镜像

Ironic增强

部署步骤工作将基本部署操作分解为多个步骤，现在还可以包括部署时支持的RAID和BIOS接口的步骤
一个agent电源接口支持在没有基板管理控制器的情况下进行资源调配操作
现在可以将Ironic配置为进行HTTP Basic身份验证，而无需其他服务
添加了对Redfish虚拟介质的基于DHCP的部署的初始支持

Kolla增强

添加了对Ubuntu Focal 20.04的支持
添加了对后端API服务的TLS加密的附加支持，从而提供了API流量的端到端加密
增加了对核心OpenStack服务的容器健康检查的支持
添加了对etcd的TLS加密的支持
改善了Ansible Playbook的性能和可伸缩性
增加了对将Neutron与Mellanox InfiniBand集成的支持
为Kayobe添加了对在neutron上部署自定义容器的支持

Kuryr增强

Kuryr将不再使用注释在k8s api中存储关于OpenStack对象的数据。而是创建了一个相应的CRD，即KuryrPort、KuryrLoadBalancer和KuryrNetworkPolicy
增加了在嵌套设置中自动检测虚拟机桥接接口的支持

Manila增强

租户驱动的共享复制，数据保护，灾难恢复和高可用性的自助服务现已普遍可用并得到完全支持
共享服务器迁移现在作为一个实验性功能提供。共享服务器通过隔离网络路径中的共享文件系统来提供多租户保证。在这个版本中，云管理员能够将共享服务器移动到不同的后端或共享网络

Neutron增强

现在可以通过IPv6使用元数据服务。用户现在可以在仅IPv6的网络中使用不带配置驱动器的元数据服务。
flat已为分布式虚拟路由器（DVR）添加了对网络的支持。
OVN后端增加了对浮动IP端口转发的支持。现在，在Neutron中使用OVN后端时，用户可以为浮动IP创建端口转发。
在OVN中增加了对路由器可用区域的支持。OVN驱动程序现在可以从路由器的Availability_zone_hints字段中读取，并使用给定的可用区域相应地调度路由器端口

Nova增强

Nova支持在同一nova服务器中混合使用绑定和浮动CPU
Nova支持通过提供程序配置文件来自定义计算节点的放置资源清单
即使使用Glance多存储配置，Nova也支持从Ceph RBD群集快速克隆Glance镜像
Nova支持使用虚拟TPM设备创建服务器

Octavia增强

用户现在可以指定侦听器和池接受的TLS版本。用户现在还可以设置其部署可接受的最低TLS版本
Octavia现在使用新的侦听器应用程序层协议协商（ALPN）配置选项来支持TLS上的HTTP/2
现在可以将负载均衡器统计信息同时报告给多个统计信息驱动程序，并支持增量指标。这样可以更轻松地集成到外部度量系统中，例如时间序列数据库
用于amphora驱动程序的Octavia flavors现在支持将glance image标记指定为flavor的一部分。这允许用户定义Octavia flavor来引导备用的amphora镜像
负载平衡器池现在支持PROXY协议的版本2。使用TCP协议时，这允许将客户端信息传递到成员服务器。PROXYV2提高了使用PROXY协议与成员服务器建立新连接的性能，尤其是在侦听器使用IPv6的情况下

Swift增强

改进了读取纠错码数据时的第一字节延迟
当使用单独的复制网络运行时，后台守护程序和代理服务器之间的隔离度增加
我们开始看到生产集群从python2下运行Swift过渡到python3

常见问题

元数据相关

The remote metadata server responded with Forbidden

Neutron元数据代理日志（/var/log/neutron/metadata-agent.log）报错：The remote metadata server responded with Forbidden. This response usually occurs when shared secrets do not match.

可能原因：元数据代理配置文件metadata_agent.ini中的metadata_proxy_shared_secret和nova.conf中配置的不一样。

仪表盘相关

You have offline compression enabled but

报错示例：compressor.exceptions.OfflineGenerationError: You have offline compression enabled but key "xxx" is missing from offline manifest. You may need to run "python manage.py compress". Here is the original content

解决办法：

COMPRESS_OFFLINE = False

然后重启httpd

网络相关

pyroute2.netlink.exceptions.NetlinkError: (13, 'Permission denied')

禁用IPv6可以消除此错误：

net.ipv6.conf.all.disable_ipv6 = 1

linux-bridge从设计上禁用了IPv6，如果物理网卡上配置了IPv6地址，则neutron/root没有权限将IPv6地址从物理网卡移动到linux-bridge上。

尽管如此，linux-bridge仍然会将IPv6的L2帧转发，你仍然可以在客户机上使用IPv6。

实例的真实IP和Nova中的不一致

使用provider网络时，底层网络中存在DHCP服务器时出现此情况。实例向底层网络中的DHCP请求了IP地址，而非DHCP Agent。

建议：使用底层网络，但是分配独立的网段。

镜像相关

Image virtual size is 128GB and doesn't fit in a volume of size 12GB

需要修改镜像虚拟尺寸，首先检查一下镜像信息：

# 进入镜像存储目录
/var/lib/glance/images/


# 得到镜像ID
openstack image list
# | 379caead-7878-4d82-847d-502feea5b8ed | centos8-amd64-prepared | active |


# 查看镜像信息
qemu-img info 379caead-7878-4d82-847d-502feea5b8ed
# image: 379caead-7878-4d82-847d-502feea5b8ed
# file format: qcow2
# virtual size: 128 GiB (137438953472 bytes)  虚拟尺寸
# disk size: 1.42 GiB
# cluster_size: 65536
# Format specific information:
#     compat: 1.1
#     compression type: zlib
#     lazy refcounts: false
#     refcount bits: 16
#     corrupt: false

# 挂载到虚拟文件系统
export LIBGUESTFS_BACKEND=direct
virt-filesystems --long -h --all -a 379caead-7878-4d82-847d-502feea5b8ed
# Name       Type        VFS  Label  MBR  Size  Parent
# /dev/sda1  filesystem  xfs  -      -    128G  -
# /dev/sda1  partition   -    -      83   128G  /dev/sda
# /dev/sda   device      -    -      -    128G  
# 检查实际用量
virt-df  379caead-7878-4d82-847d-502feea5b8ed 
# Filesystem                           1K-blocks       Used  Available  Use%
# 379caead-7878-4d82-847d-502feea5b8ed:/dev/sda1
#                                      134206444    1678740  132527704    2%

可以看到这是一个128G的XFS分区，由于XFS分区不支持Shrink，我们可以考虑将其备份，然后还原到一个较小的卷上。

# 从上述镜像创建一个卷，附到/dev/vdb
openstack volume create --size 130 --image centos8-amd64-prepared centos8-amd64 
# 创建一个新的2GB的目标卷，附到/dev/vdc

# 挂载
mount -t xfs /dev/vdb1 /tmp/vdb1                                                                                                                                                      
# mount: /tmp/vdb1: wrong fs type, bad option, bad superblock on /dev/vdb1, 
# missing codepage or helper program, or other error.
# 上述报错的原因是 vda vdb的UUID重复
uuidgen
xfs_admin -U 9e58a8e1-6962-4342-af59-ba10c53626cc /dev/vdb1
mount -t xfs /dev/vdb1 /tmp/vdb1     

# 导出
xfsdump -l 0 -f vdb /dev/vdb1 

# 导入
mkfs.xfs /dev/vdc1
mount /dev/vdc1 /tmp/vdc1
xfsrestore -f vdb /tmp/vdc1

把这个2G的卷保存为镜像即可。

IOError: 32 Corrupt image download

镜像被外部程序修改，建议重新上传镜像。

Force upload to image is disabled, Force option will be ignored.

上传卷为镜像时报此错误：Invalid volume: Volume 8d2747cf-b50e-4d36-a90a-33dd7b56cad4 status must be available

解决方案，配置Cinder：

enable_force_upload = true

重启控制节点服务：

systemctl restart openstack-cinder-volume
systemctl restart openstack-cinder-api
systemctl restart openstack-cinder-scheduler

Glance metadata cannot be updated, key signature_verified exists for volume

从镜像创建卷失败，报如上错误。移除镜像的signature_verified属性即可解决：

openstack image unset --property signature_verified centos8-amd64-prepared

存储相关

Update driver status failed: (config name lvm) is uninitialized.

openstack volume service list

报告某些节点的cinder-volume处于down状态：

openstack volume service list 
# +------------------+---------------+------+---------+-------+----------------------------+
# | Binary           | Host          | Zone | Status  | State | Updated At                 |
# +------------------+---------------+------+---------+-------+----------------------------+
# | cinder-volume    | centos-11@lvm | nova | enabled | down  | 2021-01-14T10:44:12.000000 |
# | cinder-volume    | centos-13@lvm | nova | enabled | down  | 2021-01-14T10:44:26.000000 |
# | cinder-volume    | centos-12@lvm | nova | enabled | down  | 2021-01-14T10:44:23.000000 |
# | cinder-scheduler | centos-10     | nova | enabled | up    | 2021-01-16T10:14:23.000000 |
# +------------------+---------------+------+---------+-------+----------------------------+

查看对应节点的/var/log/cinder/volume.log，出现上述报错。

原因：LVM卷组cinder-volumes没有初始化。

快照相关

卡在error_deleting如何强制删除

首先重置状态：

cinder snapshot-reset-state --state error  7f5154ca-9413-4071-b99f-ec60626a9efe

然后登陆数据库删除记录：

use cinder;

update snapshots set deleted=1,status='deleted',deleted_at=now(),updated_at=now() where deleted=0 and id='7f5154ca-9413-4071-b99f-ec60626a9efe';

Flaver相关

设置Flaver限速导致新实例报错 Illegal "rate"

报错内容：libvirt.libvirtError: internal error: Child process (tc filter add dev tapaf7dae14-ef parent ffff: protocol all u32 match u32 0 0 police rate 10485760kbps burst 10485760kb mtu 64kb drop flowid :1) unexpected exit status 1: Illegal "rate"

可能原因：限速的值太大了。

环境变量相关

nova命令环境变量

export OS_USERNAME=admin
export OS_PASSWORD=111111
export OS_TENANT_NAME=admin
export OS_AUTH_URL=http://192.168.101.250:35357/v3
export OS_USER_DOMAIN_NAME=Default                                                                                                                                                  
export OS_PROJECT_DOMAIN_NAME=Default

openstack命令环境变量

如果遇到报错：

Ignoring domain related config project_domain_name because identity API version is 2.0

Expecting to find domain in project. The server could not comply with the request since it is either malformed or otherwise incorrect. The client is assumed to be in error. (HTTP 400) (Request-ID: req-047e4968-2c06-4501-8635-0dd27093d5d8)

需要增加环境变量：

export OS_IDENTITY_API_VERSION=3

The post OpenStack学习笔记 appeared first on 绿色记忆.

IaaS知识集锦

Alex — Wed, 01 Nov 2017 08:09:38 +0000

云的分类

公有云

公有云（Public Cloud）所有硬件、软件和其他支持性基础设施均为云提供商所拥有和管理。在公有云中，你与其他组织或云租户共享相同的硬件、存储和网络设备。

公有云的优势：

成本更低 — 无需购买硬件或软件，仅对使用的服务付费
无需维护 — 维护由服务提供商提供
近乎无限制的缩放性 — 提供按需资源，可满足业务需求
高可靠性 — 具备众多服务器，确保免受故障影响

私有云

私有云（Private Cloud）由专供一个企业或组织使用的云计算资源构成。私有云可在物理上位于组织的现场数据中心，也可由第三方服务提供商托管。但是，在私有云中，服务和基础设施始终在私有网络上进行维护，硬件和软件专供组织使用。这样，私有云可使组织更加方便地自定义资源，从而满足特定的 IT 需求。私有云的使用对象通常为政府机构、金融机构以及其他具备业务关键性运营且希望对环境拥有更大控制权的中型到大型组织。

私有云的优势：

灵活性更高 — 组织可自定义云环境以满足特定业务需求
安全性更高 — 资源不与其他组织共享，从而可实现更高控制性和安全性级别
缩放性更高 — 私有云仍然具有公有云的缩放性和效率

混合云

混合云（Hybrid Cloud）将本地基础设施或私有云与公有云相结合，组织可利用这两者的优势。在混合云中，数据和应用程序可在私有云和公有云之间移动，从而可提供更大灵活性和更多部署选项。例如，对于基于 Web 的电子邮件等大批量和低安全性需求可使用公有云，对于财务报表等敏感性和业务关键型运作可使用私有云（或其他本地基础设施）。在混合云中，还可选择“云爆发”。应用程序或资源在私有云中运行出现需求峰值（例如网络购物或报税等季节性事件）时可选择“云爆发”，此时组织可“冲破”至公有云以使用其他计算资源。

混合云的优势：

控制性 — 组织可针对敏感资产维持私有基础结构
灵活性 — 需要时可利用公有云中的其他资源
成本效益 — 具备扩展至公有云的能力，因此可仅在需要时支付额外的计算能力
容易轻松 — 无需费时费力即可转换至云，因为可根据时间按工作负荷逐步迁移

本地基础设施/私有云可以通过VPN或者专线连接到公有云。

专有云

云服务商提供的，针对每个用户进行资源完全物理隔离的云。

虚拟私有云

Virtual Private Cloud（VPC）是AWS 2009年提出的概念。它是一种运行在公有云上，将一部分公有云资源为某个用户隔离出来，给这个用户私有使用的资源的集合。

VPC硬件租用模式（Hardware Tenancy）有两种：

共享（shared）：VPC中的虚拟机运行在共享的硬件资源上，不同VPC中的虚拟机通过虚拟网络技术进行隔离
专属（dedicated）：VPC中的虚拟机运行在专属的硬件资源上。专属模式相当于用户直接向公有云服务商租用物理主机，适合那些对于数据安全比较敏感的用户

在VPC内，云服务提供商通常支持安全组、子网、ACL、路由表等网络资源。

专有网络

从技术角度来说，VPC的关键之处是用户专属的一个二层网络。

经典的公有云网络是多用户共享的二层网络，除非有特定的防火墙规则去限制，租户之间是可以通信的，很不安全。VPC解决了这种安全问题。

由于每个租户都需要独立的二层网络，构建这些虚拟二层网络的主要技术包括：

VLAN：支持4000个网络
VXLAN：支持1600万个网络

由于公有云租户数量极大，因此基于VLAN技术，只能多个租户共享单个二层网络，需要做好IP分配、防火墙规则问题。而使用VXLAN（2014年标准出来）则基本可以保证每个Region中每个租户都有独立网络，也不需要考虑IP重叠问题。

Overlay技术

VXLAN是一种Overlay技术，属于软件定义网络（SDN）的一种，租户原始的二层帧，并封装在IP报文中，发送到目的地后，解包还原。这意味着VPC内的主机所依托的物理主机可以不再二层网络中，可以在任意数据中心中分布。

VLAN这样的技术则做不到这一点。

The post IaaS知识集锦 appeared first on 绿色记忆.