Kubelet从入门到放弃：识透CPU管理

.container .card .information strong · · 765 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

<Kubelet从入门到放弃>系列将对Kubelet组件由基础知识到源码进行深入梳理。在这篇文章中zouyee会介绍CPU的相关概念以及Kubelet组件CPU Manager的源码。关于《Kubernetes调度框架系列》剩余的配置及源码部分，将陆续放出。

一、背景介绍

1.1 需求说明

默认情况下，kubelet 基于CFS 调度算法来执行 Pod 的 CPU 分配。 但是当节点上运行了 CPU 密集型 Pod 时，应用可能会因抢占等情况导致 CPU 切换，而上述的切换导致的延时与中断对于业务敏感性Pod是无法接受的。

为了解决上述问题。 Kubelet 提供了可选的 CPU 管理策略，以满足不同的业务场景。

以API形式向用户提供配置方案
同时支持多种CPU使用场景共存
CPU基于亲和性分配时，考虑设备拓扑

1.2 CPU架构

a. SMT

同时多线程Simultaneous multithreading，简称SMT,SMT可通过复制处理器上的结构状态，让同一个处理器上的多个线程同步执行并共享处理器的执行资源，可最大限度地实现宽发射、乱序的超标量处理，提高处理器运算部件的利用率，缓和由于数据相关或Cache未命中带来的访问内存延时。当没有多个线程可用时，SMT处理器几乎和传统的宽发射超标量处理器一样。多线程技术则可以为高速的运算核心准备更多的待处理数据，减少运算核心的闲置时间。 Intel的hyper-threading其实就是 two-thread SMT.

b. CMP

片上多处理器（Chip multiprocessors，简称CMP,其思想是将大规模并行处理器中的SMP（对称多处理器）集成到同一芯片内，各个处理器并行执行不同的进程。由于CMP结构已经被划分成多个处理器核来设计，每个核都比较简单，有利于优化设计。多核处理器可以在处理器内部共享缓存，提高缓存利用率，同时简化多处理器系统设计的复杂度。

c. SMP

对称多处理器（Symmetric Multi-Processors，简称SMP）,其是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。共享存储型多处理机有三种模型：均匀存储器存取（Uniform-Memory-Access，简称UMA）模型、非均匀存储器存取（Non-uniform Memory Access，简称NUMA）模型和只用高速缓存的存储器结构（Cache-Only Memory Architecture，简称COMA）模型，这些模型的区别在于存储器和外围资源如何共享或分布。

S2MP全称为可扩展共享存储多处理(Scalable Shared-Memory Multiprocessing)技术。S2MP系统将大量高性能微处理器连接起来，共享一个统一的地址空间，较好地解决其他并行处理系统无法解决的问题。
MMP也被称为海量并行处理架构。MPP提供了另外一种进行系统扩展的方式，它由多个SMP服务器通过一定的节点互联网络进行连接，协同工作，完成相同的任务，从用户的角度来看是一个服务器系统。

1.3 相关技术

在CPU管理中，涉及NUMA、HT及cpuset技术，以下为简要介绍。

NUMA

NUMA，以内存访问的不一致性为代价，减轻对总线和memory的带宽需求。这种结构对进程调度算法的要求较高，尽量减少跨Node的内存访问次数，以提升系统性能。Core之间会共享总线、内存等资源。如果Core的数量较少，则没什么问题，但随着Core的增多，对总线以及内存带宽的需求就会显著增大，最终总线和内存会成为系统性能的瓶颈。

如下图所示，一个NUMA Node包括一个或者多个Socket，以及与之相连的local memory。一个多核的Socket有多个Core。如果CPU支持HT，OS还会把这个Core看成 2个Logical Processor。

Socket是一个物理上的概念，指的是主板上的cpu插槽
Node是一个逻辑上的概念，上图中没有提及。由于SMP体系中各个CPU访问内存只能通过单一的通道，导致内存访问成为瓶颈，cpu再多也无用。后来引入了NUMA，通过划分node，每个node有本地RAM，这样node内访问RAM速度会非常快。但跨Node的RAM访问代价会相对高一点,我们用Node之间的距离（Distance，抽象的概念）来定义各个Node之间互访资源的开销。
Core就是一个物理cpu,一个独立的硬件执行单元，比如寄存器，计算单元等
Thread就是超线程（HyperThreading）的概念，是一个逻辑cpu，共享core上的执行单元

Hyperthreading 使操作系统认为处理器的核心数是实际核心数的2倍，超线程(hyper-threading)本质上就是CPU支持的同时多线程(simultaneous multi-threading)技术，简单理解就是对CPU的虚拟化，一颗物理CPU可以被操作系统当做多颗CPU来使用。Hyper-threading只是一种“欺骗”手段。

cpuset

cpuset作为cgroup的子系统，主要用于numa架构，用于设置cpu的亲和性，为 cgroup 中的 task 分配独立的 CPU和内存等。

cpuset使用sysfs提供用户态接口，可以通过普通文件读写，工作流程为：cpuset调用sched_setaffinity来设置进程的cpu、内存的亲和性，调用mbind和set_mempolicy来设置内存的亲和性。

1.4 数据说明

a. Numa Node

numactl是设定进程NUMA策略的命令行工具，也可以用来查看当前的Nuwa node:

[root@paasn2 ~]# numactl -H
available: 1 nodes (0)
node 0 cpus: 0 1 2 3 4 5 6 7
node 0 size: 16047 MB
node 0 free: 3693 MB
node distances:
node   0
  0:  10

从上面可以看出本机有一个Numa node(操作系统配置numa=on效果一样...)，如果要进一步知道一个Node包含哪几个CPU，该怎么办？

一种方法是通过查看ls /sys/devices/system/node/目录下的信息，例如：

[root@paasn2 ~]# ls /sys/devices/system/node/
has_cpu  has_normal_memory  node0  online  possible  power  uevent
[root@paasn2 ~]# ls /sys/devices/system/node/node0
compact    cpu0       cpu1       cpu2       cpu3       cpu4       cpu5       
cpu6       cpu7       cpulist    cpumap     distance   hugepages  
...

可见, node0包含0/1/2/3/4/5/6/7八个Processor。

b、查看Socket

一个Socket对应主板上的一个插槽，在本文中是指一个CPU封装。在/proc/cpuinfo中的physical id就是Socket的ID，可以从中找到本机到底有多少个Socket，并且每个Socket有那几个Processor。

1) 查看Socket数量

$ grep 'physical id' /proc/cpuinfo | awk -F: '{print $2 | "sort -un"}'
 0
 1
$ grep 'physical id' /proc/cpuinfo | awk -F: '{print $2 | "sort -un"}' | wc -l
2

2）查看每个Socket有几个Processor

$ grep 'physical id' /proc/cpuinfo | awk -F: '{print $2}' | sort | uniq -c
      4  0
      4  1

3) 查看Socket对应哪几个Processor

$ awk -F: '{ 
    if ($1 ~ /processor/) {
        gsub(/ /,"",$2);
        p_id=$2;
    } else if ($1 ~ /physical id/){
        gsub(/ /,"",$2);
        s_id=$2;
        arr[s_id]=arr[s_id] " " p_id
    }
} 

END{
    for (i in arr) 
        print arr[i];
}' /proc/cpuinfo | cut -c2-
0 1 2 3
4 5 6 7

4）Core

/proc/cpuinfo文件中的cpu cores表明一个socket中有几个cores，例如：

cat /proc/cpuinfo | grep 'core'  | sort -u
core id        : 0
core id        : 1
core id        : 2
core id        : 3
cpu cores    : 4

5) Logical Processor

查看Processors的个数就比较简单了，从上面的统计结果中我们已经可以知道有8个Logical processor，不过也可以直接从/proc/cpuinfo文件中获取：

$ grep 'processor' /proc/cpuinfo | wc -l
8

其实，每个socket中能有几个processor也可以从siblings字段中获取：

$ grep 'siblings' /proc/cpuinfo | sort -u
siblings    : 4

1.5 结构体

需要注意的是，Kubelet内部启动cadvisor Manager，封装cadvisor接口为cadvisor.Interface,其对外暴露MachineInfo() (*cadvisorapi.MachineInfo, error)方法，CPU manager通过cadvisor的MachineInfo结构体信息生产CPU 拓扑信息，具体实现为调用GetNodesInfo

https://github.com/google/cad...:6

三个关键的结构体定义如下：

https://github.com/google/cad...

type MachineInfo struct {
...
    // Machine Topology
    // Describes cpu/memory layout and hierarchy.
    Topology []Node `json:"topology"`
...
}

type Node struct {
    Id int `json:"node_id"`
    // Per-node memory
    Memory    uint64          `json:"memory"`
    HugePages []HugePagesInfo `json:"hugepages"`
    Cores     []Core          `json:"cores"`
    Caches    []Cache         `json:"caches"`
}

type Core struct {
    Id       int     `json:"core_id"`
    Threads  []int   `json:"thread_ids"`
    Caches   []Cache `json:"caches"`
    SocketID int     `json:"socket_id"`
}

说明如下：

Node对应NUMA节点，其中ID由/sys/devices/system/node/node$i中的$i获得
Core对应 Core,其中ID由/sys/devices/system/node/node$i/cpu$j/topology/core_id获得
Threads对应Logical Processor,其中ID由/sys/devices/system/node/node$i/cpu$j中的$j获得
SocketID对应Socket,其中ID由/sys/devices/system/node/node$i/cpu$j/topology/physical_package_id获得

二、功能介绍

注：其中涉及到的拓扑管理、设备管理等内容，后续有针对性文章进行介绍，此处带过。

CPU 管理器（CPU Manager）作为 alpha 特性引入 Kubernetes 1.8 版本，Kubernetes 1.12进入beta版本后，默认开启。CPU 管理策略通过 kubelet 参数 --cpu-manager-policy 来指定。支持两种策略：

none: 默认策略，保持现有的调度行为。
static: 节点上满足某些资源特征的 Pod 根据 CPU 亲和性和独占性进行分配。

CPU 管理器（即：通过goroutine方式执行reconcileState方法）定期通过 CRI（即containerRuntime）写入资源更新，以保证内存中 CPU 分配与 cgroupfs 一致(可参考第三节)。同步频率通过新增的 Kubelet 配置参数 --cpu-manager-reconcile-period 来设置。如果不指定，默认与 --node-status-update-frequency 的周期相同。关于CPU管理器需要注意以下几点：

像容器运行时和 kubelet 此类的系统服务可以继续在这些独占 CPU 上运行。独占性仅针对一般 Pod。
CPU 管理器不支持offline/online CPUs热更新。此外，如果节点上的 CPUs 发生变化，则必须驱逐 Pod，并通过删除 kubelet 配置的 cpu_manager_state 文件以重置 CPU 管理器。
当启用 static 策略时， kube-reserved 加上 system-reserved 或 reserved-cpus 设置的 CPU 值大于零。

当前支持以下两种策略：

a. none

none 策略显式地启用现有的默认 CPU 亲和方案。通过 CFS 配额来实现 Guaranteed pods的 CPU 使用限制。

b. static

static 策略针对具有整数型 CPU请求 的 Guaranteed Pod （后续文章介绍），它允许该类 Pod 中的容器独占 CPU 资源。其基于 cpuset cgroup 控制器 实现的

从1.17版本开始，CPU保留列表可以通过 kublet 的 --reserved-cpus参数设置, 并且--reserved-cpus 指定的CPU列表优先级高于--kube-reserved 和 --system-reserved 参数指定的保留CPU，若同时指定，将进行覆盖。

- `static`策略管理一个CPU共享资源池，起初，该资源池包含节点上所有的 CPU 资源。可用且独占的CPU 数量等于节点的 CPU总量减去通过 `reserved-cpus`或`--kube-reserved` 或 `--system-reserved` 命令行保留的 CPU（其实还有eviction资源，但当前不支持CPU类型，因此省略）。
- 通过这些参数预留的 CPU 是以整数方式，按物理内核 ID 升序从初始共享池获取的。 共享池是 `BestEffort` 和 `Burstable` pod 运行的CPU 集合。`Guaranteed` Pod 中的容器，如果声明了非整数值的 CPU `requests` ，也将运行在共享池的 CPU 上。只有 指定了正整数型的 CPU `requests` 的`Guaranteed` Pod ，才能独占 CPU 资源
- 当 `Guaranteed` Pod 调度到节点上时，如果其容器符合独占要求， 相应的CPU会从共享池中移除，并放置到容器的cpuset 中。 容器cgroup目录的 cpuset文件 中的 CPU 数量与 Pod 中指定的 CPU `limit` 相等。 这种分配增强了CPU亲和性，减少了CPU上下文切换。

因为其 requests 值与 limits相等，下述Pod属于Guaranteed QoS类型，且容器对 CPU 资源的限制值是正整数值。符合独占要求，因此该 nginx 容器独占2个CPU。

spec:
  containers:
  - name: nginx
    image: nginx
    resources:
      limits:
        memory: "200Mi"
        cpu: "2"
      requests:
        memory: "200Mi"
        cpu: "2"

点击查看全文

后续相关内容，请查看公众号：DCOS

四、参考资料

1、cpuset

2、cpu topology

3、cpu manager policy

有疑问加站长微信联系（非本文作者）

本文来自：Segmentfault

感谢作者：.container .card .information strong

查看原文：Kubelet从入门到放弃：识透CPU管理

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

765 次点击

加入收藏微博

收入我的专栏

上一篇：探索Golang协程实现——从v1.0开始

下一篇：go-zero解读与最佳实践（上）

线程

kubernetes

信息

nginx

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

Kubelet从入门到放弃：识透CPU管理

用户登录

今日阅读排行

一周阅读排行

关注我

Kubelet从入门到放弃：识透CPU管理

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏