91精品国产色综合久久,91久久精品国产免费一区,国产91精品在线播放

亚洲视频二区_亚洲欧洲日本天天堂在线观看_日韩一区二区在线观看_中文字幕不卡一区

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.430618.com 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會員：747

tkestack/gpu-manager在k8s1.23版本之后的使用方法

發(fā)布時間：2024-03-09 00:04:28 作者：網(wǎng)友整理

異常

在1.25版本的k8s集群中部署gpu-manage時，雖然顯示gpu節(jié)點上gpu-manage的pod實例都是running狀態(tài)，但是給pod申領(lǐng)tencent.com/vcuda-memory資源時，卻始終找不到有資源的節(jié)點。
查看節(jié)點的詳情時，返回的allocatable字段中也沒有相關(guān)資源:

Allocatable:
  cpu:                       48
  ephemeral-storage:         48294789041
  hugepages-1Gi:             0
  hugepages-2Mi:             0
  memory:                    65291520Ki
  pods:                      110
System Info:
  Machine ID:                 50ca20960ea94552bd5ef84a20ce7e47

說明gpu-manager并沒有正確運行。

排查

查看任意gpu-manager的pod日志，可以看到如下異常信息：

rebuild ldcache
launch gpu manager
E0426 06:17:06.729262 2384 server.go:131] Unable to set Type=notify in systemd service file?
E0426 06:17:11.731947 2384 server.go:152] can't create container runtime manager: context deadline exceeded

說明gpu-manager和容器運行時接口通信失敗了。
查看異常信息指向的代碼：

...
	containerRuntimeManager, err := containerRuntime.NewContainerRuntimeManager(
		m.config.CgroupDriver, m.config.ContainerRuntimeEndpoint, m.config.RequestTimeout)
	if err != nil {
		klog.Errorf("can't create container runtime manager: %v", err)
		return err
	}
	klog.V(2).Infof("Container runtime manager is running")
...

可以看到是訪問m.config.ContainerRuntimeEndpoint超時，這個變量的默認值定義在cmd/manager/options/options.go

const (
	DefaultDriver                   = "nvidia"
	DefaultQueryPort                = 5678
	DefaultSamplePeriod             = 1
	DefaultVirtualManagerPath       = "/etc/gpu-manager/vm"
	DefaultAllocationCheckPeriod    = 30
	DefaultCheckpointPath           = "/etc/gpu-manager/checkpoint"
	DefaultContainerRuntimeEndpoint = "/var/run/dockershim.sock"
	DefaultCgroupDriver             = "cgroupfs"
)

可以看到這里用的運行時接口是/var/run/dockershim.sock，但是在k8s1.23版本之后，接口路徑已經(jīng)改為/var/run/cri-dockerd.sock，所以修改默認之后重新編譯即可。

編譯

使用make img既可以用源碼的Makefile自動編譯打包成新的鏡像，但是源碼的/home/zp/work/gpu-manager/build/Dockerfile中的git222不一定能裝上，可以改成git，另外有一些依賴需要國際上的支持。
編譯后的鏡像在1.25版本的k8s中可以正常使用。

分享到：

標(biāo)簽：gpu tkestack 使用方法服務(wù)器版本