Добавить
Уведомления

OSDEVCONF25: Внедрение QoS Infiniband во внутреннем облаке Яндекса. Роман Глебов

В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+. Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса. Роман Глебов, Яндекс OS DevConf'25: AI Hardware In A Nutshell RULKC: https://rulkc.org TG: https://t.me/linux_kernel_O

Иконка канала Russian Linux Kernel Community
29 подписчиков
12+
3 просмотра
18 часов назад
12+
3 просмотра
18 часов назад

В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+. Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса. Роман Глебов, Яндекс OS DevConf'25: AI Hardware In A Nutshell RULKC: https://rulkc.org TG: https://t.me/linux_kernel_O

, чтобы оставлять комментарии