OSDEVCONF25: Внедрение QoS Infiniband во внутреннем облаке Яндекса. Роман Глебов
В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+. Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса. Роман Глебов, Яндекс OS DevConf'25: AI Hardware In A Nutshell RULKC: https://rulkc.org TG: https://t.me/linux_kernel_O
В докладе расскажем, как мы в Яндексе внедрили QoS в сетях Infiniband при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Разберём конфигурацию QoS и тестовый сетап GPU кластера Infiniband. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+. Подведем итоги, как мы сделали приоритизацию трафика различных обучений в кластере, фичей внутреннего облака Яндекса. Роман Глебов, Яндекс OS DevConf'25: AI Hardware In A Nutshell RULKC: https://rulkc.org TG: https://t.me/linux_kernel_O
