Добавить
Уведомления

7 ML cases and one overlapping classes problem

00:00:01 Введение в разведочный анализ данных • Обсуждение семи методов оценки данных в медицине. • Классификация медицинских данных на три модальности: временные ряды, изображения и генетические данные. • Важность работы с научной литературой для понимания методов. 00:02:19 Начало работы с Python • Переход к работе с Python и семь кейсов задач. • Использование GitHub и Google Colab для демонстрации методов. 00:03:54 Кейс 1: Снижение размерности данных • Подготовка данных: 500 образцов с нормальным и равномерным распределением. • Преобразование данных в датафрейм и добавление шума. • Применение метода главных компонентов для снижения размерности. 00:09:38 Кейс 2: Классификация с поворотом данных • Генерация данных с поворотом на 45 градусов и растяжением. • Использование метода опорных векторов для классификации. • Успешное разделение данных на тестовой выборке. 00:11:50 Кейс 3: Восстановление данных после поворота • Применение метода главных компонентов для восстановления повернутых данных. • Сравнение методов PCA и ICA. • Метод ICA успешно восстанавливает данные после поворота и растяжения. 00:16:31 Кейс 4: Восстановление одинаковых преобразований • Генерация двух нормальных распределённых множеств с одинаковыми преобразованиями. • Попытка восстановления данных методом PCA. • Метод ICA успешно справляется с восстановлением одинаковых преобразований. 00:18:46 Кейс 5: Метод стохастичесикх соседей tSNE • Введение метода тахастических соседей и параметра перплексити. • Изменение представления данных в зависимости от параметра перплексити. • Данные сепарируются при увеличении параметра перплексити. 00:20:41 Кейс 6 • Обсуждение двух кейсов: обучение с учителем и обучение без учителя • Генерация датасета из 500 образцов с нормальным распределением. • Удаление лейбла для разделения датасета без учителя. 00:21:49 Метод DBSCAN • Использование метода диви скан для разделения датасета. • Метод хорошо справляется с задачей, но некоторые сэмплы на окраине не попадают в разделение. 00:23:14 Метод One-class SVM • Применение метода ванлав для определения аномалий. • Метод плохо справляется с задачей классификации. 00:24:09 Агломеративная кластеризация • Введение в агломеративную кластеризацию. • Применение разных методов кластеризации для расчёта метрик расстояния. • Метод эвридж показывает хорошие результаты, силуэт скор приближается к 80%. 00:25:47 Дендрограмма • Создание дендрограммы для визуализации кластеризации. • Объединение сэмплов в два больших класса. 00:26:51 Кейс 7: Задача с пересекающимися сэмплами • Усложнение задачи с использованием нормального и т-распределения. • Проблема пересечения классов в центре датасета. 00:28:18 Результаты методов для пересекающихся сэмплов • Метод диви скан не справляется с проблемой пересечения. • Метод ванлав хорошо работает с аномалиями, но не решает задачу классификации. • Агломеративная кластеризация также не справляется с проблемой. 00:29:39 Метод опорных векторов • Применение метода опорных векторов даёт низкую точность около 50%. 00:30:10 Объединение методов • Объединение метода опорных векторов и случайных ближайших соседей. • Точность приближается к 88%. • Преобразование датасета через метод случайных ближайших соседей улучшает распределение данных. 00:31:45 Заключение • Применение дополнительного метода дата сайнса позволяет достичь результата практически 88%. • Достижение высокого результата без использования сложных методов.

Иконка канала Bauman AI: math + ML
30 подписчиков
12+
6 просмотров
2 месяца назад
12+
6 просмотров
2 месяца назад

00:00:01 Введение в разведочный анализ данных • Обсуждение семи методов оценки данных в медицине. • Классификация медицинских данных на три модальности: временные ряды, изображения и генетические данные. • Важность работы с научной литературой для понимания методов. 00:02:19 Начало работы с Python • Переход к работе с Python и семь кейсов задач. • Использование GitHub и Google Colab для демонстрации методов. 00:03:54 Кейс 1: Снижение размерности данных • Подготовка данных: 500 образцов с нормальным и равномерным распределением. • Преобразование данных в датафрейм и добавление шума. • Применение метода главных компонентов для снижения размерности. 00:09:38 Кейс 2: Классификация с поворотом данных • Генерация данных с поворотом на 45 градусов и растяжением. • Использование метода опорных векторов для классификации. • Успешное разделение данных на тестовой выборке. 00:11:50 Кейс 3: Восстановление данных после поворота • Применение метода главных компонентов для восстановления повернутых данных. • Сравнение методов PCA и ICA. • Метод ICA успешно восстанавливает данные после поворота и растяжения. 00:16:31 Кейс 4: Восстановление одинаковых преобразований • Генерация двух нормальных распределённых множеств с одинаковыми преобразованиями. • Попытка восстановления данных методом PCA. • Метод ICA успешно справляется с восстановлением одинаковых преобразований. 00:18:46 Кейс 5: Метод стохастичесикх соседей tSNE • Введение метода тахастических соседей и параметра перплексити. • Изменение представления данных в зависимости от параметра перплексити. • Данные сепарируются при увеличении параметра перплексити. 00:20:41 Кейс 6 • Обсуждение двух кейсов: обучение с учителем и обучение без учителя • Генерация датасета из 500 образцов с нормальным распределением. • Удаление лейбла для разделения датасета без учителя. 00:21:49 Метод DBSCAN • Использование метода диви скан для разделения датасета. • Метод хорошо справляется с задачей, но некоторые сэмплы на окраине не попадают в разделение. 00:23:14 Метод One-class SVM • Применение метода ванлав для определения аномалий. • Метод плохо справляется с задачей классификации. 00:24:09 Агломеративная кластеризация • Введение в агломеративную кластеризацию. • Применение разных методов кластеризации для расчёта метрик расстояния. • Метод эвридж показывает хорошие результаты, силуэт скор приближается к 80%. 00:25:47 Дендрограмма • Создание дендрограммы для визуализации кластеризации. • Объединение сэмплов в два больших класса. 00:26:51 Кейс 7: Задача с пересекающимися сэмплами • Усложнение задачи с использованием нормального и т-распределения. • Проблема пересечения классов в центре датасета. 00:28:18 Результаты методов для пересекающихся сэмплов • Метод диви скан не справляется с проблемой пересечения. • Метод ванлав хорошо работает с аномалиями, но не решает задачу классификации. • Агломеративная кластеризация также не справляется с проблемой. 00:29:39 Метод опорных векторов • Применение метода опорных векторов даёт низкую точность около 50%. 00:30:10 Объединение методов • Объединение метода опорных векторов и случайных ближайших соседей. • Точность приближается к 88%. • Преобразование датасета через метод случайных ближайших соседей улучшает распределение данных. 00:31:45 Заключение • Применение дополнительного метода дата сайнса позволяет достичь результата практически 88%. • Достижение высокого результата без использования сложных методов.

, чтобы оставлять комментарии