Обзор методов классификации пересекающихся классов: Review overlay dataset classification problem
00:00:01 Введение в работу с данными • Применение инструментов контроля версий, таких как GitHub. 00:03:14 Проблемы с отображением ноутбуков на GitHub • Некоторые ноутбуки на GitHub не отображаются из-за проблем с отображением картинок. • Решение: вручную скачать ноутбук и загрузить его в среду работы, например, Google Colab. 00:05:00 Работа с Google Colab • Google Colab доступен бесплатно при наличии Google аккаунта. • Загрузка ноутбука в Colab и его исполнение. • Ячейки в ноутбуке содержат код и текстовые описания. 00:08:04 Исполнение кода в Colab • Исполнение кода в режиме интерпретатора. • Загрузка популярных библиотек: Pandas, NumPy, Matplotlib. • Генерация набора данных из 500 элементов с признаком цвета. 00:11:09 Обработка ошибок в коде • Colab подсвечивает ошибки в коде. • Пример исправления орфографической ошибки и ошибки несоответствия размера данных. 00:13:10 Визуализация данных • Визуализация датасета с помощью функции scatter из библиотеки Matplotlib. • Обнаружение перемежающихся классов данных. 00:15:46 Сведение визуальной задачи к математической • Представление данных в виде таблицы с координатами и классом. • Сведение задачи классификации к табличной форме. • Важность табличного представления для решения задач классификации. 00:18:04 Решение задачи с перемежающимися классами • Попытка решения сложной задачи с перемежающимися классами. • Подчёркивание важности табличного представления для классификации данных. 00:19:32 Упаковка данных в Python • Данные «икс», «игрек» и «ц» упакованы в три колонки с помощью процедуры в Python. • Первая колонка содержит вектор «икс», вторая — «игрек», третья — данные о цвете. 00:23:00 Стандартизация данных • Данные стандартизованы с помощью среднего квадратического отклонения. • Данные хорошо упаковываются в диапазон ±3 сигмы. 00:23:58 Применение математических методов обработки 00:32:41 Заключение • Четыре разных подхода к агломеративной кластеризации не дают успешного решения задачи. • Классический прямой подход не справляется с задачей разделения перемежающихся классов. 00:33:23 Метод опорных векторов • Метод опорных векторов пытается напрямую разделить точки на классы, но сталкивается с трудностями. • Попытка разделить данные пополам не даёт желаемого результата. 00:33:52 Комбинирование методов • Решение попробовать совместить метод опорных векторов с методом ближайших соседей. • Совмещение методов приводит к улучшению точности до 89%. 00:39:50 Точность алгоритма • Точность алгоритма рассчитывается путём деления данных на тренировочную и тестовую выборки. • Тренировочная выборка составляет 80% данных, тестовая — 20%. • Алгоритм обучается на 80% данных и проверяется на 20%. 00:43:09 Работа с данными в Google Colab • В Google Colab данные хранятся в среде исполнения Python-кода. • Данные можно сохранять на Google Drive или GitHub.
00:00:01 Введение в работу с данными • Применение инструментов контроля версий, таких как GitHub. 00:03:14 Проблемы с отображением ноутбуков на GitHub • Некоторые ноутбуки на GitHub не отображаются из-за проблем с отображением картинок. • Решение: вручную скачать ноутбук и загрузить его в среду работы, например, Google Colab. 00:05:00 Работа с Google Colab • Google Colab доступен бесплатно при наличии Google аккаунта. • Загрузка ноутбука в Colab и его исполнение. • Ячейки в ноутбуке содержат код и текстовые описания. 00:08:04 Исполнение кода в Colab • Исполнение кода в режиме интерпретатора. • Загрузка популярных библиотек: Pandas, NumPy, Matplotlib. • Генерация набора данных из 500 элементов с признаком цвета. 00:11:09 Обработка ошибок в коде • Colab подсвечивает ошибки в коде. • Пример исправления орфографической ошибки и ошибки несоответствия размера данных. 00:13:10 Визуализация данных • Визуализация датасета с помощью функции scatter из библиотеки Matplotlib. • Обнаружение перемежающихся классов данных. 00:15:46 Сведение визуальной задачи к математической • Представление данных в виде таблицы с координатами и классом. • Сведение задачи классификации к табличной форме. • Важность табличного представления для решения задач классификации. 00:18:04 Решение задачи с перемежающимися классами • Попытка решения сложной задачи с перемежающимися классами. • Подчёркивание важности табличного представления для классификации данных. 00:19:32 Упаковка данных в Python • Данные «икс», «игрек» и «ц» упакованы в три колонки с помощью процедуры в Python. • Первая колонка содержит вектор «икс», вторая — «игрек», третья — данные о цвете. 00:23:00 Стандартизация данных • Данные стандартизованы с помощью среднего квадратического отклонения. • Данные хорошо упаковываются в диапазон ±3 сигмы. 00:23:58 Применение математических методов обработки 00:32:41 Заключение • Четыре разных подхода к агломеративной кластеризации не дают успешного решения задачи. • Классический прямой подход не справляется с задачей разделения перемежающихся классов. 00:33:23 Метод опорных векторов • Метод опорных векторов пытается напрямую разделить точки на классы, но сталкивается с трудностями. • Попытка разделить данные пополам не даёт желаемого результата. 00:33:52 Комбинирование методов • Решение попробовать совместить метод опорных векторов с методом ближайших соседей. • Совмещение методов приводит к улучшению точности до 89%. 00:39:50 Точность алгоритма • Точность алгоритма рассчитывается путём деления данных на тренировочную и тестовую выборки. • Тренировочная выборка составляет 80% данных, тестовая — 20%. • Алгоритм обучается на 80% данных и проверяется на 20%. 00:43:09 Работа с данными в Google Colab • В Google Colab данные хранятся в среде исполнения Python-кода. • Данные можно сохранять на Google Drive или GitHub.
