Уменьшение размерности — важный метод упрощения сложных пространств данных. Это помогает уменьшить количество переменных или функций в наборе данных, упрощая визуализацию, понимание и работу с данными. Общие методы включают анализ главных компонентов (PCA) и t-распределенное стохастическое внедрение соседей (t-SNE). PCA работает путем преобразования данных в новую систему координат ортогональных главных компонентов. Он сохраняет компоненты, которые вносят наибольший вклад в дисперсию. t-SNE — это нелинейный метод, который встраивает многомерные данные в 2D или 3D-пространство. Снижение размерности обучения полезно для специалистов по данным, будь то в онлайн-режиме. Курс науки о данных или на работе. Это позволяет более простым способом исследовать закономерности в сложных данных.
Данные окружают нас повсюду, но по мере экспоненциального роста и сложности наборов данных анализ и понимание многомерных данных становится все труднее. Методы уменьшения размерности направлены на упрощение сложных пространств данных за счет уменьшения количества рассматриваемых случайных величин, при этом объясняя большую часть информации и закономерностей в данных. Это позволяет визуализировать и упростить интерпретацию базовой структуры сложных наборов данных.
В этом сообщении блога мы рассмотрим некоторые из наиболее популярных методов уменьшения размерности и то, как они работают. К концу вы должны иметь четкое представление об этих методах и о том, как их применять для упрощения сложных данных для визуализации, выбора функций и других задач машинного обучения.
Анализ главных компонентов (PCA)
PCA — один из наиболее широко используемых методов уменьшения размерности. Цель PCA — проецировать данные в пространство меньшей размерности таким образом, чтобы сохранить как можно большую изменчивость исходных многомерных данных.
PCA работает, находя направления максимальной дисперсии в многомерном пространстве и проецируя данные на пространство более низкой размерности, охватываемое этими направлениями. Эти направления называются главными компонентами. Первый главный компонент учитывает как можно большую изменчивость данных, а каждый последующий компонент учитывает как можно большую оставшуюся изменчивость.
Чтобы выполнить PCA, мы сначала вычисляем ковариационную матрицу стандартизированных входных переменных. Затем находим его собственные векторы и собственные значения. Собственные векторы, соответствующие наибольшим собственным значениям, являются главными компонентами – это направления максимальной дисперсии. Мы проецируем исходные данные на пространство меньшей размерности, определяемое верхними k главными компонентами, чтобы уменьшить размерность, сохраняя при этом как можно больше информации.
PCA — это неконтролируемый метод, то есть он находит внутренние структуры данных без использования каких-либо меток. Он очень эффективен для визуализации многомерных данных и обнаружения выбросов. Однако обнаруженные основные компоненты не обязательно могут соответствовать значимым концепциям реального мира.
Линейный дискриминантный анализ (LDA)
В то время как PCA находит направления максимальной дисперсии, LDA находит направления, которые лучше всего различают классы выборок. LDA стремится проецировать многомерные данные в пространство более низкой размерности, где дисперсия между классами максимальна, а дисперсия внутри класса минимизирована.
В LDA мы сначала вычисляем матрицы разброса внутри класса и между классами. Матрица разброса внутри классов измеряет степень распространения каждого класса, тогда как матрица разброса между классами измеряет разделение между средними классами. Затем LDA находит векторы (линейные дискриминанты), которые максимизируют соотношение разброса между классами и разброса внутри класса. Эти векторы определяют новое пространство признаков.
По сравнению с PCA, LDA — это контролируемый метод, который использует информацию метки класса для уменьшения размерности. Лучше всего это работает, когда классы хорошо разделены и линейно разделены. LDA обычно используется для задач классификации, таких как распознавание лиц, классификация текста и диагностика рака.
t-распределенное стохастическое вложение соседей (t-SNE)
Хотя PCA и LDA являются линейными методами, t-SNE — это мощный метод нелинейного уменьшения размерности, который очень эффективен для внедрения многомерных данных в 2D или 3D-пространство для визуализации.
t-SNE моделирует каждый многомерный объект с помощью двух- или трехмерной точки таким образом, что похожие объекты моделируются близлежащими точками, а разнородные объекты моделируются удаленными точками с высокой вероятностью. Он преобразует сходство между точками данных в совместные вероятности и пытается минимизировать расхождение Кульбака-Лейблера между совместными вероятностями низкоразмерного встраивания и многомерных данных.
t-SNE отлично подходит для визуализации сложных структур, таких как многообразия и кластеры различной плотности, присутствующих в многомерных данных. Он очень хорошо выявляет сложные нелинейные структуры в различных масштабах. Однако это недетерминированный метод, и результаты могут различаться в зависимости от прогона. Он также не сохраняет глобальную структуру так же, как линейные методы, такие как PCA.
Изометрическое картографирование объектов (ISOMAP)
ISOMAP предполагает, что реальные данные лежат на или рядом с нелинейным многообразием гораздо меньшей размерности, чем исходное наблюдаемое пространство. Сначала он строит граф окрестностей, соединяя каждую точку с ближайшими соседями. Затем он использует расстояния на графике вместо евклидовых расстояний для оценки геодезических расстояний между точками на многообразии.
Наконец, он применяет многомерное масштабирование (MDS) для встраивания точек в пространство более низкой размерности, пытаясь при этом максимально сохранить эти расчетные геодезические расстояния. ISOMAP может раскрыть внутреннюю геометрическую и топологическую структуру данных, лежащих на нелинейном многообразии или рядом с ним.
Он более надежен, чем линейные методы, такие как PCA, для многообразий с нелинейностями и складками. Однако он требует выбора количества соседей и может не работать должным образом, если многообразие плотно заполнено точками данных или имеет большую кривизну.
Автоэнкодеры
Автоэнкодеры — это неконтролируемые нейронные сети, которые обучаются эффективному кодированию данных без присмотра. Они включают в себя кодер, который отображает входные данные в скрытое пространство меньшей размерности, и декодер, который отображает скрытое пространство обратно в исходное пространство данных.
Кодер изучает сжатое представление входных данных меньшей размерности, а декодер учится генерировать выходные данные из этого представления, которые максимально близки к исходным входным данным. Обучаясь на ошибках реконструкции, автоэнкодеры изучают сжатое скрытое представление, которое фиксирует ключевые закономерности в данных.
Вариационные автоэнкодеры (VAE) представляют вероятностную структуру и регуляризацию скрытого пространства для изучения более структурированных скрытых представлений. Было показано, что они изучают значимые низкоразмерные вложения для изображений, текста и других сложных типов данных. Автоэнкодеры обеспечивают мощный подход глубокого обучения для нелинейного уменьшения размерности.
Заключение
В этом сообщении блога мы рассмотрели некоторые из наиболее популярных методов линейного и нелинейного уменьшения размерности, включая PCA, LDA, t-SNE, ISOMAP и автоэнкодеры. Каждый метод имеет свои сильные и слабые стороны в зависимости от структуры и свойств данных. Выбор правильного метода уменьшения размерности требует понимания характеристик и целей рассматриваемой проблемы. Снижение размерности — важный шаг для визуализации, интерпретации и построения моделей машинного обучения на сложных многомерных наборах данных.