Основные задачи EDA:
- Понимание структуры данных: определение типов данных, количество наблюдений, столбцов и проверка корректности форматов.
- Очистка данных: выявление и обработка пропущенных значений, дубликатов и явных ошибок в записях.
- Поиск аномалий и выбросов: обнаружение экстремальных значений, которые могут повлиять на результаты моделирования.
- Анализ распределений: изучение того, как часто встречаются те или иные значения признаков, визуализация.
- Выявление взаимосвязей: анализ корреляций между признаками, чтобы понять, как переменные влияют друг на друга.
- Генерация гипотез: формулирование предположений о причинах явлений в данных для их последующей проверки.
Результатом является подготовленный для моделирования набор данных и понимание того, какие признаки наиболее важны для построения точных моделей машинного обучения.