{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "e0e87887",
   "metadata": {},
   "source": [
    "Отзыв\n",
    "\n",
    "В ноутбуке решается задача кластеризации респондентов Kaggle Survey 2021 после снижения размерности признаков. Анализ включает ручной отбор 12 признаков, кодирование категориальных переменных, применение PCA и t-SNE, кластеризацию методом KMeans и визуальное сравнение полученных групп.\n",
    "\n",
    "Сильная сторона работы — понятный pipeline и попытка сравнить двумерные и трёхмерные представления данных. Автор корректно замечает, что 2 компоненты недостаточны для хорошего разделения объектов, и поэтому дополнительно рассматривает представление в 3D.\n",
    "\n",
    "Основной методический недостаток — использование LabelEncoder для всех категориальных признаков. Такое кодирование вводит искусственный порядок категорий и делает менее корректными как расстояния между объектами, так и применение PCA и KMeans. Для таких данных более уместны One-Hot Encoding + SVD/MCA.\n",
    "\n",
    "В целом ноутбук представляет собой хороший exploratory-анализ, но выбранная схема кодирования ограничивает корректность выводов о кластерной структуре данных."
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "plaintext"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
