Перейти к основному содержимому Перейти к дополнительному содержимому

Проверка и уточнение моделей

После завершения первой версии обучения модели проанализируйте полученные метрики модели и рекомендуемые модели. Если необходимо уточнить модель и сделать соответствующие изменения, можно запустить дополнительные версии через ручную оптимизацию моделей.

Когда запускается версия эксперимента, открывается вкладка Модели, где можно приступать к анализу результирующих метрик модели. Можно открыть Вид схемы и Вид данных, вернувшись на вкладку Данные. Более подробный анализ можно выполнять на вкладках Сравнение и Анализ.

Первая версия обучения завершается, когда все метрики внесены в таблицу Метрики модели и рядом с лучшей моделью появляется значок кубка Кубок.

Примечание к информацииQlik Predict постоянно совершенствует свои процессы обучения модели. Поэтому можно заметить, что метрики модели и другие сведения, приведенные на иллюстрациях на этой странице не совпадают с данными, отображаемыми при выполнении этих упражнений.

Анализ таблицы с метриками модели

Вернитесь на вкладку Модели. В разделе Метрики модели выделены модели, которые являются рекомендованными с учетом общих требований к качеству. Лучшая модель Кубок была выбрана для анализа автоматически.

По результатам обучения моделей в эксперименте предлагается три рекомендации. Одна модель может быть представлена сразу в нескольких рекомендациях. Рекомендуемые модели:

  • Кубок Лучшая модель: модель с оптимальным сочетанием метрик точности и скорости предсказания.

  • Цель Самая точная: модель, у которой самая высокая оценка в сбалансированной и исходной метриках точности.

  • Молния Самая быстрая модель: модель, у которой, помимо хороших метрик точности, самая высокая скорость прогнозирования.

Важно выбрать модель, которая лучше всего подходит для конкретной задачи. В большинстве случаев лучшая модель является наиболее подходящим вариантом. Тем не менее ваша конкретная задача может предъявлять особые требования к метрикам, имеющим отношение к скорости прогнозирования или точности.

Более подробное описание того, как определяются лучшие типы моделей, приводится в разделе Выбор оптимальной модели.

Таблица Метрики модели, в которой показаны рекомендованные модели и их метрики

Таблица «Метрики модели», в которой показаны рекомендованные модели и их ключевые метрики

Можно ограничить список с помощью выпадающих фильтров, расположенных над рекомендациями. Лучшие типы моделей автоматически пересчитываются при каждом изменении условий фильтра.

Для переключения между основными метриками используйте поле Показать метрику над таблицей. Модели можно сортировать по названию и выбранной анализируемой метрике.

Переобученные модели отмечены в таблице значком предупреждения Предупреждение. Эти модели не подходят для развертывания. Переобучение может возникнуть из-за сложности модели, вызванной обучающими алгоритмами, а также из-за проблем с обучающим набором данных. Для получения дополнительной информации см. раздел Переобучение.

Анализ информации в разделе Краткое описание обучения модели

Теперь можно перейти к информации, представленной в разделе Краткое описание обучения модели в правой части интерфейса. Эта информация позволяет понять, как модель и входные обучающие данные были оптимизированы для достижения наилучшей производительности. Краткое описание обучения модели – этот обобщенная информация об улучшениях, выполненным алгоритмом интеллектуальной оптимизации модели.

Из краткого описания, показанного на изображении, можно увидеть:

  • Признаки, которые были отброшены во время обучения и не были включены в модель.

  • Коэффициент использования выборки в модели составляет 100%.

Признак, отбрасываемый из-за утечки цели

Признак DaysSinceLastService был отброшен во время обучения из-за утечки цели.

В столбце этого признака во время сбора данных не была определена логика, которая останавливала бы подсчет дней после последнего запроса в службу поддержки для клиентов, отказавшихся от подписки. В результате модель научилась ассоциировать большое количество дней с момента получения последнего обращения в службу поддержки (даже для клиентов, которые отказались от услуг несколько лет назад) со значением yes в поле Churned.

Этот признак нужно было убрать из обучения, так как из-за него модель приводит к плохим результатам на новых данных.

Эта проблема представляет собой одну из форм утечки данных, а именно утечку цели. Для получения дополнительной информации об утечке данных см. Утечка данных.

Признак, отбрасываемый из-за высокой корреляции

Мы видим, что во время обучения были отброшены признаки PriorPeriodUsage-Rounded и AdditionalFeatureSpend.

В этом случае PriorPeriodUsage-Rounded — столбец признака, данные которого получены из другого столбца в наборе данных. С помощью AdditionalFeatureSpend были обнаружены проблемы, связанные с корреляцией.

Необходимо удалить признак, вызывающий корреляцию, чтобы качественно обучить модель.

Подробнее о корреляции см. Корреляция.

Признаки, отбрасываемые из-за низкой важности

Несколько признаков были отброшены из-за низкой важности перестановки. Предварительный анализ показал, что эти признаки почти не оказывают влияние на цель. Эти признаки можно рассматривать как статистический шум, поэтому они были удалены, чтобы повысить качество модели.

Для получения дополнительной информации о важности перестановки см. раздел Общие сведения о важности перестановки.

Краткое описание обучения модели

Обобщенная информация об обучении модели в эксперименте, показывающая, как модель была оптимизирована для достижения наилучшей производительности.

Анализ других визуализаций на вкладке Модели

На вкладке Модели доступны также другие визуализации, позволяющие выполнить дополнительный, более глубокий анализ. В таблице Метрики модели можно выбрать разные модели, чтобы исследовать уровень производительности в зависимости от признака, а также доступны другие диаграммы, по которым можно получить представление о качестве модели.

Вкладка Модели в эксперименте машинного обучения, содержащая дополнительные визуализации, доступные для анализа

Вкладка «Модели» в эксперименте машинного обучения, содержащая дополнительные визуализации, доступные для анализа

Сравнение метрик обучения и метрик на основе отложенных данных в разных моделях

Можно просмотреть дополнительные метрики и сравнивать метрики, сгенерированные в ходе обучения с использованием перекрестной проверки, с метриками, полученными на основе отложенных данных.

  1. В эксперименте перейдите на вкладку Сравнение.

    Откроется встроенный анализ. Можно использовать интерактивный интерфейс для более проведения более глубокого сравнительного анализа модели и получения новых наблюдений.

  2. На панели Листы, расположенной в левой части анализа, перейдите на лист Сведения.

  3. Посмотрите на визуализацию Метрики модели. В ней отображаются метрики для оценки модели, такие как F1, а также другие сведения.

  4. В разделе Столбцы для отображения добавьте или удалите столбцы в таблице, используя фильтр.

  5. В раскрывающемся списке добавьте дополнительные метрики. В таблицу можно добавить оценки обучения. Вы можете добавлять в зависимости от задач анализа.

Теперь отображаются метрики F1, сгенерированные в ходе обучения с использованием перекрестной проверки, которые можно сравнить с метриками, полученными на основе отложенных данных.

Добавление и просмотр оценок обучения для сравнения с оценками, полученными на основе отложенных данных

Просмотр оценок обучения и оценок, полученных на основе отложенных данных, с помощью вкладки «Сравнение» в эксперименте

Сосредоточение на конкретной модели

На любом этапе анализа модели можно выполнить подробный анализ отдельной модели. С помощью интерактивных функций можно исследовать метрики точности, важность признаков и распределение признаков.

  1. Выберите любую модель, затем выберите вкладку Анализ.

    Откроется встроенный анализ.

  2. На Обзор модели можно проанализировать точность прогнозов модели. Возможности анализа расширяются за счет выборок. Щелкните признак или спрогнозированное значение, чтобы создать выборку. Данные во встроенном анализе корректируется для фильтрации данных. Можно детализировать значения и диапазоны значений специфического признака и посмотреть, как меняется влияние признаков и точность прогноза.

  3. Переходя на другие листы, можно просматривать визуализации для точности прогноза, распределения признаков и распределения воздействия (SHAP). Это аналитическое содержимое помогает:

    • выявлять основные факторы, влияющие на тренды в данных;

    • идентифицировать, как определенные признаки и когорты влияют на спрогнозированные значения и точность прогнозов;

    • идентифицировать выбросы в данных.

Вкладка Анализ в эксперименте машинного обучения

Расширение анализа с помощью выборок на вкладке «Анализ»

Следующие шаги

После запуска версии эксперимента с интеллектуальной оптимизацией модели можно перейти к уточнению моделей в ручных версиях. Чтобы быстро создать новую ручную версию, вернитесь на вкладку Модели и нажмите кнопку Новая ручная версия в разделе Краткое описание обучения модели.

В реальной ситуации необходимо выполнять шаги уточнения перед развертыванием модели столько, сколько нужно для того, чтобы получить модель, наилучшим образом отвечающую конкретной задаче.

Подробнее об уточнении моделей см. Уточнение моделей.

Перейдите к следующему разделу данного учебного пособия, который посвящен развертыванию модели.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!