/


Главная / Услуги и решения / Искусственный интеллект / Качество НСИ и транзакционных данных

Качество НСИ и транзакционных данных

Цель: Повысить качество данных до уровня, приемлемого для решения целевой задачи анализа.

Качество данных является одной из ключевых задач бизнес-аналитики. Аналитические решения, полученные на основе некачественных данных, могут:

  • оказаться далекими от действительности;
  • исказить истинную картину исследуемых бизнес-процессов;
  • показать ложные закономерности, тенденции и связи между объектами бизнеса.

Даже если каждая из систем, поставляющих данные для проекта, содержит лишь небольшой процент «плохих» данных, то при их объединении этот процент растет по экспоненциальному закону. Следствием этого может стать выработка неверных управленческих решений, которые нанесут ущерб бизнесу. Именно поэтому мониторингу качества данных и НСИ, а также их преобразованию с целью исключения факторов, снижающих качество данных, должно уделяться особое внимание.

Используемые технологии

Повышение качества данных осуществляется за счет:

  • стандартизации;
  • очистки и дедубликации.

Стандартизация информации представляет собой процесс приведения всех данных, содержащихся в справочниках и учетных системах, к единому формату. Процесс стандартизации данных обычно включает в себя следующие этапы:

  • аудит данных, оценка их стандартизации;
  • разработка/выбор методики стандартизации;
  • выполнение работ по стандартизации данных и классификации справочных данных.

Стандартизация данных и НСИ может быть востребована в случаях, когда внесение данных, формирование и ведение справочников осуществляется в отсутствие единых стандартов работы либо же с отклонениями от них. Еще один повод для стандартизации – создание единой базы данных, общего для всей организации «хранилища», вместо разрозненных таблиц и справочников, использующихся отдельными подразделениями.

Очистка производится с целью исключения факторов, снижающих качество данных и мешающих работе аналитических алгоритмов. Она включает обработку дубликатов, противоречий и фиктивных значений, восстановление и заполнение пропусков, сглаживание и очистку данных от шума, подавление и редактирование аномальных значений. Кроме этого, в процессе очистки восстанавливаются нарушения структуры, полноты и целостности данных НСИ.

Методики стандартизации данных:

  • строгие формальные правила;
  • контрольные числа;
  • регулярные выражения;
  • использование машинных словарей, классификаторов;
  • использование таблиц замены;
  • анализ строк (парсинг, расстояние Левенштейна, расстояние Дамерау-Левенштейна).

Типовые виды ошибок данных и НСИ:

  • противоречивость данных;
  • неполнота данных;
  • неправдоподобие данных; 
  • опечатки в данных;
  • несоответствие форматов данных;
  • дублирование данных; 
  • наличие записей с нестандартными наименованиями;
  • различия в формировании наименований и структуре справочников в информационных системах;
  • наличие неактуальных записей.

Особенностями очистки данных с целью дальнейшего прогнозирования спроса являются восстановление спроса и сглаживание аномалий, это достигается за счет:

  • Расчета уровня значимой продажи: максимальное значение первого квартиля в упорядоченной по возрастанию выборке дневных (недельных, месячных) продаж.
  • Восстановления спроса при отсутствии товара на складе и коррекции спроса при выявленном дефиците: средней продажей за аналогичный период, значимой продажей, нулевым значением.
  • Устранения аномальных всплесков при помощи: робастной фильтрации, трех сигм, превышение порогового значения вклада продаж товара в общую сумму. Значение, признанное аномальным, корректируется максимальной ближайшей достоверной продажей.
  • Сравнения остатков на складе с заданными значениями: нулевыми остатками, значимыми продажами, среднедневными продажами, минимальными продажами.

И другими методами в зависимости от цели анализа и входных данных.

Результат:

  • объединение данных из различных источников;
  • обеспечение полноты, достоверности и непротиворечивости сведений;
  • развертывание конвейера по автоматической загрузке и обработке данных из разных источников;
  • «обогащение» данных;
  • автоматизация до 90% объема обработки данных и НСИ;
  • стандартизация информационного взаимодействия между структурными подразделениями и функциональными службами;
  • централизация ответственности за качество данных и нормативно-справочной информации;
  • уменьшение количества ошибок, операционных издержек, снижение негативного влияния «человеческого фактора».

Отзывы клиентов

компании «Блеск»–Иван Никулин

Благодаря сотрудничеству с Softline у нас появилась возможность оценить преимущества решения, используя его в тестовом режиме на реальных данных. Первичная оценка показывает, что для работы с Forecast NOW! нам не потребуется привлекать большой штат программистов и аналитиков: бизнес-пользователи после первичной настройки программы могут использовать решение самостоятельно. У системы универсальная конфигурация, ее не нужно кастомизировать: дополнительные функции становятся доступны централизованно при очередном обновлении. Все это позволит нам обеспечить высокую результативность в процессе управления товарными запасами при оптимальных затратах ресурсов.