Разработка IT Архитектуры: Построение сервиса качества данных (Часть2/2)
Ключевые особенности построения системы обеспечения качества корпоративных данных
Низкое качество данных это дорого
Низкое качество данных стоит компаниям огромных сумм денег и приводит к сбоям в системе поставок, плохим бизнес решениям и ухудшению управления взаимоотношениями с клиентами. Дефектные данные также сводят на нет усилия по достижению регулирующих функций управления. Непоследовательные данные на различных уровнях организации, даже если отдельно качество данных высокое, вызывают дополнительные расходы, так как организационно данные должны мигрировать в централизованную систему.
Качество данных включает в себя не только обнаружение и устранение отсутствующих или не точных данных. Оно обеспечивает комплексный, последовательный, направленный на достижение результата подход к обеспечению универсальными и своевременных данными бизнеса, независимо от их применения, использования или происхождения.
Обеспечение качества данных является проблемой для большинства организаций, отчасти потому, что они не владеют в полной мере информацией о качестве своих собственных данных. Без этой информации невозможно полностью оценить негативное воздействие низкого качества информации, так же как и принять решение о методах его повышения. Во время движения информации низкого качества в рамках процессов предприятия количество проблем увеличивается, значительно увеличивается вероятность выполнения дублирующейся работы, объем которой может быть уменьшен, можно избежать скрытых издержек, несогласованности данных и получить целостное понимание проблем качества данных предприятия, которые могут быть устранены.
Важной частью процесса обеспечения качества данных является профилирование. Оно позволяет определить с каким набором данных предстоит работать, каким правилам эти данные подчиняются, какие преобразования над ними могут выполняться. Это позволит составить набор правил автоматической очистки данных.
Однако невозможно учесть все случаи и виды информации. Если для каких то данных не существует правил очистки, это не должно приводить к ухудшению общего качества, такие данные должны помещаться в специальную область для обработки вручную или с использованием иных продуктов.
Понимание информации через профилирование и анализ данных
Прежде чем приступать к улучшению качества данных, в целях повышения эффективности данного процесса, необходимо четко понимать объем работ, предстоящий для выполнения. Обычно предприятия имеют экспертов в департаментах, обладающих глубоким пониманием данных департамента. Ключ к успешному построению сервиса качества корпоративных данных заключается в использовании знаний этих специалистов в комплексе с целостным представлением о проблемах качества данных посредством сложного профилирования и анализа. Существуют специализированные программные комплексы, инструменты которых являются идеальным средством для достижения целостного понимания, так как они используют последовательный, повторяемый процесс и могут обнаружить несоответствия между несколькими источниками.
Различия в подходах к качеству данных в зависимости от уровня предприятия
Хотя нельзя отрицать преимущества тактических решений по улучшению качества в рамках одного приложения или в рамках одного бизнес-процесса, эти преимущества актуальны только для конечных потребителей данной системы. Вероятно, существуют аналогичные проблемы в других местах на предприятии. Во многих организациях, такие же или аналогичные проблемы решаются в различных системах одинаково, как правило, с определенными различиями и адаптацией, которые требуются, если данные из разных систем должны использоваться совместно. В масштабах всего предприятия подход, который рассматривает организационную, культурную, процессную и технологическую инфраструктуру может принести пользу всей организации, повысив рентабельность инвестиций в процесс.
Качество данных должно повышаться по мере движения информации вверх в рамках предприятия, однако существует риск того, что в перспективе процесс принятия решений может быть парализован различиями во мнениях по поводу права собственности на бизнес-процесс. Незначительные на первый взгляд различия между системами могут стать основным препятствием для развития сервиса обеспечения качества данных, инициатив и бизнес-правил на уровне всего предприятия. Преимущества сервиса обеспечения качества данных не могут быть реализованы если данный риск не признается и не принимаются меры по его снижению.
Невозможность обобщения
Риски, описанные выше, могут быть усилены, если усилия по реализации сервиса качества корпоративных данных фокусируются на слишком низком уровне детализации. Существующие системы неизбежно имеют различные модели данных. Тем не менее, схожие типы данных имеют схожие потребности к качеству данных, будь то данные номера детали, имя клиента, адрес или финансовая информация. Фокус в работе должен быть на общем, а не на частном.
Казалось бы, в связи с таким положением дел возникает необходимость для каждого источника данных с его моделью разрабатывать отдельный профиль, набор процессов очистки данных и т.п. Но это не верно, так как сами правила очистки данных не зависят от модели источника или приемника, они основаны на типе обрабатываемых данных. В связи с этим происходит существенное упрощение и ускорение разработки, остается только необходимость провести профилирование, выделить категории данных и создать правила очистки отсутствующих категорий данных.
При этом необходимо учитывать, что все системы развиваются, в них появляются как новые данные, так и новые категории данных. По этому процесс профилирования, создания правил очистки данных, непосредственно очистка должны производиться непрерывно под контролем ответственных за это лиц.
При этом для выполнения каждого действия из рисунка выше необходимо использовать специализированную среду единой интеграционной платформы, что позволит обеспечить высокую скорость разработки, возможность переиспользования уже разработанных алгоритмов и другие положительные эффекты.
Мои статьи:
1. Принципы построения модели данных
Семантика данных
Поддержание производительности