Базы знаний и домены DQS DQS Knowledge Bases and Domains. Время чтения: 21 мин. Соавторы. В этой статье ОБЛАСТЬ ПРИМЕНЕНИЯ ЭТОЙ СТАТЬИ: SQL Server (только Windows) База данных SQL Azure Хранилище данных SQL Azure Parallel Data Warehouse THIS TOPIC APPLIES TO: SQL Server (Windows only) Azure SQL Database Azure SQL Data Warehouse Parallel Data Warehouse В этом разделе описывается значение базы знаний в службах Data Quality Services Data Quality Services (DQS).
This topic describes what a knowledge base is in Data Quality Services Data Quality Services (DQS). Для очистки данных необходимо иметь знания об этих данных. To cleanse data, you have to have knowledge about the data. Чтобы подготовить знания для проекта качества данных, строится и ведется база знаний, которая используется DQS для выявления неверных или недопустимых данных.
15 миллионов email адресов, телефонов/факсов владельцев доменных имен. EPochta Whois Database - база данных более 15 миллионов доменных. Базы доменных имён: ДОМЕНЫ.AU ДОМЕНЫ.BIZ ДОМЕНЫ.CA ДОМЕНЫ.CN ДОМЕНЫ.CO ДОМЕНЫ.CO.UK ДОМЕНЫ.COM ДОМЕНЫ.DE ДОМЕНЫ.
To prepare knowledge for a data quality project, you build and maintain a knowledge base (KB) that DQS can use to identify incorrect or invalid data. DQS позволяет использовать автоматические и интерактивные процессы для создания, построения и обновления базы знаний. DQS enables you to use both computer-assisted and interactive processes to create, build, and update your knowledge base. Знания в базе знаний хранятся в доменах, каждый из которых относится к некоторому полю данных. Knowledge in a knowledge base is maintained in domains, each of which is specific to a data field. База знаний является репозиторием знаний о данных, который дает представление о данных и помогает поддерживать их целостность. The knowledge base is a repository of knowledge about your data that enables you to understand your data and maintain its integrity.
Базы знаний DQS дают следующие преимущества. DQS knowledge bases have the following benefits:.
Детальный процесс построения знаний о данных. Building knowledge about data is a detailed process. Автоматическое извлечение знаний о данных в DQS по выборке данных значительно упрощает процесс. The DQS process of extracting knowledge about data automatically, from sample data, makes the process much easier. DQS позволяет просматривать анализ данных и дополнять знания в базе знаний, создавая правила и изменяя значения данных. DQS enables you to see its analysis of the data, and to augment the knowledge in the knowledge base by creating rules and changing data values.
Это вы можете делать многократно, повышая качество знаний со временем. You can do so repeatedly to improve the knowledge over time. Вы можете использовать готовые знания о качестве данных, создав базу знаний на основе существующей базы, импортировав знания о доменах из файлов в базу знаний, а также путем импорта знаний из проекта обратно в базу знаний или путем использования базы знаний DQS по умолчанию, которая называется DQS Data.
You can leverage pre-existing data quality knowledge by basing a knowledge base on an existing KB, importing domain knowledge from files into the KB, importing knowledge from a project back into a KB, or using the DQS default KB, DQS Data. Качество данных вы можете обеспечить, сравнивая их с данными, которые предоставляются поставщиком эталонных данных. You can ensure the quality of your data by comparing it to the data maintained by a reference data provider. Процессы построения базы знаний и применения ее в процессе исправления данных четко различаются.
Это обеспечивает гибкость в построении и обновлении базы знаний. There is a clear separation between building a knowledge base and applying it in the data correction process, which gives you flexibility in how you build and update the knowledge base. Диспетчер данных использует приложение Клиент Data Quality Data Quality Client для выполнения автоматизированных действий и контроля над ними, а также для выполнения интерактивных шагов. The data steward uses the Клиент Data Quality Data Quality Client application both to execute and control the computer-assisted steps, and to perform the interactive steps. На следующем рисунке показаны различные компоненты в базе знаний и домене в DQS: The following illustration displays various components in a knowledge base and a domain in DQS: Создание и построение базы знаний DQS How to Create and Build a DQS Knowledge Base В построении базы знаний DQS участвуют следующие процессы и компоненты: Building a DQS knowledge base involves the following processes and components: Обнаружение набора знаний Knowledge Discovery Автоматический процесс, собирающий знания в базу знаний, обрабатывает выборку данных. A computer-assisted process that builds knowledge into a knowledge base by processing a data sample Управление доменами Domain Management Интерактивный процесс, позволяющий диспетчеру данных проверить и изменить знания, находящиеся в доменах базы знаний, каждый из которых связан с некоторым полем данных. An interactive process that enables the data steward to verify and modify the knowledge that is in knowledge base domains, each of which is associated with a data field.
К изменениям относится задание свойств, действующих в рамках поля, создание правил, изменение отдельных значений, использование служб эталонных данных и задание связей на основе терминов или связей между полями данных. This can include setting field-wide properties, creating rules, changing specific values, using reference data services, or setting up term-based or cross-field relationships. Службы эталонных данных Reference Data Services Процесс управления доменами, который позволяет проверить данные по данным, обслуживание и качество которых гарантируется поставщиком эталонных данных. A process of domain management that enables you to validate your data against data maintained and guaranteed by a reference data provider. Политика сопоставления Matching Policy Политика, которая определяет, как DQS обрабатывает записи, чтобы выявить потенциальные дубликаты и несовпадающие записи, и встроена в базу знаний в автоматическом и интерактивном процессе. A policy that defines how DQS processes records to identify potential duplicates and non-matches, built into the knowledge base in a computer-assisted and interactive process. Обнаружение набора знаний Knowledge Discovery Первоначально процесс создания базы знаний направляется компьютером.
Knowledge base creation is initially a computer-guided process. Операция обнаружения знаний выполняет построение базы знаний путем анализа выборки по критериям качества данных для выявления нарушений согласованности и синтаксических ошибок, а затем предлагает изменения в данных. The knowledge discovery activity builds the knowledge base by analyzing a sample of data for data quality criteria, looking for data inconsistencies and syntax errors, and proposing changes to the data. Этот анализ основан на алгоритмах, встроенных в DQS. This analysis is based on algorithms built into DQS. Диспетчер данных готовит процесс к обработке. Он связывает базу знаний с таблицей или представлением в базе данных SQL Server, где находится образец данных, схожий с тем, который будет базой знаний для анализа.
The data steward prepares the process by linking a knowledge base to a SQL Server database table or view that contains sample data similar to the data that the knowledge base will be used to analyze. Диспетчер данных сопоставляет домен базы знаний с каждым столбцом образца данных, который будет анализироваться. The data steward then maps a knowledge base domain to each column of sample data to be analyzed.
Домен может быть отдельным, который сопоставляется с отдельным полем, или составным, который состоит из нескольких отдельных доменов, каждый из которых сопоставлен с частью данных в отдельном поле (см. Далее подраздел «Составные домены»). A domain can either be a single domain that is mapped to a single field, or it can be a composite domain that consists of multiple single domains each of which is mapped to part of the data in a single field (see “Composite Domains” below). Когда запускается обнаружение знаний, службы DQS извлекают из образца данных сведения о данных и помещают их в домены в базе знаний.
When you run knowledge discovery, DQS extracts data quality information from the sample data into domains in the knowledge base. После анализа обнаружения знаний создается база знаний, с помощью которых вы можете выполнять исправление данных. When you have run the knowledge discovery analysis, you will have a knowledge base that you can perform data correction with.
База знаний DQS является расширяемой. The DQS knowledge base is extensible. В рамках операции обнаружения знаний можно интерактивно добавлять знания в базу знаний после автоматического анализа обнаружения знаний.
From within the Knowledge Discovery activity, you can interactively add knowledge to the knowledge base after the computer-assisted knowledge discovery analysis. Вы можете вручную добавлять изменения в значениях и импортировать значения доменов из файла Excel. You can manually add value changes and you can import domain values from an Excel file.
Кроме того, можно выполнять процесс обнаружения знаний позднее, когда изменятся данные примеров. In addition, you can run the knowledge discovery process again at a later point if the data in the sample has changed. Вы можете применять дополнительные знания в рамках операции управления доменами и операции сопоставления данных (см. You can apply more knowledge from within the Domain Management activity and from within the Data Matching activity (see below).
Процесс обнаружения набора знаний не обязательно выполнять на тех же данных, где будут вноситься исправления. The knowledge discovery process need not be performed on the same data that data correction is performed on. Службы DQS обеспечивают гибкие возможности создания набора знаний из одного набора полей базы данных и применения этих знаний ко второму набору соответствующих данных, которые должны быть очищены. DQS provides the flexibility to create knowledge from one set of database fields and apply it to a second set of related data that needs to be cleansed. Диспетчер данных может создать новую базу знаний с нуля или на основе существующей базы знаний, а также импортировать базу из файла данных. The data steward can create a new knowledge base from scratch, base it on an existing knowledge base, or import a knowledge base from a data file. Вы можете повторно выполнить обнаружение знаний в существующей базе знаний.
You can also re-run knowledge discovery on an existing knowledge base. Вы можете вести несколько баз знаний на одном сервере Сервер DQS Data Quality Server. You can maintain multiple knowledge bases on a single Сервер DQS Data Quality Server. К одной базе знаний можно подключить несколько экземпляров приложения.
You can also connect multiple instances of an application to the same knowledge base. Службы DQS предотвращают конфликты параллелизма, блокируя базы знаний для пользователя, который открывает сеанс управления знаниями в базе знаний. DQS prevents concurrency conflicts by locking the knowledge base to a user who opens it in a knowledge management session.
Учет регистра в DQS Case Insensitivity in DQS В DQS не учитывается регистр значений. Values in DQS are case-insensitive. Это значит, что, когда DQS выполняет обнаружение знаний, управление доменами или сопоставление, значения не различаются по регистру.
That means that when DQS performs knowledge discovery, domain management, or matching, it does not distinguish values by case. Если в рамках управления значениями добавляется значение, которое отличается от другого значения только регистром, то они будут считаться одним значением, а не синонимами. If you add a value in value management that differs from another value only by case, they will be considered the same value, not synonyms. Если два значения, которые различаются только регистром, сравниваются в процессе сопоставления, то они будут считаться точным совпадением. If two values that differ only by case are compared in the matching process, they will be considered an exact match.
Однако регистр значений вы можете учитывать при экспорте результатов очистки. You can, however, control the case of values that you export in cleansing results. Для этого задайте свойство домена Формат вывода (см. Раздел ) и установите флажок. Стандартизовать вывод. при экспорте результатов очистки (см. You do so by setting the Format Output to domain property (see ) and by using the Standardize Output check box when you export cleansing results (see ).
Управление доменами Domain Management Управление доменами позволяет диспетчеру данных интерактивно изменять и дополнять метаданные, создаваемые в рамках автоматической операции обнаружения знаний. Domain management enables the data steward to interactively change and augment the metadata that is generated by the computer-assisted knowledge discovery activity.
Каждое вносимое изменение относится к домену базы знаний. Each change that you make is for a knowledge-base domain.
В операции управления доменами вы можете выполнять следующие действия. In the domain management activity, you can do the following:. Создание нового домена. Create a new domain. Новый домен может быть связан с существующим доменом или скопирован из него. The new domain can be linked to or copied from an existing domain.
Задание свойств домена, относящихся к каждому термину в домене. Set domain properties that apply to each term in the domain. Применение правил домена, выполняющих проверку или стандартизацию для определенного диапазона значений. Apply domain rules that perform validation or standardization for a range of values that you define. Интерактивное применение изменений к отдельному значению данных в домене.
Interactively apply changes to any specific data value in the domain. Использование проверки орфографии DQS для проверки синтаксиса, орфографии и структуры предложений в строковых значениях. Use the DQS Speller to check the syntax, spelling, and sentence structure of string values.
Импорт домена из DQS-файла данных или значений домена из файла Microsoft Excel. Import a domain from a.dqs data file or domain values from a Microsoft Excel file. Импорт значений, обнаруженных в процессе очистки в проекте качества данных, обратно в базу знаний. Import values that have been found by a cleansing process in a data quality project back into a knowledge base. Присоединение домена к эталонным данным, которые предоставляются поставщиком эталонных данных с последующим сравнением значений домена с эталонными данными для определения их целостности и правильности. Attach a domain to the reference data maintained by a reference data provider, with the result that the domain values are compared to the reference data to determine their integrity and correctness. Также вы можете задать параметры поставщика данных.
You can also set data provider settings. Применение связей на основе терминов для отдельного домена.
Apply term-based relations for a single domain. Когда операция управления доменами завершается, вы можете опубликовать базу знаний для использования в проекте данных.
When the domain management activity is completed, you can publish the knowledge base for use in a data project. Задание свойств домена Setting Domain Properties Свойства домена определяют и направляют обработку, которая применяется к связанным значениям. Domain properties define and drive the processing that will be applied to the associated values. Вы можете задать тип данных и язык для значений, указать, что исходные данные будут удаляться с ведущим значением (если этот флажок не установлен, исходные данные будут удалены с правильным термином, но не с ведущим значением), обеспечить стандартизацию данных, настроив форматирование, которое применяется при выдаче данных в домене, и определить, какие алгоритмы (проверки синтаксических ошибок, правописания и нормализации строк) будут применяться. You can set the data type and language of the values, specify that the source data will be cleansed with the leading value (if this option is unchecked, the source data will be cleansed with the correct term but not with the leading value), ensure data standardization by configuring the formatting that will be applied when the data values in the domain are output, and define which algorithms (syntax error, speller, and string normalization) will be applied. Службы эталонных данных Reference Data Services В процессе управления доменами вы можете присоединить к домену эталонные данные из сети. In the domain management process, you can attach online reference data to a domain.
Таким образом данные в домене сравниваются с данными, которые предоставляются поставщиком эталонных данных. This is how you compare the data in your domain to the data maintained by a reference data provider. Сначала необходимо настроить поставщик эталонных данных с помощью средств настройки DQS в разделе Администрирование приложения Клиент Data Quality Data Quality Client. You must first configure the reference data provider through the DQS configuration capabilities in the Administration section of the Клиент Data Quality Data Quality Client application. Дополнительные сведения см. For more information, see. Применение правил домена Applying Domain Rules Вы можете создать правила домена для проверки данных.
You can create domain rules for data validation. Правило проверки домена обеспечивает точность данных, от простых ограничений, например ограничения возможных терминов, которые может содержать строковое значение, до более сложных регулярных выражений, например задания допустимых форматов адреса электронной почты. A domain rule ensures the accuracy of data, ranging from a basic constraint, such as the possible terms that a string value can be, to a more complex regular expression, such as the valid forms of an email address. Для составного домена вы можете создать правило CD, которое задает связь между значением в одном домене, входящем в составной домен, и значением в другом домене, входящем в этот же составной домен. For a composite domain, you can create a CD rule that specifies a relation between a value in one single domain and a value in another single domain, both of which are parts of a composite domain. Задание значений домена Setting Domain Values После построения базы знаний вы можете заполнить и отобразить значения данных в каждом домене базы знаний. After you have built a knowledge base, you can populate and display data values in each domain of the knowledge base.
После обнаружения знаний DQS показывает, сколько раз встречается каждый термин, какое состояние он имеет и какие предлагаются исправления. After knowledge discovery, DQS will show how many times each term appears, what the status of each term is, and any corrections that it proposes. Этими знаниями вы можете управлять следующим образом. You can manage this knowledge as follows:.
Изменять состояние значения: правильное, ошибочное, недопустимое. Change the status of a value, making it correct, in error, or not valid. Добавлять определенное значение в базу знаний или удалять из базы определенное значение. Add a specific value to, or delete a specific value from, the knowledge base. Изменить связь между двумя значениями, в том числе назначать замену для ошибочного или недопустимого термина.
Change the relation of one value to another value, including designating a replacement for a term that is in error or not valid. Добавлять, удалять и изменять знания, связанные с доменом. Add, remove, or change knowledge associated to the domain. Значения могут явно создаваться пользователем или создаваться в рамках обнаружения данных или процесса импорта.
Values can be created specifically by the user or as part of data discovery or import functionalities. Это позволяет выстроить домен в соответствии с задачами бизнеса и делает его легко расширяемым.
This enables you to align the domain to the business and makes it easily extensible. Значения домена вы можете задавать в рамках операции управления доменами или на шаге «Управление значениями домена» в конце операции обнаружения знаний. You can set domain values either in the domain management activity, or in the Manage Domain Values step at the end of the knowledge discovery activity. Функции значений домена одинаковы в обеих операциях. The domain-value functionality is the same in both activities. Задание связей терминов Setting Term Relations В рамках управления доменами вы можете указать связь терминов для одного домена, задав изменение для единичного значения. In domain management, you can specify a term-based relation for a single domain, specifying a change to a single value.
Составные домены Composite Domains Составной домен — это структура, состоящая из нескольких доменов, каждый из которых содержит знания об общих данных. A composite domain is a structure comprised of two or more single domains that each contain knowledge about common data. Примерами данных, с которыми можно работать посредством составных доменов, являются имя, отчество и фамилия в поле имени, а также номер дома, улица, город, регион, почтовый индекс и страна в поле адреса. Examples of data that can be addressed by composite domains are the first, middle, and family names in a name field, and the house number and street, city, state, postal code, and country in an address field. Когда с составным доменом сопоставляется отдельное поле, DQS выполняет синтаксический анализ данных из одного поля для нескольких доменов, образующих составной.
When you map a single field to a composite domain, DQS parses the data from the one field into the multiple domains that make up the composite. Иногда один домен не полностью представляет данные поля. Sometimes a single domain does not represent field data in full. Группирование нескольких доменов в составной может позволить эффективно представить данные.
Grouping two or more domains in a composite domain can enable you to represent the data in an efficient way. Далее представлены преимущества составных доменов. The following are advantages of using composite domains:. Анализ различных доменов, образующих составной, может быть более эффективным способом оценки качества данных. Analyzing the different single domains that make up a composite domain can be a more effective way of assessing data quality.
При использовании составного домена вы можете создавать междоменные правила, которые позволяют проверить пригодность связей между данными в нескольких доменах. When you use a composite domain, you can also create cross-domain rules that enable you to verify that the relationship between the data in multiple domains is appropriate. Например, вы можете проверить, соответствует ли строка «Лондон» в домене города строке «Англия» в домене страны.
For example, you can verify that the string “London” in a city domain corresponds to the string “England” in a country domain. Заметьте, что междоменные правила учитываются после правил домена. Note that cross-domain rules are taken into consideration after domain rules. Данные в составных доменах можно присоединить к источнику эталонных данных. В этом случае составной домен отправляется поставщику эталонных данных.
Data in composite domains can be attached to a reference data source, in which case the composite domain will be sent to the reference data provider. Так часто поступают с адресными данными. This is often done with address data. Порядок синтаксического анализа данных, представленных в составном домене, определяется свойствами составного домена. How the data represented by a composite domain is parsed is determined by the composite domain properties. Данные могут быть проанализированы по разделителю, порядку доменов или на основании сведений в доменах, прикрепленных к составному домену (установив флажок Использовать анализ на основе сведений в составном домене).
The data can be parsed by a delimiter, by the order of the domains, or based on the knowledge in the domains attached to the composite domain (by selecting the Use Knowledge Based Parsing property in the composite domain). Дополнительные сведения см. For more information, see. Управление составными доменами ведется иначе, чем отдельными доменами. Composite domains are managed differently than single domains. Управление значениями в составном домене невозможно.
Оно ведется в отдельных доменах, образующих составной. You do not manage values in a composite domain; you do so for the single domains that comprise the composite domain. Однако в списке доменов в операции управления доменами отображаются связи между различными значениями в составном домене и относящаяся к ним статистика.
However, from the domain list in the Domain Management activity, you can see the relationships between the different values in a composite domain, and the statistics that apply to them. Например, вы можете просмотреть, сколько существует экземпляров одного адреса, состоящего из пяти заданных строковых значений.
For example, you can see how many instances there are of a single address composed of the same five string values. На шаге обнаружения в операции обнаружения знаний выполняется профилирование отдельных доменов, входящих в составной, а не самого составного домена. In the Discover step of the Knowledge Discovery activity, profiling is performed on the single domains within a composite domain, not on the composite domain. Однако в рамках интерактивной очистки выполняется очистка данных в составном домене, а не отдельных доменах. However, in interactive cleansing, you cleanse data in the composite domain, not the single domains. Сопоставление может выполняться в отдельных доменах, образующих составной, но не в самом составном домене. Matching can be performed on the single domains that comprise the composite domain, but not on the composite domain itself.
Сопоставление данных Data Matching Помимо внесения изменений в базу знаний вручную посредством управления доменами, вы можете добавить в базу знаний знания о сопоставлении. In addition to making manual changes to a knowledge base through domain management, you can add matching knowledge to a knowledge base. Чтобы подготовить DQS к процессу исключения дубликатов, необходимо создать политику сопоставления, которая будет использоваться DQS для вычисления вероятности совпадения.
To prepare DQS for the data deduplication process, you must create a matching policy that DQS will use to calculate the probability of a match. Эта политика включает одно или несколько правил сопоставления, которые создаются диспетчером данных для определения порядка выполняемого DQS сравнения строк данных. The policy includes one or more matching rules that the data steward creates to identify how DQS should compare rows of data. Диспетчер данных определяет, какие поля данных в строке подлежат сравнению и какой вес имеет каждое поле в сравнении.
The data steward determines which data fields in the row should be compared, and how much weight each field should have in the comparison. Диспетчер данных также определяет, насколько высока должна быть вероятность для признания совпадения. The data steward also will determine how high the probability should be to be considered a match. DQS добавляет правила сопоставления в базу знаний для использования в операции сопоставления в проекте качества данных. DQS adds the matching rules to the knowledge base for use in performing the matching activity in the data quality project.
Дополнительные сведения о базе знаний и сопоставлении данных см. For more information about the knowledge base and data matching, see. В этом разделе In This Section В базе знаний и ее доменах вы можете выполнять следующие операции: You can perform the following operations on a knowledge base and its domains: Создавать и открывать базу знаний, добавлять в нее знания и выполнять обнаружение. Create, open, add knowledge to, and perform discovery on a knowledge base Выполнять операции импорта и экспорта с доменами и базами знаний. Perform import and export operations on domains and knowledge bases Создавать отдельные домены, правила домена, связи терминов и изменять значения домена. Create a single domain, a domain rule, term-based relations, and change domain values Создавать составные домены, междоменные правила и использовать связи значений. Create a composite domain, create a cross-domain rule, and use value relations Использовать базу знаний по умолчанию DQS Data, встроенную в DQS.
Use the default DQS Data knowledge base built into DQS.