Элементы ядра профиля метаданных «ГеоМЕТА» предоставляют достаточный объем информации для понимания природы и содержания описываемого набора данных и применяются преимущественно в целях каталогизации и в качестве базиса для формирования трех уровней детализации метаданных ресурсов в системе «ГеоМЕТА». Система «ГеоМЕТА» представляет собой платформу для создания распределенной среды интеграции разнородных источников пространственных данных и сервисов и предоставляет единую точку входа в эту среду и средства поиска, обработки и визуализации специализированных данных и приложений
Введение
В статье рассматривается подход к решению задачи интеграции распределенных гетерогенных источников пространственных данных. В основе предлагаемой модели лежит онтологический подход и использование технологий Semantic Web.
А.В. Вершинин
В.А. Серебряков
Для каталогизации пространственных ресурсов и приложений разработана онтология собственного профиля метаданных (GeoMETA v3.0:2007), базирующаяся на международных стандартах соответствующей тематики. Определяются элементы для идентификации данных и сервисов, временных и пространственных характеристик, визуального представления, собственно содержательной части и распространения данных в зависимости от их набора. При комбинировании онтологий, относящихся к другим областям, с предлагаемой онтологией появляются новые возможности создания метаданных для наборов пространственных ресурсов.
С использованием названной онтологии и информационной системы «Научный институт РАН», лежащей в основе инфраструктуры ЕНИП, был разработан геопортал «ГеоМЕТА», обеспечивающий возможности каталогизации пространственных данных и приложений, проведения численных экспериментов, визуализации результатов, распределенного поиска метаданных в соответствии с правами доступа, выбора уровня детализации при описании ресурсов.
Стандарты пространственных метаданных
Для создания профиля метаданных «ГеоМЕТА» был проведен анализ основных стандартов и профилей пространственных метаданных, представленных на текущей момент в мире.
ISO 19115:2003 «Geographic information Metadata» (Географическая информация. Метаданные) разработан Техническим комитетом ISO/TC 211, представлен в виде диаграмм на UML (Unified Modeling Language) и принят в качестве международного стандарта содержания пространственных цифровых метаданных в мае 2003 г. Набор метаданных ISO 19115 состоит из пакетов, агрегирующих сходные описания классов, содержит более 400 элементов и атрибутов, сгруппированных в 95 классов, которые составляют атомарные единицы метаданных. 22 элемента составляют ядро, включающее 7 обязательных, 4 условных и 11 необязательных элементов.
FGDC-STD-001-1998 американский прототип ISO 19115, разрабатывался с начала 1990-х годов Федеральным комитетом по географическим данным США (FGDC), принят в качестве национального стандарта содержания на цифровые пространственные метаданные (Content Standards for Digital Geographical Metadata CSDGM), содержит более 200 элементов. Первая версия подготовлена в 1994 г., вторая в 1998 г.
Хотя стандарты FGDC-STD-001-1998 и ISO 19115 были разработаны в разное время и с разными целями, сама природа пространственных метаданных такова, что подразумевает обязательное использование определенных условий или концепций. Поэтому многие поля метаданных в FGDC-STD-001-1998 могут рассматриваться как аналоги полей, определенных в ISO 19115 [1].
ГОСТ Р 52573-2006 «Географическая информация. Метаданные» [2] введен в действие 1 января 2007 г. и является российским профилем ISO 19115. К сожалению, он не имеет полной совместимости с исходным международным стандартом [3, 4] и нуждается в корректировке во избежание технических барьеров при использовании на международном уровне. В российском профиле отброшена большая часть (около 200) непопулярных элементов ISO 19115, добавлены новые элементы и специализированные словари для удобства использования на российском рынке геоданных. ГОСТ Р 52573-2006 довольно прост и удовлетворяет большинство потребностей российских поставщиков пространственных данных и услуг. Стандарт представлен в виде диаграмм на UML и разделен на 10 пакетов, которые передают сходные данные, определенные в ISO 19115. В профиле содержатся 194 элемента и атрибута, сгруппированных в более чем 50 классов. Ядро профиля ГОСТ Р 52573-2006 полностью наследует 22 элемента ядра ISO 19115.
CEN prEN 12657 один из стандартов на содержание пространственных метаданных, разработанный Европейским комитетом по стандартизации CEN [5] в 1997 г., наибольшее распространение получил в Европе.
ANZLIC. Концептуальная структура региональной ИПД ASDI (the Australian Spatial Data Infrastructure) [6] поддерживает использование пространственной информации, связывая ее потребителей и поставщиков. Одна из ее целей предоставление пространственных метаданных и стандартов. Руководящий документ по стандартизации метаданных ANZLIC's Metadata Guidelines. ANZLIC это стандарт географических метаданных, используемый в Австралии и Новой Зеландии, представляет собой дополнение к ISO 19115. Набор основных элементов метаданных ANZLIC состоит из 41 позиции, которые изначально основывались на стандарте FGDC-CSDGM и были поставлены в соответствие со стандартом Australian/New Zealand Standard on Spatial Data Transfer AS/NZS 4270 с учетом проекта стандарта ISO 19115.
UK GEMINI профиль международного стандарта ISO 19115, применяемый в Великобритании. UK GEMINI Discovery Metadata Standard [7] представляет собой набор элементов описания пространственных метаданных, содержит подмножество нескольких информационных стандартов, включающих элементы, структуры и/или правила для различных сообществ пользователей. В версию 1.0 [8] стандарта UK GEMINI включены 32 элемента, что обеспечивает соответствие наборам метаданных, используемых службой GIGateway , поддерживаемой британской Ассоциацией географической информации (AGI), и национальным стандартом «электронного правительства» e-Government Metadata Standard.
ISO 19139:2007 «Географическая информация. Метаданные. Спецификация реализации». Международный стандарт ISO 19115:2003 описывает общее содержание метаданных и взаимоотношения между элементами метаданных. Однако он не дает указаний по поводу того, как должны строиться и форматироваться (кодироваться) записи метаданных. С этой целью был разработан стандарт ISO 19139:2007 «Geographic information Metadata XML schema implementation» (Географическая информация. Метаданные. Внедрение системы языка XML), утвержденный в статусе международного и опубликованный в апреле 2007 г. [9]. Стандарт введен для создания схемы XML, предписывающей структуру формата записей метаданных ISO 19115, а также включает элементы метаданных, на которые имеются ссылки, но которые не определены в стандарте ISO 19115 (например, описания объектов и атрибутов, введенных стандартом пространственных данных ISO 19109). ISO 19139 предлагает схему кодирования для описания, подтверждения и обмена метаданными географических наборов данных и др. Если каталог пространственных данных реализован на основе официального стандарта Open Geospatial Consortium, Inc. OGC (США), описывающего общую структуру кодировки данных XML в соответствии с ISO 19139, то он поддерживает полную функциональную совместимость обмена данными с любым другим каталогом, использующим стандарты ISO.
Несмотря на рекомендации ISO/TC 211, FGDC и OGC по использованию стандартов пространственных метаданных, достичь согласия по поводу выбора единственной спецификации пространственных метаданных в мировом масштабе практически невозможно.
При создании геопортала «ГеоМЕТА» была поставлена цель разработать простой, но достаточно полный профиль метаданных для пространственных данных и сервисов, ориентированный на максимальную совместимость, адаптируемость и расширяемость как для российских, так и зарубежных поставщиков и потребителей пространственных ресурсов, что и привело к выбору онтологического подхода реализации профиля.
Назначением онтологий является предоставление концептуальной информации и терминологии. Онтологии обеспечивают семантику предметной области, определяют набор концепций и отношения между ними внутри предметной области. Применение онтологического подхода для создания семантических схем метаданных обосновывается тем, что онтологии могут:
быть сконструированы таким образом, чтобы обеспечить создание общего многоязычного словаря терминов, описывающих наборы данных, и тем самым определить стандарт метаданных, который может быть использован всеми;
предоставлять концептуальную схему для любого набора ресурсов независимо от формата, структуры или размера;
быть спроектированы таким образом, чтобы обеспечить семантическую интерпретацию содержимого и структур данных, представленных в наборе;
помочь поставщикам данных и сервисов вводить метаданные в семантически достоверной форме;
обеспечить взаимодействие между гетерогенными наборами данных и сервисов путем использования совместных онтологий;
быть использованы в качестве основы для поиска и извлечения интересующих данных из набора данных.
Кроме того, онтологии считаются наиболее развитой моделью представления знаний.
Для разработки онтологии был выбран язык Web Ontology Language (OWL), который рекомендован консорциумом W3C (независимая международная организация, представляющая сообщество разработчиков технологий Internet и Web) для реализации концепции Semantic Web [10]. Задача интеграции распределенных неоднородных источников пространственных данных и сервисов решается путем выделения базовой схемы метаданных, реализованной в виде OWL-онтологии на основе стандартов ISO 19115:2003 «Географическая информация. Метаданные» [11] и ISO 19119:2005 «Географическая информация. Сервисы» [3] и полностью включающей откорректированный российский стандарт ГОСТ Р 52573-2006 «Географическая информация. Метаданные» (а также учитывающей профили стандартов и схемы метаданных, лежащие в основе наиболее известных национальных ИПД), для обеспечения семантической интероперабельности систем, участвующих в распределенном взаимодействии. Это можно продемонстрировать на примере реализации геоинформационно-аналитической системы «ГеоМЕТА» с пользовательским Web-интерфейсом геопортала.
Важно отметить, что стандарты ISO и ГОСТ Р 52573-2006 предоставляют описание лишь структуры метаданных на языке UML и фактически не несут семантики, что обусловливает проблемы с их использованием в вычислительных системах в отличие от предлагаемых нами семантических метаданных, созданных на основе онтологического подхода. Кроме того, в обзоре стандартов уже упоминалось наличие несовместимости российского профиля с исходным международным стандартом.
Каждый «лист» на рис. 1 соответствует наименованию стандарта или профиля пространственных метаданных, которые были вовлечены в анализ для формирования профиля метаданных «ГеоМЕТА». Известно, что содержание этих спецификаций во многом совпадает. В частности, элементы ядра обычно содержат информацию о распространении, охвате, контактах и тематических атрибутах. На основе выполненного анализа было сформировано ядро метаданных «ГеоМЕТА» для достижения максимальной совместимости с популярными профилями пространственных метаданных.
Рис. 1. Спецификации пространственных метаданных, которые анализировались для формирования профиля «ГеоМЕТА»
Элементы метаданных профиля «ГеоМЕТА» поддерживают следующие функции работы с метаданными:
поиск информации, необходимой для определения наборов данных и сервисов, имеющихся на определенную географическую область;
определение назначения и пригодности информации (оценка соответствия набора данных и сервисов определенным потребностям);
осуществление доступа к информационным ресурсам, которые необходимы для получения выбранного набора данных и сервисов;
применение ресурсов, т. е. обработка и использование наборов данных и сервисов.
Пакеты метаданных и отношения между сущностями
Для моделирования схемы и структуры метаданных в стандартах ISO 191XX и их профилях используется язык UML.
Метаданные в схеме представлены в виде совокупности UML-пакетов. Пакет состоит из одной или более сущностей, связанных отношениями обобщения (агрегирования). При необходимости сущности могут повторяться в рамках одного пакета для решения задач пользователя. Каждая сущность представляет собой совокупность элементов (атрибутов), характеризующих тот или иной аспект метаданных. Сущности или элементы метаданных могут быть обязательными, необязательными или условными. Установление признака обязательности осуществляется в соответствии с приложением A ISO 19115. Основные пакеты метаданных и графическое отображение отношений между отдельными пакетами представлены на рис. 2. С учетом необходимости гармонизации общих подходов к описанию географической информации с положениями ISO 19115:2003 и ISO 19119:2005 в содержании схемы сохранены англоязычные имена пакетов, сущностей и элементов метаданных.
Рис. 2. Пакеты метаданных пространственных данных и сервисов
Всего в профиле содержится 14 пакетов, три из которых введены нами в дополнение к ISO 19115 и ГОСТ Р 52573-2006 (на рис. 2. отмечены сиреневым цветом):
Идентификационная информация о сервисах (Service Identification Information);
Информация о содержании (Content Information);
Информация о расширении метаданных (Metadata extension information).
Остальные пакеты унаследованы от ГОСТ Р 52573-2006 с учетом модификации (на рис. 2 отмечены желтым цветом) для совместимости с ISO 19115:2003, расширения важных элементов описания сервисов и улучшения поиска:
Идентификационная информация о данных (Data Identification Information);
Информация о пространственно-временных характеристиках (Extent Information);
Информация об ограничениях (Constraint Information);
Информация о распространении (Distribution Information);
Ссылка на описание и информация об ответственной стороне (Citation and Responsible Party Information).
Совместимость и соответствие стандарту ISO 19115:2003
В приложениях C и F стандарта ISO 19115:2003 подробно описаны правила и возможные типы расширения метаданных для создания национальных и тематических профилей международных стандартов, позволяющие учесть национальные и прикладные особенности, а также модифицировать содержание стандарта в частях, не являющихся обязательными. Кратко перечислим возможные типы расширения в приложениях ISO 19115:2003:
добавить новый пакет метаданных;
создать новый контролируемый словарь терминов (codelist) для ограничения доменных значений к существующим элементам метаданных типа «произвольный текст», т. е. определенных как CharacterString;
создать новые доменные значения к существующим контролируемым словарям в качестве расширения свободного номера доменного кода элементов codelist;
добавить новые элементы метаданных;
добавить новые сущности метаданных;
усилить обязательность существующих элементов метаданных (т. е. в профиле определить необязательный элемент стандарта как условный или обязательный);
ограничить область доменных значений к существующим элементам метаданных.
Как уже упоминалось, несмотря на такие достоинства ГОСТ Р 52573-2006, как простота в использовании, терминологическая и содержательная адаптированность к отечественным условиям, он нарушает правила создания профиля, которые определены в приложениях C и F ISO 19115. В результате ГОСТ Р 52573-2006 несовместим с международным стандартом ISO 19115. В ходе исследования найдены два типа несовместимости, которые мы будем называть несовместимостью по доменному коду (недопустима) и несовместимостью по доменному значению (не рекомендуется).
Несовместимость по доменному коду подразумевает, что один и тот же доменный код в разных спецификациях метаданных интерпретируется по-разному. Например, в классе MD_CharacterSetCode типа codelist профиля ГОСТ Р 52573-2006 доменный код 001 интерпретируется как кодировка Windows-1251, а его исходный стандарт ISO 19115:2003 интерпретируется как кодировка ucs2. На рис. 3 показаны скриншоты класса MD_CharacterSetCode в ГОСТ Р 52573-2006 и ISO 19115, где была найдена эта несовместимость, а примеры конфликтов в формировании метаданных взяты из самого стандарта.
Рис. 3. Пример несовместимости по доменному коду в классе MD_CharacterSetCode
Несовместимость по доменному значению возникает в случае несогласованного множества допустимых значений одного и того же элемента метаданных в разных спецификациях. Например, элемент name в классе MD_Medium профиля ГОСТ Р 52573-2006 и стандарта ISO 19115 имеет разные допустимые доменные значения словаря MD_MediumNameCode, что более подробно изображено на рис. 4. Несмотря на то, что при формировании профиля допускается сужение области значений контролируемых словарей, для достижения максимальной функциональной совместимости этого делать не рекомендуется.
Рис. 4. Несовместимость по доменному значению в классе MD_MediumNameCode
При разработке профиля метаданных «ГеоМЕТА» были полностью соблюдены правила приложений ISO 19115:2003 и учтены выявленные несовместимости. Более того, для достижения максимального эффекта были предложены описанные ниже политики.
При обнаружении несовместимости сначала решаются проблемы с доменными значениями, затем с доменными кодами. Возможны четыре варианта несовместимости доменных значений, которым соответствуют следующие действия:
если некоторые значения присутствуют в ГОСТ Р 52573-2006, но отсутствуют в ISO 19115, то в словаре «ГеоМЕТА» их добавляют как расширения последнего;
если некоторые значения присутствуют в ISO 19115, но отсутствуют в ГОСТ Р 52573-2006, то в словаре «ГеоМЕТА» сохраняются значения ISO 19115;
если одновременно выполняются оба предыдущие условия, то сначала в словаре «ГеоМЕТА» сохраняются значения ISO 19115, а потом он расширяется новыми значениями ГОСТ Р 52573-2006;
если в словарь «ГеоМЕТА» необходимо добавить новые элементы, которые отсутствуют в ГОСТ Р 52573-2006 и ISO 19115, то они добавляются как расширения ISO 19115.
При несовместимости доменных кодов (рис. 5):
в словаре профиля «ГеоМЕТА» с охраняются доменные коды ISO 19115 (в случае необходимости расширяются в соответствии с правилами) по умолчанию система придерживает коды словарей ISO 19115;
для совместимости с ГОСТ Р 52573-2006 в описаниях словарей в явном виде декларируются и доменные коды этого профиля.
Рис. 5. Пример корректировки несовместимости доменных значений и кодов класса MD_CharacterSetCode
Перечень откорректированных в соответствии с исходным стандартом классов ГОСТ Р 52573-2006 профиля «ГеоМЕТА» приведен в таблице.
Таблица. Перечень откорректированных классов ГОСТ Р 52573-2006 профиля «ГеоМЕТА», совместимых со стандартом ISO 19115:2003
При формировании профиля метаданных «ГеоМЕТА» были откорректированы пять наследуемых пакетов метаданных ГОСТ Р 52573-2006 (отмечены желтым цветом на рис. 2) для достижения полной функциональной совместимости с ISO 19115. Таким образом, опираясь на профиль «ГеоМЕТА», зарубежные средства подготовки метаданных могут применяться для создания и ведения базовых элементов метаданных (в большинстве случаев этого достаточно), а программные продукты российского производства для подготовки метаданных в соответствии с международным стандартом.
Расширение элементов метаданных для описания сервисов на основе ISO 19119:2005
В настоящее время в сети Интернет доступны не только разнообразные пространственные данные, но и многочисленные виды сервисов, средств обработки, анализа и применения пространственных данных в различных сферах человеческой деятельности. Более того, геоинформационные системы в последние годы значительно расширили возможности распределенной работы, совместного использования сервисов и др. Однако наличие больших объемов информации является преимуществом только тогда, когда существуют механизмы ее эффективного использования. Чтобы управлять процессами создания, хранения, обновления и обработки пространственных данных, необходимо формировать метаданные для описания пространственных сервисов, которые, в нашем понимании, представляют собой геоинформационные сервисы, совместимые со стандартами OGC Services [12] и Web-сервисов [13].
На основе стандарта метаданных ISO 19115:2003 для описания сервисов введен пакет «Идентификационная информация о сервисах» (Service Identification Information). В результате наследования элемента MD_Identification стандарта ISO 19119:2005 введен элемент SV_ServiceIdentification, который агрегирует еще три класса SV_OperationMetadata, SV_Parameter, SV_ServiceProvider, служащих для описания сервисов (рис. 6), ориентированных на спецификации сервисов OGC и Web-сервисы.
Рис. 6. UML-диаграмма классов MD_DataIdentification и SV_ServiceIdentification профиля «ГеоМЕТА»
Кратко отметим следующие важные моменты и преимущества элемента SV_ServiceIdentification:
для максимальной совместимости с международным стандартом метаданных ISO 19115:2003 в расширении для описания сервисов используются такие наследуемые классы, как MD_Identification, CI_ResponsibleParty, MD_StandardOrderProcess, MD_Constraints, CI_OnlineResource;
за счет отношения агрегирования operateOn поставщики пространственных сервисов теперь имеют возможность более тесно связывать данные и сервисы, точнее, детально описывать данные, стоящие за сервисом.
Отдельно стоит упомянуть два элемента (рис. 7), которыми был расширен ГОСТ Р 52573-2006 для поддержки сервисов и улучшения доступа и поиска ресурсов, элемент function в классе CI_OnlineResource (расширение словаря CI_OnLineFunctionCode) и элемент type в классе MD_Keywords.
Рис. 7. Расширение ГОСТ Р 52573-2006 на основе ISO 19115:2003 для поддержки сервисов и улучшения поиска ресурсов
Расширение ядра ISO 19115:2003
В ISO 19115 определено ядро метаданных минимальное подмножество элементов метаданных. На практике 22 элементов ядра ISO 19115 оказывается недостаточно для описания ресурсов, в связи с чем были добавлены еще 14 элементов для описания данных и 12 для описания сервисов.
В итоге ядро академического профиля метаданных «ГеоМЕТА» v3.0:2007 состоит из 48 элементов, а всего в профиле 226 элементов (рис. 8). Элементы ядра метаданных «ГеоМЕТА» предоставляют достаточный объем информации для понимания природы и содержания описываемого набора данных и применяются преимущественно в целях каталогизации и в качестве базиса для формирования трех уровней детализации метаданных ресурсов в системе «ГеоМЕТА».
Существует достаточно много информационных систем для работы с научными данными, наукоемкой информацией. Практически каждое научное учреждение представляет в электронной форме данные о публикациях сотрудников, проводившихся или ведущихся исследованиях и проектах, их результатах. Многие научные учреждения имеют собственные информационные системы, которые обеспечивают в том или ином виде функции хранения, предоставления и обработки наукоемкой информации.
Однако при создании описаний подобных систем недостаточно внимания уделялось вопросам интероперабельности не в полной мере применялись соглашения по стандартизации электронного представления информационных ресурсов и соответствующие средства, призванные поддержать интеграцию информационных ресурсов, повысить полноту их представления и точность поиска. Кроме того, такие проекты ставили целью создание централизованных (замкнутых) систем, что в силу динамизма научных исследований в скором времени приводило к невозможности поддерживать полноту и актуальность содержащихся данных. Тем не менее, необходимость обеспечения активной коммуникации между учеными и исследователями, а также эффективного использования информации делает актуальной задачу интеграции разнородных научных данных. В качестве первого шага необходимо создать условия для такой интеграции на некотором «верхнем уровне», общем для всех отраслей фундаментальной науки.
Инициатива по организации Единого научного информационного пространства (ЕНИП) РАН была призвана помочь научным коллективам объединить, по мере возможности, разнородные информационные и программные ресурсы отдельных учреждений для предоставления пользователям более эффективных средств поиска информации, научной коммуникации и сотрудничества. В данном случае под единым пространством понимается не формирование централизованной системы со стандартизированными решениями, а стремление совместными усилиями научных коллективов:
создать принимаемый всеми участниками набор соглашений, правил и открытых стандартов;
сформировать совокупность макетов и типовых решений для реализации адаптеров прикладных систем, инфраструктурных служб, поддерживающих разные уровни интероперабельности распределенных гетерогенных данных и приложений;
подготовить ряд информационных систем общего назначения, отвечающих принятым соглашениям и допускающих модульную организацию и наращивание функциональных возможностей.
Основным компонентом ЕНИП является информационная система «Научный институт РАН» (ИС «НИ РАН»), которая разрабатывалась как типовой инфраструктурный программный комплекс, обеспечивающий решение основных информационных задач такого объекта, как научный институт в составе Российской академии наук. Комплекс позволяет гибко настраивать конфигурацию системы под нужды конкретной организации, при необходимости реализовывать новые модули для решения специфических задач, обеспечивает поддержку распределенного взаимодействия систем, предоставляет средства интеграции и структуризации данных.
ИС «НИ РАН» включает:
средства интеграции существующих данных;
автоматизированные интерактивные средства структуризации и пакетной загрузки данных;
пользовательские и административные интерфейсы ввода новой информации и управления уже находящимися в системе данными;
систему (возможно распределенную) хранения данных;
систему безопасности, обеспечивающую аутентификацию пользователей и авторизацию доступа к ресурсам;
спецификации по разработке дополнительных модулей, обеспечивающих решение задач конкретной научной организации.
ИС «НИ РАН» предоставляет широкие возможности по конфигурированию с учетом нужд отдельно взятого научного института. Система содержит подсистемы:
хранения информационных объектов в источнике;
обмена и репликации данных;
информационной безопасности;
управления слабоструктурированным содержанием;
новостей;
подписок и рассылок;
форумов («Приватное общение»);
«Публикации сотрудников»;
«Проекты сотрудников»;
«Административно-организационный справочник».
Реальные потребности институтов и их сотрудников часто относятся к узкой предметной области, в связи с чем разработаны прикладные подсистемы, расширяющие функциональность типового решения: «Редакционно-издательский отдел», «Электронная библиотека», «Справочники и классификаторы», «Глоссарии», «Научно-вычислительный портал» и др.