?

Log in

No account? Create an account

Previous Entry | Next Entry

RDF - а надо ли ?

В сказках народов мира первая попытка реализовать электронное правительство по единым "правилам игры" традиционно заканчивается большим обломом.
Или как в русской мифологии - при срубании одной головы - у Змея Горыныча вырастает сразу три , и следующий шаг придется делать уже с утроенной силой, с тройным расходом ресурсов, и тройным бюджетом (оказывается к тонкому вымогательству финансов мы приучаемся еще с детского садика).

Отчего это происходит ? В мемуарах обычно "авторы" выставляют себя в позитивном свете и истины можно не найти. Одно обобщает их воспоминания - что оказывается некоего "общего мира" не существует. Есть какие то "плохие стандарты", "плохие ведомства", "плохие руководители" - которые, как сговорившись,  отказываются дружно шагать строем и переписывать свои системы.

А про то что нужно не создавать системы с "0", а пытаться вписываться в уже текущие ограничения - оказывается их не предупреждали.

Часть задач, связанных с использованием внешних источников данных и транспорта может решить в инфраструктуре российского электронного правительства Система Межведомственного Электронного Взаимодействия.  О ее задачах и функциях было написано здесь. tri-botinka.livejournal.com/7978.html

Но данные и информация (как бы близко не пересекались эти слова) - не синонимы. Об этой особенности реального мира специалисты рассуждают еще с 1998 года. С того времени консорциум World Wide Web Консорциумом была утверждена спецификация языка XML, предоставляющего стандарт структурирования и разметки произвольной информации.

Появление и внедрение XML стало  революцией в сфере Web-программирования. Это простое средство позволило объединять   данных в понятном для человека и легко воспринимаемом формате.  Разметка "говорила сама за себя", а модификация серверов и браузеров позволила отделить информационное наполнение Интернет-страниц от их визуального представления.

>

Например в XML очень легко составить список государственных услуг, которые необходимо перевести в электронный вид согласно распоряжениям Правитальства РФ от 17.10.2009 № 1555-р и от 17.12.2009 № 1993-р

<Row ss:Height="384.75">
<Data ss:Type="String">
Перевод в электронный вид процесса предоставления государственных услуг по постановке на налоговый учет, взаимодействию с налогоплательщиками, уплате налогов и сборов
</Data>
<Data ss:Type="String">
Прием налоговой декларации  по налогу на доходы физических лиц
</Data>
<Data ss:Type="String">ФНС России</Data>
</Row>


ну и в таком духе..   Грандиозным достоинством XML явилось то, что программы на разных платформах и от различных производителей получили возможность “разговаривать” на одном языке.  Следом появились вспомогательные технологии -  языки XSL и XPath, предназначенные для работы с древовидной структурой документов; XML Schema – как стандарт описания конкретных языков разметки, использующий синтаксис XML; XLink и XPointer – как средство связи распределенных блоков информации в один общий документ; XQuery – язык запросов к размеченным данным и далее. При помощи XML удалось решить большинство задач синтаксической интероперабельности.

Одно но - наша реальная "информационная" жизнь богаче, чем просто данные. Специалисты различают (скорее уж моделируют) минимум 3 видами информации. Одна из классификаций подразделяет информацию на содержимое, данные и факты. Каждая из этих трех категорий рассматривается нами по-разному.



Содержимое обрабатывается как единое целое целое – отобразить эту картинку, воспроизвести этот музыкальный файл, отобразить такую то интернет страничку. 
Данные обычно обрабатываются по отдельным фрагментам (записям) – добавить/изменить/удалить запись в базе данных, отсортировать список объектов.
Информация в форме фактов пока встречается в информационных технологиях редко. Факты можно конечно рассматривать как элементы данных, но как имеющие форму утверждений. Факты используются обычными людьми в повседневной жизни, учеными, а также специалистами по "инженерии знаний".

Я зарегистрировался на портале госуслуг
Эта услуга платная
Регламент этой услуги состоит из 6 этапов


Неважно, являются ли эти утверждения истинными. Неважно, откуда это мы взяли - каков источник информации и согласен ли с ним кто-то. Важно то, что их можно записать некоторым универсальным способом (в данном случае – на русском языке). Записывая факты, мы перемещаем их из своего сознания туда, где их можно зафиксировать в соответствии с определенными правилами или формальными спецификациями, что позволяет в дальнейшем работать с фактами различными способами. Только после того, как факты зафиксированы, можно заняться выяснением их истинности или значимости, т.е. занятся построением некоей модели.

Окружающий мир (а ИТ технологии тоже является его материальной частью), насыщен "фактоподобной" информацией. Однако подавляющее большинство сведений не представлено в форме, удобной для обработки фактов. Лишь немногие программисты в своей практике сталкиваются со специализированными системами обработки фактов, однако код любого из них содержит множество подразумеваемых фактов.

Практически параллельно с работами по стандартизации XML основатель WWW Консорциума Тим Бернерс-Ли сформулировал новое понятие – Semantic Web – то, каким он видит будущее глобальной сети, и инициировал исследования в этом направлении. В основе предполагаемого им будущего лежит способность машин не только читать, но и понимать содержание Интернет-ресурсов, причем достигнуть этого, по мнению Бернерса-Ли, мы должны не через создание программ искусственного интеллекта, моделирующих деятельность человека, а через использование средств выражения семантики данных и их связей.

Можно привести пример. Предположим, что в одном узле инфраструктуры электронного правительства размещены данные о какого-то ведомства и его сотрудниках, в другом узле – информация о налогоплательщиках, в третьем – о почтовых адресах. Очевидно, что ведомства, налогоплательщики и адреса принадлежат к отдельным, относительно независимым областям знаний. С другой стороны в непрерывном информационном поле программа должна без особого труда суметь сопоставить сотрудников и налогоплательщиков, адреса этих людей и предметную область адресов как таковых. 

И вывод - если синтаксическая интероперабельность неразрывно связана с синтаксическим анализом данных, то семантическая требует анализа самой информации, связи ее с мировым информационным полем, установления соответствия терминов и словарей одной предметной области элементам другой. И для этой вещи XML не подходит - даже имея подтверждение в гибкости.

И для целенаправленной фиксации фактов была разработана модель Resource Description Framework (RDF)
ru.wikipedia.org/wiki/RDF   . Увы, но RDF не является визуальным языком. То что его можно перевести в XML часто только "портит" и без того непростую картину. Вот пример одного факта:

<Description about="Прием налоговой декларации  по налогу на доходы физических лиц" open="true"/>

"Существует субъект (или ресурс) с именем "Прием налоговой декларации  по налогу на доходы физических лиц", имеющий предикат open, значением (объектом) которого является анонимная строка литералов "true". Это довольно неуклюжий язык. RDF выражается в синтаксисе XML, и те, кто знаком с XML могут думать об RDF в терминах XML. Это ошибка. RDF нужно понимать в терминах его модели данных. Данные RDF могут быть представлены в форме XML, но понимание синтаксиса - вторично по отношению к пониманию модели данных.  По сути в семантическом вебе ВСЕ построено на трёх правилах:
1. Факт представляется в форме триплета (субъект, предикат, объект).
2. Субъекты, предикаты и объекты задаются именами конкретных или абстрактных сущностей
реального мира.
3. В роли имён используются URI
ru.wikipedia.org/wiki/URI, являющиеся непрозрачными и глобальными.

Вот одна из нотаций RDF ( называется номер 3 - созданная похоже по мотивам Лиспа)

<strong>@prefix</strong> - подгружаем пространство имен (тут хранятся условные всякие описания, которые понятны компьютеру)
<strong> :FTS a :Organization</strong> некто FTX (Federal Tax Service) - ФНС - это безусловно организация
:FTS :has :forNaturalPersons У ФНС есть услуги и они есть для физических лиц.
:FTS :hasWorkingStatus :Open а сама ФНС имеет состояние которое показывает открытый статус
:forNaturalPersons :hasServicesСounter :NumberSix — у физических лиц есть услуги со счетчиком 6

Вроде теперь кажется понятным.  А вот представьте что нужно объединять не древовидные - а распределенные данные из разных источников - у которых не то что нет услуг для физиков, а и вообще нет такого атрибута. Скажем только имя услуги и все !.

Вот и получается - что если нужно будет завязать в одно целое скажем 10 ведомственных баз с _абсолютно_ разной атрибутикой, а то и даже правилами их понимания (оценки фактов) - необходимо научиться с этими фактами работать.

Таким образом именно RDF позволит вам объединить семантику в самых отвратительных для разработчика, но тем не менее самых встречающихся случаях при построении инфраструктуры электронного правительства :
  1. Вам нужно объединять данные из различных источников, не прибегая к созданию специализированных программ.
  2. Вам нужно дать другим доступ к вашим данным.
  3. Вам нужно использовать децентрализованые данные, поскольку ими всеми не «владеет» кто-то один.
  4. Вам нужно сделать что-то особенное с большими объёмами данных — вводить, извлекать, просматривать, анализировать, выполнять поиск, и т.д.
После всего сказанного - для технологии RDF похоже альтернативы нет. Вопрос лишь времени.
Реальное значение RDF невозможно оценить, пока он используется для внутренних целей отдельной информационной системы. Польза от внедрения RDF будет тогда, когда он станет средством межпрограммного взаимодействия, обмена данными, когда информационные системы получат способность комбинировать информацию, полученную из различных источников, тем самым, получая какую-то новую информацию. Чем больше независимых приложений в Интернете смогут работать с данными, тем выше станет их ценность.

Comments

( 6 comments — Leave a comment )
white_palex
Apr. 21st, 2010 07:48 am (UTC)
Передо мной сейчас стоит задача довольно простая если бы она не коррелировала с вышесказанным вами:обследование существующих информационных систем на предмет МЭВ. Ну хорошо, я их обследую или вернее сказать создам ТЗ на обследование. Есть пример такого ТЗ, рожденного в Нижегородской, но.....
Оно меня не устраивает, т.к. кроме обследования должен быть обязательный план принятия решений по нему, а не простая констатация, а вот с этим пока туго. Надо до обследования задать как пойдем вперед после него. Есть ряд предложений, но нужна помощь в ориетации на реалии последующего МЭВ. А примеров реального МЭВ мало. Может ткнете носом куда копать?
tri_botinka
Apr. 22nd, 2010 06:28 am (UTC)
Нужно поточнее - что за интеграция нужна. Например про T-ETL можно почитать здесь
http://www.ibm.com/developerworks/ru/library/ws-soa-infoserv1/
или
http://www.ibm.com/developerworks/ru/library/dm-0506lin/
или
http://www.ibm.com/developerworks/ru/library/dm-0703harris/index.html

(Deleted comment)
nearch78
Apr. 22nd, 2010 05:33 pm (UTC)
Re: вопрос
это еще лет 10 назад ibm (скушав до того lotus) продвигала в контексте управления знаниями
типа информация=данные в контексте
знания= информация в действии


ну и далее в духе например http://www.systems-thinking.org/dikw/dikw.htm
(Deleted comment)
nearch78
Apr. 23rd, 2010 06:38 am (UTC)
Re: вопрос
"дело в тм, что одни и те же символы и знаки могут быть и данными, и информацией, и знаниями - и это зависит не от символов."

ну конечно
вот например


"Тетя Эльза гостила у нас Берне, Лозанне, чувствует себя хорошо, только очень скучает. Каждую неделю пишет письма домой"


все зависит от контекста и от получателя информации. Тот же пример с холодильником из буржуазных исследователей

tri_botinka
Apr. 23rd, 2010 12:38 pm (UTC)
Re: вопрос
Это и называется онтологические проблемы, которые специально рассматриваются в системной инженерии. Грубо говоря - спроектировать и написать информационную систему уже давно обыденное дело. Библиотек высокого уровня столько - что фактичеси на одной технологии past& glue можно мышкой слепить вполне рабочие модули. Но возникает социо-технический аспект - а кто собственно говоря сказал, что НАДО именно так ? Где гарантии что его "нужно" по сути означало "ну может было бы не плохо" - и мы приподымаемся из уровня инженерии на уровни коммуникаций, выявления ролей, словаря, паттернов, моделей деятельности и куча всяких забавных цацок - жестко и по кибернетически подчеркивающих нам теорему Котельникова или Винера - что сложность системы управления должна быть не ниже сложности объекта управления. Тоже в принципе применимо и к технологиям разработки, сопровождения и модернизации этой самой ИС.
Увы, но количество нерешенных задач, которые можно было бы решить при помощи пару колечек и веревочек в нашей жизни стремительно приближается к нулю, поэтому либо мы откажемся их решать - оставив в "наследство потомкам", либо сжав зубы нужно будет наращивать компетенцию
tri_botinka
Apr. 23rd, 2010 12:42 pm (UTC)
Re: вопрос
См на русском например http://swebok.sorlik.ru/
( 6 comments — Leave a comment )