Т4_Гипертекстовые технологии мультимедийных мар

3 Математическая модель гипертекста

Гипертекст - это нелинейно организованный текст, т.е. текст с нелинейной структурой. Обычному (одномерному) тексту, который можно интерпретировать как одну длинную строку символов, читаемую в одном направлении, противопоставлен многомерный текст. В отдельных точках такого ветвящегося многомерного текста чтение можно продолжать в нескольких различных направлениях в зависимости от информационной потребности. Гипертекст может отличаться от обычного текста порядком следования материала, способом его представления. Элементы гипертекста могут размещаться в виде иерархического дерева или сетевой организации, он может иметь несколько уровней краткого изложения и детализации материала и т. д. Тексты, составленные на естественном языке, хранятся, будучи организованными по новому принципу. При этом приходится отказаться от используемых сейчас подходов к подготовке изданий или других документов и перейти к сложной нелинейной форме организации материала. Для пояснения нелинейной формы построения гипертекстовых изданий рассмотрим одну из известных математических моделей гипертекста.

Используем следующие обозначения.

Пусть М и R - конечные непустые множества:

M = {m₁, m₂,..., m_n}; R = {R₁, R₂,..., R_k}; .

Элементами множеств М и R будем обозначать объекты и отношения между ними соответственно. Тогда гипертекст в наиболее общем виде (Г₀ ) описывается как совокупность следующих четырех компонентов:

Г₀ = (T, I, S, Q),

где Т - тезаурус гипертекста; I - информационная составляющая гипертекста. Включает в себя содержание информационных статей I_i , в которые помещаются сведения о всех m_i М, т.е.

I = _i I_i ;

S - алфавитный (или хронологический) словарь всех наименований m_i М; Q - список главных тем гипертекста.

Тезаурус гипертекста состоит из тезаурусных статей. Тезаурусная статья может быть представлена в виде

t_i = {m_i , Am_i },

где t_i - тезаурусная статья объекта m_i ; Am_i - множество объектов, с которыми m_i связан отношениями из R с указанием типа отношения.

Например, если объект m_a связан с другими объектами из множества М отношениями R_i, R_j,..., R_e , то

Am_a = {R_i(m_i1, m_i2, ..., m_it), R_j(m_j1, m_j2, ..., m_js),..., R_e(m_e1, m_e2, ..., m_ep) },

(m_i1, ..., m_it) связаны с объектом m_a отношением R_i ,

(m_j1, ..., m_js) связаны с объектом m_a отношением R_j ,

m_e1, ..., m_ep) связаны с объектом m_a отношением R_e .

Здесь существенно отметить, что в Am_i содержатся только ближайшие «родственники» для m_i .

Всю совокупность тезаурусных статей, т. е. тезаурус гипертекста, можно представить следующим образом:

Т = {m₁, m₂, ..., m_i, ..., m_n), Am₁, Am₂,..., Am_i, ..., Am_n}.

Тезаурус гипертекста графически можно представить в виде сети, в узлах которой находятся текстовые описания объектов, а ребра сети указывают на существование связи между объектами и позволяют определить тип связи (рис. 2.4).

Наиболее важным компонентом гипертекста Г₀ является совокупность гипертекстовых статей Г:

Г = _i Г_i , Г Г₀ ,

где Г_i состоит из описания объекта m_i (информационная статья I_i ) и перечня родственных объектов (тезаурусная статья t_i ):

Г_i = (t_i , I_i ).

Выдача информации, ввод новых сведений осуществляются, как правило, Г_i -порциями.

Для аналитического осмысления и последующей автоматизации процедуры поиска семантических сведений в гипертекстовом массиве необходимо составить математическое описание этой процедуры. Важность задачи подтверждается также тем, что проблема поиска возникает при внесении новой информации в гипертекст. В этом случае необходимо выделить все родственные объекты, чтобы установить необходимые тезаурусные связи.

Для описания процедуры поиска могут применяться следующие модели:

1) поиск ближайшей по составу и содержанию гипертекстовой статьи:

ρ (Г_i , Г_c ) min,

где ρ - некоторая характеристика близости состава и содержания гипертекстовых статей; Г_c - вводимая статья или статья, которую ищут, Г_i Г;

2) поиск гипертекстовых статей с наиболее желательными свойствами:

f(Г_i ) max,

где f характеризует некоторые желательные свойства, например наличие одинакового родового объекта, Г_i Г;

3) комбинированный случай:

f (Г_i ) max, ρ (Г_i , Г_c ) ≤ρ₀ ,

где ρ₀ - некоторое ограничение, Г_i Г.

Последние три соотношения применяются не только при поиске сведений по запросам абонентов, но и для нахождения ранее сформированных статей с целью установления перекрестных ссылок при поступлении в гипертекст новой информации.

Для корректного обновления гипертекста важное значение приобретает определение элементарных операций над тезаурусом. В семиотике используется следующий подход. В обобщенном виде тезаурус представляется как связка двух параметров: (М, А), где А - отображение M_R в М, взвешенное отношениями из R. Пусть заданы тезаурусы:

T₁ = (M₁, A₁), T₂ = (M₂, A₂), ..., T_q = (M_q, A_q).

Определение 1. Тезаурус Т = (М, А ) будем называть объединением тезаурусов T_i, где i = 1, ..., q, и обозначать Т = _i T_i, если М = _i M_i и для m_i M Am _i A_im.

Пользуясь данным определением, можно осуществить слияние нескольких независимо подготовленных тезаурусов.

Определение 2. Тезаурус Т = (М, A) будем называть пересечением тезаурусов T_i, i =1, ..., q и обозначать Т = _i T_i, если М _i M_i и для m_i M Am _i A_im.

Определения 1 и 2 позволяют манипулировать с пересекающимися независимо подготовленными тезаурусами.

Таким образом, структуру гипертекстового издания можно представить в следующем виде (рис. 2.5).

Содержание