Ви є тут

Засоби підвищення ефективності спеціального програмного забезпечення підготовки та редагування технічної документації

Автор: 
Стіренко Сергій Григорович
Тип роботи: 
Дис. канд. наук
Рік: 
2007
Артикул:
3407U001489
129 грн
Додати в кошик

Вміст

РАЗДЕЛ 2.
РАЗРАБОТКА ФОРМАЛЬНОЙ СПЕЦИФИКАЦИИ МОДЕЛЕЙ И МЕТОДОВ ПРЕДМЕТНОЙ ОБЛАСТИ СОЗДАНИЯ ДОКУМЕНТОВ
2.1. Общая постановка задачи формализации создания
и сопровождения технических документов
Задача построения систем полномасштабной обработки естественных языков является чрезвычайно сложной и на сегодняшний день не существует работающих версий, способных конкурировать в этой области с человеком. В то же время, разработка узкоспециализированных проектов имеет некоторый успех [34, 121]. Реализация подобных систем требует средств представления формальной модели текста. Учитывая близость естественного языка к формальным системам [2] и необходимость параллельной обработки документов, следует разработать модель в виде иерархической сети, которая позволит представить формальную модель текста как некоторую алгебру с операциями над элементами естественного языка, выполняемыми на соответствующих семантических уровнях. В связи с этим возникает задача идентификации структурных последовательностей текстов и определения множества элементов семантики, соответствующих этим структурным последовательностям. Семантические и синтаксические признаки предложений и фраз можно рассматривать как элементы семантики предметной области создания документов [35]. Следовательно, существует возможность решить данную задачу, разработав многоуровневую семантическую модель БЗ целевой предметной области, интеграция в которой различных источников знаний и аппарата их обработки позволит формировать непротиворечивые фрагменты текстов и их компоненты [70].
Поэтому в нашей диссертационной работе семантический анализ реализуется структурой семантической фреймовой сети, аналогичной механизму прямого вывода продукций, моделирующей параллельное выполнение множества правил в БЗ предметной области и выполняющей классификацию идентифицированных элементов благодаря одновременному выполнению множества правил в БЗ предметной области.
В связи с вышесказанным формальная постановка задачи исследования формулируется следующим образом:
Дано: первичные источники информации І1(Qc, Qt, Qe, Qv) в виде текстовых шаблонов Qc, ключевых слов и словосочетаний (КСС) Qt, образцов семантических конструкций Qe и актуальной (или текущей) информации с использованием различных языков представления L; словари синтаксического контроля (ССК) Dicsl для l-го языка Ll(V, Vo, Rs, V0), которые определяются грамматиками составляющих, где V - множество обозначений языка, Vo - множество нетерминальных символов, Rs - синтаксические правила, V0 ? Vo - начальный символ; перечень целевых предметных областей Gp, для которых будут создаваться документы [28]; перечень целевых документов Dnl и запросы qru пользователя Uu, сформулированные на естественном языке Ll.
Нужно определить: модели предметной области знаний Mpo на основе ССК Dicsl, модели документов Md и постоянных отношений между терминами и характеристиками подразделов Q БЗ Gn, шаблонов документов в виде фреймов и и сценариев Wi, которые способствуют эффективному решению задач построения производных текстовых фрагментов Ddr ТДТ Di; структуру DcS исполнительного механизма и характеристики семантического соответствия (ХСС) Hc; модели M и методы Tt решения основных задач семантического анализа на различных уровнях li иерархии; правила формирования элементов документов Rgr для построения произвольного нормированного ТДТ Dn.
Таким образом, выделенные входные и определенные к разработке структурные единицы должны обозначить подходы к проектированию основных компонентов СПРТД, которые необходимо создать для успешной реализации поставленной цели.
2.2. Представление знаний и получение выводов
с помощью логики предикатов
За основу предлагаемой формальной модели возьмём логику предикатов [24]. Целое, как известно, состоит из частей, но части осмысляются в составе целого. Осмысление путем "перебора" неестественно для человека, по крайней мере, коль скоро он рассуждает сознательно. Тем не менее, областью определения предикатов будет множество всех вариантов, возникающих в определенной предметной области, поскольку в основе этих процессов, однако, в значительной мере лежит не до конца ясная в психологическом плане способность различения существенного и несущественного [8]. Но некоторое, необходимо разумное ограничение рассматриваемых машиной альтернатив мы введем, ибо, при отсутствии ограничений, их число растет по экспоненциальному закону, что существенно увеличивает вычислительную сложность процедуры.
Еще в работе [31] было проведено различение четырех категорий чисел - малых, средних, больших и очень больших, сравнение которых привело его к заключению, что, начиная с больших чисел "переборные" задачи становятся недоступными для решения: "Проблемы, которые не могут быть решены без большого перебора, останутся за пределами возможностей машины на сколь угодно высокой ступени развития техники и культуры" [31, с. 24]. Поэтому составляя программы, будем руководствоваться определенными соображениями относительно тех характеристик, которые можно эффективно использовать для ограничения перебора с тем, чтобы затраты машинного времени и объем информации, требуемой для решения, соответствовали реальным вычислительным мощностям. Для реализации целесообразно организованного перебора необходимо, чтобы программа оперировала заранее заданным перечнем фактов (признаков, объектов, альтернатив и т. п.), что будет показано ниже.
Итак, каждому варианту сопоставления данных, который может возникнуть, будет соответствовать предикат. Под предикатом понимается функция узнавания элемента семантики модели предметной области, имеющая логическое значение истина или ложь. Под элементом семантики модели будем понимать характеристику реально существующего предмета, идеи, сущности, объекта, и т.п. соответствующие содержанию предметной области.
Обозначим предикат опознавания как
p (X1, X2, X3, ... , XN),
где X1 - XN - ситуационные переменные; p - имя предиката.
В случае, когда ситуационные переменны