В первом случае правильное решение задачи приведения целиком зависит от состава и объема словника. Если словоформа, с которой должно быть произведено отождествление текстового словоупотребления, отсутствует в машинном словаре, то приведение к КФ оказывается принципиально невозможным.

Более гибким и конструктивным является второй — комбинаторно-морфологический подход, который опирается на конечное число разрешенных в данном языке сочетаний букв и морфем в конце слова. Читать далее »

Для массового потребителя информационной продукции АСНТИ на русском языке наиболее привычными и удобными являются традиционные исходные формы КС, КСс — именительный падеж единственного  числа для именных классов, инфинитив несовершенного вида для глаголов.

Если речь идет об аналитических западноевропейских языках, имеющих слабо развитую именную флексию, то приведение КС и КСс к исходной форме может быть осуществлено иконически. Что же касается обладающих богатой флексией синтетических языков, например русского, то здесь приведение текстового словоупотребления к КФ представляет собой достаточно сложную алгоритмическую задачу.

Читать далее »

Связный реферат можно получить с помощью алгоритма свертывания, учитывающего сверхфразовые  связи перерабатываемого на ЭВМ текста.

Попытка построить такой алгоритм для русского текста с реализацией на ЭВМ <(Минск-22» была предпринята В. Е. Берзоном.

Алгоритм строится на использовании двух типов экспликации суперсегментных связей: повторений в тексте некоторых доминантных лексических единиц  и выражении этих связей с помощью реляторов, т. е. единиц заполнения связывающих отдельные предложения и сегменты текста.

Читать далее »

С вопросами автоматического распознавания смысла тесно связаны приемы машинного свертывания текста. Наиболее простым приемом является автоматическое извлечение из текста тех предложений, которые содержат одно или более ключевых слов или словосочетаний, являющихся «пиками» в распределении смысловой информации текста. Эти предложения, расположенные в порядке их следования, выводятся на печать, образуя квазиреферат текста. Читать далее »

Сначала с помощью словарей, путем обращения к информантам-специалистам в данной области знаний или с помощью математической процедуры  из ЧС выделяются доминантные словоформы вместе с их статистическими характеристиками.

В этом алгоритме, построенном А. Н. Попескулом, формируются документы, каждый из которых включает КС или ПКС (обозначим их символом Щ и их частоту. Наборы этих документов образуют массивы. Читать далее »

В качестве вероятностно-статистических признаков используются либо абсолютные частоты указанных основ, либо их частости.

Разбиение СП на классы чаще всего осуществляется исходя из коллективного опыта. При этом используются разного вида научные рубрикаторы и классификации типа УДК, библиотечно-библиографической классификации Библиотеки им. В. И. Ленина. Читать далее »

Во-вторых, можно построить и ввести в машину искусственное пространство, используя конструктивные смысловые единицы, например дифференциальные семантические признаки. Оба этих подхода носят, по преимуществу, детерминистский характер.

В-третьих, нужную для «обучения» автомата информацию можно получить путем статистико-дистрибутивного анализа документов, осуществляемого в рамках лингвистики текста. Читать далее »

Хотя различия в структуре и функционировании мозга человека и ЭВМ достаточно велики, автомат М выступает в роли аналога лингвистического сознания человека. Поэтому при построении распознающего автомата М необходимо использовать лингвистические знания человека. Оптимизировать эту распознающую модель можно при условии, что в автомат М будут заложены наиболее типичные и наиболее информативные признаки, использующиеся человеком при построении СП и при работе в этом пространстве. Читать далее »

Каждый класс имеет недвусмысленное описание — эталон, в котором обычно используются признаки, характеризующие СП.

Автоматическое распознавание смысла заключается в отнесении машиной того или иного лингвистического объекта к одному или нескольким заложенным в ее памяти классам с одновременной выдачей ЭВМ лингвистической метки этого класса.

Совокупность признаков, классов, на которые разбито СП, эталоны и алфавит меток, а также правила их функционирования выступают в качестве машинного информационно-поискового языка. Введение этого языка в ЭВМ рассматривается как обучение кибернетического автомата.

Читать далее »

Для выявления этих дифференциальных элементов используются различные приемы структурной лингвистики, в частности компонентный анализ, в основе которого лежит представление о десигнативном значении лингвистического символа как совокупности конструкторов, например «тем», семантических множителей и компонентов. Каждый семантический признак может быть снабжен вероятностно-статистическим весом.

Если же СП задается аксиоматически, то в качестве его семантических признаков выступают значения отдельных морфем, основ, исходных форм слова, словоформ, а также словосочетаний.

Читать далее »