Порождающая грамматика обещает заманчивую перспективу полного формального распознавания и порождения любого правильного текста при условии, что будет определен словарь исходных единиц и глубинных структур, а также задан алгоритм порождения. Однако реализация этой перспективы наталкивается на барьеры антиномии индивидуального и коллективного восприятия языка, а также антиномии человека и робота.
Выделение исходных единиц и глубинных структур, осуществляющееся на основе индивидуальных интроспекции без учета коллективного опыта носителей языка и информационной многоуровневой иерархии текста, дает обычно неоднозначные результаты. Читать далее »
Машинный перевод является высшей формой автоматической переработки текста. С одной стороны, если машинная атрибуция, аннотирование и реферирование, имеющие целью извлечь из текста только общий смысловой инвариант, ограничиваются простыми приемами распознавания смысла у отдельных элементов текста, то МП, ориентированный на полную смысловую переработку текста, использует более сложные формы распознавания, охватывающие в идеале все единицы текста. Поэтому, с одной стороны, в алгоритмах МП оказываются представленными все приемы отбора, сортировки, сегментации, сравнения и отождествления ЛЕ, использующиеся в низших формах переработки текста. Читать далее »
Вся процедура объединения строится на сочетании дедуктивного и индуктивного подходов. Это значит, что объединение, с одной стороны, опирается на уже имеющиеся классификационные иерархии типа УДК или Тезауруса научно-технических терминов, 1972, а с другой — базируется на информации, получаемой с помощью приемов лингвистики текста.
Последовательность операций при объединении тезаурусов должна выглядеть следующим образом.
Коды, отражающие тезаурусную организацию МАРС, помещаются в поле, состоящее из двух слов. Организация этого поля аналогична построению поля, в котором записывается информация при тезаурусном распознавании документа.
Организация словарной статьи МАРС показывает, что этот словарь объединяет в себе тезаурусную структуру вместе с традиционными принципами построения АС, использующими компрессированное представление лингвистической информации.
Признак фразеологичности, занимающий поле переменной длины, указывает на способность слова выступать в качестве ядра оборота. Если слово не образует оборота, то нулевой бит первого байта принимает значение 0, если же слово выступает в качестве ядра оборота или оборотов, то нулевой бит получает значение 1. Далее указывается позиция ядра относительно других словоформ, входящих в оборот, а также даются адреса этих словоформ. Код, указывающий на принадлежность слова к определенному лексико-семантическому классу, занимает два байта.
Только на Радио Психология самая интересная информация о человеке и его поведении.Узнай больше о подсознании своих близких на наших волнах.
Введение всех этих сведений в МАРС дает возможность использовать его в качестве универсального хранилища той информации, которая необходима для решения на ЭВМ различных задач переработки текста, начиная от простой индексации и кончая его семантико-синтаксическим анализом.
Всю указанную информацию предполагается разместить в словарной статье следующим образом.
Номер статьи записывается в трех байтах. Читать далее »
Субъективизм этих подходов пытаются иногда корректировать методом экспертных оценок. Однако этот прием оказывается слишком громоздким и недостаточно эффективным. Поэтому более целесообразным является введение таких приемов остранения, которые опираются на массовые психолингвистические тесты, а также на методы лингвистики текста. Читать далее »
Слабость рассмотренных в 56—62 алгоритмов автоматического распознавания смысла текста состоит в том, что эти алгоритмы используют такие МИПЯ, в которых задается лишь перечень лексических единиц без указания на существующие между ними смысловые связи.
Получаемые аннотации представляют собой простое перечисление наиболее частых дескрипторов, о синтаксико-семантическом взаимодействии которых в тексте документа читатель аннотации должен догадываться сам, опираясь на собственные знания предмета, а также на профессиональную и языковую интуицию. Все это ограничивает возможности вероятностного и детерминистского распознавания, сводя его лишь к определению темы документа. Читать далее »
Связный реферат можно получить с помощью алгоритма свертывания, учитывающего сверхфразовые связи перерабатываемого на ЭВМ текста.
Попытка построить такой алгоритм для русского текста с реализацией на ЭВМ <(Минск-22» была предпринята В. Е. Берзоном.
Алгоритм строится на использовании двух типов экспликации суперсегментных связей: повторений в тексте некоторых доминантных лексических единиц и выражении этих связей с помощью реляторов, т. е. единиц заполнения связывающих отдельные предложения и сегменты текста.
С вопросами автоматического распознавания смысла тесно связаны приемы машинного свертывания текста. Наиболее простым приемом является автоматическое извлечение из текста тех предложений, которые содержат одно или более ключевых слов или словосочетаний, являющихся «пиками» в распределении смысловой информации текста. Эти предложения, расположенные в порядке их следования, выводятся на печать, образуя квазиреферат текста. Читать далее »