Аналогичная ситуация складывается при построении систем лингвистического обеспечения АСНТИ. Отправными точками этого построения является, с одной стороны, автоматический словарь, дающий пословный перевод, а с другой — машинная атрибуция, выдающая элементарный смысловой индекс текста. Можно ожидать, что оптимальное решение задачи автоматической переработки текста, предусматривающее выдачу не только темы, но и ремы текста, будет найдено на скрещении встречных путей формирования и компановки, с одной стороны, блоков МП, а с другой — автоматического индексирования, аннотирования и реферирования.
Чтобы преодолеть эти трудности, приходится обращаться к построению так называемой машинной морфологической модели. Выбор той или иной морфологической модели определяется здесь строем языка, возможностями ЭВМ, а также архитектурой данной системы МП. В действующих системах группы «Статистика речи» используется два подхода.
Если же речь идет о средних и малых машинах, то использование аморфной техники оправдывает себя в двух случаях.
Хотя работающий лексический перевод и является первоначальным необходимым условием для организации промышленного МП, качественная переработка иностранного текста на ЭВМ не может быть достигнута без широкой актуализации, т. е. без устранения многозначности у подавляющего числа ЛЕ.
Как уже говорилось, словарная многозначность может устраняться иконическим путем, т. е. с помощью АСО. Однако сплошное иконическое снятие многозначности может быть осуществлено с помощью только такого АСО, который включал бы сотни тысяч входных оборотов. Реализация этого подхода потребовала бы десятки лет подготовительной работы и привела бы к построению громоздких и неэффективных алгоритмов.
Более экономным является использование семантических фильтров, применение которых позволяет разрешать типовые схемы многозначности. Читать далее »
Технология построения и функционирования АСО, а также связанные с ним теоретические проблемы распознавания были подробно рассмотрены выше. Второй раз освещать эти вопросы нет необходимости. Поэтому перейдем к оценке эффективности АСО.
Опытная эксплуатация англо-, немецко – и французско-русских АСО, созданных в группе «Статистика речи», а также результаты, полученные в американском коллективе Logos Development Corporation, показали, что использование словаря оборотов дает возможность ЭВМ распознавать не только виртуальные, но и актуальные значения у большого числа ЛЕ. Эта актуализация приводит к заметному ослаблению информационного шума, в результате чего выдаваемая с помощью АС и АСО машинная переработка текста дает возможность потребителю извлекать из пословно-пооборотного перевода — хотя и с некоторым напряжением — ту информацию, которая была заложена во входном тексте. Читать далее »
Следующим по эффективности фильтром является автоматический словарь оборотов, с помощью которого должно быть осуществлено распознавание и перевод идиоматических выражений входного текста.
Прежде чем говорить об организации АСО, остановимся на самом термине «идиоматичность», который в условиях двуязычной ситуации расшифровывается иначе, чем в традиционной лингвистике, ориентирующейся на одноязычную ситуацию. Идиоматичными в двуязычной ситуации следует считать лишь такие единицы или их сочетания во входном языке, для которых в результате обращения к двуязычному словарю и к грамматическим правилам анализа и синтеза невозможно найти правильный перевод на выходной язык. Читать далее »
С помощью до алгоритмических фильтров удается несколько сократить число выходных элементов. Однако оно все же остается слишком высоким для того, чтобы полностью погасить информационный шум, мешающий пониманию пословного МП. Снять информационный шум и превратить пословный МП в связный, легко воспринимаемый адресатом текст можно либо путем постредактирования или интерредактирования этого перевода с помощью дисплея, либо путем последовательного использования все более сильных алгоритмических фильтров, либо путем комбинированного применения фильтров.
В качестве простейшего алгоритмического фильтра, заметно приглушающего информационный шум в пословном МП, может выступать система машинного индексирования, аннотирования и реферирования, образующая вместе с автоматическим словарем комплекс информационного обслуживания специалиста. Читать далее »
Эту конфликтную ситуацию, возникающую во второй «горячей точке» коммуникационной системы человек—машина—человек, можно преодолеть путем создания системы фильтров, последовательно сокращающих информационный шум в выдаваемом компьютером переводе.
Выделяется два типа таких фильтров — доалгоритмические и алгоритмические.
При построении лексических фильтров первого типа, закладываемых на лингвистическом уровне построения МП, чаще всего применяются следующие приемы.
В ходе статистической оптимизации преподавания иностранных языков выяснилось, что адресату, воспринимающему в тексте около 80% информации, обычно удается распознать содержание текста, опираясь на догадку и избыточность письменной речи.
Опираясь на эти результаты, можно было ожидать, что правильное распознавание и переработка на ЭВМ актуальных значений ЛЕ входного текста даст возможность выдавать такой машинный результат, который не только воспринимался бы потребителем, но и сохранял основную смысловую информацию входа.
Отсюда следует, что фундаментом всякой системы МП должен быть лексический перевод, опирающийся на автоматические словари.
Информационно-статистические исследования текстов по основным европейским языкам
Решить вопрос о том, какие блоки МП являются с информационной точки зрения и с точки зрения теории распознавания наиболее эффективными и поэтому должны разрабатываться в первую очередь, а какие должны строиться на последующих этапах формирования системы МП, позволяют информационно-статистические измерения текста, психолингвистические эксперименты, а также опыт оптимизации преподавания языков.
В частности, информационно-статистические исследования текстов по основным европейским языкам показали, что львиная доля синтактической и, очевидно, смысловой информации заложена в лексике и фразеологии текста, в то время как морфология дает сравнительно скромный процент этой информации.
Эксперименты по восстановлению пропущенных букв в связном тексте показывают, что при отсечении конечных букв слова, т. е. тех букв, которые оформляют грамматические морфемы, носители языка восстанавливают текст на 95—99%. При разрушении тех частей слова, которые воплощают его лексическое значение, процент восстановления текста заметно падает.
Что же предлагает машинному переводу лингвистика текста?
Во-первых, ЛТ рассматривает текст как избыточную многоуровневую систему, на верхних ярусах которой находятся наиболее информативные в среднем ЛЕ, а на нижних — малоянфор-мативные элементы.
Во-вторых, ЛТ ориентируется только на бинарный перевод, при построении которого структура входного и выходного языков объединяются в суперструктуру, которую мы будем называть двуязычной ситуацией.
В-третьих, все алгоритмы МП предполагается строить на основе идей формального распознавания смыслового образа входного текста.