Все виды машинной переработки текста связаны с распознаванием смысла таких лингвистических единиц, как морфема, Словоупотребление, словосочетание, предложение, сам текст. Машинное распознавание смысла обычно предусматривает переход от некоторого нечеткого лингвистического множества к обычному четкому  множеству. При описании этого перехода можно воспользоваться некоторыми приемами и понятиями, использующимися в теории распознавания образов.

Читать далее »

Вместе с тем сведения о зернистости строения текста, а также об синтактико-информационной нагруженности начал слов и избыточности  середин длинных  словоформ используются при решении задач, связанных с кодированием компрессированием текстовой информации в ЭВМ. Так, например, при формировании сжатых кодов  словоформ, т. е. таких кодов, с помощью которых удается уменьшить массивы вводимой в ЭВМ информации, целесообразно сохранять коды первых букв слова. В этом случае однозначная идентификация свертками текстовых словоупотреблений приближается к 100%.

При построении автоматических словарей, ориентированных на машины с малой памятью, применяются и другие методы свертки, учитывающие распределение информации в слове. Так, например, при построении англо-русского автоматического словаря у длинных словоформ  в целях компрессии устранялись не несущие информации буквы, находящиеся в сере дине слова. Читать далее »

При исследовании как отдельных слов, так и связных текстов обычно используются выборки в 100 цепочек.

Схема Колмогорова позволяет получить значения информации, приближающиеся к истинному среднему значению в блоке из букв для данного участка текста. С помощью схемы Колмогорова были получены оценки информации для русских и французских беллетристических текстов, а также для французских деловых текстов.

Читать далее »

Цифровой текст, так же как и сокращенный текст первого типа, может рассматриваться в качестве закодированной формы исходного текста и может быть передан по каналу с двумя идеальными предсказывающими устройствами. Первый предсказатель будет угадывать неизвестную букву в порядке убывания условных вероятностей букв, употребление которых допустимо на данном шаге. Предсказатель-двойник, получив цифру, соответствующую числу попыток, которые понадобились первому предсказателю, и используя распределение условных вероятностей букв, безошибочно восстановит букву исходного текста. Читать далее »

Выходное сравнивающее устройство, приняв символ сокращенного текста, запускает выходное предсказывающее устройство. Поскольку это последнее является двойником входного предсказателя, оно должно с первой же попытки восстановить отсутствующие буквы сокращенного текста, — буквы, которые были правильно предсказаны первым предсказателем. Те же буквы, которые были неправильно угаданы на входе, обозначены в сокращенном тексте. Читать далее »

Рассматривая совокупность этих относительных частот как спектр статистических вероятностей, мы получаем синтактическую информацию, которая благодаря изоморфности ранжирования индуктивных и статистических вероятностей в условиях идеального угадывания может использоваться для оценки информации Я. Этим путем удается связать синтактическую меру информации с оценкой сообщения со стороны приемника, чего не удавалось сделать при прямом расчете информации из распределения относительных частот букв, словоформ и т. д.

При проведении эксперимента по угадыванию используются разные приемы. Сущность всех этих приемов заключается в следующем. Берется текст, полностью или частично неизвестный для испытуемых. Читать далее »

Выше уже говорилось, что тезаурус (система и норма языка плюс экстралингвистический «житейский» опыт), использующийся носителем языка при декодировании текста, представляет собой «черный ящик». Устройство и функционирование этого «черного ящика» неодинаково у различных носителей языка: разные носители языка по-разному знают свой родной язык и по-разному будут угадывать текст. Поэтому, чтобы получить для разных языков сопоставимые результаты, необходимо каждый раз использовать угадчика с определенным образом стабилизированным тезаурусом и фиксированной стратегией угадывания.

Не задаваясь пока вопросом, как найти образцового угадчика или как приблизить возможности рядового угадчика к уровню идеального информанта, рассмотрим в общих чертах ход идеального угадывания.

Читать далее »

Сейчас нам важно подчеркнуть, что при информационных измерениях текста, написанного на естественном  языке целесообразно не только опираться на статистические свойства сообщения, но также учитывать ту априорную смысловую информацию, с помощью которой приемное устройство декодирует сообщение. Эти принципы измерения информации в речи согласуются с алгоритмическим подходом к понятию информации, при котором исследователя интересует количество информации в индивидуальном объекте X относительно индивидуального объекта Y, предложенной при условии достаточно больших количеств информации, содержащихся в объектах.

В декодировании начала текста участвует не весь тезаурус приемника. Читать далее »

Действительно, текст, написанный на данном языке, всегда несет определенное количество синтактической информации, которое может быть вычислено с помощью шенноновской методики. Однако для человека, не знающего языка, эта информация с содержательной точки зрения будет равна нулю. Информация здесь будет больше нуля лишь для такого «приемника», который способен хотя бы частично идентифицировать принимаемую информацию с той, которая уже хранится в его памяти. Читать далее »

Однако комбинаторный подход дает очень грубые завышенные оценки структурно-статистической организации текста. Как уже говорилось выше, норма естественного языка приписывает каждому элементу его системы  определенные вероятности. Поэтому более содержательные результаты в информационных исследованиях можно получить, используя вероятностный подход.

Читать далее »