Все виды машинной переработки текста связаны с распознаванием смысла таких лингвистических единиц, как морфема, Словоупотребление, словосочетание, предложение, сам текст. Машинное распознавание смысла обычно предусматривает переход от некоторого нечеткого лингвистического множества к обычному четкому множеству. При описании этого перехода можно воспользоваться некоторыми приемами и понятиями, использующимися в теории распознавания образов.
Вместе с тем сведения о зернистости строения текста, а также об синтактико-информационной нагруженности начал слов и избыточности середин длинных словоформ используются при решении задач, связанных с кодированием компрессированием текстовой информации в ЭВМ. Так, например, при формировании сжатых кодов словоформ, т. е. таких кодов, с помощью которых удается уменьшить массивы вводимой в ЭВМ информации, целесообразно сохранять коды первых букв слова. В этом случае однозначная идентификация свертками текстовых словоупотреблений приближается к 100%.
При построении автоматических словарей, ориентированных на машины с малой памятью, применяются и другие методы свертки, учитывающие распределение информации в слове. Так, например, при построении англо-русского автоматического словаря у длинных словоформ в целях компрессии устранялись не несущие информации буквы, находящиеся в сере дине слова. Читать далее »
При исследовании как отдельных слов, так и связных текстов обычно используются выборки в 100 цепочек.
Схема Колмогорова позволяет получить значения информации, приближающиеся к истинному среднему значению в блоке из букв для данного участка текста. С помощью схемы Колмогорова были получены оценки информации для русских и французских беллетристических текстов, а также для французских деловых текстов.
Цифровой текст, так же как и сокращенный текст первого типа, может рассматриваться в качестве закодированной формы исходного текста и может быть передан по каналу с двумя идеальными предсказывающими устройствами. Первый предсказатель будет угадывать неизвестную букву в порядке убывания условных вероятностей букв, употребление которых допустимо на данном шаге. Предсказатель-двойник, получив цифру, соответствующую числу попыток, которые понадобились первому предсказателю, и используя распределение условных вероятностей букв, безошибочно восстановит букву исходного текста. Читать далее »
Выходное сравнивающее устройство, приняв символ сокращенного текста, запускает выходное предсказывающее устройство. Поскольку это последнее является двойником входного предсказателя, оно должно с первой же попытки восстановить отсутствующие буквы сокращенного текста, — буквы, которые были правильно предсказаны первым предсказателем. Те же буквы, которые были неправильно угаданы на входе, обозначены в сокращенном тексте. Читать далее »
Рассматривая совокупность этих относительных частот как спектр статистических вероятностей, мы получаем синтактическую информацию, которая благодаря изоморфности ранжирования индуктивных и статистических вероятностей в условиях идеального угадывания может использоваться для оценки информации Я. Этим путем удается связать синтактическую меру информации с оценкой сообщения со стороны приемника, чего не удавалось сделать при прямом расчете информации из распределения относительных частот букв, словоформ и т. д.
При проведении эксперимента по угадыванию используются разные приемы. Сущность всех этих приемов заключается в следующем. Берется текст, полностью или частично неизвестный для испытуемых. Читать далее »
Выше уже говорилось, что тезаурус (система и норма языка плюс экстралингвистический «житейский» опыт), использующийся носителем языка при декодировании текста, представляет собой «черный ящик». Устройство и функционирование этого «черного ящика» неодинаково у различных носителей языка: разные носители языка по-разному знают свой родной язык и по-разному будут угадывать текст. Поэтому, чтобы получить для разных языков сопоставимые результаты, необходимо каждый раз использовать угадчика с определенным образом стабилизированным тезаурусом и фиксированной стратегией угадывания.
Не задаваясь пока вопросом, как найти образцового угадчика или как приблизить возможности рядового угадчика к уровню идеального информанта, рассмотрим в общих чертах ход идеального угадывания.
Сейчас нам важно подчеркнуть, что при информационных измерениях текста, написанного на естественном языке целесообразно не только опираться на статистические свойства сообщения, но также учитывать ту априорную смысловую информацию, с помощью которой приемное устройство декодирует сообщение. Эти принципы измерения информации в речи согласуются с алгоритмическим подходом к понятию информации, при котором исследователя интересует количество информации в индивидуальном объекте X относительно индивидуального объекта Y, предложенной при условии достаточно больших количеств информации, содержащихся в объектах.
В декодировании начала текста участвует не весь тезаурус приемника. Читать далее »
Действительно, текст, написанный на данном языке, всегда несет определенное количество синтактической информации, которое может быть вычислено с помощью шенноновской методики. Однако для человека, не знающего языка, эта информация с содержательной точки зрения будет равна нулю. Информация здесь будет больше нуля лишь для такого «приемника», который способен хотя бы частично идентифицировать принимаемую информацию с той, которая уже хранится в его памяти. Читать далее »
Однако комбинаторный подход дает очень грубые завышенные оценки структурно-статистической организации текста. Как уже говорилось выше, норма естественного языка приписывает каждому элементу его системы определенные вероятности. Поэтому более содержательные результаты в информационных исследованиях можно получить, используя вероятностный подход.