Информационно-статистические исследования текстов по основным европейским языкам
Решить вопрос о том, какие блоки МП являются с информационной точки зрения и с точки зрения теории распознавания наиболее эффективными и поэтому должны разрабатываться в первую очередь, а какие должны строиться на последующих этапах формирования системы МП, позволяют информационно-статистические измерения текста, психолингвистические эксперименты, а также опыт оптимизации преподавания языков.
В частности, информационно-статистические исследования текстов по основным европейским языкам показали, что львиная доля синтактической и, очевидно, смысловой информации заложена в лексике и фразеологии текста, в то время как морфология дает сравнительно скромный процент этой информации.
Эксперименты по восстановлению пропущенных букв в связном тексте показывают, что при отсечении конечных букв слова, т. е. тех букв, которые оформляют грамматические морфемы, носители языка восстанавливают текст на 95—99%. При разрушении тех частей слова, которые воплощают его лексическое значение, процент восстановления текста заметно падает.