Сотрудники Массачусетского технологического института вывели эмпирическое правило, согласно которому основным фактором, определяющим длину слова, становится его информативность. Лингвисты привыкли связывать длину слова с другой характеристикой — частотой его использования. Кажется логичным, что наиболее употребительные слова сокращаются с целью экономии времени; такая закономерность, отмеченная в тридцатых годах ХХ века американским учёным Джорджем Ципфом, сохраняется в самых разных языках. По мнению авторов новой работы, определяющим фактором здесь становится всё же не частота употребления, а информативность. Гипотеза основана на следующем предположении: объём полезной информации, которую может передать слово, обратно пропорционален тому, насколько легко предсказывается появление последнего в тексте. Оценить «содержательность» конкретного слова чрезвычайно трудно, так как она меняется в зависимости от контекста: числительное «сто» во всем известном выражении «Лучше один раз увидеть, чем сто раз услышать» несёт меньшую смысловую нагрузку, чем во фразе «Сегодня на улице я нашёл сто рублей». На первом этапе работы исследователи установили частоту появления определённых пар слов в оцифрованных текстах. Полученную информацию использовали для вычисления вероятности того, что некое конкретное слово будет следовать за другим (или за последовательностью слов). По результатам этих расчётов были присвоены оценки информативности. Анализ текстов на 11 европейских языках подтвердил истинность гипотезы: наиболее короткие слова оказывались самыми «предсказуемыми» и наименее информативными. Полная версия отчёта будет опубликована в журнале Proceedings of the National Academy of Sciences. Подготовлено по материалам Nature News.
|