Арабские буквы: их порядок и повторяемость. Частота применения букв в русском языке

Написал забавный php-скрипт. Погонял через него все тексты на« Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов - определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом« Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о - 9.28%
а - 8.66%
е - 8.10%
и - 7.45%
н - 6.35%
т - 6.30%
р - 5.53%
с - 5.45%
л - 4.32%
в - 4.19%
к - 3.47%
п - 3.35%
м - 3.29%
у - 2.90%
д - 2.56%
я - 2.22%
ы - 2.11%
ь - 1.90%
з - 1.81%
б - 1.51%
г - 1.41%
й - 1.31%
ч - 1.27%
ю - 1.03%
х - 0.92%
ж - 0.78%
ш - 0.77%
ц - 0.52%
щ - 0.49%
ф - 0.40%
э - 0.17%
ъ - 0.04%

Тем, кто поедет на« Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая« привычная» буква« б» употребляется реже, чем« редкая» буква« ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните:« **а**и*е» и« ср*вн*т*». И в том и в другом случае - это слово« сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу - о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово« карандаш»? Если задача - научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке« случайных» четырехбуквенных слов выскочило« осел». В следующей полсотне - слова« мчим» и« нато». Но, увы, очень много неблагозвучных комбинаций, таких, как« блтт» или« нрро».

Поэтому - следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на« нормальные». Например:« коивдиот»,« воабма»,« апый»,« депоид»,« дебяко»,« орфа»,« поеснавы»,« озза»,« ченя»,« риторя»,« урдеед»,« утоичи»,« стых»,« сапоть»,« гравда»,« абабап»,« обарто»,« еелует»,« лярезы»,« мыни»,« бромомер» и даже« тодебыст».

Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа,« мемолисо» или« уторорерто». Или - генератор футуристических стихов« Бурлюк-php»:« опелдиий миатон, линоаз окмиая... деесопен одесон».

И есть еще один вариант. Надо попробовать...

Некоторые статистические данные об использовании русских слов:

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

После заметки мне пришло вот такое письмо:


Здравствуйте, Дмитрий!

Проанализировав статью« Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для« Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта - определение порядка букв при программировании кнопок для мобильных устройств. Да, да - именно в мобильниках и нужно все это.

Я распределил это по волнам ()

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая - служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые« популярные» слова:« и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам - очевидно, что в клавиатуре буквосочетания« не»,« что»,« он»,« на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые« удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы« о»,« а»,« е» и« и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления: , . - ? ! " ; :) (

Знаете ли вы, на какую букву начинается больше всего русских слов? На букву «П»!
Посмотрите четырехтомный словарь В. И. Даля - там весь третий том целиком посвящен одной этой букве!

Самое же поразительное, что не только в русском языке, но и во всех европейских языках преобладает она.

Прогуляемся по нашей квартире. Прежде всего припомним, что в старину жилое помещение, дворец, большая квартира назывались ПАЛАТАМИ, это слово сохранилось в названии больничных помещений: больничные палаты. Есть еще судебные палаты, Грановитая палата в Москве.

В палаты мы входим через ПЕРЕДНЮЮ, или ПРИХОЖУЮ, ПЕРЕСТУПАЕМ через ПОРОГ, или ПРИСТУПКУ. В передней висит верхнее ПЛАТЬЕ: платок головной, пальто, плащ, пелерина, палантин (женская накидка на меху или бархате), папаха, плед. Стоит в углу ПАЛКА или ПОМЕЛО… На ПОЛУ ПОСТЕЛЕН ПОЛОВИЧОК. У зеркала ПОДЗЕРКАЛЬНИК. Во времена патриархальные к ПРИТОЛКЕ ПРИБИВАЛИ ПОДКОВУ «на счастье»…

Из прихожей мы попадаем в комнату, которая раньше называлась ПОКОЕМ. От этого осталось название в больницах - «приемный покой».

Посмотрите, сколько ПРЕДМЕТОВ в нашей комнате начинается на букву «П»: пол, потолок, плафон (это французское слово, обозначающее потолок; сейчас у нас так называют светильник на потолке), пылесос, портьеры, подоконник, притолка; на паркетном или пластиковом полу постелен полосатый или пестрый палас; по стенам - панели. На них просвечивают подтеки политуры; по низу - плинтусы с пазами.
В покое (комнате) стоит печка, а в печке поленья.

На простых или полированных полках покоятся переплетенные произведения писателей, поэтов, прозаиков: их поэмы, повести, приключения с прекрасными политипажами.

За полками пыль и паутина…

Палаты бывают парадными, или приемными. Там обычно стояли пианино и пуфы. Раньше вместо приемника или проигрывателя имели патефон, а вместо телевизора - проекционный (волшебный) фонарь.

На письменном столе - перья, промокашка, пресс-папье, папиросы, пепельница, портсигар, или папиросница, пепел…

Лежат письма, пачки бумаги, портфель, потрепанные папки.
Над письменным столом висят портреты писателей, полотна пейзажей. К плотному паспарту приклеен последний портрет Пушкина.

Заглянем в спальню. Когда-то называлась она ОПОЧИВАЛЬНЕЙ, или ПОЧИВАЛЬНИЙ (от «почивать» - отдыхать, спать).

В почивальне - кровать с пружинной или панцирной сеткой, постель (перина, пуховик, перовые или пуховые подушки, простыня, пододеяльник, пикейное покрывало)-, повешены платья, пиджак, панталоны, лежат помочи, или подтяжки, пояс, пажи, подвязки…

На прибитой полочке - помада, пудра, порошок и паста зубная, перламутровые пуговицы, портмоне, пульверизатор. Еще - папильотки, пузырьки, перстень…
Пройдем потихоньку на кухню - раньше ПОВАРНЮ. Помните у Крылова:
Какой-то Повар, грамотей,
С поварни побежал своей…

В ПОВАРНЕ - плита или плитка электрическая (тогда еще и провода, переключатель), примус, полки, поставец с посудой, плошки, пиалы, подстаканники, пробочник, противни, покрышки, помои.

Провизия: пастернак, петрушка, помидоры, перец, простокваша, портулак, похлебка, пироги, пирожки, паштет, пиво, портвейн, плетенка, подливка, повидло, поджарка, плов, пастила, плоды, персики - пища…

Построены ПЕКАРНИ, где пекут пеклеванные хлебцы, пирожные, пирожки, пряники, пышки, пампушки…

Напоследок проследуем в ПОДВАЛ, или ПОГРЕБ. Там постоянно прохладно и пасмурно. На стенах просачиваются пятна плесени…

Возьмем еще военную область.

В старину были пращи, пороки (стенобитные орудия), пики, палицы., палаши, пищали. Потом - пушки, пулеметы, парабеллумы, пистолеты, порох, пистоны, патроны, пули, планшеты, портупеи, погоны, подсумки, в пехотных полках - подпоручики, полковники, прапорщики, походы, приказы, подрывники.

Наконец из чего состоим мы сами, люди?

Начнем с головы: прическа, пробор, пряди. А если мало волос, то плешь, а плешь закрывают париком. Подбородок, переносица.

Затем - предплечье, плечи, перси (грудь), подмышки, пальцы, поясница, позвонки, печень, почки, пузырь, перепонка, пузо, пупок, предстательная железа, пищевод (значит и пищеварение и перистальтика), пазуха, пах, плюсна, подошва и наконец - пятки!
А ведь это наименования далеко не всех окружающих нас предметов!

Метод, предложенный Аль-Кинди легче объяснить с точки зрения русского алфавита. Прежде всего, необходимо изучить достаточно длинный отрывок текста на русском языке, или несколько отрывков разных текстов, чтобы установить частоту появлений каждой буквы алфавита. В русском языке о - самая частая буква, после неё е , затем а и так далее, как указано в таблице. Потом изучим зашифрованный текст и установим частоту появлений каждого символа в нём. Например, если самый частый символ в зашифрованном тексте Ю , то, вероятнее всего, его следуют заменить на букву о . Если второй по частоте символ зашифрованного текста Э , то его, вероятно, следует заменить на е , и так далее. Благодаря методу Аль-Кинди, известному как частотный криптоанализ, не нужно проверять каждый из миллиардов потенциальных ключей. Вместо этого можно расшифровать сообщение просто проанализировав частоту символов в нём.

Таблица относительных частот букв русского алфавита.
Буква Частота % Буква Частота % Буква Частота % Буква Частота %
О 11,08 Р 4,45 Ы 1,96 Х 0,89
Е, Ё 8,41 В 4,33 Ь 1,92 Ш 0,81
А 7,92 К 3,36 З 1,75 Ю 0,61
И 6,83 М 3,26 Г 1,74 Э 0,38
Н 6,72 Д 3,05 Б 1,71 Щ 0,37
Т 6,18 П 2,81 Ч 1,47 Ц 0,36
С 5,33 У 2,80 Й 1,12 Ф 0,19
Л 5,00 Я 2,13 Ж 1,05 Ъ 0,02

Тем не менее частотный криптоанализ не решает полностью задачу взлома моноалфавитных шифров. Его применимость зависит от величины и характера текста. Средние частоты букв какого-либо языка не всегда будут соответствовать частотам букв конкретного текста. Например, краткое сообщение, в котором обсуждается влияние атмосферы на движение зебр в Африке «Из-за озоновых дыр от Занзибары до Замбии и Заира зебры бегают зигзагами», если будет зашифрованно моноалфавитным шифром, не удастся дешифровать с помощью простого частотного криптоанализа. Так как буква з в этом сообщении встречается на порядок чаще, чем в простой речи. В технических текстах редкая буква ф может стать довольно частой в связи с частым использованием таких слов, как функция, дифференциал, диффузия, коэффициент и т. п..

Если не удаётся расшифровать криптограмму с помощью простого частотного криптоанализа (например если сообщение слишком короткое), Ал-Кинди предлагает использовать характерные сочетания букв или, наоборот, несочетаемость определённых букв друг с другом. Например, наиболее распространённые биграммы (группы из двух букв) русского языка: ст , но , ен , то , на , ов , ни , ра , во , ко . Важна статистика сочетаемости гласных и согласных букв. Например перед буквами ь , ы , ъ и после э не могут стоять гласные, а после любой гласной буквы следует согласная с вероятностью 87 %. Так же подсказкой для криптоаналитика могут быть общепринятые вступительные слова, которые используются почти в каждом языке. Например в арабском часто употреблялось «Во имя Бога, милостивого и милосердного» (بسم الله الرحمن الرحيم). При расшифровке стихотворений можно использовать рифмы и стопы.

Арабские буквы: их порядок и повторяемость

Ал-Кинди приводит таблицу с частотами букв арабского алфавита, вычисленными в выборке из семи листов текста.

В арабском алфавите 28 букв. Из них 27 могут обозначать согласные звуки, 3 (ﺍ (/aː/), ﻭ (/uː/), ﻱ (/iː/)) - долгие гласные звуки, букв, обозначающих короткие гласные, - нет (например в слове Муха́ммед пишутся только четыре согласные буквы: محمد). Таким образом в арабском письме преобладают чисто согласные буквы. Однако этот факт не противоречит указанному в начале трактата утверждению о том что самая частая буква на письме любого языка, как правило, гласная, так как в арабском таковой является ﺍ (/aː/).

Частота применения букв в русском языке

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.


о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.