eponim2008 (eponim2008) wrote,
eponim2008
eponim2008

Categories:

Как быстро определить язык, на котором написан текст?


Глобализация наступает. В любой момент Вы можете столкнуться со строкой текста, написанном на языке, который Вы не то что не знаете, но даже идентифицировать его будете не в состоянии.

Впрочем, сделать это, как правило, не сложно. Этот ответ услужливо дадут один-два символа, характерные только для данного языка, и ни для какого другого.

О языках, использующих кириллицу мы в этой статье говорить не будем. Но у тех языков, которые пользуются латинской письменностью, для звуков, которые встречаются только в данном языке, используются уникальные символы или комбинации символов, которые помогут однозначно определить сам неизвестный язык.

Что это за символы?

Ã, ã: это почти наверняка португальский язык. Если, к тому же, язык этот похож на испанский,  со 100%-ной вероятностью португальский язык. Пример: São Paulo

Ă, ă: A с «чашечкой» сверху встречается только в румынском языке и во вьетнамском. Но во вьетнамском короткие слова. Для подтверждения того, что перед Вами румынский текст, поищите в нем символы Ţ / ţ и Ş / ş (T и S с запятой внизу).

Ģ, ģ; Ķ, ķ; Ļ, ļ; Ņ, ņ: латышский язык. Только в этом языке есть четыре согласные буквы с запятыми, расположенными снизу, и это не Ţ / ţ и Ş / ş, как в румынском. Кроме того, над гласными буквами в латышском языке для обозначения его длительности ставят линию: Ā /ā, Ī / ī, Ō / ō, Ū / ū. В другом балтийском языке, литовском, длительность звуков обозначают иначе.

Ő, ő; Ű, ű: «Ежики» над этими гласными буквами – верный признак венгерского языка. Кроме того, в тексте довольно часто встречается сочетание gy ризнак венгерского – почти все слова непонятны, и  то и дело встречаются довольно длинные слова. Например, megszentségteleníthetetlenség – эта черта не может быть осквернена.

Ř, ř: Этот звук, средний между Р и Ж, существует только в чешском языке. Другая отличительная буква, встречающаяся только в чешском языке Ů / ů. Ну, и наконец, если то и дело встречаются слова, похожие на русские, значит 100% чешский.

Другой славянский язык, польский, имеет уникальный звук, обозначаемый буквой Ł, ł: Łódź. Буква эта похожа на Л, но читается, как английская W,  Уодзь. В польском языке слов, похожих на русские еще больше, чем в чешском.

I, ı; İ, i: В турецком тексте Вы встретите оба варианта буквы I, с точкой и без точки. Это два разных звука, Ы и И. Столица Турции – İstanbul, Истанбул. Еще в турецком языке есть буква ğ. Эта буква пишется, но не произносится. Например, Erdoğan – Эрдоан, а не Эрдоган.

Å, å: Те, кто изучал физику, узнают эту букву. Так обозначается единица длины «ангстрём». Эта буква есть во всех скандинавских языках: норвежском, датском и шведском. Как различить эту веселую троицу? Если Вы найдете в тексте еще ø и æ – это норвежский или датский. Если отыщете ö и ä – это шведский язык. Как отличить датский от норвежского? Ищите в тексте сдвоенную букву а: aa (как в фамилии известного датского философа Кьеркегора (Kierkegaard). У норвежцев нет такого звука и такого обозначения этого звука.

Есть еще два скандинавских языка, исландский и фарерский. Оба используют буквы Ð, ð; Þ, þ для обозначения звука, который в современном английском обозначается сочетанием th. Фарерский язык – достаточно редкий, так что указанные буквы почти наверняка – признак исландского. Но если хотите точности определения – в фарерском встречается буква ø, в исландском вместо нее используют ö (jökull, «ледник»).

Язык состоит из коротких слов и почти над каждой гласной есть акцент или «чубчик»? Это вьетнамский язык. Пример из Википедии:

Hà Nội là thủ đô của nước Cộng hoà Xã hội chủ nghĩa Việt Nam và cũng là kinh đô của rất nhiều vương triều Việt cổ.

Ханой является столицей Социалистической Республики Вьетнам, а также является столицей многих древних вьетнамских династий.

Ñ, ñ а также перевернутые вопросительный и восклицательный знаки (¡No pasaran!) присутствуют только в испанских текстах. Если слова в тексте вроде бы испанские (или французские), но часто встречаются буквы X / x – это каталанский язык. Эту редчайшую в испанском букву каталонцы используют для обозначения звука Ш.

В немецком языке используются гласные буквы с умлаутами Ä / ä, Ö / ö и Ü / ü. Кроме того, в немецком тексте довольно часто встречаются длинные слова, а также артикли der, die и das. В голландском языке встречаются сдвоенные гласные буквы (их используют для обозначения длинных звуков) и «сладкая парочка» ij (читается, как «ай»)

Кельтские языки (ирландский, шотландский гэльский и валлийский) характеризуются длинными словами. В ирландском и шотландском  в тексте часто встречаются двухбуквенные сочетания согласных: bh, ch, dh, fh, gh, mh, ph, sh и th. Только ирландцы и шотландцы знают, как эти сочетания произносятся. Акцентированные гласные используются в обоих языках, но только в шотландском есть акценты, направленные в левую сторону, как, например, à в Gàidhlig.

Валлийский язык сильно отличается от других кельтских «братьев». В нем много сдвоенных букв  ll и ff, а буква w является гласной (например, cwm).

Унгро-финские «братья», финский и эстонский. В текстах на этих языках трудно распознать даже «международные» слова. В финском языке могут встретиться очень длинные слова, например «moottoripyöräonnettomuus», «мотоциклетная авария». Сдвоенные гласные в этих языках – обычное дело.

Как отличить текст на эстонском языке от финского текста? В эстонском языке есть слова, оканчивающиеся на b или g, а также символ õ. Ну, и конечно, если Вам повезло, можно обнаружить самоназвания: у финнов Suomi, у эстонцев – Eesti.

В албанском языке используются буквы c и q, а также сочетание xh. В тексте на албанском языке можно встретить букву ë (например столица Албании Тирана пишется Tiranë). Албанский язык абсолютно не похож ни на один европейский. Самоназвание страны – Shqipëria.

Хорватский язык похож на русский еще сильнее, чем чешский и польский. В нем есть буква Đ / đ для обозначения звука «дж». Для смягчения звуков Л и Н используется буква j: Nj = Нь, Lj = Ль.

Если Вы знакомы с украинским языком, то без труда прочтете почти любую надпись на словацком языке. Эти языки очень близки.

Вообще задача определения современного языка по небольшому отрывку текста на этом языке, разрешима всегда. У каждого языка есть характерные признаки, которые позволяют это сделать. Эти особенности проанализированы  в замечательном справочнике Р. С. Гиляревского и В. С. Гривнина «Определитель языков мира по письменностям» для большого числа языков. Книга эта очень полезная, хотя последнее ее издание вышло в 1965 году, поэтому кое в чем она устарела.  Этот справочник в формате PDF находится в Интернете по адресу http://bit.ly/2p4pCys.

То, что можно свести в таблицу и классифицировать, можно и запрограммировать. Программу по автоматическому определению языка называют иногда guesser. Такая программа позволяет по введенным нескольким словам текста определить язык, на котором этот текст написан. Естественно, чем больше слов, тем точнее будет определение. Список таких программ можно найти по адресу http://bit.ly/guessers. Найти и опробовать.

По адресу http://bit.ly/guesser находится одна из лучших подобных программ. Кроме того, с задачей определения языка, с которого осуществляется перевод, очень часто справляется и переводчик Google (https://translate.google.com/ )



Статья опубликована на сайте Школа жизни

Статья опубликована на сайте Школа жизниПолезные ссылки:

  1. How to identify any language at a glance

Tags: книга о криптологии, криптология, школа жизни, языкознание
Subscribe

Posts from This Journal “книга о криптологии” Tag

promo eponim2008 september 21, 2020 12:37 3
Buy for 10 tokens
Женщинам дозволено кокетство. Скрывать свой возраст у прелестных дам стало общепринятой причудой. Даже если и скрывать особенно нечего. Потому я в начале моего рассказа тоже пококетничаю немного и своего возраста сразу не назову. Скажу только, что нахожусь я на том отрезке женской жизни,…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 1 comment