eponim2008 (eponim2008) wrote,
eponim2008
eponim2008

Экспериментальная ли наука языкознание? Программа Ngram Viewer

В ходе реализации проекта Google Book Search компании Google пришлось решать не только технические проблемы, связанные с массовой оцифровкой бумажных изданий на разных языках, но и проблемы юридические. Проект Google Book Search не должен был нарушать авторских прав, то есть он не позволял никоим образом полностью воспроизвести текст любого отсканированного печатного материала. Даже частичное воспроизведение отсканированных текстов было сильно затруднено. Однако база отсканированных текстов компании Google облегчил лингвистам возможность создания корпусов языка по самым разнообразным темам и для самых разнообразных исследований.

Лингвисты, конечно, этой возможности не упустили. В 2010 году появилась программа Google Ngram Viewer (которая до этого называлась «Bookworm» («Книжный червь»). Эта программа рассчитывала частоту встречаемости любой последовательности из n слов (которая называется n-gram) в печатных материалах, опубликованных между 1500 и 2008 годом. При этом программа могла работать с корпусами самых разных языков: английского, китайского, французского, немецкого, иврита, итальянского, русского и испанского.

Более подробно о создании и использовании программы Ngram Viewer можно прочесть в интереснейшей книге двух ее создателей, Эреца Эйдена и Жан-Батиста Мишеля. Книга называется «Неизведанная территория» и рассказывает о том, как «большие данные», аккумулированные в проекте Google Books не только помогают раскрывать тайны прошлого, но и позволяют предсказывать будущее развития мировой культуры.

Благодаря созданию этой программы появилась возможность представить графики зависимости рассчитанных частот от времени. А это позволило впервые ясно увидеть динамику языка, в том числе, отследить изменение языковых форм и появление новых слов. Лингвистика стала экспериментальной наукой!

Причем, экспериментировать может каждый, кого не забанили на Гугле :). Набираем адрес https://books.google.com/ngrams , и – добро пожаловать в лингвистическую лабораторию. Сюда же можно попасть по первой ссылке, если ввести в поисковую строку Googleзапрос «Ngram Viewer».


Когда новичок впервые попадает в научную лабораторию, ему стараются показать науку в действии. Поэтому экспериментаторы демонстрируют гостям самые эффектные опыты. В данном случае, войдя в лингвистическую лабораторию, посетитель сразу увидит результат одного из интересных экспериментов, демонстрирующих возникновение и жизнь в английском языке трех понятий, трех имен: Франкенштейн, Альберт Эйнштейн и Шерлок Холмс.

При этом одно из этих имен принадлежит реальному человеку. Альберт Эйнштейн (1879 —1955) – выдающийся физик-теоретик, работы которого изменили взгляды людей на пространство и время. При этом ему «повезло» больше других физиков, он стал всемирно знаменит, и его имя стало символом великого ученого. Настолько, что его фамилия частично потеряла связь с личностью ученого и иногда используется как эпоним. Сказать какому-нибудь физику: «Ну, ты Эйнштейн!» – значит сильно польстить ему. А американский мультсериал для любознательных малышей называется «Маленькие Эйнштейны» (Little Einsteins).

Два других имени принадлежат литературным героям. Шерлок Холмс в России популярен настолько, что и объяснять ничего не надо. Действующее лицо всеми любимой книги, персонаж еще более любимого сериала, наконец, герой анекдотов наряду со Штирлицем и Чапаевым. Это ли не слава, это ли не известность!

Франкенштейн же, главный герой романа Мэри Шелли «Франкенштейн, или Современный Прометей», вышедшего в свет в 1818 году, пришел в Россию гостем. Гостем он здесь и остался. Несмотря на множество американских и английских экранизаций, персонаж этот любимым среди народных масс России не стал. Между тем в англоязычных странах Франкенштейн – чрезвычайно популярный герой.

С Франкенштейном произошел забавный случай, показывающий, как иногда возникают слова, производимые от имени человека, то есть эпонимы. Чаще всего «франкенштейном» называют дело рук Франкенштейна, чудовище, созданное из кусочков тел людей и животных, собранных на бойнях, на кладбищах и в анатомических театрах. Хотя в оригинальном произведении этот монстр имени не имеет. Ничего не поделаешь, мы в ответе за тех, кого приручили (или сотворили)!

Итак, что мы видим, войдя на страницу Google Books Ngram Viewer? Во-первых, мы можем оценить частоту встречаемости исследуемых словосочетаний в англоязычных печатных источниках. «Франкенштейн» – не более 0.00018%, то есть, не более 2 слов на миллион. «Альберт Эйнштейн» достиг значения 0.0001%, что соответствует 1 слову на миллион. «Шерлоку Холмсу» повезло меньше всех – 0.00008% или 8 слов на десять миллионов.


Если провести мышкой по горизонтальной оси, на которой отмечены годы, мы увидим значения частот встречаемости каждого словосочетания, соответствующие данному году.

Вполне очевидным кажется, что имя «Шерлок Холмс» до 1887 года в англоязычной литературе не встречается, так же как имя «Альберт Эйнштейн» практически не отличается от нуля до 1916 года, после которого его известность резко возрастает. В 1916 году были опубликованы основные результаты общей теории относительности, которые были настолько необычны, что произвели сенсацию и стали обсуждаться сначала учеными-физиками, а потом и другими людьми, с наукой не связанными.

Имя же «Франкенштейн» встречалось в англоязычной литературе и до появления романа Мэри Шелли в 1818 году. Например, в Германии есть несколько городов с таким названием. Существенный рост популярности этого персонажа начался после появления кино и, соответственно, экранизаций. Сейчас Франкенштейн в англоязычных книгах приблизительно вдвое более популярен, чем Альберт Эйнштейн или Шерлок Холмс.

И это только начало интересных экспериментов, которые можно произвести в Интернет-лаборатории



Статья опубликована на сайте Школа жизни

Статья опубликована на сайте Школа жизниПолезные ссылки:

  1. An introduction to text mining

  2. Google Books Ngram Viewer

  3. Google позволила изучать популярность слов за последние 500 лет

Tags: школа жизни, эпоним, языкознание
Subscribe

Recent Posts from This Journal

  • Мои твиты

    Чт, 22:50: Из жизни гондонов https://t.co/hqLBg6wXDR

  • Из жизни гондонов

    Сент-Гондон. Церковь святого Гондона Слово « кондом», по всей видимости, произошло от фамилии врача, полковника Кондома,…

  • Мои твиты

    Ср, 13:09: Когда сядет Ю. Дудь? Делайте свои ставки, господа! Если вам больше нечего делать. https://t.co/Ncwfy6w8Nk Чт, 09:04: RT @…

promo eponim2008 сентябрь 21, 2020 12:37 3
Buy for 10 tokens
Женщинам дозволено кокетство. Скрывать свой возраст у прелестных дам стало общепринятой причудой. Даже если и скрывать особенно нечего. Потому я в начале моего рассказа тоже пококетничаю немного и своего возраста сразу не назову. Скажу только, что нахожусь я на том отрезке женской жизни,…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments