eponim2008 (eponim2008) wrote,
eponim2008
eponim2008

Category:

Экспериментальная ли наука языкознание? Что такое корпус языка и для чего он нужен


Длительное время языкознание считалось наукой гуманитарной. Труды по филологии зачастую были пугающе толстыми. Но те, кому приходилось «перекопать» эти сокровища научной мысли, случалось, извлекали из них довольно тощее резюме, и что хуже всего, не подтверждавшееся ничем, кроме сплетения словес, сплетения иногда изящного, иногда не очень.

Сейчас языкознание превращается из науки гуманитарной в науку точную, то есть начинает использовать количественные методы, обеспечивающие воспроизводимость результатов исследований и предсказуемость выводов. При этом язык рассматривается, как реально существующий объект, назначение которого – быть средством коммуникации (передачи информации) между людьми.

Такой подход к языку определили исследования американского ученого Джорджа Зипфа (George Kingsley Zipf; 1902 —1950). Он первый предложил количественную характеристику для больших текстовых массивов: частоту встречаемости слов. Он же вывел закон частотного распределения слов в тексте, справедливый для любого естественного языка.

Закон Зипфа определил частотное распределение слов, как универсальную и, вероятно, главную характеристику языка. Очень важно, что частоту распределения слов в языке можно подсчитать, а значит, более или менее однозначно интерпретировать.

Но во времена Дж. Зипфа подсчет частотного распределения слов в языке производился вручную и потому чисто технически был задачей нелегкой. В настоящее время это распределение легко рассчитать на компьютере. Таким образом, компьютер превращается в удобный инструмент, позволяющий производить эксперименты над языком.

Современные исследования и даже эксперименты над языком проводят на модельном объекте, который называется языковым корпусом.

Корпус языка похож на словарь, но это не словарь. В словаре перечисляются все слова, так или иначе входящие в язык. Если какое-то слово в словарь не входит, можно сомневаться в его принадлежности к языку. Вопрос о необходимости включения слова в словарь решают составители, и решение это может быть правильным, но это решение субъективное. Из-за такой субъективности и возникают анекдотические ситуации, изложенные в милой детской песенке, которую легко отыскать в Интернете.

Ситуация эта разруливается созданием специальных словарей, куда может включаться и лексика табуированная, и лексика преступников, арго, и всякого рода профессиональные жаргоны, например, язык моряков, о котором когда-то красиво написал В. Высоцкий:

Мы говорим не «штормы», а «шторма» -
Слова выходят коротки и смачны:
«Ветра» - не «ветры» - сводят нас с ума,
Из палуб выкорчевывая мачты.

Здесь же, на обочине серьезной работы по составлению словарей, кипят горячие дискуссии о том, не слишком ли много иностранных заимствований в русском языке (который по определению «велик и могуч»). И не запретить ли приказным порядком употребление хорошего русского слова «мерчендайзинг»?

Корпус языка – это тоже список слов живого языка, но собирается он по другому принципу, нежели словарь. Лингвисты считают, что объем корпуса языка должен быть не менее 1 миллиона слов, а составлять его следует, выбирая слова из самых разных источников, от газетных статей до классических текстов. А в некоторые корпусы включаются даже слова из различных записей устной речи. Современная техника позволяет устранить разницу между словом записанным и словом изреченным. То есть, корпус – наиболее объективное отражение текущего состояния языка. А поэтому в него совершенно спокойно могут войти и слова, которые не нравятся пуристам, и слова попросту неприличные. По какому праву? Да по праву их повсеместного и частого употребления. Естественно, что и при составлении корпуса языка есть место «волюнтаризму» и субъективности. Так же, как находится место настоящему филологическому чутью и научной смелости. В современном языкознании составление корпусов языков – задача актуальная, популярная и необходимая.

Национальный языковой корпус – это не собрание слов, не словарь. Но его нельзя рассматривать также, как некоторое собрание библиотечных текстов. Библиотеки, в том числе, и электронные, формируются по субъективным критериям «интересности» или «полезности». Главным же при подборе текстов, на основе которых формируется корпус языка – их представительность. Для данного языка эти тексты должны быть наиболее характерными. А таковыми могут оказаться не только классические произведения художественной литературы, но и запись обычного телефонного разговора, и типовой договор, например, аренды помещения, и журнальные статьи, и роман второстепенного писателя, и запись обычного телефонного разговора, и типовые деловые документы, например, договор аренды.

Подобно тому, как наряду с общими словарями существуют и словари специальные, наряду с общим корпусом языка существуют и поддерживаются корпусы специальные, например корпус журнально-газетной лексики.

Еще одно важное отличие корпуса национального языка от словаря состоит в том, что корпус языка хранится не в виде книг, а формируется в виде электронного носителя. Это позволяет не только оперативно – вслед за изменением языка – изменять языковой корпус, но и надстраивать над ним некоторую систему дополнительной информации о свойствах входящих в корпус текстов. Такая надсистема называется разметкой, или аннотацией. Именно разметка – главная ценность любого национального корпуса языка. Именно благодаря ей филологи могут экспериментировать над языком. В настоящее время в национальном корпусе русского языка используется пять видов разметки. Например, морфологическая разметка предполагает для каждого слова из корпуса указание его морфологических характеристик (какая это часть речи, какой у нее род, число, падеж, одушевленность и пр.). Синтаксическая разметка определяет для каждого слова его положение в предложении (подлежащее, сказуемое, дополнение, обстоятельство, направление действия и другие). Словообразовательная разметка указывает на взаимосвязь слов по их происхождению.

Если в распоряжении филологов имеется корпус языка с хорошей разметкой, они могут сделать самые неожиданные открытия на основании зависимостей, которые раньше прятались «в курганах книг, похоронивших стих».

Один из флагманов Интернета, компания Google стремится «пересчитать» и «учесть» не только информацию, содержащуюся в Интернет-сайтах. В октябре 2004 года публике был представлен проект Google Book Search. Этот проект заключался в том, что компания Google начала сканировать и оцифровывать тексты книг, содержащихся в фондах крупнейших библиотек США и Великобритании. Оцифрованные тексты становятся частью базы данных Google. В результате появляется возможность полнотекстового поиска по содержимому печатной продукции: книг, журналов и газет. А самое главное, временные рамки информации, доступной обработке средствами Google резко расширяются. Ведь если Интернет появился только во второй половине 20-го века, то печатные книги являются частью человеческой культуры с начала 16-го века.

На основе этого проекта ученые филологи неожиданно получили интересную возможность изучать процессы, происходящие в процессе развития естественных языков.



Статья опубликована на сайте Школа жизни

Статья опубликована на сайте Школа жизниПолезные ссылки:

  1. Корпусная лингвистика

Tags: закон Зипфа, школа жизни, эпоним, языкознание
Subscribe

Posts from This Journal “школа жизни” Tag

  • Как города входят в историю? Ливермор

    Как известно, первые американские атомные бомбы разрабатывались в лаборатории, которая находилась в городке Лос-Алáмос в штате Нью-Мексико.…

  • Что такое маскот?

    В начале эпохи автомобилизма в моду вошли украшения, которые называли маскотами от французского слова «mascotte», что означает…

  • Кто такие тунеядцы?

    Когда-то я жил в Москве, и жил я в Москве на улице со странным названием Красный Казанец. Странность названия продолжалась до тех пор, пока я, вслед…

promo eponim2008 september 21, 2020 12:37 3
Buy for 10 tokens
Женщинам дозволено кокетство. Скрывать свой возраст у прелестных дам стало общепринятой причудой. Даже если и скрывать особенно нечего. Потому я в начале моего рассказа тоже пококетничаю немного и своего возраста сразу не назову. Скажу только, что нахожусь я на том отрезке женской жизни,…
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments