Google изучил развитие языка за двести лет

19.12.2010

Google изучил развитие языка за двести летУченые применяют поисковый сервис для проведения масштабных лингвистических исследований. Используя 5 миллионов отсканированных книг, специалисты смогли проследить эволюцию языка за последние 200 лет.

До сих пор у лингвистов не было инструмента, который бы позволил проанализировать значительное количество текстов. Авторы нового исследования работали с книгами, которые были переведены в цифровой формат – на сегодняшний день их насчитывается около 15 миллионов.

В ходе исследования ученые выбрали треть текстов, 5,2 миллиона книг на английском, французском, русском, немецком, испанском, китайском языках и составили базу всех использованных в них слов – их получилось около 500 миллиардов. Поиск по ней осуществляется на базе алгоритмов Google, использовавшейся в разработке сайта для проекта.

Проанализировав полученные сведения, исследователи смогли сделать большое количество разнообразных выводов. В частности, было установлено, что за последние сто лет число часто используемых слов возросло вдвое – если в 1900 году использовалось около 544 тысяч слов, то в 2000 году это число возросло до одного миллиона. Причем 52 процента новых слов стало активно употребляться после 1950-х годов.

Кроме того, специалисты изучили, как сказывалась на употреблении тех или иных слов цензура. Например, было установлено, что после 1989 года словосочетание «площадь Тяньаньмень» практически перестало встречаться в китайской литературе. То же самое произошло с именем Льва Троцкого в Советском Союзе в 1940-е годы и с именами голливудских актеров, уличенных в связях с СССР в США.

Авторы полагают, что новый инструмент позволит исследовать слова и лингвистические тенденции, используя те же подходы и методы, что применяют и специалисты по естественным наукам.

Фото lenta.ru

Возврат к списку
Персональная рекомендация