Правила пользования
Курс ЦБ на 25.04 USD 443.85 up -0.47
EUR 474.3 up 0.97
RUB 4.8 up 0.04
25 апреля Четверг, 17:14
восход заход
05:04 21:50 01:58 12:30

«Конференция «Диалог»: новые лингвистические проекты»

Дата: 05.06.13 в 16:02
Мобильная версия Шрифт

С 29 мая по 2 июня в Москве проходила конференция «Диалог 2013» - крупнейшая регулярная конференция по компьютерной лингвистике в России, которая проводится уже в девятнадцатый раз. Ее тематика включает в себя как теоретические лингвистические исследования, так и прикладные вопросы, относящиеся к автоматической обработке языка, корпусной лингвистике, автоматическому переводу, извлечению информации. В этом году участники «Диалога» представили коллегам немало новых проектов, о некоторых из которых мы кратко расскажем в нашем обзоре.

О работе над типологической базой данных «Языки мира» рассказали В. Д. Соловьев и В. Н. Поляков. Для языков, представленных в базе данных есть возможность получить информацию по более чем трем тысячам параметров: фонетических, грамматических, синтаксических свойств. Есть возможность сравнивать два языка по выбранным критериям. В докладе рассказывалось о научных исследованиях, сделанных при помощи этой базы данных.

В докладе Д. О. Добровольского сообщалось о разработке немецко-русского фразеологического словаря он-лайн, основанного на корпусных данных. Фрагменты этого словаря доступны на сайте Института иностранных языков в Мангейме. Традиционно фразеологические словари содержали ограниченное число случайно набранных примеров или вообще не содержали примеров употребления идиом. Есть проблемы и при составлении двуязычных словарей. Например, немецкое выражение jmdn. an der Nase herumführen обычно переводят русским водить за нос, однако при анализе реальных примеров употребления этого выражения оказывается, что во многих случаях более удачным переводом было бы надуть, одурачить или обвести вокруг пальца. В частности, это вызывается тем, что выражение водить за нос крайне редко используется в форме совершенного вида. В результате в словаре, основанном на корпусных данных, приводятся все возможные эквиваленты идиомы с указаниями, в каких условиях каждый из них предпочтительнее использовать.

О. Н. Ляшевская представила проект «Частотного лексико-грамматического словаря». В отличие от обычного частотного словаря, где указывается частота встречаемости слов, в этом словаре должны содержаться данные о частоте каждой из форм слова, например, падежных форм существительного. Словарь ответит на вопрос, что встречается чаще: дом, дома, дому, домом... или говорю, говоришь, говорил, говорила, говорите...

Лингвисты довольно давно заметили, что частота грамматических форм отдельных слов или групп слов может значительно отличаться от частоты этих форм в языке в целом. В среднем распределение частот падежей русских существительных, по данным Национального корпуса русского языка, таково: именительный — 27,06%, родительный — 29,23%, дательный — 5,98%, винительный — 18,66%, творительный — 8,44%, предложный — 10,63%. Однако, например, у слова шепот формы творительного падежа составляют более 70 процентов употреблений, у слова поза более половины употреблений — в предложном падеже, у слова тропинка — в дательном. Канадские лингвисты Салли Райс и Джон Ньюман заметили, что английские слова think, mean, know, довольно близкие по смыслу, имеют разное частотное распределение форм времени, лица и числа. Обнаруживать такие явления в русском языке исследователям поможет частотно-грамматический словарь.

Есть у такого словаря и прикладное значение. С помощью него можно при разработке программ обучению русскому языку как иностранному определять последовательно учебных тем, например, в каком порядке знакомить студентов с русскими падежами. Также преподаватели смогут, разбирая со студентами новую грамматическую категорию, подбирать для примеров и упражнений те слова, в которых она наиболее часто встречается в русских текстах.

Компьютерный словарь русских паронимов был создан Е. И. Большаковой и И. А. Большаковым. Необычность этого словаря в том, что он сделан не путем отбора паронимов вручную, а с помощью автоматического выбора слов компьютером. Напомним, что паронимы — это слова одного корня, созвучные друг другу, но различающиеся по смыслу: невежа — невежда, двигатель — движитель, экономический — экономичный — экономный, одеть — надеть. Ученые разработали алгоритм, позволяющий автоматически выбрать из словаря русского языка пары и группы паронимических слов. В результате работы программы были выделены 21802 паронимических ряда, объединяющие 192024 слова. Компьютерный словарь может использоваться для автоматического анализа правильности употребления паронимов в тексте.

В поле зрения лексической типологии чаще всего попадают существительные (названия частей тела, степеней родства) или глаголы, а вот имена прилагательные, за исключением цветообозначений, куда реже удостаиваются внимание исследователей. Восполнить этот пробел призвана «Типологическая база данных адъективной лексики», о которой рассказали М. В. Кюсева, Т. И. Резникова и Д. А. Рыжова. Напомним, что одним из основных вопросов лексической типологии является то, какими способами разные языки «упаковывают семантический материал в слова». Обратившись к прилагательным, мы видим, что русскому слову острый в коми-зырянском языке соответствуют два — лэчыд и ёсь. Первое обозначает признак режущих инструментов — ножей, пил, кос, а второе — колющих инструментов или объектов с зауженным кончиком — стрел, копий, колов, а также носов, подбородков. Во французском прилагательных, обозначающих остроту, целых три: tranchant (ножи и пр.), aigu (иглы и пр.) и pointu (объекты типа подбородка). В русском языке есть слово тонкий, а в хантыйском, говоря о плоских тонких объектах (книгах, матрасах, стенах) надо употребить слово uoxəł, говоря о цилиндрических предметах (стеблях, веревках столбах) — слово vas’. При этом слово vas’ употребляется и в тех  случаях, когда в русском используется слово узкий (например, «узкая дорога»). Латинскому прилагательному altus может соответствовать русское высокий, когда речь идет о горе или здании, или глубокий, когда речь идет о реке. База данных, которую планирует создать группа ученых, будет способна отвечать на вопросы типа: «в каких языках значения ‘высокий по размеру’ и ‘расположенный высоко’ передаются разными словами?», «всегда ли слово со значением ‘тяжелый по весу’ означает также и ‘трудный’?» и так далее.

О первых результатах работы над грамматическим словарем и программой морфологического анализа для русских текстов XVIII–XIX веков речь шла в докладе А. Е. Полякова, С. О. Савчук и Д. В. Сичинавы. Программа должна автоматически определять грамматические характеристики слов и используется при работе над корпусом среднерусских текстов в составе Национального корпуса русского языка.

П. И. Браславский с коллегами рассказали о проекте большого открытого тезауруса русского языка YARN (Yet Another RussNet). Подобные тезаурусы, первый из которых начал разрабатываться в Принстоне в 1986 году (Princeton Wordnet), представляют собой семантические сети, узлами которых служат не отдельные слова, а синонимические ряды (синсеты, synset от synonym set). Синсеты связаны между собой различными отношениями (часть-целое, род-вид, антонимия и так далее). Подобная семантическая сеть может использоваться для разнообразных задач компьютерной обработки текстов. Такие словари тезаурусы, получившие название «ворднеты», сейчас, по данным всемирной WordNet-ассоциации, разработаны для 73 языков, в том числе для латыни и санскрита.

О. А. Казакевич и М. И. Воронцова представили проект многофункционального интернет‑ресурса «Малые языки Cибири: наше культурное наследие». В рамках проекта планируется собрать материалы материалы по малым языкам бассейна Среднего Енисея и Среднего и Верхнего Таза — селькупскому, кетскому и эвенкийскому. Обследовав в лингвистических экспедициях поселки, где живут носители этих языков, исследователи формируют социолингвистическую базу данных, показывающую, в насколько сохранился язык в каждом населенном пункте: число говорящих, их возраст, степень владения языком и так далее. Также во время экспедиций ученые создают озвученные словари каждого языка. Заранее подготовив тематический словарь на русском языке, они предлагают информанту для каждого русского слова четко произнести эквивалент на родном языке, а также перевести на родной язык предложение, в котором есть это слово. Будут также опубликованы тексты на разных диалектах изучаемых языков, как записанные в экспедициях, так и взятые из архивов. Тексты снабжаются транскрипцией, переводом, а записанные в недавних экспедиция также аудио и видеозаписями. На сайте будут присутствовать грамматические очерки языков, обучающие программы, документальные фильмы и фотографии.

Просмотров: 470


Комментариев: 0
О компании О проекте Источники новостей Предложить ленту Реклама на сайте Реклама в газете Контакты Наши партнеры
Портал ivest.kz - база частных объявлений газеты «Информ Вест», справочник предприятий городов Казахстана и России, новости, недвижимость, электронные версии ряда изданий, сборник кулинарных рецептов. Все замечания и предложения принимаются на info@ivest.kz.
Использование данного веб-портала подразумевает ваше согласие с Правилами пользования.
© 2000-2024 «Информ Вест»
Top.Mail.Ru
×