Бесплатная онлайн-платформа Corpus.by

Бесплатная онлайн-платформа Corpus.by


31.07.2017
copus_bg.jpg

Уже давно работает совершенно бесплатная онлайн-платформа для обработки текстовой и звуковой информации Corpus.by. На ней собраны десятки сервисов, которые помогают в изучении белорусского языка и не только. Создали ее сотрудники лаборатории. Пять лет назад здесь было всего три сервиса. Зато сегодня сервисов более 40. На разработку некоторых пошло полдня, на другие — месяцы и годы.

Возможностей много: хотите — генерируйте транскрипции, хотите — запускайте сервис «говорящая голова» и смотрите на человека, который озвучивает то, что вы попросите. Можно проверить правописание, разделить слова на слоги, упорядочить слова по алфавиту или (чтобы вы уже точно убедились в разнообразии ресурса) конвертировать текст в код Морзе.

Особенно полезный сервис — «озвученный электронный грамматический словарь». Здесь можно проверить написание любого белорусского слова по всем имеющимся словарям и прослушать, как оно звучит в исполнении синтезатора речи.

Осторожно — сайт засасывает!

Когда в Лабораторию распознавания и синтеза речи обратилась Валентина Русак с просьбой помочь в разработке орфоэпического словаря, программисты придумали техническое решение, благодаря которому удалось сэкономить не один год работы.

«Все началось с того, что наша лаборатория разработала автоматическую систему синтеза речи и выложила ее в интернет для свободного пользования, — рассказывает заведующий лабораторией Юрий Гецевич. — Качество сгенерированной речи не идеальна, но разобрать слова можно.

Принцип работы синтезатора речи впоследствии использовали для автоматической генерации транскрипции слов. Станислав Лысый создал для этого отдельный сервис — «Генератор орфоэпического словаря». Сначала его тестировали лингвисты, они фиксировали ошибки и передавали в лабораторию на исправление. В результате сервис научился генерировать транскрипцию почти безупречно.

«Нам удалось добиться этих 98% благодаря нескольким сотням правил, которые прописали Борис Лобанов, Лилия Цырульник, Дмитрий Покладок и скорректировали Елена Гюнтер, Евгения Зеновко, Юрий Гецевич и я. Простите, если не всех разработчиков правил — сотрудников нашей лаборатории — вспомнил. Чем более узкое правило, тем сложнее его добавить. Взять то же «г» взрывное. Пришлось ломать голову на тем, как его включить, чтобы не поломать все остальное», — добавляет Станислав Лысый.

Сотрудники лаборатории призывают пользователей заходить на интернет-ресурс Corpus.by и знакомиться с сервисами, почти каждый из которых имеет подробное описание. А также включаться в их совершенствование и сообщать о тех вещах, которые можно улучшить, а также об ошибках, которые следует исправить.

Источник: http://nn.by/


Возврат к списку


       




© 2002 Битрикс, 2007 1С-Битрикс