Ученые создали алгоритм почти автоматического перевода дореволюционных изданий

Москва. 25 марта. INTERFAX.RU - Сотрудники новосибирского Института вычислительных технологий (ИВТ) разработали систему, которая почти автоматически позволяет переводить дореволюционные издания в современную русскую орфографию, сообщает издание Сибирского отделения РАН "Наука в Сибири".

"Алгоритм может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов", - говорится в публикации.

Существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать эти методы. Авторы разработки выбрали подход, основанный на правилах, однако до середины XX века орфография русского языка не была официально утверждена.

"До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года "О введении новой орфографии" был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица вообще не была упомянута", - отмечает ведущий научный сотрудник ИВТ Владимир Барахнин.

За основу ученые взяли "Справочник по старой орфографии русского языка" Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года.

Для перевода недостаточно заменить устаревшие буквы на современные и убрать твердые знаки в конце слов: есть случаи, в которых правописание частей слова отличается от нынешнего, говорится в публикации

Исследователи сопоставили устаревшее и современное написание для каждой из групп и, выявив закономерности между ними, описали правила перевода, лежащие в основе программы.

Программа пока еще не может правильно анализировать случаи, которых нет в справочниках. Теперь ученым предстоит доработать ее так, чтобы такие случаи были выявлены и получили решение.

Для этого, в частности, необходим корпус параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде - в таком корпусе текстов могут быть заинтересованы, например, библиотеки с большим объемом дореволюционных фондов.