Сапожков А.М. - Лауреат Премии им. Матвеева В.А.

Стремительное развитие и внедрение технологий искусственного интеллекта и технологий автоматической обработки текстовой информации способствуют развитию лингвистических баз данных как основы создания прикладных программных средств, проведения лингвистических исследований источников информации при решении ряда прикладных задач, где однозначная и упорядоченная терминология имеет особую значимость.

Создание терминологических баз данных представляет собой сложный и трудоемкий процесс, требующий значительного количества времени на их создание и обновление, что особенно важно для развивающихся терминологий таких предметных областей, как авиация, космонавтика, нанотехнологии, биоинженерия, информационные технологии и многих других. Одним из наиболее время-затратных процессов является ручной сбор иллюстративного материла – извлечение специальной терминологии из коллекций текстов, что требует наличия средств автоматического извлечения многокомпонентных терминов при обработке научно-технических текстов.

В работе описано создание системы извлечения многокомпонентных терминов и их переводных эквивалентов из параллельных научно-технических текстов на основе структурных моделей терминологических единиц с последующим применением ограничений на лексическую сочетаемость общеупотребительных слов и терминов. Проанализирована формальная структура терминологических единиц. Выделены структурные модели многокомпонентных терминов и изложен метод извлечения терминов из научно-технических текстов на английском и русском языках на основе структурных моделей многокомпонентных терминов. Описан алгоритм работы системы извлечения многокомпонентных терминов и их переводных эквивалентов из параллельных научно-технических текстов. В качестве примера приведены результаты работы такой системы на текстах по космонавтике, а также проанализированы допущенные ошибки.

Разработанная система является приложением для выделения терминов из текстов, их сохранения и анализа. Приложение может использоваться лингвистами для сбора терминологических баз данных и проведения исследований.