Автоматизированные переводные словари. Принципы построения.
АС – это словарь, который при переводе некоторые операции делает за человека. Компьютерный словарь – аналог бумажного на магнитных носителях. АС = ТБД с общеупотребительной лексикой. EURODICAUTOM (11, 1.200.000 ЛЕ), LEXIS (8, 1.500.000 ЛЕ).
Отличительные свойства АС:
многоязычие
обратимость ( полная: всякая ЛЕ может выступать в роли входной при запросе и выходной при ответе; частичная: наличие индекса)
гибкость (удобное, упрощенное обращение к словарю: несколько входов в словарь)
динамичность (постоянное пополнение словарного состава; оперативность редактирования)
состав (структура) словаря:
макроструктура – структура словаря:
микроструктура – структура словарной статьи
основная единица словаря
слово (композиционно)
словосочетание (статистически); 80% обращений к словарю – СС; причина -уклон в терминологию
3 главных компонента АС:
блок обработки запроса (блок лемматизации – сведения текстовых форм к их словарным (каноническим) форме)
блок лексических массивов (в АС ЛЕ могут храниться и в виде основ, и виде словоформ)
( блок морфологического анализа) (иногда)
блок выдачи ответа (ПЭ; главная задача – варьирование ответа в зависимости от пожеланий пользователя)
Желательно также, чтобы АС обладал:
блоком лемматизации
алгоритмом обработки некорректных запросов
алгоритмом словообразовательного анализа)
АС не СМП, он берет на себя только работу с лексемой, оставляя человеку проблему выбора ПЭ и синтеза текста. На вход АПС поступают отдельные слова и СС, с помощью анализа которых можно получить сведения о грамм. классе слова и его грамм. форме. решить на основании этой информации проблемы омонимии и многозначность, определить синтас. функцию ПЭ в тексте невозможно, поэтому разработчики АПС таких задач перед собой и не ставят. Тем не менее индекс тематической принадлежности в какой-то мере разрешает многозначность лексики.
Словарная статья:
Ее структура и наполнение определяется назначением словаря.
Структура словарной статьи (13 зон):
- Заголовок – основа, СС (больше всех по количеству), морфема, фрагменты текста
- Зона лексического грамматического класса – ЛЕ по частям речи, далее – категоризация.
- Зона морфологической информации
- Рубрика подрубрика стиль (вся информация – в виде цифровых кодов)
- Зона индекса надежности отражает степень общепринятости данного ПЭ:
А – официальный стандарт
Б – уважаемые словари
В – тетради новых терминов
Г – плавающие
- Зона ПЭ (при нескольких ПЭ – у каждого свой номер)
- Зона пояснительных помет – уточнение значения данной ЛЕ
семантические
лексические
синтаксические (обязат. управление)
- Зона толкований (для многозначных слов и новых терминов)
- Зона примеров употребления выполняет две функции:
иллюстративную
смыслоразличительную
- Зона фразеологии.
- Составитель словарной статьи
- Источник составления словарной статьи -> необязательные
- Дата составления словарной статьи