Автоматический морфологический анализ.  Соотношение словаря и анализа.

 

Автоматический морфологический анализ (АМА)- анализ отдельно взятой словоформы и всех тех сведений, которые из нее можно извлечь безотносительно к тому, относятся ли эти сведения к морфологии или нет.

АМА определяется двумя факторами:

1) тип ЕЯ, подвергаемого анализу

2) тип алгоритма авт. обработки текста

 

МА начинается с поиска входного слова в словаре и с членения словоформы на составляющие ее морфемы.

 

Общая схема морфологического анализа:

  1. Общие правила (управляющий алгоритм
  2. Список (таблицы) суффиксов
  3. Список (таблицы) информации к суффиксам
  4. Список нестандартных операций (нестандартная запись)
  5. Обработка омонимичных основ

 

Важен тип входного словаря. Учитывая  связь МА со словарем можно выделить следующие группы МА:

 

  1. морфологический анализ со словарем словоформ: каждой словоформе приписывается определенная информация (слово отыскивается. информация извлекается)
  2. морфологический анализ со словарем основ (проблемы: анализ найденных в словаре форм, как отождествить разные словоформы одного и того же слова)

сравнение словоформы на полное совпадение  -> нет -> словоформа = основа + окончание. В задачу МА входит разрешение синонимии и омонимии основ

  1. МА методом логического умножения (Варга)

Каждой морфеме сопоставляется информация, полученная в результате объединения информации о словоформах, в которые входит данная морфема. Информация о словоформе получается как пересечение или логическая конъюнкция (&) информации о морфемах. входящих в данную словоформу.  Тем самым функция. определенная на множестве словоформ. заменяется на функцию, определенную на множестве морфем.  Такой анализ производится при наличии словаря основ и применяется к флективным языкам. каждой букве соответствует булевый вектор (есть 1, нет 0).  перемножая эти векторы выходят на категорию.

  1. независимый МА без словаря словоформ.

Максимальное использование информации о флексиях во флективных языках. выделяются грамматические морфемы (флексии, предлоги, союзы, знаки препинания между словами – все элементы. передающие связи слов во фразе.

Группа флексий, характеризующаяся одинаковым набором грамм. отношений. которые они могут передавать, образует морфему.

флексии, входящие в одну морфему, называются алломорфами, т.е. морфемными синонимами.  Задача алгоритма состоит в том, чтобы по взаимному расположению алломорфов отнести каждую флексию к ее морфеме.  С этой целью строятся специальные словари: словари флексий, словари слов, не несущих грамм. инф. (наречий и т.п.).  Способ имеет ограниченной применение.

 

 

 

Join Us On Telegram @rubyskynews

Apply any time of year for Internships/ Scholarships