Морфологический анализатор pymorphy2¶
pymorphy2 написан на языке Python (работает под 2.x и 3.x). Он умеет:
- приводить слово к нормальной форме (например, “люди -> человек”, или “гулял -> гулять”).
- ставить слово в нужную форму. Например, ставить слово во множественное число, менять падеж слова и т.д.
- возвращать грамматическую информацию о слове (число, род, падеж, часть речи и т.д.)
При работе используется словарь OpenCorpora; для незнакомых слов строятся гипотезы. Библиотека достаточно быстрая: в настоящий момент скорость работы - от нескольких тыс слов/сек до > 100тыс слов/сек (в зависимости от выполняемой операции, интерпретатора и установленных пакетов); потребление памяти - 10...20Мб; полностью поддерживается буква ё.
Лицензия - MIT.
Содержание¶
Исходный код - на github или bitbucket. Если заметили ошибку, то пишите в баг-трекер. Для обсуждения есть гугл-группа; если есть какие-то вопросы - пишите туда.
Цели и задачи¶
- Поддержка всех возможностей pymorphy (не готово);
- более актуальные и точные словари из OpenCorpora;
- большая скорость работы (50x-500x) при таком же или меньшем потреблении памяти;
- преобразование слов из одной формы в другую между разными частями речи;
- выделение поддержки django в отдельный пакет (не готово);
- полная поддержка буквы ё;
- возможность обновления словарей;
- ранжирование результатов разбора (готово только частично);
- снятие неоднозначности разбора (?) (не готово).