Linguistics

Материал из ALT Linux Wiki
Перейти к: навигация, поиск

Лингвистика и обработка естественного языка (Natural language processing)

FIXME:организовать в более общие разделы, дополнить

Универсальные (почти) пакеты[править]

  • python-module-nltk Большой пакет, включающий модули python для решения очень широкого круга задач из области корпусной лингвистики и обработки естественного языка. См. домашнюю страницу проекта, и в особенности книгу. Хорошо бы найти добровольцев её перевести на русский язык.

Лемматизация[править]

  • perl-Lingua-Stem — Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский FIXME:описание
  • snowball Судя по отзывам, хороший стеммер, поддерживающий много разных языков, включая русский, имеется обёртка для python -- PyStemmer. Всё это хорошо бы собрать в Сизиф. Примечание: уже имеется пакет по имени snowball, другой.

Морфологический и синтаксический анализ[править]

  • aot — Русский, Немецкий, Английский FIXME:описание

Лингвистическая аннотация, базы данных[править]

  • emdros — база данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.

Коллокации, анализ сочетаемости[править]

  • perl-Text-NSP — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
  • perl-UCS — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.

Перевод[править]

  • OmegaT - это свободная система автоматизированного перевода, поддерживающая память переводов, написанная на языке программирования Java. Эта система предназначена для профессиональных переводчиков. OmegaT не переводит вместо человека! (В отличие от программ, выполняющих «машинный перевод», OmegaT лишь помогает переводчику и упрощает его работу.) Возможности OmegaT включают:
  • Anaphraseus - это макрос OpenOffice.org, является по сути системой CAT (Computer-Assisted Translation), инструмент автоматизированного перевода. Программа позволяет создавать, управлять и использовать двуязычные памяти переводов (Translation Memories) на любых языках. Изначально, Anaphraseus был разработан для работы с форматом памяти переводов Wordfast, однако была также включена поддержка экспорта/импорта файлов в формате TMX (Translation Memory Exchange/Обмен памятью переводов) Unicode UTF-16.
  • bibtext2tmx - это программа для согласования сегментов оригинального и переведенного текстов для сохранения результатов в TMX формате и последующего использования этого материала в приложениях автоматизированного перевода (CAT).

Шрифты[править]