Linguistics

Материал из ALT Linux Wiki

Лингвистика и обработка естественного языка (Natural language processing)

FIXME:организовать в более общие разделы, дополнить

Универсальные (почти) пакеты

  • python-module-nltk Большой пакет, включающий модули python для решения очень широкого круга задач из области корпусной лингвистики и обработки естественного языка. См. домашнюю страницу проекта, и в особенности книгу. Хорошо бы найти добровольцев её перевести на русский язык.

Лемматизация

  • perl-Lingua-Stem — Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский FIXME:описание
  • snowball Судя по отзывам, хороший стеммер, поддерживающий много разных языков, включая русский, имеется обёртка для python -- PyStemmer. Всё это хорошо бы собрать в Сизиф. Примечание: уже имеется пакет по имени snowball, другой.

Морфологический и синтаксический анализ

  • aot — Русский, Немецкий, Английский FIXME:описание

Лингвистическая аннотация, базы данных

  • emdros — база данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.

Коллокации, анализ сочетаемости

  • perl-Text-NSP — пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
  • perl-UCS — пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.

Перевод

  • OmegaT - это свободная система автоматизированного перевода, поддерживающая память переводов, написанная на языке программирования Java. Эта система предназначена для профессиональных переводчиков. OmegaT не переводит вместо человека! (В отличие от программ, выполняющих «машинный перевод», OmegaT лишь помогает переводчику и упрощает его работу.) Возможности OmegaT включают:
  • Anaphraseus - это макрос OpenOffice.org, является по сути системой CAT (Computer-Assisted Translation), инструмент автоматизированного перевода. Программа позволяет создавать, управлять и использовать двуязычные памяти переводов (Translation Memories) на любых языках. Изначально, Anaphraseus был разработан для работы с форматом памяти переводов Wordfast, однако была также включена поддержка экспорта/импорта файлов в формате TMX (Translation Memory Exchange/Обмен памятью переводов) Unicode UTF-16.
  • bibtext2tmx - это программа для согласования сегментов оригинального и переведенного текстов для сохранения результатов в TMX формате и последующего использования этого материала в приложениях автоматизированного перевода (CAT).

Шрифты