Основные положения, изложенные в этой главы, перечислены ниже. • Вероятностные языковые модели, основанные на n-элементных сочетаниях, позволяют получить весьма значительный объем информации о языке. • Контекстно-свободные грамматики (Context-Free Grammar — CFG) могут быть расширены до вероятностных контекстно-свободных грамматик, которые позволяют проще определять их параметры с помощью обучения из имеющихся данных, а также легче решать задачу устранения неоднозначности. • В системах информационного поиска используется очень простая языковая модель, основанная на обработке мультимножеств слов, но даже эта модель позволяет достичь высоких показателей полноты и точности на очень больших совокупностях текстов. • В системах извлечения информации используется более сложная модель, которая включает простейшие синтаксические и семантические конструкции. Для реализации таких систем часто применяются каскады конечных автоматов. • В практически применяемых системах машинного перевода используется целый ряд методов, начиная от полного синтаксического и семантического анализа и заканчивая статистическими методами, основанными на учете частот слов. • При формировании статистической языковой системы лучше всего опереться на модель, позволяющую эффективно использовать имеющиеся данные, даже если эта модель кажется чрезмерно упрощенной.
|