Главная arrow книги arrow Копия Глава 15. Вероятностные рассуждения во време arrow Предложения
Предложения

Значительным преимуществом такой модели с двухсловными сочетаниями является то, что можно легко провести обучение этой модели, подсчитав, сколько раз каждая пара слов встречается в представительной совокупности строк, и используя эти подсчеты для оценки вероятности. Например, если "а" встречалось в обучающей совокупности 10 000, а за ним 37 раз следовало "gun", то = 37/10, 000, где под Ρ подразумевается оцениваемая вероятность. После такого обучения следует ожидать, что слова "1 have" и "a gun" будут иметь высокие оцениваемые вероятности, a "I has" и "an gun" — низкие вероятности. В табл. 15.2 показаны некоторые результаты подсчета количества двухсловных сочетаний на примере слов в оригинале данной книги.

Возможно также перейти к использованию модели трехсловных сочетаний, в которой предусмотрены значения для. Это — более мощная языковая модель, позволяющая судить о том, что слова "ate a banana" (съесть банан) являются более вероятными, чем "ate a bandanna" (съесть бандану— цветной платок). Подходы, в которых предусмотрено применение моделей трехсловных сочетаний и в меньшей степени моделей двухсловных и однословных сочетаний, характеризуются наличием одной проблемы, которая связана с нулевыми результатами подсчета частоты: мы не должны утверждать, что какая-то комбинация слов невозможна, лишь потому, что она по стечению обстоятельств не встретилась в обучающей совокупности. Для того чтобы можно было назначить таким комбинациям небольшую ненулевую вероятность, применяется процесс сглаживания. .

Модели двух- или трехсловных сочетаний являются менее сложными по сравнению с некоторыми грамматическими моделями, которые будут рассматриваться в главах 22 и 23, но они позволяют лучше учесть локальные эффекты, связанные с контекстными зависимостями, и способны отразить определенные локальные синтаксические связи. Например, тот факт, что пары слов "I has" (я имеет) и "man have" (мужчина имею) получают низкие оценки, отражает общепринятые синтаксические соглашения по совместному использованию пар существительное—глагол. Проблема состоит в том, что подобные связи с помощью моделей сочетаний могут быть обнаружены только локально: неправильная языковая конструкция "the man have1' (мужчина имею) получает низкую оценку, но более пространный оборот "the man with the yellow hat have" (мужчина в желтой шляпе имею) не рассматривается как ошибочный.