语言模型
原创2025年3月31日大约 2 分钟
1. 基本概念

1.1 文法
- n元文法(n-gram)模型

- 例子:

1.3 使用二元文法例子

- 二元文法样本空间是
- 效果比一元文法强
2. 参数估计
示例讲解

- 分子的意思是:A 在 B 后面出现的次数,
- 分母的意思是 B 后面出现任何词的次数。
- 每个 P 表示 A 在 B 后面出现的概率。
- 每个 P 相乘,得到了句子的概率。
3. 数据平滑
- 概念复习:
- 训练语料(training data):用于建立模型,确定模型参数的已知语料。
- 最大似然估计(maximum likelihood Evaluation, MLE):用相对频率计算概率的方法。
3.1 应用示例

- 不能因为语料库中没有以 Cher 开头的句子就判别整个句子概率为 0,特别是语料库数据较少的时候,这种情况时常出现。
3.2 困惑度

:表示测试文本 的总词数。 :表示模型 给出整个文本 的概率,也就是所有词的联合概率 。
相关信息
假设模型预测的概率如下(随便举个数字):
那么这个句子的联合概率就是:
3.3 加一法
:词汇表大小(不同词的总数)- 分母中
:表示前一个词是 时所有接续词的总出现次数
例子:
<BOS> John read Moby Dick <EOS>
<BOS> Mary read a different book <EOS>
<BOS> She read a book by Cher <EOS>
不加平滑:
——> 这样的话,整个句子的概率就会变成 0,因为乘法里有 0!
加一平滑后:
词汇量大小
<BOS>
出现了 3 次