题目
下列关于文本特征提取评价标准的描述不正确的是( )。A. 信息增益的值越大,说明这个属性越好B. IDF的值越大,说明这个词越能够代表整篇文章的意思C. 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小D. 卡方用来检验两个事件的对立性,卡方值越大,说明特征词和类别的相关性越大
下列关于文本特征提取评价标准的描述不正确的是( )。
A. 信息增益的值越大,说明这个属性越好
B. IDF的值越大,说明这个词越能够代表整篇文章的意思
C. 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小
D. 卡方用来检验两个事件的对立性,卡方值越大,说明特征词和类别的相关性越大
题目解答
答案
C
解析
本题考查文本特征提取评价标准的理解,需掌握信息增益、IDF、互信息、卡方检验的核心概念。关键点在于:
- 信息增益反映属性对分类的区分能力;
- IDF衡量词的文档区分度;
- 互信息联合概率越大,关联度越高;
- 卡方检验值越大,相关性越强。
选项分析
A. 信息增益的值越大,说明这个属性越好
正确。信息增益用于衡量特征对分类的贡献,值越大,特征越重要。
B. IDF的值越大,说明这个词越能够代表整篇文章的意思
正确。IDF(逆文档频率)反映词的稀有性,值越大说明词越独特,越能代表文章特征。
C. 互信息统计两个词同时出现的概率,两个变量单独出现的概率一样的话,联合概率越大说明关联度越小
错误。互信息公式为 $I(X;Y)=H(X)+H(Y)-H(X,Y)$,联合概率越大,互信息越大,关联度越高。选项表述与实际相反。
D. 卡方用来检验两个事件的对立性,卡方值越大,说明特征词和类别的相关性越大
正确。卡方值越大,说明观察频数与独立假设下的期望频数差异越大,相关性越强。