联系人: 谭平凡
所在地:湖南 长沙市
本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置(专利号201510165395.5),通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。
Copyright © 2019 青海技术市场 青ICP备18001110号-4