首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
刘洋 《科技信息》2007,(3):54-54
文本分类的主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。特征选择是文本分类中的一个重要环节。本文对文档频率(DF)、信息增益(IG)、互信息(MI)、x2统计量(CHI)四种特征选择方法在中文语料上进行了性能比较。实验结果表明IG方法较其它三种方法有一定的优势。  相似文献   

2.
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS.该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征.采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能.实验一:当特征数量由6 000减少到1 047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降.实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法.  相似文献   

3.
一种基于朴素贝叶斯分类的特征选择方法   总被引:11,自引:0,他引:11  
由于朴素贝叶斯文本分类中的独立假设前提,使得在特征选择步骤能否准确有效地选出能代表文本的特征显得尤为重要,而特征选择标准中的MI标准与TFIDF标准其优缺正好互补,因此在用朴素贝叶斯文本分类方法中的多项式模型实现了一个web页面分类系统-WEBCAT的基础上,提出将MI标准与TFIDF标准结合进行特征选择.实验显示:用改进的方法可以更准确地选出能代表文本的特征,文本分类结果也比单独使用TFIDF标准或单独使用MI标准进行特征选择的分类结果更加精确.  相似文献   

4.
针对特征选择这一文本分类的核心问题,首先提出一个基于最小词频的文档频方法,然后引进粗糙集和Tabu搜索,分析了把Tabu搜索用于属性约简所存在的问题并给出了解决办法,并以此为基础详细设计了一个基于优化的Tabu搜索的属性约简方法,最后把上述两种方法结合起来提出了一个综合性特征选择方法.该方法利用基于最小词频的文档频方法提取初始特征,利用所给属性约简方法进行优选以消除冗余,从而获得较具代表性的特征子集.实验结果表明该综合方法优于IG,CHI和MI方法.  相似文献   

5.
为了解决机械故障诊断中的特征选择问题,利用免疫克隆选择算法,提出了一种结合交叠区异点统计和相关性分析的免疫克隆特征选择方法,可有效地去除不相关特征和冗余特征.基于空间分布的交叠区异点,设计了交叠区异点统计的优化指标;基于J散度距离,设计了一种冗余特征的评估指标;基于免疫克隆选择算法,结合交叠区异点统计优化指标和冗余特征评估指标,提出了一种免疫克隆特征选择新算法.仿真和实际工程应用的结果表明:文中提出的方法比常用的特征选择方法更加有效,选出的特征分类精度更高,特征子集更小,更能满足故障诊断的需求.  相似文献   

6.
特征选择是文本分类的一个重要过程,对分类性能的提升发挥着重要的作用。传统的文档频率(Document Frequency,DF)特征选择指标只是从全局的角度统计包含特征的文档数作为选择的依据,没有考虑特征与类别的相关性。针对该问题,本文从特征和类别的相关性出发,对文档频率分别进行局部和全局的归一化处理,提出了一种归一化文档频率(Normalized Document Frequency,NDF)的特征选择指标,并在不同的特征维度下验证特征选择对文本分类性能的影响。结果表明,应用NDF特征选择指标可以得到更高的分类准确率和Macro-F1值。因此,对文档频率进行归一化处理可以更好地选择出有价值的特征,有效提升文本的分类性能。  相似文献   

7.
首先介绍了几种常见的特征选择和特征抽取方法,并结合K-近邻分类算法对4种特征选择方法进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数.  相似文献   

8.
篇章分析是自然语言处理中一个重要的研究方向。连接词的识别作为篇章分析中的一个基本任务,对后续的篇章分析起到关键作用。针对连接词识别方法中的高维度特征空间问题,提出了基于特征提取的连接词识别方法。具体来讲,引用多种特征提取方法(IG、MI、DF、CHI、WLLR)对连接词识别中所用的所有特征进行打分排序,提取排在前面的一定数量的特征用于分类。实验结果表明特征提取方法能够有效降低特征维度,在仅仅使用50%的特征的情况下能够获得类似甚至更佳的识别性能。  相似文献   

9.
GA-SVM对上证综指走势的预测研究   总被引:1,自引:0,他引:1  
将支持向量机和遗传算法结合,建立了一种智能数据挖掘技术(GA-SVM),并用于对上证综指市场走势进行了探索.在这个混合的数据挖掘方法中,GA用于RBF参数的设定以及特征集的选择,从而智能的找到SVM的最佳参数,减少SVM特征值的复杂度,提高了SVM算法速度.SVM用于判断未来股票市场的走势,并与统计模型、时间序列模型方法、神经网络进行了对比.实验证明,GA-SVM优于其他几种方法,这种方法对于股票上涨或下跌的预测研究是有效的.  相似文献   

10.
在对EEG信号进行深入分析的基础上,将小波、分形和统计三种方法相结合,提出一种多方法融合的EEG信号分类特征提取方法.应用小波对EEG信号去噪,并对去噪重构后的EEG信号进行分解,提取各尺度空间上的平均高频系数作为第一部分EEG分类特征,在多尺度下对去噪重构后EEG信号进行多重分形分析,依据EEG数据的特点和分类的需要,提取相关多重分形谱参数作为第二部分EEG分类特征;根据EEG信号的特点,提取相关统计特征作为第三部分EEG分类特征;针对上述提取特征,使用BP神经网络作为分类器,结合EEG信号的自身特点和分类结果,选择确定最终的EEG分类特征,完成了EEG信号的分类.并通过比较说明了本文方法的优势,提高了EEG分类的精度.  相似文献   

11.
A New Approach of Feature Selection for Text Categorization   总被引:1,自引:0,他引:1  
This paper proposes a new approach of feature selection based on the independent measure between features for text categorization. A fundamental hypothesis that occurrence of the terms in documents is independent of each other, widely used in the probabilistic models for text categorization (TC), is discussed. However, the basic hypothesis is incom plete for independence of feature set. From the view of feature selection, a new independent measure between features is designed, by which a feature selection algorithm is given to ob rain a feature subset. The selected subset is high in relevance with category and strong in independence between features, satisfies the basic hypothesis at maximum degree. Compared with other traditional feature selection method in TC (which is only taken into the relevance account), the performance of feature subset selected by our method is prior to others with experiments on the benchmark dataset of 20 Newsgroups.  相似文献   

12.
基于元启发式算法--乌鸦搜索算法(CrSA), 提出一种改进的基于乌鸦搜索算法的特征选择算法(IFSCrSA), 以解决目前特征选择问题中存在的不足. 通过与传统的机器学习特征选择算法和基于进化计算的特征选择算法进行比较, 结果表明, IFSCrSA能在数据集中选择辨识度较强的特征, 不仅大幅度降低了特征子集的规模, 而且提高了分类准确率.  相似文献   

13.
基于元启发式算法--乌鸦搜索算法(CrSA), 提出一种改进的基于乌鸦搜索算法的特征选择算法(IFSCrSA), 以解决目前特征选择问题中存在的不足. 通过与传统的机器学习特征选择算法和基于进化计算的特征选择算法进行比较, 结果表明, IFSCrSA能在数据集中选择辨识度较强的特征, 不仅大幅度降低了特征子集的规模, 而且提高了分类准确率.  相似文献   

14.
借鉴基于正则回归的无监督并行正交基聚类特征选择法和最大互信息系数,提出正交基低冗余无监督特征选择法.该方法在正交基下选择具有判别能力的特征,可用最大互信息系数矩阵选择低冗余性的特征子集. 4个图像数据集上的实验结果表明:该方法选择的特征子集可以提高聚类准确率.  相似文献   

15.
针对多尺度目标检测中特征图特征混淆和特征丰富程度不足的问题,提出一种基于多尺度特征选择与融合的目标检测算法。设计了一个特征选择模块来分离出不相关的特征,并结合特征金字塔网络形成特征选择网络结构,降低特征图中不同尺度目标的局部特征对当前尺度特征的干扰;提出一种浅层特征融合方法,将浅层特征逐级融合到较深层级特征中,解决特征图的特征不够丰富问题。结合特征选择架构和浅层特征融合架构,在PASCAL-VOC2007数据集上进行测试,结果mAP达到了80.1%。相较于基础的单阶段目标检测(single shot detection,SSD),所提算法的网络性能可提高2.9%,且在一些小目标和遮挡目标的检测效果上有明显的提升。通过对比和消融实验,证明了所提方法的有效性。  相似文献   

16.
Feature selection methods have been successfully applied to text categorization but seldom applied to text clustering due to the unavailability of class label information. In this paper, a new feature selection method for text clustering based on expectation maximization and cluster validity is proposed. It uses supervised feature selection method on the intermediate clustering result which is generated during iterative clustering to do feature selection for text clustering; meanwhile, the Davies-Bouldin's index is used to evaluate the intermediate feature subsets indirectly. Then feature subsets are selected according to the curve of the Davies-Bouldin's index. Experiment is carried out on several popular datasets and the results show the advantages of the proposed method.  相似文献   

17.
基于ITAFSVM的微阵列数据特征选择和分类   总被引:1,自引:0,他引:1  
支持向量机已经被成功应用于基因表达谱数据分析。但是,仍有开放问题需要解决:①支持向量机不能自动进行基因表达谱数据的特征选择;②支持向量机的参数优选没有简单有效的办法。一种新型具有良好特性的支持向量机——全间隔自适应模糊支持向量机(TAFSVM)被提出。并且提出一种新的遗传算法——智能遗传算法(IGA)来设计一个TAFSVM分类器,称为ITAFSVM,同时优化TAFSVM参数集和特征选择,并且结合10-fold交叉验证来确定其泛化能力。最后将ITAFSVM应用于四种基因表达谱数据集。通过与进化支持向量机(ESVM)方法、粗糙集与径向基神经网络组合(RBF-RBFNN)方法进行了比较,实验结果表明运用ITAFSVM不仅可以自动进行基因表达谱数据特征选择,而且分类精度和稳定性都较高,速度更快。  相似文献   

18.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

19.
支持向量机(Support Vector Machine,简称SVM)是一种有效分类方法.不同特征选取算法对分类器影响不同,结合支持向量机特点,提出了一种基于最大间隔的支持向量机特征选取算法.利用该算法,对Iris测试数据集进行了特征选取并仿真,实验结果表明,该算法不但能够有效去除噪音数据,而且提高了分类器推广与泛化能力.  相似文献   

20.
本文在仔细分析特征选择思想的基础上,将特征选择过程嵌入到学习机里面,提出了一种基于改进支持向量机的特征选择算法(Feature selection via Modified Support Vector Machines),该方法通过对特征的权重进行排序来实现特征选择.利用可以将特征选择过程和学习过程有机地统一起来,实验表明,与其它方法比较,该方法能够达到比较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号