首页 | 官方网站   微博 | 高级检索  
     

基于领域知识的文本分类
引用本文:朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报(自然科学版),2005,26(8):733-735.
作者姓名:朱靖波  陈文亮
作者单位:东北大学,信息科学与工程学院,辽宁,沈阳,110004
基金项目:国家自然科学基金,微软亚洲研究院项目,教育部科学技术研究项目
摘    要:提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.

关 键 词:领域知识  文本分类  集聚计算  机器学习  朴素贝叶斯模型  
文章编号:1005-3026(2005)08-0733-03
收稿时间:2004-11-04
修稿时间:2004年11月4日

An Approach Based on Domain Knowledge to Text Categorization
ZHU Jing-bo,CHEN Wen-liang.An Approach Based on Domain Knowledge to Text Categorization[J].Journal of Northeastern University(Natural Science),2005,26(8):733-735.
Authors:ZHU Jing-bo  CHEN Wen-liang
Affiliation:(1) School of Information Science and Engineering, Northeastern University, Shenyang 110004, China
Abstract:A knowledge-based text categorization method is proposed, taking domain features as textual features to improve text representation function and considering text categorization as aggregation computation procedure. A feature re-selection and re weighting technique is proposed for text indexing procedure. To learn feature aggregation functions from labeled training collection automatically, a learning method based on mutual information is employed. Comparative experiment results showed that the text categorization method based on domain knowledge works better than the conventional naive Bayes classifier based on bag-of-words model as a whole and that using domain knowledge will improve effectiveness of classifying similaror or antithetical topics.
Keywords:domain knowledge  text categorization  aggregation computation  machine learning  naive Bayes model
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《东北大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《东北大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号