资源预览内容
第1页 / 共40页
第2页 / 共40页
第3页 / 共40页
第4页 / 共40页
第5页 / 共40页
第6页 / 共40页
第7页 / 共40页
第8页 / 共40页
第9页 / 共40页
第10页 / 共40页
亲,该文档总共40页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
计算机应用技术专业毕业论文计算机应用技术专业毕业论文 精品论文精品论文 基于基于 positivepositive 和和unlabeledunlabeled 样本的半监督分类研究样本的半监督分类研究关键词:文本分类关键词:文本分类 信息熵信息熵 主动学习主动学习 情感分类情感分类 机器学习机器学习 半监督分类半监督分类摘要:随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理 和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标 记类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法, 如 Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获 得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数, 对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相 当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。 此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了 一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本 标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标 注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结 合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无 监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础, 研究在仅有 Positive 样本或者少量训练样本的情况下,如何通过对 Unlabeled 样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对 Unlabeled 样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive 和 unlabeled 样本,结合 EM 迭代算法,估计 未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研 究,以及 EM 极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概 率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件 下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未 标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况, 如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个 与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对 数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进 行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前 训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善 分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS 情感分类中的一个 应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的 词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构 建 SVM 分类器进行 BBS 文档的情感分类。正文内容正文内容随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和 解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记 类别,对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如 Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获 得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数, 对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相 当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。 此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了 一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本 标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标 注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结 合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无 监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础, 研究在仅有 Positive 样本或者少量训练样本的情况下,如何通过对 Unlabeled 样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对 Unlabeled 样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive 和 unlabeled 样本,结合 EM 迭代算法,估计 未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研 究,以及 EM 极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概 率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件 下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未 标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况, 如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个 与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对 数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进 行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前 训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善 分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS 情感分类中的一个 应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的 词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构 建 SVM 分类器进行 BBS 文档的情感分类。 随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决 大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别, 对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如 Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获 得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数, 对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相 当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。 此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了 一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标 注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结 合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无 监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础, 研究在仅有 Positive 样本或者少量训练样本的情况下,如何通过对 Unlabeled 样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对 Unlabeled 样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive 和 unlabeled 样本,结合 EM 迭代算法,估计 未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研 究,以及 EM 极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概 率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件 下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未 标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况, 如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个 与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对 数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进 行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前 训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善 分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS 情感分类中的一个 应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的 词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构 建 SVM 分类器进行 BBS 文档的情感分类。 随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决 大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别, 对大量样本数据的训练构建合理的分类器。提出了一些有效的方法,如 Rocchio algorithm, ,the naive Bayesian method(NB),support vector machines(SVM)。这些方法被称为基于机器学习的有监督学习方法,他们需要获 得大量的人工标注的训练文档。通过对训练文档的学习,计算分类器的参数, 对文档集进行分类的过程。然而获得大量的、带有类别标注的样本的代价是相 当昂贵的,而这些方法只有通过大规模的训练才能获得较高精度的分类效果。 此外,在实际应用中,分类体系常常是不一致的,这为目录的日常维护带来了 一定的困难。无监督学习在无训练样本的情况下,针对样本分布特征进行样本 标注,但是准确性较差。从而引出了是否能够从带有类别标注和不带有类别标 注的混合文档中分类文本的问题。它只需要部分带有类别标注的训练样本,结 合未标注样本含有的知识来学习构建分类器。为了区别于传统的监督学习和无 监督学习,在机器学习的领域被称为半监督学习。本文主要以此为思想基础, 研究在仅有 Positive 样本或者少量训练样本的情况下,如何通过对 Unlabeled 样本数据的有效学习,来挖掘潜在的有价值的信息,优化分类器的参数,对 Unlabeled 样本进行较高准确率的分类。 本文主要做了以下几方面工作: 1.研究贝叶斯模型标注 positive 和 unlabeled 样本,结合 EM 迭代算法,估计 未带标签的样本缺值。引入了相关的聚类算法,包括分类器初始前的样本值研 究,以及 EM 极大似然估计过程中的性能计算。 2.采用信息熵的离散事件概 率估计理论,研究高斯分布中负例样本的产生及其准确率。在一定的约束条件 下,选择具有最大不确定性的分布.判断词的概率分布,从而整体上判断某一未标样本是否用于当前分类器的分类样本。熵值反应了特征词分布的差异情况, 如果熵值较大,说明该词与训练样本数据就越有可能有类似的分布。对于一个 与训练样本数据分布差异较大的特征词,它的熵值较小。基于信息熵理论,对 数据的标准化处理,采用极大值标准化处理方法。 3.采用主动学习的方法进 行半监督分类,提出了二阶段的主动学习策略。对于未标文档是否适应于当前 训练集环境下的分类;未标文档中哪些文档可以作为新加入的训练文档,完善 分类器的学习。 4.结合最大熵和机器学习的技术,在 BBS 情感分类中的一个 应用。以词语的语义倾向识别为基础,利用最大熵识别文档中具有语义倾向的 词,在此基础上选择合理的具有一定语义倾向值的词作为文档的特征表示,构 建 SVM 分类器进行 BBS 文档的情感分类。 随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号