资源预览内容
第1页 / 共32页
第2页 / 共32页
第3页 / 共32页
第4页 / 共32页
第5页 / 共32页
第6页 / 共32页
第7页 / 共32页
第8页 / 共32页
第9页 / 共32页
第10页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 Carrot2聚类工具简介 崔弘扬2009 04 16 教育信息技术工程研究中心 2 Contents Carrot2体系结构Carrot2聚类算法Lingo STCCarrot2ApplicationsWebapp Workbench DCSCarrot2sourcecode下载与配置 运行Carrot2core Attribute可用资源 3 Carrot2简介 Carrot2isanOpenSourceSearchResultsClusteringEngine Author DawidWeiss StanislawOsinski波兰人 波兹南大学研究方向 textclustering informationretrieval webmining computationallinguisticsandsoftwareengineering 4 Carrot2体系结构 Carrot2是一个开源的基于搜索结果的聚类引擎 5 Lucene索引结果 Lucene索引index由若干段 segment 组成 每一段由若干的文档 document 组成 每一个文档由若干的域 field 组成 每一个域由若干的项 term 组成 项是最小的索引概念单位 它直接代表了一个字符串以及其在文件中的位置 出现次数等信息 域是一个关联的元组 由一个域名和一个域值组成 域名是一个字串 域值是一个项 比如将 标题 和实际标题的项组成的域 文档是提取了某个文件中的所有信息之后的结果 这些组成了段 或者称为一个子索引 子索引可以组合为索引 也可以合并为一个新的包含了所有合并项内部元素的子索引 6 7 Carrot聚类算法 Lingo 基于奇异值分解的索引结果聚类算法首先确定可感知的类标签 然后将文件分配到类中Preprocessing预处理Filtering文本过滤 stemming提干 stopword去除停用词FrequentphraseextractionClusterlabelinductionClustercontentdiscoveryFinalclusterformation 8 Carrot2聚类算法 STC SuffixTreeClustering 后缀树聚类算法 一种On line聚类算法 1 将文档片段作为输入而不是整篇文档 2 聚类算法必须足够快速实现在线计算 3 生成的类簇必须是终端用户可读的描述STC将文档作为字符串来处理 利用文档间相似信息STC是新颖的 增值的 O n 时间复杂度STC快速的为用户总结出类簇内容STC处理小数据集 所以耗时较少 9 后缀树包含了一个或者多个字符串的所有后缀 空字符串也算是其中的一个后缀例如 banana后缀为 bananaananananaananaa空一般来说后在字符串末尾加 特殊字符作为结束标记后缀树 有根节点的有序的树每个内部节点至少有2个子节点每条边以S的非空子字符串做标签 节点的标签定义为从根节点到该节点路径上的标签的串联同一节点出发的两条路径不可能以同一词开始 10 Example 11 STC步骤 一 文档清洗taggerstemmer句子边界界定stopword二 标识基础类簇 1 通过文本预处理将文档表示为词的序列 构成后缀树 2 利用后缀树找到基类簇 至少被两个文档包含的短语称为短语束 基类簇就是要找到最大短语束B 用来描述相关短语mB和出现该短语的文档dB 并计算各个基类簇的值S B 三 合并基础类簇合并基类簇 为了避免出现非常类似的基类簇 可以设置一个阈值k 12 Carrot2Applications workbenchCarrot2文档聚类平台 是一个独立的GUI程序 可以用来对一般搜索引擎数据或你自己的数据进行聚类实验 DCSCarrot2文档聚类服务器 将Carrot2聚类作为REST服务呈现 WebappCarrot2网络应用 可以将Carrot2聚类作为终端用户的网络应用呈现 13 Workbench聚类平台 下载carrot2 workbench win32 win32 x86 3 1 dev zip解压 执行carrot2 workbench exe Problem源码运行出错上次的问题 查询Lucene索引时没有聚类结果 需要重启workbench聚类效果不佳 类簇标签多是期刊号等非重要信息 前期预处理没有过滤掉 14 15 webapp 下载carrot2 webapp 3 0 war将其放于Tomcat的webapps文件夹下自动解压访问http localhost 8080 carrot2 webapp 3 0 16 Webapp的Lucene索引配置 Webapp的war包解压后 WEB INF classes carrot2 default修改suite webapp xml添加lucene attributes xml重新启动Tomcat访问http localhost 8080 carrot2 webapp 3 0 17 18 基于Lucene索引的聚类结果 19 可视化效果图 20 Problem War包解压英文可以聚类 中文无结果 分词问题没有Adunamap可视化效果 查询本地Lucene索引时只能索引标题出现的词源码问题聚类无结果 21 Carrot2sourcecode下载 Carrot2是sourceforge 全球最大的开放源代码软件开发平台和仓库 代理步骤1 安装svn工具 下载 22 Carrot2sourcecode导入eclipse 打开eclipseImport General Exsitingprojectstoworkspace 选择Carrot2源码路径去除org carrot2 antlib工程执行若出错说明没有ant 将Carrot的lib下的jar包和core包放到classpath下 23 Example ClusteringDataFromLucene 修改属性 finalStringcontentFieldName content Indexpath路径 设置运行时参数 indexPath yourownluceneindexpath 查询关键字 finalMapprocessingAttributes newHashMap processingAttributes put AttributeNames QUERY 教育 24 Collected27documents 0 电化教育研究 投稿须知 1 对教育技术学科名称及定位的反思 2 从CSSCI看新世纪中国教育技术学学科地位的变化 3 边远地区高校教育信息化建设与和谐发展的理性思考 Created16clusters电化教育研究 16documents 0 电化教育研究 投稿须知 2 从CSSCI看新世纪中国教育技术学学科地位的变化 2008年第4期总第180期 3documents 4 从历史使命谈教育技术的定位 20 大学生信息素养培养模式及实施途径研究 23 CSCL环境中基于对话学习理论的教学设计Attributes query 教育results total 27processing time algorithm 1091processing time source 2253LingoClusteringAlgorithm nativeMatrixUsed falseprocessing time total 3344 25 Carrot2运行 WorkbenchRun Externaltools AttributeMetadataXmlRun Runconfiguration选择EclipseApplication workbenchWebappRun Externaltools AttributeMetadataXmlRun Externaltools webapplicationsetupRun Runconfiguration 26 Carrot2Core org carrot2 coreDocument Cluster ProcessingResultorg carrot2 core attributeInit 注释类型 AttributeNames Processingorg carrot2 sourceSearchEngineBase SearchEngineResponse SimpleSearchEngineorg carrot2 source luceneLuceneDocumentSource FSDirectoryWrapperorg carrot2 clustering lingoClusterBuilder LingoClusteringAlgorithm LingoProcessingContextorg carrot2 clustering stcorg carrot2 text suffixtree org carrot2 text suffixtree2BaseCluster Phrase STCClusteringAlgorithm STCClusteringParameters STCEngine STCTree 27 org carrot2 text analysisExtendedWhitespaceAnalyzer ExtendedWhitespaceTokenizer org carrot2 text preprocessingTokenizer PhraseExtractororg carrot2 text lingusticLanguageCode DefaultLanguageModelorg carrot2 text preprocessing filterClusterBuilder LingoClusteringAlgorithm LingoProcessingContextorg carrot2 text utilCharArrayComparator MutableCharArrayorg carrot2 text vsmITremWeighting VectorSpaceModelContext TfTermWeighting LinearTfidfTermWeighting LogTfidfTermWeighting TermDocumentMatrixBuilder 28 org carrot2 MatrixEigenvalueCaculator MatrixUtils NNIDenseDoubleMatrix2Dorg carrot2 matrix factorizationKMeansMatrixFactorization IterativeMatrixFactorizationorg carrot2 matrix factorization seedingKMeansSeedingStraegy RandomSeedingStrategyorg carrot2 util xmlorg carrot2 webappWebApp javaorg carrot2 workbench coreApplication java 29 可用资源 http project carrot2 org index html官方网站http download carrot2 org head manual index html帮助http project carrot2 org forum html论坛Reference参考文献Carrot2andLanguagePropertiesinWebSearchResultsClusteringIntroducingUsabilityPracticestoOSS TheInsiders ExperienceCarrot2 DesignofaFlexibleandEfficientWebInformationRet
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号