资源预览内容
第1页 / 共108页
第2页 / 共108页
第3页 / 共108页
第4页 / 共108页
第5页 / 共108页
第6页 / 共108页
第7页 / 共108页
第8页 / 共108页
第9页 / 共108页
第10页 / 共108页
亲,该文档总共108页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Clementine 教程教程 1 概要 1 概要 资料采矿使用 Clementine 系统主要关注通过一系列节点来执行资料的过程 这被称作一个数据流 stream 这 一系列的节点代表了将在资料上执行的操作 而在这些节点之间的联系表明了数据流 stream 的方向 使用者的 数据流包括四个节点 一个变量文件节点 用来从资料源读取资料 一个导出节点 向资料集中增加新的 通过计算得到的字段 一个选择节点 用来建立选择标准 从数据流中去除记录 一个表节点 用来显示使用者操作后得到的结果 2 建立数据流 2 建立数据流 使用者可以使用下列步骤来建立一个数据流 向数据流区域中增加节点 连接节点形成一个数据流 指明任一节点或数据流的选项 执行这个数据流 图 2 1 在数据流区域上的一个完整数据流 2 1 节点的操作 2 1 节点的操作 工作区域中的各种节点代表了不同的目标和操作 把节点连接成数据流 当使用者执行的时候 让使用者可以 看到它们之间的联系并得出结论 数据流 stream 就像脚本 scripts 使用者能够保存它们 还可以在不同的数据 文件中使用它们 节点选项板 palette 节点选项板 palette 在 Clementine 系统窗口底部的选项板选项板 palette 中包含了用来建立数据流的所有可能的节点 图 2 2 在节点选项板上的记录选项项目 Record Ops tab 每一个项目 tab 包含了一系列相关的节点用于一个数据流 stream 操作的不同阶段 例如 来源 Sources 用来将资料读进系统的节点 记录选项 Record Ops 用来在资料记录上进行操作的节点 例如选择 合并和增加 字段选项 Field ops 用来在数据域位上进行操作的节点 例如过滤 导出新字段和确定给出字段的数据类型 图 在建模之前和之后用来可视化资料的节点 图包括点图 直方图 Web 节点和评估图表 1 建模 在 Clementine 系统中可用的代表有效建模算法的节点 例如类神经网络 决策树 聚类算法和资料排序 定制常用项 定制常用项 在节点选项板 palette 上的 Favorites 项目能够被定义成包含使用者对 Clementine 系统的习惯用法 例如 如 果使用者经常分析一个数据库中的时间序列资料 就可能想确保数据库来源节点和序列建模节点这两个都可以从 Favorites 项目中获得 向数据流中增加数据流节点向数据流中增加数据流节点 从节点选项板中向数据流增加节点有三种方式 在选项板上双击一个节点 注意 双击一个节点会自动的将它连接到目前的数据流上 更多的信息参看下面的 在 数据流中连接节点 将一个节点从选项板拖放到数据流区域中 在选项板上点击一个节点 然后在数据流区域中点击一下 删除节点删除节点 为了从数据流中删除一个节点 点击它并按删除 或者 单击鼠标右键并且从菜单中选择删除 在数据流中连接节点 在数据流中连接节点 首先选择这个节点 然后在选项板双击另一个节点 比如一个生成节点 这个操作自动的把这个生成节点连接 到目前的数据库节点 图 2 4 在选项板上双击节点建立一个数据流 通过鼠标中间键点击和拖放来完成 如果你的鼠标没有中间键 使用者可以通过按住 Alt 键来模拟这个过程 表 2 5 使用鼠标的中间键来连接节点 手工连接节点手工连接节点 选择一个节点并且单击鼠标右键打开内容菜单 从菜单中选择 connect 一个连接符号将同时出现在开始节点上和游标上 点击数据流区域上的第二个节点将两个节点连接在一起 图 2 6 使用菜单上的连接选项来连接节点 图 2 7 被连接的节点 当连接节点的时候 必须遵循以下几个指导方针 如果使用者试图做下列任何类型的连接 将会收到一个错误 信息 导向一个来源节点的连接 从一个最终节点导出的连接 一个超过它的输入连接最大值的节点 连接两个已经被连接的节点 循环 资料返回一个它已经经过的节点 在一个数据流中绕过节点 在数据流区域上 使用鼠标的中间键来双击想要绕开的那个节点 也可以按住 Alt 键后双击鼠标左键来完成 注意 通过编辑菜单中的撤销选项或者按 Ctrl Z 键可以撤销这个操作 图 2 8 绕过一个先前连接的过滤节点 2 用鼠标的中间键 点击连接箭头到想要插入的节点上 此外 也可以使用按住 Alt 键后单击鼠标左键来模拟鼠 标的中间键 继续按住鼠标 图 2 10 新数据流 stream 连接拖到目的节点上 松开鼠标 注意 你可以绕开那个节点 从那个节点上撤销这个新的连接来恢复原来的样子 删除节点间的连接 使用者可以使用两种方法来删除节点间的连接 在连接箭头的头部按住鼠标右键 从菜单中选择 Delete Connection 图 2 11 在一个数据流中删除节点间的连接 或者可以按照下列步骤来删除一个连接 选择一个节点并且按 F3 键 来删除所有的连接 选择一个节点 从主菜单中选择 Edit Note Disconnect 为节点设置选项右击一个节点 选择菜单选项中的一个 图 2 12 节点的菜单选项 选择 Edit 打开被选节点的对话框 选择 Connect 来手工将一个节点连接到另一个节点 选择 Disconnect 来断开某个节点上的 从它发出和到达它上的所有连接 选择 Rename 和 Annotate 打开编辑对话框来批注卷标 选择 Copy 对没有连接的节点做备份 这个能够被增加到一个新的或者目前的数据流 选择 Cut 或者 Delete 删除被选择的数据流区域上的节点 选择 Load Node 来打开一个先前保存的节点并且将它的选项装载到目前被选择的节点 选择 Save Node 将节点的详细信息保存到一个文件中 使用者只能将节点详细信息装载到相同类型的节点 选择 Cache 来扩展菜单 通过使用选项来暂存被选节点 选择 Data Mapping 来扩展菜单 使用选项来将资料映像到一个新来源或强制指定的字段 选择 Creat SuperNode 来扩展菜单 使用选项在目前数据流建立一个超级节点 选择 Generate Uses Input Node 来替换被选择的节点 由这个节点产生的例子将和目前的节点有相同的字段 选择 Execute From Here 执行所有的从被选择节点向下游方向的最终节点 对于节点的选项 为了最佳化数据流 stream 的执行 使用者可以对任何没有结束的节点建立一个暂存暂存 当对一个节点建立一 个暂存暂存 cache 的时候 缓冲区缓冲区会被下一次执行数据流时要通过节点的资料所填满 从那时起 资料就从该缓冲区缓冲区 中读取而不是从资料源中读取 带有缓冲区的节点能够以一个小的文件图标被显示在右上角 当资料在节点处被暂存时 这个文件图标是绿色 的 图 2 13 在类型节点暂存 cache 来存储新的导出字段 3 2 1 1 激活一个暂存 2 1 1 激活一个暂存 数据流区域 stream canvas 中 在某个节点上单击鼠标右键并且从菜单中选择 cache 从 Cache 子菜单中选择 Enable 使用者可以通过在该节点上单击鼠标右键并且从暂存 的子菜单中选择 Disable 来关掉暂存 cache 2 1 2 更新缓冲区 更新缓冲区 节点上的文件图标若是白色的则表明其缓冲区 Cache 是空的 当这个缓冲区满时 那个文件图标就变成了深 绿色 如果使用者想要代换缓冲区中的内容 使用者首先必须更新 Flush 这个缓冲区 然后在重新执行数据流去 填充它 在数据流区域上 在此节点上单击鼠标右键并从菜单中选择 Cache 从 Caching 子菜单中选择 Flush 2 1 3 保存一个缓冲区 保存一个缓冲区 使用者可以以 SPSS 檔 sav 的形式来保存一个缓冲区的内容 也可以重新装载这个档作为一个缓冲区 cache 或者建立一个使用缓冲区文件作为它的资料源 还可以从使用者保存过的另一个项目中装载一个缓冲区 在数据流区域上 在此节点上单击鼠标右键 从菜单中选择 Cache 从 Caching 的子菜单中选择 Save Cache 在保存 Cache 的对话框中 通过浏览找到想要保存此文件的位置 在文件名称选框里填写文件名称 确定在文件保存类型的下拉选项中选择的是 sav 点击 Save 2 1 4 装载一个缓冲区 装载一个缓冲区 在将缓冲区档从节点中删除之前 如果使用者想保存它 可以重新装载 在数据流上 在该节点单击鼠标右键 并从菜单中选择 Cache 从 Caching 子菜单中选择 Load Cache 在 Load Cache 对话框中 浏览找到 Cache 文件 选择它 并且点击 Load 2 1 5 注释节点注释节点 编辑一个节点 要打开一个对话框 它包含一个注释项目 用来设置各种注释选项 在数据流区域上的节点单击 鼠标右键 选择 Rename And Annotate 打开带有可见注释项目的编辑对话框 名称 Name 选择 Custom 来调整自动生成的名字 或为数据流区域上的这个节点命名一个唯一的名字 默认值 为 Auto 工具提示文本 Tooltip text 输入文本作为一个数据流区域节点的提示工具 在处理大量相似的节点的时候 这 是十分有用的 图 2 14 注释键选项 图 2 15 工具管理器菜单选项中的 Stream 项目 2 2 数据流的操作 2 2 数据流的操作 在 Clementine 系统 使用者每次可以使用 并且修改不止一个的数据流 Clementine 系统窗口的右边包含工具 管理器 它可以帮助浏览目前打开的数据流 为了显示工具管理器 从视图菜单中选择 Manager 然后点击 Stream 2 2 1 为数据流设置选项为数据流设置选项 设置数据流的选项 从文件菜单中选择 Stream Properties 另外 使用者也可以使用工具管理器上的 stream 项目 点击 Options tab 4 Calculations in 选择弧度或度作为 CLEM 三角表达式的度量单位 Import date time as 指定输入日期 时间资料的存储格式 可选项 日期 时间或者字符串变量 Date format 选择一个日期格式用于存储日期字段或当字符串被 CLEM 日期函数解释为日期资料时 选择一个日 期格式 Time format 选择一个时间格式用来做时间存储字段 或当字符串被 CLEM 时间函数解释为时间资料时 进行时 间格式的选择 Display decimal places 在 Clementine 系统里 设置多位小数字是用来显示和打印实数的 Decimal symbol 从下拉菜单中选择一个逗号 也可以选择句号 作为一个小数分割符 Rollover days mins 选择是否使用负数时间 即前一天或前一小时 Date baseline 1stJan 选择用于 CLEM 日期函数的基准年度 通常为 1 月 1 日 2 digit dates start from 指定一个起始年份 来标识所用时间的 世纪 由此 日期仅需要两位元数来表示年份 maximum set size 指定设置字段成员的 members 最大 个数 的所有字段会被设为无类型 这个选项在预设的 情况下为无效 但是当处理大的字段集时很有用 注意 无类型字段的方向被自动设置为无方向 这就意味着这些 字段在建模时是不可得到的 ruleset evaluation 决定如何评估规则集 预设时 规则集使用评分规则对各个规则产生的预测进行整合 进而 得到一个最终的预测 若要缺省使用首发命中原则 选择 First Hit 图 2 16 设置资料流程选项 图 2 17 设置 layout 选项 2 2 2 对数据流配置设置选项对数据流配置设置选项 设置 layout 选项 从文件菜单中选择 Stream Properties 此外也可以从工具菜单中选择 Stream Properties Layout 在数据流属性对话框中
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号