资源预览内容
第1页 / 共79页
第2页 / 共79页
第3页 / 共79页
第4页 / 共79页
第5页 / 共79页
第6页 / 共79页
第7页 / 共79页
第8页 / 共79页
第9页 / 共79页
第10页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle使用教程初阶德昂信息技术(德昂信息技术(北京北京)有限公司)有限公司 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle 简介简介Kettle能做什么Kettle实例Demo提纲参考资料 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle是什么Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目。项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。最新版已经被整合进PentahoOpenSourceBIEE,改名PentahoDataIntegration。下载地址:http:/www.pentaho.com/download最新版5.0.4 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle安装与设定首先要安装JDK并设定环境变量path包含JDK_Path/bin。运行安装文件,安装kettle到指定目录,例如:C:ProgramFilespentahodesign-toolsdata-integration。三个可执行文件:Spoon启动KettleGUIKitchen命令行执行Kettle作业Pan命令行执行Kettle转换单击安装后的桌面图标,将运行Spoon,启动KettleGUI 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle简介Kettle能做什么能做什么Kettle实例Demo提纲参考资料 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle的主要功能n1.转换Transformation.ktrlETL的所有操作n2.作业Job.kjbl定时执行,可以包含多个转换n3.模型Modell数据建模,便于交流 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle的其他功能Instaview用于从混合大数据集中发掘想法. 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有转换Transformation概览1.DB 连接连接2.Steps(步骤)(步骤)3.Hops(节点连接)(节点连接)4.4.数据库分区数据库分区 schemas5.5.子服务器子服务器6.Kettle集群集群schemas 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有转换Transformation详细Hops(节点连接):result或false 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Transformation核心对象 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有输入Input 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有转换与应用 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有流程,脚本,查询 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有连接,数据仓库,检验,统计及DataMining 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有BigData,Agile,加密,Palo,OpenERP及作业 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有映射,批量加载,内联,实验,不推荐的及历史 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有作业JobDB连接,作业项目(转换),子服务器 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Job核心对象 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有文件管理及条件 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有脚本,批量加载,XML和BigData 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有应用,资源库,文件传输及文件加密 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有其他 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle简介Kettle能做什么Kettle实例Demo提纲参考资料 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle实例DemonDemo 1:数据库数据复制nDemo 2:数据库数据转换输出到txtnDemo 3:txt 文件输入到数据库nDemo 4:设定Job定时执行nDemo 5:整合Salesforce数据nDemo 6:整合AWS S3 文件数据 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle实例Demo1:准备工作n安装SQLServer2008R2n创建数据库TestAn- 建立一个测试的用户表ncreate table usersA(n id int not null,n userid varchar(50) not null,n username varchar(200) null)n- 插入3条记录ninsert into usersA values(1,lisi,李四);ninsert into usersA values(2,zhangsan,张三);ninsert into usersA values(3,lisi,李四);创建数据库TestB- 建立一个测试的用户表create table usersB( id int not null, userid varchar(50) not null, username varchar(200) null)实例Demo1完成的功能是将数据从TestA数据库的usersA表以插入/更新的方式复制到TestB数据库的usersB表。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:浏览数据库连接新建转换,内置AgileBI的DB连接,Steps和Hops为空在AgileBI上单击右键,数据库浏览,可以查看数据库中的对象,并进行操作 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:创建数据库连接在DB连接上右键选择新建,直接打开数据库连接属性设置,或新建数据库连接向导,打开向导,一步一步填写属性 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:填写数据库属性 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:测试数据库连接 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:创建表输入核心对象输入中,选择表输入,鼠标拖至编辑区,编辑属性 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:创建插入/更新核心对象输出中,选择插入/更新,鼠标拖至编辑区,编辑属性 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:连接表输入与插入/更新在【表输入】上同时按住shift键和鼠标左键滑向【插入/更新】,这样建立两个步骤之间的连接单击运行按钮,设置参数后,启动这个转换: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:保存转换文件转换执行前,如果有改变,会提示保存转换到文件,ktr或xml格式: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:执行结果如果出现错误,请检查相应步骤。可以点击执行历史,性能图,Metrics及Previewdata查看其它数据。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:创建Job新建Job,DB连接包含缺省DB,作业项目为空。从核心对象通用中拖出Start到编辑区,可以设定此Job运行的属性。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:加入转换(也可以加入作业)从核心对象通用中拖出转换到编辑区,将start和转换连接起来。双击转换,可以选择保存的转换文件,并有高级,设置日志,位置参数,命名参数等多项属性设定。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:选择转换选择前面保存的ktr转换文件: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:执行Job单击运行按钮,启动执行作业,填写相应参数后,点击执行: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:保存JobJob执行前,如果有改变,会提示保存Job到文件,kjb或xml格式:保存的Job文件,可以在创建Job时以加入作业的形式引入,形成Job的嵌套调用。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo1:Job执行结果如果出现错误,请检查相应步骤。可以点击历史,Metrics查看其它数据。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2和Demo3:准备工作创建或恢复SQLServer数据库etltest,包含如下源表及目标表:Demo2功能:根据客户,帐户,交易表中的数据,生成对应的数据文件Demo3功能:将数据文件可以导入到对应表中 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2:转换概览可以从这里下载etltest的数据库备份文件以及这个转换的ktr文件:http:/files.cnblogs.com/limengqiang/ETL_DEMO.zip备注:直接导入的ktr文件如果无法运行,报错的话,重新创建一遍后就可以了。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2:表输入及表查询 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2:过滤记录根据条件,执行后续不同的Step 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2:根据过滤条件增加常量根据条件,定义变量custype_cn,对其赋值,并将值传递给常量Value。True或FalseStep同理。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2:输出到文件 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo2:运行输出到文本文件: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo3:概览两个步骤:两个步骤:文本文件输入文本文件输入表输出表输出 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo3:文本输入 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo3:表输出设定从文本字段到数据库表字段的映射。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo3:运行 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo4:Job概览Demo2实现了对数据库数据的处理,并输出到文本文件;Demo3实现了从文本文件输入到数据库表。Demo4建立一个Job把前面两个转换合并到一起执行。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo4:运行 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo4:创建windowsBatnecho off nif %1 = h goto begin nmshta vbscript:createobject(wscript.shell).run(E:ETL%nx0 h,0)(window.close)&exit n:beginncd C:Program Filespentahodesign-toolsdata-integrationnC:nkitchen /file=E:ETLETLTest.kjb /level=Basic /logfile=E:ETLMyTest.log备注:Begin以前的代码用于隐藏自动运行时的黑窗口ETLTest.kjb是Demo4保存的Kettlejob文件。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo4:Kitchen运行参数(版本差异) 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo4:设定windowsScheduleJob上面为Windows7系统下的设定,其他系统请做相应改变。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:注册Salesforce账户n注册30天免费试用Salesforce账户nhttps:/www.salesforce.com/cn/form/trial/freetrial.jsp 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:ResetSecurityTokenn注册成功后的Salesforce账户,只能用于网站登录。n如果需要使用API调用,需要SecurityToken。n新注册用户没有SecurityToken,所以需要重置。系统会将Token发到账户名邮箱。登录Salesforce,选择MySettings:单击PersonalInformationResetMySecurityToken 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:创建Salesforce数据n登录到Salesforce,快速创建三个Account数据,用于测试。nQuickCreate数据完成后,还可以编辑,增加更多栏位。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:创建SQLServer数据表CREATE TABLE dbo.SalesforceAccount(AccountID nvarchar(50) NOT NULL,AccountName nvarchar(100) NULL,WebSite nvarchar(100) NULL,Phone nvarchar(50) NULL,Address nvarchar(250) NULL,Rating int NULL) ON PRIMARY在在ETLTest 数据库上创建数据库上创建SalesforceAccount表:表: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:创建转换,增加数据库连接创建一个SFTransfer的转换,加入到ETLTest的数据库连接DW: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:建立转换n这个转换分四步,首先从Salesforce抓取Account数据,然后对Rating进行值映射,之后存入数据库,最后输出到文本。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:Salesforce输入连接n从核心对象输入中拖出Salesforce输入,加入转换,设置其连接属性:n输入Salesforce的用户名,密码中输入password和securitytoken,n然后测试连接ok。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:Salesforce输入栏位选择n在Fields属性页,单击GetField,获取所有栏位,选择需要输入的栏位: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:配置值映射n由于Salesforce的Account数据中,AccountRating是枚举字符串Hot,Warm,Cold,而我们的数据库表定义的Rating为整型,所以需要做值映射。从核心对象转换中,拖出值映射,设定属性: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:配置表输出n在核心对象输出中拖出表输出,设置其属性,勾选指定数据库字段,设置栏位映射: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:文本文件输出设定n从核心对象输出中拖出文本文件输出,设置文件属性及字段映射: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo5:运行 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:注册AWSAccountn注册亚马逊账户,从亚马逊网站,signin进入,首先提供一个电子邮箱,然后选择Iamanewcustomer,Signin,输入相关信息,创建账户: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:开通S3应用,并上传文件n注册AWSAccount必须提供信用卡账户,然后必须提供电话激活。感觉挺麻烦的。n账户激活后登录进去,首先要创建AccessKey和SecretKey,后面程序访问时会用到。n然后激活S3service服务,创建一个CloudTesting的bucket,上传两个csv文件: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:创建ETLTest数据表n创建两张表,Trade_all2和前面demo中用到的trade_all结构一样,用于存储上传到AWSS3的前面Demo2输出的文本文件。n创建表dictionary用于存放上传到AWSS3的dictionary.csv文件的数据。nCREATETABLEdbo.dictionary(nfieldvarchar(50)NULL,ntypevarchar(50)NULL,ndescriptionvarchar(50)NULL,ndomainvarchar(50)NULL,nobjectvarchar(50)NULLn)ONPRIMARY 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:转换概览n这两个转换都很简单,包括一个S3文件的输入,和一个表输出。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:配置S3文件输入n从核心对象输入中拖出S3CSV输入,设定属性:n输入AccessKey和SecretKey,选择Bucket,浏览选择文件,下面会显示字段列表(缺省第一行为header) 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:配置表输出n同Demo5添加到etltest的database连接DW。n从核心对象输出中拖出表输出,勾选指定数据库字段,配置数据库字段映射: 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Demo6:运行由于水平有限,所以S3CSV的数据整合出现中乱码,尚有待解决。 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Kettle是什么Kettle能做什么Kettle实例Demo提纲参考资料参考资料 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有部分名词解释nArffAttribute-RelationFileFormat,Weka文件格式nAvro一种Json数据格式nCassandra一套开源分布式NoSQL数据库系统nCouchDB一个开源NoSQL多主复制数据库nESRIShapefileEnvironmentalSystemsResearchInstitute地理信息文件格式nHbase一个开源的非关系型分布式数据库(NoSQL),nHadoop一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架nHL7MLLPHealthLevelSevenMinimalLowerLayerProtocol卫生信息交换标准nLucidDB一个为数据仓库目的建造的开源数据库nMondrianisanOLAP(onlineanalyticalprocessing)enginewritteninJavanMongoDB一种文件导向数据库管理系统,由C+撰写而成nLDIFLDAPDataInterchangeFormatnPalo一种开源的OLAP数据库nSplunkhadoop日志检测工具nSSHSSH2SecurityShell用于远程登录unix,linuxnS3SimpleStorageServiceAmazonWebService文件格式nTalend一种开源数据管理平台nWeka一种开源的DataMining工具nXbaseXBasefamily(forexample,dBaseIII/IV,Foxpro,Clipper,andmore)DBFfiles.nYaml一种直观的能够被电脑识别的的数据序列化格式 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有Reference一、ETL利器Kettle实战应用解析系列一【Kettle使用介绍】二、ETL利器Kettle实战应用解析系列二 【应用场景和实战DEMO下载】三、ETL利器Kettle实战应用解析系列三 【ETL后台进程执行配置方式】 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有 德昂信息技术德昂信息技术(北京北京)有限公司有限公司 版权所有版权所有德昂信息技术(北京)有限公司欢迎垂询010-82145320,010-82145321www.dataondemandcn.com聚焦企业管理专注BI应用本PPT中引用了多位德昂同仁及来自网络的资源,在此谨致以诚挚的感谢!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号