资源预览内容
第1页 / 共66页
第2页 / 共66页
第3页 / 共66页
第4页 / 共66页
第5页 / 共66页
第6页 / 共66页
第7页 / 共66页
第8页 / 共66页
第9页 / 共66页
第10页 / 共66页
亲,该文档总共66页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
DataStage入门培训 讲师 邱明伟日期 2010 03 01东南融通版权所有 2 Agenda DataStage介绍DataStage开发DataStage四个客户端的使用DataStage常用组件使用DataStage常用命令练习 DataStage介绍 4 AscentialPlatform 5 WhatisDataStage DesignjobsforExtraction Transformation andLoading ETL Idealtoolfordataintegrationprojects suchas datawarehouses datamarts andsystemmigrationsImport export create andmanagedmetadataforusewithinjobsSchedule run andmonitorjobsallwithinDataStageAdministeryourDataStagedevelopmentandexecutionenvironments DataStage开发 7 DataStageServerandClients 8 DataStageServerandClients AdministratorAdministersDataStageprojectsandconductshousekeepingontheserverDesignerCreatesDataStagejobsthatarecompiledintoexecutableprogramsDirectorUsedtorunandmonitortheDataStagejobsManagerAllowsyoutoviewandeditthecontentsoftherepository DataStageAdministrator 10 DataStageAdministrator InDataStagealldevelopmentworkisdonewithinaproject ProjectsarecreatedduringinstallationandafterinstallationusingAdministrator Eachprojectisassociatedwithadirectory Thedirectorystorestheobjects jobs metadata customroutines etc createdintheproject Beforeyoucanworkinaprojectyoumustattachtoit openit YoucansetthedefaultpropertiesofaprojectusingDataStageAdministrator 11 DataStageAdministrator UsetheAdministratortospecifygeneralserverdefaults addanddeleteprojects andtosetprojectproperties UsetheAdministratorProjectPropertieswindowto SetjobmonitoringlimitsandotherDirectordefaultsontheGeneraltab SetusergroupprivilegesonthePermissionstab Enableordisableserver sidetracingontheTracingtab SpecifyausernameandpasswordforschedulingjobsontheScheduletab SpecifyhashedreadandwritecachesizesontheTunablestab DataStageManager 13 DataStageManager DataStageManagermanagestwodifferenttypesofobjects Metadatadescribingsourcesandtargets CalledtabledefinitionsinManager Thesearenottobeconfusedwithrelationaltables DataStagetabledefinitionsareusedtodescribetheformatandcolumndefinitionsofanytypeofsource sequential relational hashedfile etc TabledefinitionscanbecreatedinManagerorDesignerandtheycanalsobeimportedfromthesourcesortargetstheydescribe 14 DataStageManager DataStagecomponents EveryobjectinDataStage jobs routines tabledefinitions etc isstoredintheDataStagerepository Manageristheinterfacetothisrepository DataStagecomponents includingwholeprojects canbeexportedfromandimportedintoManager 15 DataStageManager AnyobjectinManagercanbeexportedtoafileCanexportwholeprojectsUseforbackupSometimesusedforversioncontrolCanbeusedtomoveDataStageobjectsfromoneprojecttoanotherUsetoshareDataStagejobsandprojectswithotherdevelopers 16 DataStageManager ImportProcedureInManager click Import DataStageComponents SelectDataStageobjectsforimport 17 DataStageManager ExportProcedureInManager click Export DataStageComponents SelectDataStageobjectsforexportSpecifiedtypeofexport DSX XMLSpecifyonclientmachine DataStageDirector 19 DataStageDirector Canschedule validating andrunjobsCanbeinvokedfromDataStageManagerorDesignerClearjoblogSetDirectoroptionsRowlimitsAbortafterxwarnings 20 DirectorLogView ClicktheLogbuttoninthetoolbartoviewthejoblog Thejoblogrecordseventsthatoccurduringtheexecutionofajob Theseeventsincludecontrolevents suchasthestarting finishing andabortingofajob informationalmessages warningmessages errormessages andprogram generatedmessages 21 DataStageDirector DataStageDesinger 23 WhatIsaJob ExecutableDataStageprogramCreatedinDataStageDesigner butcanusecomponentsfromManagerBuiltusingagraphicaluserinterfaceCompilesintoOrchestrateshelllanguage OSH 24 CreateNewJob SeveraltypesofDataStagejobs Parallel thiscoursewillconcentrateonparalleljobs JobSequence usedtocreatejobsthatcontrolexecutionofotherjobs 25 CreateNewJob 26 ComponentsIntroduce Sequentialfile功能特点 适用于一般顺序文件 定长或不定长 可识别文本文件或IBM大机ebcdic文件 使用要点 按照命名规范命名 点住文件 双击鼠标 在general说明此文件内容 格式 存储目录等修改文件属性 文件名称 reject方式 27 Sequentialfile 28 Sequentialfile 修改文件格式 比如记录结束符是什么 字段分隔符 字符串是用什么区别等 29 Sequentialfile 30 Sequentialfile 输入此文件字段内容 31 Annotation 功能特点 一般用于注释 可利用其背景颜色在job中分颜色区别不同功能块 32 Annotation 33 CopyStage 功能说明 CopyStage可以有一个输入 多个输出 它可以在输出时改变字段的顺序 但是不能改变字段类型 34 CopyStage 35 FilterStage 功能说明 FilterStage只有一个输入 可以有多个输出 根据不同的筛选条件 可以将数据输出到不同的outputlink 36 FilterStage 37 SortStage 功能说明 只能有一个输入及一个输出 按照指定的Key值进行排列 可以选择升序还是降序 是否去除重复的数据等等 38 SortStage 39 SortStage Option具体说明 AllowDuplicates 是否去除重复数据 为False时 只选取一条数据 当StableSort为True时 选取第一条数据 当SortUnility为UNIX时此选项无效 SortUtility 选择排序时执行应用程序 可以选择DataStage内建的命令或者Unix的Sort命令OutputStatistics 是否输出排序统计信息到job日志StableSort 是否对数据进行二次整理 40 SortStage CreateClusterKeyChangeColumn 是否为每条记录创建一个新的字段 clusterKeyChange 当SortKeyMode为Don tSort PreviouslySorted 或Don tSort PreviouslyGrouped 时 对于第一条记录该字段被设置为1 其余的记录设置为0 CreateKeyChangeColumn 是否为每一条记录创建一个新的字段KeyChange 41 RemoveDuplicatesStage 功能说明 输入根据关键字分好类的有序数据 去除所有记录中关键字重复的记录 通常与sortstage配合使用 42 RemoveDuplicatesStage 43 TansformerStage 功能说明 一个功能极为强大的Stage 有一个inputlink 多个outputlink 可以将字段进行转换 也可以通过条件来指定数据输出到那个outputlink 在开发过程中可以使用拖拽 44 TansformerStage 45 TansformerStage Constraint及Derivation的区别 Constraint通过限定条件使符合条件的数据输出到这个outputlink Derivati
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号