资源预览内容
第1页 / 共35页
第2页 / 共35页
第3页 / 共35页
第4页 / 共35页
第5页 / 共35页
第6页 / 共35页
第7页 / 共35页
第8页 / 共35页
第9页 / 共35页
第10页 / 共35页
亲,该文档总共35页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 1 数据集成为数据集成为Hadoop保驾护航保驾护航 久经验证的降低数据管理成本久经验证的降低数据管理成本 的创新之路的创新之路 2 Informatica Corporation Confidential Do Not Distribute 2 到2015年 那些将高价值 多样和最新的信息类型及来源集成到统一连贯的 信息管理基础设施的组织 其财务表现将较业内同行优越财务表现将较业内同行优越20 以上以上 Neil Chandler Gartner 当前部署的85 数据仓库项目 都不能适当扩展规模都不能适当扩展规模以满足 新的信息数量和复杂性要求 Mark Beyer Gartner 3 Informatica Corporation Confidential Do Not Distribute 3 大大 v 实施久经验证 的创新之路 随着数据呈指数级增长 降低大数据成本 4 Informatica Corporation Confidential Do Not Distribute 4 您如何权衡创新您如何权衡创新 Informatica Hadoop 路线图路线图 Hadoop MapReduce 处理处理 Hive HQL Informatica 开发人员 1 Informatica 映射转换成优化的 Hive HQL和用户自定义功能 2 优化的 HQL 转换为 MapReduce 3 在 Hadoop 上执行 MapReduce 用 户自定义功能 Data Node Data Node Data Node 数据节点 UDF MapReduce Informatica 数据转换引擎 Entire mapping logic all transformations can be executed on Hadoop Informatica 公司机密公司机密 未经许可未经许可 不得发布不得发布 25 Informatica Corporation Confidential Do Not Distribute 25 4 The DT engine can immediately use this service to process data The DT Engine is fully embeddable and can be invoked using any of the supported APIs Java C C NET web services For simple integration a command line interface is available to invoke services Internal custom applications can embed transformation services using the various APIs PowerCenter leverages DT via the Unstructured Data Transformation UDT This is a GUI transformation widget in Powercenter which wraps around the DT API and engine DT can also be embedded in other middleware technologies For some WBIMB WebMethods BizTalk INFA provides similar GUI widgets agents for the respective design environments For others the API layer can be used directly DT can be invoked in two general ways 1 Filenames can be passed to it and DT will directly open the file s for processing On the output side DT can also directly write to the filesystem 2 The calling application can buffer the data and send buffers to DT for processing On the output side DT can also write back to memory buffers which are returned to the calling application Though not shown below the engine fully supports multiple input and output files or buffers as needed by the transformation Engine invocation is a shared library The DT engine runs fully within the process of the calling application It is not an external engine This removes any overhead from passing data between processes across the network etc The engine is also dynamically invoked and does not need to be started up or maintained externally The DT engine is also thread safe and re entrant This allows the calling application to invoke DT in multiple threads to increase throughput A good example is DT s support of PowerCenter partitioning to scale up processing As shown below the actual transformation logic is completely independent of any calling application This means you can develop a transformation once and leverage it in multiple environments simultaneously resulting in reduced development and maintenance times and lower impact of change 1 Developer uses Studio to develop a transformation 2 Developer deploys transformation to local service repository directory All files needed for the transformation are moved 3 To deploy to the server this service folder is moved to the server via FTP copy script etc NOTE If the server file system is mountable from the developer machine directly then step 2 would deploy directly to the server Informatica HParser 处理各种各样的大数据 S Svc Repository S 平面文件和文档 交互数据 行业标准 XML 最广范围的大数据 限定限定 定位定位 名称名称 价值价值 社交 科学设备 传感器 生产力 直观解析环 境 预定义转换 任何 DI BI 体系架构 PIG EDW MDM 26 Informatica Corporation Confidential Do Not Distribute 26 hadoop dt hadoop jar My Parser input input txt 1 在 HParser 可视化工作室中定义 解析器 2 在 Hadoop 分布式文件系统 HDFS 上部署解析器 3 运行 HParser 提取数据 并在 Hadoop 产生表格格式 在在Hadoop上解析和准备数据上解析和准备数据 工作原理如何工作原理如何 27 Informatica Corporation Confidential Do Not Distribute 27 混合工作流编排混合工作流编排 在在Hadoop和本地环境中运行任务工作流同一和本地环境中运行任务工作流同一 Cmd 选择上传路径 MT 上传至Hadoop 解析 Cmd 上传至 Hadoop MT 解析 Cmd 剖析数据 MT 清洗 MT 数据分析 通知 名称 类型 默认值 描述 User LoadOptionPath Integer 2 Load path for workflow depending on output of cmd task User DataSourceConnection String HiveSourceConnection Source connection object User ProfileResult Integer 100 Output from profiling commnad task 增加 修改 删除 变量列表 Informatica 公司机密公司机密 未经许可未经许可 不得发布不得发布 28 Informatica Corporation Confidential Do Not Distribute 28 单个 M R 作 业的可跟踪性 作业跟踪器链 接 URL 查看 Hive 查 询详情 作业跟踪器状态摘要 监控监控 Hive 查询追溯查询追溯 M R Informatica 公司机密公司机密 未经许可未经许可 不得发布不得发布 29 Informatica Corporation Confidential Do Not Distribute 29 监控监控 Hive 查询计划详情查询计划详情 开发人员工具中同样可 用的 hive 查询 Informatica 公司机密公司机密 未经许可未经许可 不得发布不得发布 30 Informatica Corporation Confidential Do Not Distribute 30 数据沿袭和业务术语表数据沿袭和业务术语表 元数据管理路线图元数据管理路线图 Informatica 公司机密公司机密 未经许可未经许可 不得发布不得发布 31 Informatica Corporation Confidential Do Not Distribute 31 先进技术转化为常规先进技术转化为常规IT部署部署 重复性重复性 可预测 可重复的部署和方法 与快速的与快速的 Hadoop 变化隔离变化隔离 经常推出新版本和项目 避免对错误的技术下注 现有资产的重复使用现有资产的重复使用 应用现有集成逻辑向 Hadoop 加载数据 重新使用现有数据质量规则验证 Hadoop 数据 现有技能的重复使用现有技能的重复使用 使 ETL 开发人员能够利用 Hadoop 的功能 治理治理 执行并验证数据安全性 数据质量和法规遵从政策 可管理 Informatica 公司机密公司机密 未经许可未经许可 不得发布不得发布 3
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号