资源预览内容
第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
第9页 / 共12页
第10页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
dataX3.0安装使用手册精品文档DataX3.0使用手册目录一、dataX概述11dataX作用12DataX3.0框架设计23DataX3.0插件体系2二、dataX安装31创建用户组及用户32环境变量配置43安装python4三、dataX使用41生成配置文件模板42配置定时任务73常见问题及处理8四、dataX插件开发及安装81.Reader插件开发82.Writter插件开发93.插件部署10一、 dataX概述1 dataX作用DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。2 DataX3.0框架设计DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。3 DataX3.0插件体系类型数据源Reader(读)Writer(写)RDBMS 关系型数据库MySQLOracleSQL ServerPostgreSQL达梦通用RDBMS(支持所有关系型数据库)阿里云数仓数据存储MaxCompute(原ODPS)Analytic DB(原ADS)OSS云数据库Memcache版(原OCS)HiveNoSQL数据存储Table Store(原OTS)Hbase0.94Hbase1.1MongoDB无结构化数据存储TxtFileJsonFileFTPHDFS二、 dataX安装1 创建用户组及用户roothmaster-hdfs:/home/ubuntu# groupadd dataxroothmaster-hdfs:/home/ubuntu# useradd -g datax datax -m -d /home/dataxroothmaster-hdfs:/home/ubuntu# passwd dataxEnter new UNIX password: Retype new UNIX password: passwd: password updated successfullyroothmaster-hdfs:/home/ubuntu# usermod -G adm -a dataxroothmaster-hdfs:/home/ubuntu# su - dataxdataxhmaster-hdfs:$ iduid=1004(datax) gid=1000(ubuntu) groups=1000(ubuntu),4(adm),1002(datax)2 环境变量配置export JAVA_HOME=/usr/java/jdk1.7.0_80export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/libexport PATH=$JAVA_HOME/binexport LANG=zh_CN.UTF-83 安装pythondataxhmaster-hdfs:/home/ubuntu$ pythonPython 2.7.6 (default, Jun 22 2015, 17:58:13) GCC 4.8.2 on linux2Type help, copyright, credits or license for more information.三、 dataX使用1 生成配置文件模板命令:bin/python datax.py -r YOUR_READER -w YOUR_WRITER案例1:mysqlreader- mysqlwriterdataxhmaster-hdfs:/datax3/datax/bin$ python datax.py -r mysqlreader -w mysqlwriterDataX (DATAX-OPENSOURCE-1.0), From Alibaba !Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.Please refer to the mysqlreader document: https:/github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md Please refer to the mysqlwriter document: https:/github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md Please save the following configuration as a json file and use python DATAX_HOME/bin/datax.py JSON_FILE_NAME.json to run the job. job: content: reader: name: mysqlreader, parameter: column: , connection: jdbcUrl: , table: , password: , username: , where: , writer: name: mysqlwriter, parameter: column: , connection: jdbcUrl: , table: , password: , preSql: , session: , username: , writeMode: , setting: speed: channel: 案例2:jsonfilereader- hbasewriterdataxhmaster-hdfs:/datax3/datax/bin$ python datax.py -r jsonfilereader -w hbasewriter DataX (DATAX-OPENSOURCE-1.0), From Alibaba !Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.Please refer to the jsonfilereader document: https:/github.com/alibaba/DataX/blob/master/jsonfilereader/doc/jsonfilereader.md Please refer to the hbasewriter document: https:/github.com/alibaba/DataX/blob/master/hbasewriter/doc/hbasewriter.md Please save the following configuration as a json file and use python DATAX_HOME/bin/datax.py JSON_FILE_NAME.json to run the job. job: content:
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号