资源预览内容
第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
第9页 / 共26页
第10页 / 共26页
亲,该文档总共26页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
自下而上的数据仓库构建方法 童小军 XiaoJunTong 2006来北京从事搜索引擎研发工作 思考搜索的智能 2007 2008在FeedSky从事博客搜索研发 Web2 0 2008 至今北京暴风网际搜索研发主管2010 2012对外经济贸易大学UIBE国际商学院企业管理研究生 在读 微博 暴风搜索 数据平台发展几个阶段 2008rsync log文件 java分析 jsp程序2009BI 数据仓库 syslog ng perl python2010 4w r 3h 闭环反馈 数据决策 报表驱动2011管理会计 内部成本 收益核算 PV ISO9001 PMI OPM3 思考 数据统计需求和本源 需求 本源 思考 数据统计 分析的需求 本源 使用列举类推法思考 思考 需求 本源 举例 组织结构 思考 需求 本源 举例 质量优化 思考 需求 本源 举例 工业控制 思考 组织项目管理成熟度模型 OPM3模型第1维成熟度的4个梯级分别是 标准化的 Standardizing 可测量的 Measuring 可控制的 Controlling 持续改进的 ContinuouslyImproving 思考 需求 本源 简易的智能结构 需求 本源 智能 结构 商业智能 BI 性能指标 反馈周期 决策有效性 反馈成本 数据统计 分析是自动控制系统和自学习 自调整系统的核心组成部分 数据构建方法 什么是自下而上 需求 展现 分析逻辑 数据结构 变化可能 越到底层越少修改成本 越到底层越高 数据构建思路 抽象分析 总结归纳 数据结构 各类逻辑 业务需求 保留全部可能性 总结需求的组成基本变量 总结固定逻辑和结构 设计满足各类需求的系统 构建策略 自下而上 以不变应万变 自下而上构建 Log构建方法 四个构建策略 1 数据公式 4w r 2h 2 实时汇总 js nginx perl syslog ng python perl db 3 存储格式 一日一表 4 统计方法 2sql方法 5 图表展现 模板引擎 1 Log数据公式 4w r 2h 4W who when where what R result 3H why how win log统计 who uid uname 用户维度when time last time log time 时间维度where url from url version host uip system 空间维度what click search keyword orderfiled 场景维度result time count iscached 结果维度 3H whyhowwin 为何 怎么办 如何赢 2 实时汇总 js nginx syslog ng perl 流程 js nginx perl syslog ng python perl dbJS flash 收集用户前端的感受nginx 嵌入perl模块 并发和并能syslog ng log source s local filter f cache destination d cache file destination d cache py db mysql MyISAM 列式数据库 infobright 够用就行 3 存储格式 一日一表 1 一日一个表结构 每日凌晨压缩2 表结构 MysqlMyISAM 3 少量索引4 压缩工具 myisampack压缩40 50 自读 5 举例 search log 20101011click log 20101011 4 统计方法 2sql方法 2sql方法 大部分满足分析需求 程序 小部分 数据仓库 sql 数据集市 sql 展现结果 满足大部分的分析需求 sqltask分析工具原理 log库 统计库 配置可以在sql客户端直接调试 DEMO desc 搜索行为次数 实际无结果 实际无结果率 相对 绝对 搜索无结果次数 搜索行为次数 source 127 0 0 1 3306 user action market 127 0 0 1 3306 user analysis search result mode varchar 255 count int 11 qj rate float rate float day int 8 update time bigint 20 selectresult typeasmode count search log id ascount count search log id 100 selectcount search log id fromlog search daywhere1andresult count 0 asrate count search log id 100 selectcount search log id fromlog search daywhere1andsearch begin 1 asqj rate day asday UNIX TIMESTAMP now 1000asupdate timefromlog search daywhere1andresult count 0 andsearch begin 1groupbymodeorderbycountdesc 4 图表展现 模板引擎 1 定义数据源2 定义查询语句和变化字段3 定义展现配置 DEMO desc 搜索行为次数 实际无结果 实际无结果率 相对 绝对 搜索无结果次数 搜索行为次数 source 127 0 0 1 3306 user action input start day end day X dayY countType line 搜索行为 mode 类型 count 搜索 qj rate 绝对无结果 rate 比例 day 天 update time 更新时间 selectmode count qj rate rate day update timefromsearch resultwhere1andday start dayday end dayorderbydaydesc 发展经历 暴风搜索数据两个阶段 第一阶段 js php log n rsync log tar gz 分析程序 分析逻辑 数据库 数据展现 java 第二阶段 业务知识和行业同步 js nginx perl syslog ng search log入库程序 数据仓库 sql sql task程序 数据集市 sql 展现 python 邮件 net 桌面 数据集市 db python data file gnuplot 绘图配置 img data mailgnuplot帮助 python报表邮件实现 方案 sql 配置 数据 曲线集成环境 桌面工具 方案存储 统计展现 分析桌面平台的基本构思 修改决策 研发测试 上线 数据 单一决策 周期长 影响整体稳定性 修改决策 研发测试 分流系统 正式环境 数据 支持多路决策 周期端 影响小 心理成本低 小版本1 数据 小版本2 数据 数据系统和快速决策 小版本放量数据平台 思考那些指标影响了一个数据系统的性能 以上思路在那些方面改善了这些指标 反馈周期 决策有效性 反馈成本 什么是成功的数据系统 总结 我们可以以什么应对变化 以不变应万变 以闭环反馈应万变 以4w r 3h应万变 题外话 题外话 个人的一个发现 关于海内外互联网alexa排名总结 Alexa排名显示 中国本土互联网繁荣 Alexa排名比例 500强 12 6 200强 12 5 100强 13 位美国后 中国本土应用遍地开花 业务涵盖搜索门户IM电子商务视频分享微博等领域 而其他国家用户多访问美国服务 数据来源 Q A童小军 XiaoJunTong 微博
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号