资源预览内容
第1页 / 共38页
第2页 / 共38页
第3页 / 共38页
第4页 / 共38页
第5页 / 共38页
第6页 / 共38页
第7页 / 共38页
第8页 / 共38页
第9页 / 共38页
第10页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
在线教育领域的机器学习应用 邓澍军 2015.04.25 提纲提纲 概述 小猿搜题 之 拍照搜题 猿题库 之 能力预测 猿辅导 之 老师推荐 总结 50-60年代年代 感知机 机器学习 70-80年代年代 神经网络 90-00年代年代 SVM Boosting 随机森林 10年代年代 Deep Learning 90年代年代 网校:远程 教育 在线教育 00年代年代 传统教育转 战线上 10年代年代 互联网公司 进军在线教 育 2012- 移动互联网 在线教育 机器学习邂逅在线教育 机器学习 在线教育 应用之一:小猿搜题之拍照搜题 小猿搜题之拍照搜题 小猿搜题技术框架 插图 匹配 图片 切分 CNN识别 NLP纠错 预处理 返回题目 搜索 图片类别 插图 匹配 图片图片 切分 CNN识别 NLP纠错 搜索 预处理 返回题目 图片特征 内容多样 语数英等10来个科目 模糊图很多,占30%+ 光照、扭曲、抖动等 含有大量公式,数学占50% 上下标、分式、根号等 模糊图片 插图 匹配 图片图片 切分 CNN识别 NLP纠错 搜索 预处理 返回题目 公式图片 插图 匹配 图片图片 切分 CNN识别 NLP纠错 搜索 预处理 返回题目 图片预处理 插图 匹配 图片 切分 CNN识别 NLP纠错 搜索 预处理预处理 返回题目 字符切分 插图 匹配 图片 切分切分 CNN识别 NLP纠错 搜索 预处理 返回题目 复杂公式切分 插图 匹配 图片 切分切分 CNN识别 NLP纠错 搜索 预处理 返回题目 卷积神经网络模型 Convolutions Max Pooling Convolutions Max Pooling Convolutions Max Pooling Convolutions ReLU Dropout Full Connection Softmax 插图 匹配 图片 切分 CNN识别识别 NLP纠错 搜索 预处理 返回题目 标注数据自动生成 场景融合 旋转、拉伸等 自动生成标注数据 插图 匹配 图片 切分 CNN识别识别 NLP纠错 搜索 预处理 返回题目 Deep Learning的优化算法多种 多样,模型最终的效果也不尽 相同 小猿搜题中尝试了多种不同优化 算法 一般来说,先SGD再采用Gauss- Newton能够在更短时间内收敛 Deep Learning优化 插图 匹配 图片 切分 CNN识别识别 NLP纠错 搜索 预处理 返回题目 Deep Learning加速 用GPU K40训练相比CPU模式 速度能够提升5-6倍 GPU K40线上预测速度能够提 升2-4倍 插图 匹配 图片 切分 CNN识别识别 NLP纠错 搜索 预处理 返回题目 辅助策略NLP纠错 利用语言模型进行纠错 平行回回边形 平行四四边形 电灯炮炮 电灯泡泡 入入 人人 l 1 插图 匹配 图片 切分 CNN识别 NLP纠错纠错 搜索 预处理 返回题目 如果题目中的插图匹配(SIFT 等特征),则为加分项 辅助策略插图匹配 插插图图 匹配匹配 图片 切分 CNN识别 NLP纠错 搜索 预处理 返回题目 搜索 搜索主要模块 分词 倒排索引 排序 Learning to Rank: GBRT 插图 匹配 图片 切分 CNN识别 NLP纠错 搜索搜索 预处理 返回题目 搜索示例 搜索示例 小猿搜题之拍照搜题 Computer Vision 预处理 切分 训练数据自动生成 Deep Learning 识别 NLP 纠错 Learning to Rank 排序 小结 应用之二:猿题库学生能力预测 猿题库学生能力预测 猿题库学生能力预测(续) 项目反应理论(IRT) 最简单的IRT模型 题目难度b 标注 学生能力 模型参数,优化得到 传统教育模型 机器学习模型 Offline model Logistic Regression Online model Follow-the-Regularized-Leader 机器学习模型 所用特征 用户相关特征 学校,地区,目标考试, 题目相关特征 知识点,关键词,难度, 时序特征 距离高考时间, 组合特征 特征 预测分评估 0 10 20 30 40 50 60 70 80 90 100 理数 物理 化学 英语 生物 真实平均分 预测平均分 2014年广东省理科高考 小结 传统教育模型 项目反应理论(Item Response Theory) 机器学习模型 Offline model LR (Logistic Regression) Online model FTRL (Follow-The-Regularized-Leader) 应用之三:猿辅导老师推荐 猿辅导老师推荐 猿辅导老师推荐(续) 推荐系统 冷启动:Content-Based Item-Based Collaborative Filtering 机器学习 Logistic Factorization Machine Exploitation and Exploration(E&E) 总结 小猿搜题之拍照搜题 Deep Learning Computer Vision Learning to Rank 猿题库学生能力预测 传统教育领域的项目反应理论(IRT) 计算广告点击率预测模型LR、FTRL 猿辅导老师推荐 推荐系统 LFM,E&E 未来 教育领域知识图谱 学生的最优能力成长之路 手写识别 手写拍照搜题 解答题 自动判卷 高考机器人 机器自动出题 机器自动做题 智能芯片 Q&A? Thanks!
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号