资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
互联网NLP技术及应用 吴华 2013/8/17 搜索引擎的用户需求 王菲老公代言的汽车品牌 附近好吃的餐馆 从中关村到香山饭店怎么走 听起来快乐的歌曲 令人心旷神怡的图片 北京哪里能买到漂亮衣服 互联网应用趋势互联网应用趋势 基于知识网络的全面需求满足 知识、语义搜索 精准需求理解 直接答案满足 对话式搜索 智能交互 主动推荐,不搜即得 精准的个性化服务 搜索给搜索给NLP带来的挑战带来的挑战 需求识别 知识挖掘 框计算框计算 A B 结果组织与展现 D 用户引导 C 来源:暗网、隐含 形式:结构化、半结构 化、非结构化 结构:各种层次的知识 直接答案 聚类 文摘 关系图 推送 多媒体 输入复杂 需求多样 建议 扩展 交互 整合词典、例句、翻译 移动APP - 旅游 百度翻译免费API - 电子商务 提纲提纲 文本理解 Query理解 知识语义计算 用户理解 用户建模 基础技术与应用的关系示例基础技术与应用的关系示例 词法分析 句法分析 语用分析 翻译模型 ML模型 知识图谱 Query分析 智能交互 辅助决策 用户模型 语义分析 词法和关系分析应用 实体挖掘 Ontology建设 知识图谱 实体挖掘 Query log 海量网页库 垂直站点资源 新词/专名挖掘 基于多类资源挖掘新词/专名知识,可做到天级别更新 新词/专名分类 可面向自定义类别进行灵活分类 新词/专名需求词挖掘 新词/专名的需求标签 原始数据 步步惊心 下载 莫言作品集 北京大学录取线 山楂树之恋在线观看 步步惊心 【电视剧】 莫言 【人名】 北京大学 【机构】 山楂树之恋 【电影】 步步惊心 下载 / 观看 / 在线 / 小说 大结局 / 刘诗诗 / 片尾曲 从Query Log挖掘 URL pattern 挖掘 从title中挖掘 相关上下文相关上下文: 电影 | 在线观看 | 百度影 音 | 下载 | 完整版 | 经典 台词 | 影评 | 插曲 Ontology建设 上下位知识挖掘上下位知识挖掘 三元组知识挖掘三元组知识挖掘 相关实体挖掘相关实体挖掘 语义标签挖掘语义标签挖掘 步步惊心 上位词上位词:小说 / 电视剧 / 穿越剧 导演:李国立 编剧:王莉芝 主演:刘诗诗 / 吴奇隆 / 郑嘉颖 类型:历史 / 魔幻 / 情感 / 青春 / 剧情 年份:2011 集数:35 制片地区:中国大陆 相关实体相关实体:01 宫 / 02 宫锁珠帘 / 03 新 白发魔女传 / 04 轩辕剑之天之痕 语义标签语义标签:穿越 / 清宫 / 好看好看 / 清穿 / 刘诗诗 / 养眼养眼 / 雍正 / 虐心 语义计算 三元组知识融合 属性名归一化 属性值去噪 属性值规范化 同义实体识别 多源数据合并 三元组分类 娱乐人物 实体消歧 判定实体在给 定三元组中的 分类 对于多义实体, 判定其在特定 语境下对应的 三元组 于谦 于谦 于谦 郭德纲 相关人物 主需求识别 识别用户对给 定实体的主需 求所对应的三 元组 于谦 80% 20% 主需求 知识推理 基于已有三元 组推理出未知 三元组 于谦 出生日期 年龄 性别(男)+配偶 妻子 历史人物 三元组相似度计算 计算任意两组 三元组之间的 相似度 于谦 郭德纲 章子怡 0.9 0.1 三元组分类 主需求识别 实体消歧 相关人物 Query改写- -机器翻译模型 意图归一 - 机器学习模型 复杂Query 理解 - Parser Query 理解 Query意图理解意图理解 框计算框计算 理解用户的意图并给理解用户的意图并给 出精确答案出精确答案 Query理解 一个问题用多种方式表达 姚明身高;姚明几米; 上地在哪里;上地在什么地方 相对复杂的query不能理解 身高180以上的自由泳运动员 王菲老公代言的汽车品牌是什么 意图归一 句法分析 纠错、同义、省略 天龙八步 天龙八部 成都的哥罢工 成都出租车罢工 康柏笔记本vista系统一键恢复康柏vista一键恢复 Query改写 机器翻译模型用于 Query改写 给定query f,求其最佳的改写query e* QueryQuery改写改写模型模型 Query改写模型 成都的哥罢工 成都出租车罢工 ),(expmaxarg ),(exp),(exp maxarg11 111 111 1 1111JI mMmm eeJI mMmmJI mMmmeIfehfehfeh eIII 特征 同义改写概率 纠错改写概率 上下文改写概率 语言模型 )()|(maxarg)|(maxarg*epefpfepe词对齐示例 北京 出租 罢工 是 为了 涨 工资 上海 的哥 罢工 事 为 涨 待遇 相同对齐 相同对齐 近义对齐 字面对齐 纠错对齐 同类对齐 车 QueryQuery改写改写 四川是我国省第几大中国省份排名01235四川开始开始四川四川是是第几第几大大结束结束省省12453省份省份排名排名中国中国我国我国4省份省份排名排名省份省份排名排名第几第几大大省省Query变换算法示例 示例示例 机器学习模型用于 Query意图归一 一个一个Query有多种表达有多种表达 Query Pair文本文本语义匹配计算语义匹配计算 Query Pair 姚明有多高 姚明的身高 谁写的平凡的世界 平凡的世界作者是谁 方法 DNN算法 产出 词表示 Query Pair 相似度 Query term vector 1 Query Term Vector 2 确率为90%,比baseline绝对值高10% 为什么为什么DNN有效有效 简单表示 聚类 Embedding Parser技术用于复杂 query解析 复杂复杂query解析解析 谢霆锋是谁的儿子? 谢霆锋的儿子是谁? 王菲老公代言的汽车品牌是哪个? 复杂复杂query解析解析 谢霆锋是谁的儿子? 谢霆锋的儿子是谁? 谢霆锋是谁的儿子 是 刘德华 儿子 谁 谁是谢霆锋的儿子 是 谁 儿子 谢霆锋 (?,儿子,谢霆锋) (谢霆锋,儿子,?) 复杂query解析 知识库查询引擎 基于知识库的在线逻辑推理 复杂Query的结构解析 是 品牌 汽车 哪个 的 代言 老公 王菲 SBJ ATT ATT VOB SBJ ATT DE 依存分析结果 知识库推理 汽车品牌 代言 老公 开迪 王菲 查询逻辑表达式 语用分析用于智能交互 语音助手 语义理解语义理解 (semantic Analysis) 对话管理 以订航班为例 系统在如下行为中选择:系统在如下行为中选择: 确认:确认:“您想飞伦敦?” 问其他问题:问其他问题:“您从哪飞?” 查数据库:查数据库:“去伦敦的飞机” 状态集合:S 动作结合:A 状态转移:SA-S R: 回报函数R(i) or R(i,a) : 对话策略 S - A 我想飞伦敦 一些对话管理的任务 处理来自于ASR和SLU结果的不确定性 确认置信度低的信息 根据置信度、信息重要性、对话历史信息等采用不同 确认方法 维护不同可能状态空间 确定下一步行动 要用户提供新的信息 放松query的限制条件 选择系统信息用语 对话管理模块 对话控制 选择下一步系统行为,比如 要用户提供更多的信息 确认或交互用户之前的输入 给用户提供信息 对话环境建模 维护与对话相关的信息,比如 已经说过的信息 这个信息是否已经交互过? 对话控制策略 基于框架的控制策略基于框架的控制策略 框架定义完成指定任务需要的信息 根据已知信息,确定之后要问的问题 Siri 中的示例 发发Email U: Send an email S: who are you sending to? U: To Mike S: Email title? U: meeting S: What do you want to send to Mike? U: We have a meeting at seven PM. S: Here are the contents you want to send to Mike Should I send out to Mike? U: Yes S: It was sent out 用到的框架: Reciever Title Content Confirmation 更加复杂的对话管理方法 基于基于AI的方法的方法 Information State Update Theory Dialogue as Planning Ontology based dialogue 统计方法统计方法 状态空间状态空间S、动作集、动作集A、目标、目标G 方法方法 马尔科夫决策过程马尔科夫决策过程 增强学习增强学习(reinforecement learning) 用户理解 主动推荐,不搜即得 个性化服务 什么是用户模型 用户理解建模 用户LBS模型 用户SNS模型 用户时间分析 用户兴趣模型 用户意图模型 用户静态属性 用户状态模型 用户消费模型 常驻点 活动范围 常用轨迹 个性化POI 图谱社群 用户价值分析 信息传播模式 周期性 活跃峰值捕获 忙闲时间段 季节性 电视剧 Movie 小说 动漫 娱乐明星 体育 Music 好不好 在哪里买 便宜么 官网 在哪维修 对比评测 数码 家电 化妆品 汽车 房产 旅游 餐饮 中学生 大学生 上班族 中老年人 女性 疾病求医 孕婴 美容整形 求职 教育培训 42 用户搜索 点击日志 调整消费意图特征空间 训练参数设定 数据抽取模型训练 预测结果内测评估 参数 选择 获取模型最优参数组 特征 选择 最优消费 判定模型 基于特征选择&参数选择的用户消费判定模型 最近热门 竞争品牌 Galaxy S III iPhone 4s HTC One X 功能 类别 价位 Lumia 920 iPhone 4s Galaxy S III 3000元上下 4000元上下 5000元上下 2000元上下 性别 同城热门 年龄段 小米 2 iPhone 4s HTC One X 市场 格局 导向 产品 属性 导向 人群 倾向 导向 2012年11月 2012年12月 2013年1月 2012年10月 消费示范 情感分析情感分析 辅助消费决策辅助消费决策 多维度的用户建模 个体用户建模个体用户建模 用户兴趣建模用户兴趣建模 用户状态建模用户状态建模 用户属性挖掘用户属性挖掘 群体用户建模群体用户建模 群体划分群体划分 群体多维度统计分析群体多维度统计分析 群体关系分析群体关系分析 全体用户建模全体用户建模 全体用户多维度全体用户多维度 统计分析统计分析 多维度用户建模需求人群vs时间 0%10%20%30%40%50%60%70%80%文学书籍 影视 大型网游 单机游戏 网页游戏 手机游戏 色情 动漫 娱乐人物 饮食烹饪 化妆美容 服饰鞋帽 金融理财 房产交易 政策法规 文档编写 机构/公司 工作 生活 48 多维度用户建模菜系vs地域 旅游推荐 人、内容、场景的综合 人 内容 场景 基于用户建模、知识挖 掘共同满足 基于用户建模在不同场
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号