资源预览内容
第1页 / 共88页
第2页 / 共88页
第3页 / 共88页
第4页 / 共88页
第5页 / 共88页
第6页 / 共88页
第7页 / 共88页
第8页 / 共88页
第9页 / 共88页
第10页 / 共88页
亲,该文档总共88页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Thomson Data AnalyzerCritical Insight into Competitive and Technical Intelligence Celine LiThomson Reuters分析流程明确问题检索并下载数据数据清理数据分析仔细研究分析结果提出进一步的问题决策者分析师最终得到清楚、准确、简明的分 析结果提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据规范/数据结构化 数据分析 生成报告TDA简介 Thomson Data Analyzer (TDA),是一个具有强 大分析功能的文本挖掘软件,可以对文本数据进行 多角度的数据挖掘和可视化的全景分析。 TDA能够帮助您从大量的专利文献或科技文献中发现 竞争情报和技术情报,为洞察科学技术的发展趋势 、发现行业出现的新兴技术、寻找合作伙伴,确定 研究战略和发展方向提供有价值的依据。 TDA在数据的导入,数据的清理,数据的分析,和分 析结果的报道方面都具有独特的功能。Original PatentsDWPI “human-computer interaction” and “human computer interaction” ;单数/复数变化;拼 写错误;美式/英式拼写;公司名称/机构的不同书写 格式的不同;数据清理之DWPI 自动清理Derwent数据的自动清理工具预制的清理数据脚本,规范数据,生成( DWPI only):Assignee (cleaned); Inventor ( Cleaned); IPC (Cleaned); Derwent Class (Cleaned)针对本课题需要清理的数据 专利权人 自然语词(标题、摘要、) 专利权国家、地区 IPC、Manual Code数据清理之: List Cleanup TDA 可以将同义词/等同词等加以区分; 当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件 对数据进行清理. 最常用的模糊匹配文献包括: 机构(Affiliation ) - 可用于公司/机构字段,忽略常用的机构标志 词 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields 利用List Clean up清理数据相同专利权人的合并 (光标拖动放在相应名称下即可)将不应该归并的数据从组中去除(选中数据并采用右键)恢复继续清理将清理结果保存为叙词,用于今后数据清理使用叙词帮助信息清理数据清理之: Thesaurus- 叙词表 您可以对一张数据列表利用叙词进行清理 您可以自己编辑叙词表 可以手工拖拽生成叙词表 当在Cleanup Confirm 对话框内点击 Save As Thesaurus 或者利用Groups创建叙词后 (Menu item Groups and Create Thesaurus using Groups .) 再选择已存在的叙词文件 (*.the), 您就可以将叙词表合并到一个已有的叙词表里Insert Major Item/Insert Sub Iterm数据清理之Group 数据列表中的项目可以被标记到一个集合或者一个 组之中 分组功能对于减少共现矩阵的大小非常有帮助 将数据集合中的数据提取出来形成一个新的数据集 合并对其加以定义. 形成Top30专利权人组成(选中并用右键)提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告数据分析List:一维分析矩阵分析:二维分析Map:最好利用分过组的数据进行分析预制的分析模块 :三维分析/分析报告 地区覆盖 ( 专利申请国一维分析)右键选择数据拷贝并做图共现值高于或者低于期望的数值很多 时,将会出现一个期望值显示箭头箭头的表示共现值与期望之差距的大小 没有箭头则表明这个数值与期望值没有太大偏差绿色向上的箭头表示共现值大于预期 红色向下箭头表示数值低于预期.二维矩阵分析矩阵分析的类型:同现矩阵(Co-occurrence Matrix):寻找同时出现在两个 矩阵参数中的记录自相关系数矩阵(Auto-Correlation Matrix) :利用矩阵分析 在相同的字段中,寻找关系密切的项目。如寻找合作密切的 公司、发明人,自相关系数矩阵只适用于有多个数值的字段 。互相关系数矩阵(Cross-Correlation Matrix):利用矩阵分析 在不同字段中,寻找关系密切的项目。如在相同领域研发相 似的专利权人同现矩阵(Co-occurrence Matrix)时间序列分析 (优先权年)(共现矩阵)自相关系数矩阵(Auto-Correlation Matrix) 自相关矩阵可以显示某一数据列表中的相互关系。例如,一 个发明人的自相关矩阵可以显示某一个团体中成员的高度相 关关系。 Correlation function is enabled when a correlation matrix is chosen. Choose from Pearsons r (the default), Cosine, or Max Proportional. Note: For Auto-Correlation Matrix, you should only use fields that have multiple values in most of the records. For example, Inventors, Assignees, Authors or Descriptors are good choices. Date of Publication is not a good choice, since there is only one date of publication for each record.互相关系数矩阵(Cross-Correlation Matrix) 互相关系数矩阵显示某一数据表中各项目基于另外 一张数据表的相关. 例如,作者的基于叙词的互相关系数矩阵可以显示 有哪些团体在写作相同的作品. 再如:一个基于叙 词的机构互相关系数矩阵可以显示那些在写作相同 作品的机构. 创建互相关系数矩阵需选择两个字段,第一个字段 是显示为矩阵中的行与列- 通常为一个字段或者自 己定义的一小组数据,选择的第二个字段是分析行 与列中项目相关关系的基础.总体技术发展趋势宏观分析 地区覆盖范围 (国家、地区) 创新性活动进展 时间序列分析 (优先权年,最近15年) 专利权人趋势 (专利权人名称) 排名靠前的专利申请者的地区分布 (Top30) 排名靠前的专利申请者其专利申请活动的时间分布(最近15年) 技术发展趋势(时间分布、地区分布、专利权人分布)( Manual Code、NLP words、 热点技术(时间分布、地区分布、专利权人分布)排名靠前的专利申请者的地区分布 (Top30)排名靠前的专利申请者其专利申请活动的时间分布(最近15年)技术发展趋势(不同公司的技术发展侧重点)技术发展趋势(随年代的变化)热点技术(时间分布、地区分布、专利权人分布)Map类型:自相关系数地图(Auto-Correlation Map)在相同的字段中,寻找关系密切的项目。如寻找合作密 切的公司、发明人、国家。互相关系数地图(Cross-Correlation Map)在不同字段中,寻找关系密切的项目。如寻找哪些公司 在相同的研发领域关系密切。主成分地图 (Factor Map)寻找经常共同出现在相同专利文献的项目,比如经常相伴 出现的词(NLP);经常相伴出现的发明人;IPC;Manual Code,聚成词簇。Auto-Correlation Maps 自相关关系图显示一张数据表中各个条目的相互关 系。例如:一个作者自相关关系图可以显示在一起 写作的团队成员。一个叙词的自相关关系图将可以 因在同一记录中被使用显示它们之间的高度相关性 。 注意: 对于自相关地图而言, 您应该选择那些在绝 大多数记录中都含有多个数据的字段.例如, 作者或 者叙词等都是好的选择. 出版日期则不应选择,因为 每条记录只有一个出版日期.提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告Clean:Combine Author Networks(发明人聚组) Clean:DWPI Clean Up ( DWPI Only)Export: Fro Aureka.vpm(生成可以导入Aureka的数据文件,记录之间以*TDA*) Export: Groups to Excel(将“组”导出到Excel) Export: Groups to Text (将“组”导出到Text) Export: Records to Excel (DWPI Only,将记录中预选好的字段导入Excel) Export: Records to Word (DWPI Only,将记录中预选好的字段导入Word) Export: Records to Word,将记录导出到Word)Report: Basic Report (DWPI Only,专利数位居前十位的专利权属人报告) Report: Company Comparison(2个或5个公司间的相互比较报告,相互间比较项目可以选择) Report: Company Report(报告:公司/发明人/年代/国家/技术,分析数据只来自一个机构) Report: IPC based Analysis ( DWPI Only,前10位专利权属人相关IPC相对Basic Patent Year的分析报告) Report: Make Pivot Chart in Excel(生成二维矩阵分析相应的数据透视表) Report: Plot List in Excel(将List中选定的数据复制到表格中,并自动生成柱形图) Report: Plot Matrix In Excel(将选定的二维矩阵分析复制到表格中,并自动生成三维图、柱形图、折线图) Report: Sum of Matrix Columns (将选定的二维矩阵分析表格中分析元素的列数与行数进行统计) Report: Technology Report(以技术/机构/发明人为参照点考量新出现的/消失的/量最大的/独特的技术分布报告) Report: Term By All Years(所有年份出现的词汇分析报告) Report: Term by First Year(词汇第一次出现的年份分析报告) Report: Term by last Year(词汇最后一次出现的年份分析报告) Report: Top Assignees ( DWPI only,前25位专利权属人Derwent 分类/发明人分析报告) Report: Trend Analysis (DWPI only,从技术、市场、专利权人的角度,分析Derwent分类/Derwent手工代码/IPC号 对应年份出现的新旧比例,显示技术发展趋势)Report: Company Comparison(2个或5个公司间的相互比较报告,比较项目可以选择)Tech Report提纲 Thomson Data Analyzer概况 数据导入与数据管理 数据清理/数据结构化 数据分析 生成报告http:/www.thomsonscientific.com.cn/Thank You!北京市海淀区科学院南路2号 融科
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号