资源预览内容
第1页 / 共17页
第2页 / 共17页
第3页 / 共17页
第4页 / 共17页
第5页 / 共17页
第6页 / 共17页
第7页 / 共17页
第8页 / 共17页
第9页 / 共17页
第10页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
利用統計方法及中文訓練資料 處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data楊允言 戴嘉宏 劉杰岳陳克健 高成炎 2008.9.5 1報告大綱 研究架構 研究目的 研究方法 結果與分析 未來方向21. 研究架構 台語文語料庫 詞頻/MI 統計 詞性標記 兩種書寫型式互轉 (漢字掛;戴(VC) ti ti在(P)壁頂piah-tng 牆壁上(Nc) , 行李hng-l行李(Na) khngkhng收拾;盤點(VC)khngkhng收拾;盤點(VC)lehleh咧(T) ,114.結果與分析-3年 文類 篇名 錯誤/ 語詞數正確率 1885 散文 白話字的利益 6/109 94.50% 1919 散文 品行的遺傳 8/119 93.28% 1990 散文 老人的價值 7/49 85.71% 1950 劇本 威尼斯的生意人 4/58 93.10% 1890 小說 安樂街 9/77 88.31% 1924 小說 母親的眼淚 9/93 90.32% 1990 小說 岬角上的新娘 5/59 91.53% 124.結果與分析-4錯誤原因 次數 比例 選錯中文詞 13 27.08% 沒有正確的中文詞可選 24.17% 未知詞 8 16.67% 人名 48.33% 傳播錯誤 48.33% 總計 30 62.50%134.結果與分析-5文類 語詞數 標記錯誤 正確率 散文27721 92.42% 劇本584 93.10% 小說22923 89.96%144.結果與分析-5文類 語詞數 標記錯誤 正確率 散文27721 92.42% 劇本584 93.10% 小說22923 89.96%155.未來方向 建立training data 中文和台文的差異 台語詞類集16敬請指教17
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号