资源预览内容
第1页 / 共16页
第2页 / 共16页
第3页 / 共16页
第4页 / 共16页
第5页 / 共16页
第6页 / 共16页
第7页 / 共16页
第8页 / 共16页
第9页 / 共16页
第10页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
中文文本自動分詞與標注中文文本自動分詞與標注 第8章漢語詞義自動標註技術 報告人報告人:劉謦儀劉謦儀(J94922018)(J94922018)9/25/20241綱要詞義標注詞義標注詞義排歧詞義排歧詞義自動標注詞義自動標注 與與 詞義自動排歧詞義自動排歧 語言的編碼語言的編碼漢字字義組合結構漢字字義組合結構基於字義排歧的模型基於字義排歧的模型自組織的漢語詞義排歧方法自組織的漢語詞義排歧方法結語結語9/25/20242詞義標注對文本中的每個詞根據其所屬之上下文給出它的對文本中的每個詞根據其所屬之上下文給出它的語義編碼語義編碼 指指用非文字的東西來表示文字消息的內容用非文字的東西來表示文字消息的內容,用圖畫用圖畫、樂譜等都可以進行語義編碼樂譜等都可以進行語義編碼。詞典詞典釋義文本中的某個釋義文本中的某個義項號義項號義類詞典中相映的義類詞典中相映的義類編碼義類編碼9/25/20243詞義排歧處理一詞多義現象處理一詞多義現象 例例:大學大學是教育機構是一本古書是教育機構是一本古書,博士博士既是官名既是官名,又又是博學多才的人是博學多才的人,又是師傅又是師傅,還是一種學位的名稱還是一種學位的名稱。 使用詞義標注文本可使用詞義標注文本可提高檢索時的查全率和查準提高檢索時的查全率和查準率率。有利於選擇可以有利於選擇可以恰當表達語句中詞的目標詞恰當表達語句中詞的目標詞,以以提高翻譯的準確性提高翻譯的準確性。建立基於語義類的語言模型建立基於語義類的語言模型,為語音識別為語音識別、手寫手寫體識別和音字轉換提供幫助體識別和音字轉換提供幫助。9/25/20244詞義自動標注 ( Word Sense Tagging )( Word Sense Tagging )也稱為詞義自動排歧也稱為詞義自動排歧 ( Word Sense Disambiguation )( Word Sense Disambiguation ) 計算機計算機運運用邏輯運算與推理機制用邏輯運算與推理機制,對出現在一定上下對出現在一定上下文中詞語的語義文中詞語的語義進行正確的判斷進行正確的判斷,自動確定其正確的自動確定其正確的義項並加以標注義項並加以標注的過程的過程。多義詞排歧多義詞排歧 主要主要依據該多義詞出現的上下文依據該多義詞出現的上下文,排歧的過程就是排歧的過程就是建建立他們之間的聯繫過程立他們之間的聯繫過程,這種聯繫則是詞語間的語義這種聯繫則是詞語間的語義聯繫聯繫。常見方法常見方法 人工智能法人工智能法、基於詞典的方法基於詞典的方法、基於語料庫的方法基於語料庫的方法9/25/20245語言的編碼分為分為語音編碼語音編碼和和語義編碼語義編碼兩大類兩大類語音編碼語音編碼:用符號代表語音用符號代表語音,一種語言區別於一種語言區別於其他語言的根本區別就是其不同的語音音素編其他語言的根本區別就是其不同的語音音素編碼碼。就英語而言有英音就英語而言有英音,美音美音,澳音澳音,新西蘭音等新西蘭音等。語義編碼語義編碼:是用符號代表語義是用符號代表語義,關注的是語言關注的是語言所能表達的意義所能表達的意義,每種語言都有自己的語義系每種語言都有自己的語義系統統。漢語和英語屬於不同的語系漢語和英語屬於不同的語系,前者屬於漢藏語系前者屬於漢藏語系,後者屬於印歐語系後者屬於印歐語系。 9/25/20246語言的編碼漢語語義編碼的基本符號是漢語語義編碼的基本符號是“ “字字” ” 漢語的語義主要附著在漢語的語義主要附著在“ “字字” ”上上。字義排歧是詞字義排歧是詞義標注之突破點義標注之突破點。濃縮形音義濃縮形音義,多為形聲字多為形聲字,表音亦表意表音亦表意,望望文生義文生義,如如:吠吠。大量同音字大量同音字、同音詞語同音詞語,化成書面多可消除化成書面多可消除歧義歧義。單字多義項者占單字多義項者占53.6%(53.6%(如如打打字之義項數字之義項數為為26) 26) ;詞組詞組/ /合成詞多義項者僅占合成詞多義項者僅占0.46%0.46%。9/25/20247漢字字義組合結構向心性字組向心性字組 Vs. Vs. 離心性字組離心性字組 冰山冰山, ,青山青山, ,火山火山, ,高山高山( (核心字在後核心字在後) Vs. ) Vs. 山峰山峰, ,山城山城, ,山溝山溝, ,山村山村( (核心字在前核心字在前) ) 並列字組並列字組 Vs. Vs. 主從字組主從字組 關閉關閉, ,左右左右, ,上下上下, ,陰陽陰陽( (二字相同相近相反二字相同相近相反) Vs. ) Vs. 火車火車, ,汽車汽車, ,黑板黑板, ,白版白版( (前字從前字從, ,後字主後字主) )合義合義( (國國+ +務務國務國務)33%)33%、加義加義( (景景+ +物物可供觀賞的景可供觀賞的景緻和事務緻和事務)56.7%)56.7%、同義同義( (聲聲+ +音音聲聲;音音) )、偏義偏義( (厚厚+ +度度厚厚 度度;容容+ +易易易易 容容) )、轉義轉義( (目目+ +光光 = = 眼睛眼睛+ +光線光線 見識見識) ) 少量字義推大量詞義成為可能!9/25/20248基於字義排歧的模型資源資源:三台機器三台機器 + + 兩部詞典兩部詞典 MRD-1MRD-1讀入讀入現代漢語通用字典現代漢語通用字典 MRD-2MRD-2讀入讀入同義詞詞林同義詞詞林 MTDMTD由由MDR-1MDR-1透過機器自動生成透過機器自動生成以字義定詞義的語義標注方式準確率在以字義定詞義的語義標注方式準確率在80%80%以上以上遭遇困難處遭遇困難處 二字詞之多義詞排歧二字詞之多義詞排歧 單字本身意義抽象單字本身意義抽象、廣泛廣泛、模糊模糊,成詞時描述也困難成詞時描述也困難 如何將詞義間之關係建構成完整的意念表達仍須努力如何將詞義間之關係建構成完整的意念表達仍須努力9/25/20249基於字義排歧的模型MRD1說明MRD-1MRD-1讀入讀入現代漢語通用辭典現代漢語通用辭典,用來作為標用來作為標注每個漢字的義項號注每個漢字的義項號。 “ “打打(da3)”(da3)”在在MRD-1MRD-1中有中有2525個義項個義項,分別為分別為 打打-B01-B01:毆打毆打, ,攻打攻打;打打-B02-B02:用手或器具撞用手或器具撞擊物體擊物體;打打-B03-B03:做做, ,從事從事;打打-B04-B04:表示身體表示身體上的某些動作上的某些動作;打打-B25-B25:器皿器皿, ,蛋類因撞擊蛋類因撞擊而破碎而破碎。 “ “打打(da2)”(da2)”在在MRD-1MRD-1中記為中記為 打打-A01-A01:量詞量詞,12,12個叫一打個叫一打。9/25/202410基於字義排歧的模型MRD2說明MRD-2MRD-2讀入讀入同義詞詞林同義詞詞林,編排方式以詞義為編排方式以詞義為主兼顧詞類詞主兼顧詞類詞,多義詞則分別收入不同詞群多義詞則分別收入不同詞群 以以1212個個語義場語義場( (人人, ,物物, ,時間時間, ,空間空間, ,抽象事物抽象事物, ,性質性質, ,動作動作, ,心理心理, ,活動狀活動狀態態, ,關聯關聯, ,助詞助詞) )之不同層次與大小來分類之不同層次與大小來分類。 各語義場間互相有著各語義場間互相有著同義同義( (好看好看Vs.Vs.華麗華麗) ) 、反義反義( (善良善良Vs.Vs.凶惡凶惡) ) 、類義類義( (大雨大雨Vs.Vs.暴雨暴雨) ) 、聯義聯義( (同情同情Vs.Vs.同情同情心心;哭哭Vs.Vs.淚人兒淚人兒) )等語義關係等語義關係。 同一個語義場同一個語義場包含包含” ”1.1.同義同義;2.2.反義反義;3.3.類義類義” ” 三種語義三種語義關係關係 跨語義場跨語義場就是聯義就是聯義9/25/202411基於字義排歧的模型MTD說明MTDMTD由由MDR-1MDR-1透過機器自動生成詞組之義項代透過機器自動生成詞組之義項代碼碼,如如” ”打打-B02 -B02 鼓鼓-A01-A01” ” 打打-B01-B01:毆打毆打, ,攻打攻打打倒打倒 打擊打擊 打架打架 打手打手 打打-B02-B02:用手或器具撞擊物體用手或器具撞擊物體打鼓打鼓 打火打火 敲鑼敲鑼打鼓打鼓 鼓鼓-A01-A01:打擊樂器打擊樂器鼓板鼓板 鼓槌鼓槌 打鼓打鼓 重振旗鼓重振旗鼓 鼓鼓-A02-A02:發動發動, ,激起激起鼓動鼓動 鼓舞鼓舞 鼓足幹勁鼓足幹勁9/25/202412自組織的漢語詞義排歧方法步驟1以以現代漢語辭海現代漢語辭海提供的搭配實例作為多義詞提供的搭配實例作為多義詞的初始搭配知識庫的初始搭配知識庫,無需人工標注初始語料無需人工標注初始語料,用用適當的統計和自組織方法做訓練並自動擴大搭配適當的統計和自組織方法做訓練並自動擴大搭配集集。 在初始搭配知識庫中在初始搭配知識庫中,每個條目的包含訊息可描述為每個條目的包含訊息可描述為多義詞多義詞義項號義項號搭配類別搭配類別(L/R)(L/R)搭配示例搭配示例9/25/202413自組織的漢語詞義排歧方法步驟2在學習過程中逐漸增大上下文窗口長度來保證高在學習過程中逐漸增大上下文窗口長度來保證高可靠性可靠性。 選擇上下文的訊息時選擇上下文的訊息時應儘量選取與當前詞存在語法有應儘量選取與當前詞存在語法有關係的那些詞關係的那些詞,濾掉上下文中多數與其不存在語法關濾掉上下文中多數與其不存在語法關係的詞係的詞。 在給定的多義詞上下文內在給定的多義詞上下文內,尋找與初始搭配庫匹配的尋找與初始搭配庫匹配的搭配實例搭配實例,若匹配成功則標上對應的義項標記若匹配成功則標上對應的義項標記。 初始標注時限定上下文窗口長度為初始標注時限定上下文窗口長度為2 2,表選擇該詞的前表選擇該詞的前後兩個詞後兩個詞。9/25/202414自組織的漢語詞義排歧方法步驟3透過建立搭配統計表來實現多元詞義歧義的排歧透過建立搭配統計表來實現多元詞義歧義的排歧 按一定原則從與料庫中取得排歧過程中需要的各種可按一定原則從與料庫中取得排歧過程中需要的各種可能搭配和統計數據能搭配和統計數據。每個條目包含的訊息可描述為每個條目包含的訊息可描述為:註註:頻次表示在本次標注語料中該搭配出現的次數頻次表示在本次標注語料中該搭配出現的次數多義詞多義詞義項號義項號搭配類別搭配類別(L/R)(L/R)頻次頻次 根據統計數據自動調整學習進度根據統計數據自動調整學習進度,逐漸增加上下窗口逐漸增加上下窗口長度來學到儘可能多的搭配長度來學到儘可能多的搭配。9/25/202415結語任何詞義消歧系統都離不開詞義消歧時所用知識任何詞義消歧系統都離不開詞義消歧時所用知識的資料源的資料源,詞義消歧知識庫的質量已成為詞義消詞義消歧知識庫的質量已成為詞義消歧系統成敗的關鍵歧系統成敗的關鍵。 由於詞典和語料庫中由於詞典和語料庫中不可能包括每個詞的所有搭不可能包括每個詞的所有搭配實例配實例。而有些而有些低頻詞低頻詞,在語料中出現次數也不多在語料中出現次數也不多,很難很難搜集到它們的上下文環境搜集到它們的上下文環境,因而知識獲取中普遍因而知識獲取中普遍存在著資料稀疏以及自動學習演算法的參數空間存在著資料稀疏以及自動學習演算法的參數空間太大等問題太大等問題。 9/25/202416
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号