中文信息處理,是用計(jì)算機(jī)對(duì)中文(包括口語和書面語)進(jìn)行轉(zhuǎn)換、傳輸、存貯、分析等加工的科學(xué)。
隨著大規(guī)模存儲(chǔ)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子文本大量涌現(xiàn),人們對(duì)信息的需求也不斷提高。這就對(duì)文本處理技術(shù)提出了更高的要求。在當(dāng)今社會(huì),英文是流行最廣的語言,中文則是使用人數(shù)最多的語言。我們的研究立足于對(duì)這兩種語言的文本處理,并且以中文文本處理為主。文本處理一般包括:文本檢索(過濾、分類)和自動(dòng)摘要(主題抽取)。
文本檢索系統(tǒng)把文獻(xiàn)組織成一種機(jī)器內(nèi)部表示的知識(shí),在一定的層次上對(duì)這些知識(shí)進(jìn)行加工,并存儲(chǔ)于知識(shí)庫中。系統(tǒng)按用戶需求,對(duì)各個(gè)知識(shí)單元,如關(guān)鍵字、人、地點(diǎn)、事件、以及文獻(xiàn)中的詞語和句子進(jìn)行操作,對(duì)文獻(xiàn)的內(nèi)容從各個(gè)角度進(jìn)行檢索、選取、組合、和排序。文本檢索的任務(wù)是針對(duì)不同的用戶需求,從大量的文獻(xiàn)中檢索出相關(guān)的文獻(xiàn),并按照滿足需求的程度進(jìn)行相關(guān)排序。
自動(dòng)摘要?jiǎng)t是從文本中自動(dòng)提取主題信息,并以通順的語言表達(dá)出來。它既可以單獨(dú)應(yīng)用,又可以為檢索系統(tǒng)提供良好的交互界面。
中文信息處理技術(shù),作為自然語言信息處理的一個(gè)分支,需要以大量的語言知識(shí)、背景知識(shí)為依據(jù),對(duì)中文信息的人腦處理過程進(jìn)行模擬。當(dāng)前的中文信息處理系統(tǒng),還處于初級(jí)階段,許多處理過程,尤其是機(jī)器翻譯、人機(jī)對(duì)話等,還需對(duì)漢語本身加以研究,附加某必要的選擇條件和限制。例如,詞匯限制,語句形式限制,語義和語用知識(shí)的限制,等等。