詞條
詞條說明
文本挖掘:靈玖大數(shù)據(jù)漢語智能分詞技術(shù)
漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。 漢語自動分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題,也是自然語言理解研究領(lǐng)域
進(jìn)入2l世紀(jì),計算機(jī)硬件和軟件更新的速度越來越快,計算機(jī)這個以往總給人以冷冰冰的機(jī)器的形象也得到了徹底的改變。人機(jī)交互的情形越來越普遍,計算機(jī)被人類賦予了越來越多的智能因素。伴隨著人類把較新的計算機(jī)技術(shù)應(yīng)用于各個學(xué)科,對這些學(xué)科的認(rèn)知也進(jìn)入了日新月異的發(fā)展階段,促使大量的新的研究成果不斷涌現(xiàn)。 隨著計算機(jī)這個人類有史以來較重要的工具的不斷發(fā)展,伴隨著不斷有新理論的出現(xiàn),人類必須重新對它們進(jìn)行分析
Nlpir Parser智能平臺靈玖軟件新推出的文本挖掘系統(tǒng)
文本挖掘已經(jīng)成為數(shù)據(jù)挖掘中一個日益流行而重要的研究領(lǐng)域。與一般數(shù)據(jù)挖掘以關(guān)系、事務(wù)和數(shù)據(jù)倉庫中的結(jié)構(gòu)數(shù)據(jù)為研究目標(biāo)所不同的是,文本挖掘所研究的文本數(shù)據(jù)庫, 由來自各種數(shù)據(jù)源的大量文檔組成。這些文檔可能包含標(biāo)題、作者、出版日期、長度等結(jié)構(gòu)化數(shù)據(jù), 也可能包含摘要和內(nèi)容等非結(jié)構(gòu)化的文本成分,而且這些文檔的內(nèi)容是人類所使用的自然語言,計算機(jī)很難處理其語義。因此傳統(tǒng)的信息檢索技術(shù)已不適應(yīng)日益增加的大量文
伴隨著計算機(jī)的日益普及,互聯(lián)網(wǎng)的迅猛發(fā)展,文本的數(shù)量(電子郵件、新聞、網(wǎng)頁、科技論文等)在不停的增長,因而對文本作智能化處理以獲取所需信息的需求日益迫切。在這樣的社會需求下,自然語言處理技術(shù)的地位和作用日益重要。經(jīng)過幾十年的研究,計算機(jī) 處理自然語言的理論基礎(chǔ)日趨成熟,應(yīng)用范圍也越來越廣,初步形成了面向各種不同應(yīng)用和研究的技術(shù)體系。分詞作為自然語言處理的* 一個步驟,是其他高層應(yīng)用的基礎(chǔ),起著較
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com