詞條
詞條說明
隨著互聯(lián)網技術的快速發(fā)展和普及,人們可以在網絡上獲得各種信息,怎樣防止青少年接觸到不健康內容是一個嚴肅的社會問題。要防止不健康、無用內容的蔓延,除了從法律角度采取措施外,從技術角度考慮的網絡過濾技術是一種有效的手段。 目前網絡的信息過濾技術主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和基于圖像內容的過濾方式。這幾種過濾技術各有優(yōu)劣,有的實現(xiàn)比較簡單,有的具有更廣泛的適應性,有的效率高
大數(shù)據挖掘是伴隨者互聯(lián)網的普及應用和傳統(tǒng)信息檢索技術的不足提出并發(fā)展起來的。大數(shù)據挖掘是從大數(shù)據中發(fā)現(xiàn)有用的模式(其中的數(shù)據可以存放在數(shù)據庫、數(shù)據倉庫或其他信息庫中),它旨在解決數(shù)據挖掘、信息檢索、知識抽取以及更廣泛的商業(yè)問題。面向大數(shù)據的挖掘比面向數(shù)據庫和數(shù)據倉庫的數(shù)據挖掘要復雜,因為大數(shù)據往往是無結構的,通常是用長的句子或短語來表達文檔類信息;有些則可能是半結構化的,當然也包括大量的異構信息、
漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎,搜索引擎只是中文分詞的一個應用。其他的比如機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。 漢語自動分詞是目前中文信息處理領域公認的一大難題,也是自然語言理解研究領域
大數(shù)據漢語分詞:靈玖NLPIR數(shù)據挖掘技術
數(shù)據挖掘(Data Mining),又稱為數(shù)據庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據中獲取有效的、新穎的、潛在有用的、較終可理解的模式的非平凡過程,簡單的說,數(shù)據挖掘就是從大量數(shù)據中提取或“挖掘”知識。 NLPIR數(shù)據挖掘技術的任務主要是關聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等。 ⑴關聯(lián)分析(association
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機: 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編: