2003年8月27日在華盛頓召開了第九屆知識發現與數據挖掘國際會議,參與討論的專家一致認為:數據挖掘正面臨著巨大的機遇和挑戰;作為一門僅有17年歷史的新興交叉學科,當前知識發現(數據挖掘)的研究進展中,存在著兩個大的核心問題(難題): 其一是“缺乏基礎理論”;另一個是缺少“殺手锏”式的應用。 U. Fayyad認為:從科學發展的長遠來看,最大的絆腳石是基礎理論的缺乏以及所面臨的問題和挑戰的清晰明白的闡述。 他認為對于我們要做什么,幾乎沒有理論甚至工程實踐來指導:在今天它仍然是” 不為人知的藝術”。 我們需要理論來指導我們要做什么以及要如何作。這些理論能夠促使工程解決方法的出現,這樣我們也可以將我們的 “手藝”更有效的教給其他人。而這種形勢與從業者以及對應用感興趣的人們的巨大的熱情同時存在,這些人來自不同的領域,但是沒有科學根基以及持續的學術發展,本領域不可能得到發展與鞏固。
R.Uthurusamy也認為:WEB的使用和生產廠家的大肆宣傳等都會在短期內影響本領域的發展,它們會使得我們將更多的精力投向數據庫營銷、CRM和OLAP等方面,而不是致力于使KDD從根本上或科學上有大的進步。KDD的基礎研究界必須消除這些干擾而去努力解決KDD的真正的根本的問題。
有些學者在KDD的基礎理論的相關研究中做出一些成果,主要包括從數據庫的角度進行研究,它強調知識發現的效率(efficiency);從機器學習的角度進行研究,它強調知識發現的有效性(effectiveness)、從統計分析的角度進行研究,它強調知識發現的正確性(valid)、以及從微觀經濟學的角度進行研究, 它強調的是知識發現的最大效用(maximum utility)等。但遺憾的是這些研究或者沒有深入探討其理論基礎,或者沒有給出具體的實現方法,因此無法從根本上明顯提高現有知識發現的性能,也無法解決KDD發展過程中極富挑戰性的一些問題。事實上,上述的成果,只是提供了KDD的方法論基礎,而要真正構建其理論體系,必須抓住KDD的本質,形成與其本質相適應的理論基礎。KDD的本質何在?至少有兩個可信的路徑:一個是將KDD過程(系統)視為認知過程(系統);另一個是將KDD過程(系統)視為非線性動力系統中非平衡態轉化的過程(系統)。
第一完成人是國內較早進入知識發現領域的學者。圍繞這兩個核心問題,早就開始在國家自然科學基金重點項目、863項目、教育部重點科技項目、國家九五攻關重點項目等11個項目的資助下,用十余年的時間全面、穩定、系統地跟蹤前沿,另辟蹊徑地給出了令人信服的答案,即在這兩大核心問題上有所突破:1) 于1997年跳出主流發展,以認知自主性為核心,在國際上開創了從內在認知機理出發、用認知科學與系統論方法研究知識發現的新路徑;首次提出五個系列的原創性技術發明;進而于2002年構建并逐步完善與拓展了基于內在認知機理的知識發現技術理論體系(KDTICM),且據查至今國內外尚無人像第一完成人那樣針對知識發現系統地提出一整套理論(包括作為理論的實現研發了相應的集成化組合構件式知識發現軟件系統ICCKDSS)。2) 利用七年時間深入實際,將KDTICM與ICCKDSS應用于鋁電解生產領域,產生了較大的經濟效益;以及農業、氣象、現代遠程教育網及國際商務等領域,產生了較大的社會效益;進一步應用到蛋白質三維結構預測這一國際性重大課題的研究中。以下分述之。
1. 科學發現導致技術發明,確保了技術發明的原創性
1.1 開創了知識發現研究的新路徑
我們首先進行了若干先導性工作,主要集中在相關的邏輯基礎、方法論與哲學基礎方面的工作。比較典型的研究成果是:1) 提出基于語言場與語言值結構的知識表示方法與數據歸約(離散化)方法,成為數據挖掘研究中貫穿性的方法;2) 形成因果聯系能行可判定方法——基于單一語言場的因果關系定性推理模型——基于綜合語言場的因果關系定性推理模型——廣義細胞自動機及廣義歸納邏輯因果模型的系列性成果,這為后面的因果關聯規則的挖掘算法等研究奠定了基礎;3) 結合專家系統研究,提出“一類不確定性歸納型自動推理機制”和“專家知識的歸納獲取機制”,為KDK模型與算法的研究、新型實用智能系統的研究作了技術儲備;4) 提出了認知自主性的實現策略與幾點哲學思考,成為內在認知機理研究中重要的思想來源。
在知識發現的主流發展中,特別是在復雜系統知識發現過程中,存在著許多富有挑戰性的問題。比如,1)迫切需要領域知識的參與;2)自主發現知識的機制;3)知識庫的實時維護;4)盡量縮小搜索空間與挖掘空間;5) 免失重要的意外規則;6) 挖掘新知識的動態評價等。這些問題靠傳統數據挖掘技術方法是難于處理或無法處理的,必須有與其復雜性相適應的創新性技術方法來解決。第一完成人是國內較早進入知識發現領域的學者,于1997年開始逐步形成如下的解決方案:1) 從根基(機理)研究入手,另辟蹊徑地把知識發現過程(系統)視為認知過程(系統),用系統論與認知科學的思想和方法(特別是模型化的方法)來研究復雜的知識發現過程,揭示了作為認知系統的知識發現的潛在本質、規律與復雜性;2) 機理研究導致數據挖掘技術的創新與發明——包括機制的實現技術、過程模型構造方法、技術方法、系統構造方法、作為其技術發明載體的軟件系統;3) 將諸發明點(創新技術)集成與系統化,形成技術理論體系;4) 擴展原有的四個應用領域,力求在工業生產中取得硬效益 (這是近一年多新做的工作)。
1.2 發現了三個機制
首次從認知心理學、認知物理學等新理念出發,發現了知識發現系統內在認知機理涵蓋的三個機制(原理):雙庫協同機制(揭示了知識庫與數據庫間的內在聯系)、雙基融合機制(揭示了基于數據庫和基于知識庫兩個發現過程的內在聯系;與此相聯系的還獨立提出KDK)、信息擴張機制(揭示了動態挖掘過程中參數的演化規律等);分別相應地給出其核心定理及其實現技術(通過協調器實現)。內在認知機理的研究確保了技術發明的原創性,揭示了知識發現作為認知系統潛在的本質、規律與復雜性;在很大程度上解決了“用戶的先驗知識與先前發現的知識可以耦合到發現過程中” 、“知識與數據庫的同步進化” 、“知識庫的實時維護”等主流發展中極富挑戰性的問題;對主流發展產生重要的驅動作用。其內容將在以下具體論述。
1.2.1雙庫協同機制 (知識庫與數據庫間的內在聯系)
認知心理學興起于20世紀50年代中期,后來Neisser于1967年發表了心理學史上第一部以《認知心理學》命名的專著。認知心理學是以信息加工觀點為核心的心理學,所謂信息加工觀點就是將人腦與計算機進行類比,將人腦看作類似于計算機的信息加工系統。認知心理學的研究范圍主要包括感知覺、注意、表象、學習記憶、思維和言語等心理過程或認知過程,以及模式識別和知識的組織等;其核心是揭示認知過程的內部心理機制,即信息是如何獲取、貯存、加工和使用的。在知識發現系統中,模擬“創建意向”和“心理信息修復”這兩項認知心理特征進而提高系統的認知自主性,正是我們研究的出發點。
數據挖掘在很大的程度上受領域知識與背景知識的制約,而這兩種知識如何真正具體地、可實現地參與到數據挖掘過程中?長期以來只是原則上與直覺心理上意識到這個問題,但始終沒得到實實在在的解決。我們模擬認知心理學的兩個重要特征,即“創建意向”與“心理信息修復”,為此用“啟發型協調器”實現前者(利用有向超圖鄰接矩陣發現知識短缺——產生創建意向——自主聚焦——定向挖掘);用“維護型協調器”實現后者(判定冗余、重復、矛盾等——定向搜索——實現知識庫的實時維護)。為達此目的,必通過建立數據庫與知識庫間的關系,產生“定向搜索”與“定向挖掘”機制。我們發現了在知識發現過程中,在特定的構造下,數據庫與知識庫間的對應關系;論證了結構對應定理;設計了啟發型協調器與維護型協調器,解決了“定向搜索”、“定向挖掘”、“自主發現”、“實時維護”等難題。該項內容已獲國家發明專利《一種基于雙庫協同機制的KDD*方法及系統》(ZL 01145080.0)(見附件 )。
1) 結構對應定理:論域X的推理范疇Cr(N)與完全數據子類結構可達范疇Cµ<g,Âc(g)>等價。(我們建立了兩個證明路徑:其一,利用范疇論;其二,利用我們提出的連續映射的同倫理論的拓廣——泛同論理論)。
2) 通過結構對應定理,可以建立挖掘數據庫中數據子類結構的“層”與挖掘知識庫中知識“素結點”的一一對應關系(見圖1),以實現“定向搜索”與“定向挖掘”。提出并實現了兩個協調算法:一是對領域固有的知識庫的實時維護(通過維護型協調算法與構件);二是自主發現知識短缺產生創見意向(通過啟發型協調算法與構件)。

圖1 知識庫中的知識素結點與數據子類結構中的層之間的一一對應
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] 下一頁
|