語義AI可以打開人工智慧的「黑匣子」嗎?

科技行者 發佈 2020-01-01T02:23:24+00:00

不過,儘管人工智慧技術正在成為我們日常生活的一部分,很多人仍然對它抱有懷疑態度。他們的顧忌是,很多AI解決方案的運作就像個黑匣子,無法解釋為什麼似乎就奇蹟般地產生了洞察結果。

數據顯示,人工智慧(AI)預計將在經濟領域創造數萬億美元的價值。不過,儘管人工智慧技術正在成為我們日常生活的一部分,很多人仍然對它抱有懷疑態度。他們的顧忌是,很多AI解決方案的運作就像個黑匣子,無法解釋為什麼似乎就奇蹟般地產生了洞察結果。

而與此同時,眾多行業現在都認為知識圖譜是一種數據管理、元數據管理和豐富數據的有效方式,並且正在越來越多地應用於數據整合技術。此外,知識圖也正在成為AI策略的組成部分,通過所謂的人在迴路(HITL,human-in-the-loop)設計原則達到可解釋AI的目的。

>>> 為什麼人工智慧的運作是個黑盒子?

AI基於諸如深度學習一類的機器學習算法,其強項就是從大數據集裡自動提取模式和規則。這樣做非常適合於一些特定的問題,在許多情況下可以幫助完成自動分類任務。至於為什麼一些物體被歸到某一類或另一類卻是不可解釋的。因為機器學習不能提取因果關係,機器學習也就不能歸納抽取某些規則的原因。

機器學習算法是從歷史數據中進行學習,但機器學習算法無法從歷史數據里得到新的見解。在日益變化的環境裡,這個問題常常會受到質疑,因為深度學習的全部方法都是基於有足夠數據的假設。在許多行業(如金融和醫療保健)里,有一點越來越重要——要實現的AI系統必須能夠提供可解釋的、透明的決定以及可以快速地與新的條件和監管框架接軌(如歐盟關於人工智慧倫理的指引:https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI(2019)640163_EN.pdf)

>>> 我們能構建可以信任的AI應用嗎?

如果沒有可解釋性,就沒有信任可言。可解釋性意味著系統里存在值得信賴的因子,這些因子能夠理解和解釋由AI系統作出的決定。但在目前情況下,除了讓人工智慧的決策更透明以外沒有其他選擇。不幸的是,一些最流行的機器學習算法是基於無法解釋的計算規則,這些計算規則無外乎 「既成事實」。

要擺脫這種困境,唯一方法就是從根本上再構造有關的基本架構,不僅要用知識圖譜作為計算的前提,還要提供相應的解釋。

>>> 語義AI是什麼?

語義AI是符號和統計AI背後的推動力。它結合了機器學習、知識建模、自然語言處理、文本挖掘和網際網路語義各方面的方法,以及AI策略的優勢(主要是語義推理和神經網絡方面的優勢)。

需要強調的是語義AI是目前構建基於AI系統主要方法的擴展,不是替代辦法。該方法不僅提供戰略選擇,還會提供一個直接好處:可以更快地從小訓練數據進行學習,比如在開發開發聊天機器人時克服所謂的冷啟動問題。

>>> 知識科學家是什麼樣的科學家?

基於完全不同的方法,語義AI引入了具有互補技能的附加利益相關者。傳統的機器學習主要由數據科學家完成,而參與語義AI或可解釋AI的則是知識科學家。二者的區別是什麼?

從本質上看,數據科學家絕大多數的時間都花在收集和處理不受控制的數據上,目的是從數據里得到有益的信息,工作的重點是利用無關的數據構建平鋪數據文件,生成的數據特徵與現實世界的關係並不強。

還有另一種方法,就是通過開發一些工具,然後由知識科學家用工具直接處理企業的知識圖並從中提取數據的子集,進而迅速轉化為分析結構。分析結果的本身可以被重複使用,並構建成為更豐富的知識圖譜。

相較而言,語義AI方法建立的是一個連續的循環,由機器學習科學家和知識科學家作為這個循環上不可或缺的一部分。知識圖在之間充當接口並提供高品質數據和歸一化數據之間的連結。

>>> 新的人工智慧方法會得出更好的結果嗎?

知識圖的使用除了可以用於構建值得信賴和被廣泛接受的可解釋AI外,還可以連同富含語義和連結的數據對機器學習算法進行訓練。

該方法有許多優點。比如,可以在少量訓練數據的前提下獲取具足夠精度的結果,這在冷啟動階段特別很有用。除此之外,該方法的訓練數據集可重用性也更好,這將有助於節省數據準備過程里的成本。與此同時,該方法還可以為現有的訓練數據補充背景知識,通過自動推理進而可迅速獲取更豐富的訓練數據,還可以幫助避免在特定領域中提取從根本上就是錯誤的規則。

>>> 開發和關注語義AI

綜上所述,如果讀者是數據科學家或數據經理,或是如果你管理的人處在這樣的位置,那就務必開始著手語義AI研究和發展與語義AI工作相關所需的技能。

語義豐富的數據是高質量數據的基礎,可為特徵提取提供更多的機會。而由機器學習算法計算得到預測和分類精度就會更高。此外,語義AI應該建立基礎架構以克服AI系統開發商和其他利益相關者的信息不對稱性,其中的利益相關者包括消費者和政策制定者等等。從這方面來說,語義AI最終將在技術、倫理和法律三個層面上的工作達到AI治理的目的。

雖然,目前大多數機器學習算法在數據是文本或結構化數據時都可以很好的運作。但語義數據模型的引入將發揮更大的作用。

關鍵字: