受生物界啟發!IBM發明了一種比以往更快、更安全的新哈希算法BioHash

eetop 發佈 2020-01-24T04:49:23+00:00

為了克服這一限制,普林斯頓大學、聖地亞哥大學、IBMResearch和MIT-IBM Watson AI實驗室的研究人員開發了一種新的算法BioHash。

來源:前瞻網

程式設計師們為了解決問題,已經創造出了各種各樣的算法。

其中,一種叫作FlyHash的算法的靈感來自於果蠅的嗅覺迴路,它可以產生哈希碼——物體的數字表示——其性能優於經典算法。

哈希碼是一種算法,讓同一個類的對象按照自己不同的特徵儘量有不同的哈希碼,但不表示不同的對象哈希碼完全不同。

不過,由於FlyHash使用隨機投影,它無法從數據中學習。

為了克服這一限制,普林斯頓大學、聖地亞哥大學、IBM Research和MIT-IBM Watson AI實驗室的研究人員開發了一種新的算法BioHash。

這種新算法應用「局部」和「生物學上合理的」突觸可塑性規則來生成哈希碼。

研究人員們表示,它比之前發布的各種哈希方法的基準測試都要好,而且它可以生成對相似度搜索有用的二進位表示。

在一份預印版的論文中,研究人員詳細解釋了他們的工作,這種被稱為擴展表征的現象在神經生物學中幾乎無處不在。「擴展」是指將高維輸入數據映射到甚至更高維的輔助表示。

例如,在上面提到的果蠅嗅覺系統中,大約有50個神經元將它們的活動發送到大約2500個叫做Kenyon 的細胞中,實現了大約50倍的擴展。

從計算的角度來看,擴展可以增加AI模型的內存存儲容量。正是基於這種動機,該團隊設計了散列算法BioHash,可用於相似度搜索。

在相似度搜索中,給定一個查詢、一個相似度度量和一個包含任意數量項的資料庫,目標是從資料庫中檢索與查詢最相似的項的排序列表。

更多的優勢

隨著技術發展,傳統的單因素身份驗證(僅基於密碼、令牌或生物識別方法)似乎不足以應對身份欺詐的挑戰。唯一的生物統計學方法遇到了隱私侵犯和不可撤銷的問題,而密碼和令牌則很容易忘記和丟失。

為了解決這些問題,人們引入了可取消生物特徵識別的概念來表示生物特徵模板。這就是說,生物特徵可以被取消並替換為包含另一個獨立的身份驗證因子。

生物散列就是一種可取消的生物特徵識別技術,它混合了一組用戶特定的隨機向量和生物特徵。

BioHash是一種結合標記隨機數和生物特徵識別的技術。BioHash是一個隨機投影的集合,它在保持類內變化的同時增強類間變化,因此,當使用合法的令牌或生物特徵數據被竊取時,它能夠實現零誤差率。

在驗證設置中,當使用真正的令牌時,BioHash能夠提供比單一生物統計方法低得多的錯誤率,同時解決了傳統生物特徵識別技術存在的不可撤銷性和隱私侵犯問題。

傳統算法的另一個問題是,當數據是高維的(例如圖像或文檔),而資料庫很大(以百萬或數十億計的條目為單位),這在計算上具有挑戰性。

而BioHash速度更快,可擴展性更強。該系統以其不可變的特性被廣泛應用於各種安全系統中。

研究人員在MNIST和CIFAR-10上對Biohash進行了培訓和測試。MNIST是一組包含7萬張灰度圖像的手寫數字,其中10類數字從「0」到「9」不等,CIFAR-10是一個包含6萬張來自10種類圖片(如「car」、「bird」)的數據集。

MNIST 數據集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成, 其中 50%是高中學生, 50%來自人口普查局(the Census Bureau)的工作人員. 測試集(test set) 也是同樣比例的手寫數字數據。

CIFAR-10與之類似,只不過把數字換成了圖像。10類圖片各自獨立,不會出現重疊。這兩類都是非常經典的常用於算法訓練的數據集,提供公開下載。

經過資料庫的「檢驗」後,研究人員表示,BioHash在速度方面表現出了最好的檢索性能,遠遠超過了其他方法,而BioHash的改進版本——BioConvHash——由於加入了專門構建的過濾器,性能甚至更好。

人腦與人工智慧

由於人腦的學習、認知等能力遠超目前的計算機,許多研究都正致力於讓計算機更加靠近人腦性能,這其中就包括從結構、運行方式等各方面模擬人腦。

而人的神經生物學和機器學習領域也是密切相關。目前火熱的神經網絡技術的誕生就是受到人腦神經元的啟發。

百度大腦就用計算機技術模擬人腦神經網絡,包括模擬人腦學習分析能力,從而通過多層的學習模型和海量的訓練數據進行數據智能分析,然後做出預測。

谷歌母公司Alphabet旗下的DeepMind本月早些時候也發表了一篇論文,研究大腦是否以機率分布(一種提供不同結果發生機率的數學函數)而非單一平均值來代表未來可能的獎勵。

谷歌和馬克斯·普朗克神經生物學研究所的科學家最近也展示了一種遞歸神經網絡——一種經常用於手寫和語音識別的機器學習算法——它可以映射大腦的神經元。

馬斯克的想法則更加瘋狂——開發腦機交互技術,直接將機器植入人類腦部。

不管怎樣,「人工智慧」終究離不開「人工」二字。通過學習人類自身,或許有一天人工智慧真能發展到與人類相媲美的地步。

關鍵字: