Java 能用於機器學習和數據科學嗎?

infoq 發佈 2020-04-28T17:49:37+00:00

雖然 Python 和 R 已經成為構建機器學習和數據科學應用程式的首選,但許多組織正轉向使用 Java 開發來滿足他們的需求。請閱讀本文,了解如何做到的,以及為什麼要這樣做。近年來,機器學習、數據科學和人工智慧一直是人們談論最多的技術。這也是理所當然的。

雖然 Python 和 R 已經成為構建機器學習和數據科學應用程式的首選,但許多組織正轉向使用 Java 開發來滿足他們的需求。請閱讀本文,了解如何做到的,以及為什麼要這樣做。

近年來,機器學習、數據科學和人工智慧一直是人們談論最多的技術。這也是理所當然的。科技領域的這些進步已經將自動化和業務流程提升到一個新的水平。各種規模的組織都投入了數百萬美元進行研究和人員投入,以開發這些功能極其強大的數據驅動應用程式。

有許多不同的程式語言可用於開發機器學習和數據科學應用程式。雖然 Python 和 R 已經成為開發這些程序的首選,但許多組織正在轉向使用 Java 開發來滿足他們的需求。從企業級業務解決方案和導航系統到行動電話和應用程式,Java 幾乎適用於每個技術領域。

在 20 世紀 90 年代初,一位名叫 James Gosling 的加拿大計算機科學家和他的團隊在受僱於 Sun Microsystem(Oracle 旗下)時創建了 Java 語言。20 多年過去了,Java 仍然是當今排名最高、最賺錢的程式語言之一。

為什麼選擇 Java 用於數據科學和機器學習?

Java 是許多設備和應用程式背後無形的力量,這些設備和應用程式人們每天都在使用,並為人們的日常生活提供了動力。Java 不但可以用於機器學習和數據科學應用程式開發,而且 Java 也是很多開發人員的首選,原因有很多,包括:

  • Java 是用於企業開發的最古老的語言之一。一般來說,在發展和技術的世界裡,「古老」意味著過時的意思。然而,事實並非如此。Java 的「古老」意味著很多公司可能在不知不覺中已經使用了大量的 Java 程式語言。基礎設施、軟體、應用程式和公司技術的許多其他工作部分可能已經構建在 Java 之上,這有助於簡化集成並最大限度減少兼容性問題。
  • 數據科學和大數據是相輔相成的。大多數用於大數據的流行框架和工具通常都是用 Java 編寫的,包括 Fink、Hadoop、Hive 和 Spark 等。
  • Java 可用於數據科學領域和整個數據分析的許多過程,包括數據清洗、數據導入和導出、統計分析、深度學習、自然語言處理和數據可視化等。
  • 開發人員認為,Java 虛擬機是機器學習和數據科學的最佳平台之一,因為它使開發人員能夠跨多個平台編寫完全相同的代碼。它還允許他們以更快的速度創建自定義工具,並提供了大量有助於提高整體生產力水平的 IDE。
  • Java 8 的發布,帶來了 Lambdas。 Lambda 表達式賦予了開發人員管理 Java 語言的巨大能力。這極大地簡化了開發人員對大型數據科學或企業項目的開發。
  • 作為一種強類型的程式語言,Java 確保了程式設計師對所處理的變量和數據類型的明確和具體化。有時候,強類型會與靜態類型相混淆,強類型使管理大數據應用程式變得更容易,同時也簡化了代碼庫的維護。它還可以幫助開發人員避免編寫單元測試的需要。
  • 可伸縮性是程式語言的一個重要方面,開發人員在項目開始之前必須對此加以考慮。對於數據科學家和程式設計師來說,Java 使應用程式擴展變得更加容易。這使得它成為構建更大或更複雜的人工智慧和機器學習應用程式的絕佳選擇,特別是當它們是從頭開始構建的時候。
  • 當今許多其他廣泛用於數據科學和機器學習的程式語言並不是最快的選擇。Java 非常適合這些速度要求很高的項目,因為它執行速度很快。目前許多最流行的網站和社交應用程式都依賴 Java 來滿足其數據工程需求,包括 LinkedIn、Facebook 和 Twitter 等。
  • 生產代碼庫通用是用 Java 編寫的。了解 Java 可以幫助開發人員了解數據是如何生成的,向生產代碼庫提交合併請求,並將機器學習解決方案部署到生產環境中。
  • Java 有許多可用於數據科學和機器學習 ide 庫和工具例如,Weka 3 是一個完全基於 Java 的工作檯,廣泛用於機器學習、數據挖掘、數據分析和預測建模中的算法。Massive Online Analysis 是一款專門用於實時數據流數據挖掘的開源軟體。

Java 是一種非常有用、快速且可靠的程式語言,可以幫助開發團隊構建大量的項目。從數據挖掘到數據分析,再到機器學習應用程式的構建,Java 在數據科學領域的應用遠遠不止於此。對於這些任務,它是最受歡迎的語言之一,對此有很多原因。如果你要處理一個機器學習項目,可以考慮使用 Java。你將會驚訝地發現,Java 會讓你受益匪淺。

讀者的聲音

Pablo Ernesto Vigneaux Wilton

Java 有很多問題,比如生產效率低、代碼維護能力差等。眾所周知,在一些公司中,為了速度更快,Python 代碼後來被轉寫成 Java。但是,其他的選項是 C++(因為我認為它更好)、Cyton 或 Go,即便如此,如果要跟我打賭的話,我更喜歡的是 Julia,這是為 DSML 創建的一種快速語言。

Ralf Klinkenberg

我完全同意作者的觀點,即 Java 是一種非常適合數據科學和機器學習應用的程式語言。我這有一個不錯的例子,可以很好地解釋這一點:機器學習和數據科學軟體平台 RapidMiner 正是用 Java 實現的。RapidMiner 開源項目始於 2000 年,當時使用 Java,直到今天仍然使用 Java。

根據最近一次 KDnuggets 機器學習工具年度調查,RapidMiner 是第二大最流行的機器學習工具。RapidMiner 在全球 150 多個國家 / 地區擁有超過 65 萬註冊用戶。

所有主要行業的許多公司都將 RapidMiner 用於各種機器學習應用程式。

因此,Java 顯然非常適合開發複雜的企業級機器學習應用程式,並進行部署,將他們通入生產並維護它們(包括模型運維,即 ModelOps 或 MLOps)。

總而言之,Java 早在 20 年前就已經是構建機器學習工具和應用程式的一個很好的選擇,並且多年來,隨著越來越多可用的基於 Java 的機器學習庫和工具的出現,Java 已經成為實現企業級機器學習解決方案的更好選擇。

但是,如果你不想重新發明輪子,也不想重複實現他人早已實現的東西,你可能也會想知道,你是否要在一開始就用一種程式語言來編寫解決方案。相反,你可能會考慮使用像 RapidMiner Studio 這樣的可視化機器學習流程設計環境(通過拖放進行可視化編程,並帶有內置的智能自動推薦系統,用於機器學習過程設計中的下一個最佳步驟,還帶有像 AutoModel 這樣的智能助手,用於自動找到機器學習任務的最佳算法和參數化),這極大地加快了從想法到解決方案再到部署的過程,並且使維護變得更加容易:可視化的數據處理流程顯然比很多頁的源碼更容易掌握和維護。我推薦大家嘗試一下 RapidMiner Studio 或 RapidMiner Go,親自體驗一下。

作者介紹:

Malcom Ridgers 是專門從事軟體外包行業的技術專家。他能接觸到最新的市場消息,並對創新和科級企業的下一步發展有著敏銳的眼光。

原文連結:

https://www.kdnuggets.com/2020/04/java-used-machine-learning-data-science.html

關鍵字: