收藏!25篇高引用次數論文打包給你——大數據篇

csdn雲計算 發佈 2020-01-24T08:16:59+00:00

而在本文中,我們為大家搜集了大數據領域中被引用次數最多的論文及其摘要,幫助大家理解論文主旨。01大數據隨機森林大數據是統計學面臨的主要挑戰之一,從算法和理論的觀點來看,大數據會帶來無數後果。

來源 | elsevier

譯者 | 火火醬

責編 | 鄧曉娟

出品 | CSDN雲計算(ID:CSDNcloud)


在學習雲計算的過程中,不可避免的就是研究各種文獻。而在本文中,我們為大家搜集了大數據領域中被引用次數最多的論文及其摘要,幫助大家理解論文主旨。感興趣的小夥伴,可以自行搜索進行研究。

01 大數據隨機森林

大數據是統計學面臨的主要挑戰之一,從算法和理論的觀點來看,大數據會帶來無數後果。

論文摘要:

大數據包含大量的數據,同時也包含在線數據和數據異構性。近年來,人們通過例如線性回歸模型、聚類方法和自舉算法等統計學方法來處理大數據。隨機森林(random forests)是由Breiman在2001年提出的一種基於決策樹、集合和自舉思想的方法。通過這種強大的非參數統計方法,可以在單一和通用的框架中考慮回歸問題以及兩類和多類分類問題。

針對分類問題,本文對現有的將隨機森林應用於大數據的提議有選擇地進行了回顧。這些提議是基於並行環境以及隨機森林的線上應用之上的。本文還將解釋在這些方法中如何處理袋外錯誤(out-of-bag error)。

接下來,本文在大數據背景下對隨機森林進行了各類解釋。最後,在兩個龐大的數據集(1500萬和1.2億的觀測數據)、一個模擬數據集以及真實世界數據上實驗了5個變量。結果顯示,其中一個變量需二次採樣。另外三個變量則與隨機森林的並行化實現相關,或涉及自舉法在大數據中的各種應用,或涉及「分而治之(divide-and-conquer)」算法。第五個變量與隨機森林的在線學習有關。這些數值試驗突出了不同變量的相對性能,也揭示了一些局限性。

02 系統化文獻綜述之雲環境中數據複製技術

論文摘要:

雲計算面臨著許多挑戰,其中之一就是使用複製數據。數據複製是分布式海量數據管理的一項重要技術。其主要目的是將數據放置在不同的位置,從而在不同位置有同一特定文件的多個副本。

複製是分布式環境中廣泛研究的對象之一,在分布式環境中,一些數據的多個副本會被儲存在不同地方,在其中解決創建、維護和更新副本的成本是非常重要且具挑戰性的問題。在過去的十年里,分布式計算的應用和架構發生了巨大變化,同時,複製協議也發生了巨大變化。

然而,儘管這個問題十分重要,但到目前為止,還沒有在分布式雲環境中系統地研究過該問題。雲環境中的數據複製分為靜態方法和動態方法。在靜態算法中,創建的副本數從一開始就是常量,是由用戶從開始就決定的,或者是由雲環境決定的。而在動態算法中,考慮到其所屬的環境,副本數是由用戶的訪問算法來決定的。本文旨在系統地回顧這兩類算法的數據複製技術,並分別討論兩者的特點。

03 大數據之項目集挖掘:比較分析

論文摘要:

眾所周知,項目集挖掘是一項探索性數據挖掘技術,用於發現隱藏在數據集合中所有有趣的關聯。由於它支持不同的目標分析,因此它在從網絡流量數據到醫療記錄的各種不同領域中都是十分有益的。

隨著數據量的增加,人們利用Apache Hadoop和Spark等分布式計算框架的優勢開發出了不同的可擴展性數據挖掘算法。本文通過理論和實驗的對比分析,回顧了處理大數據領域頻繁項目集挖掘問題的基於Hadoop和Spark的可擴展性算法。由於項目集挖掘目標計算量很大,因此其分布和並行化策略會嚴重影響內存的使用、負載平衡和通信成本。

本文詳細討論了頻繁項目集挖掘分布式方法的算法選擇方法,然後通過實驗分析比較了最先進的分布式算法在合成數據集和實際數據集上的性能。在數據集特徵(例如數據分布、平均事物長度、記錄數)和特定參數設置方面詳細討論了算法的優缺點。最後,在理論分析和實驗分析的基礎上,提出了項目集挖掘問題並行化的開放研究方向。

04 為智慧城市提供關聯數據:以卡塔尼亞為例

論文摘要:

語義網技術,特別是關聯開放數據,提供了一種將城市作為物質、社會和技術系統共享知識的方法,從而支持智慧城市應用程式的開發。

本文通過介紹一個基於卡塔尼亞安利的原型,旨在分享經驗教訓,可為其他有類似需求的案例提供實踐參考。

本文討論了實現句法和語義互操作性的重要性(作為將異構數據源轉換為關聯數據的結果):語義互操作性在數據級得到解決,以便頂層的進一步開發。我們提出了一個智能城市綜合數據模型,該模型集成了多個數據源,包括地理參考數據、公共運輸、城市故障報告、道路維護和城市垃圾收集。針對公共運輸、城市故障報告和道路養護等領域,提出了一些新的本體設計模型。邀請領域從業者和普通公眾使用原型並填寫問卷,提供問題和反饋。

同時,還進行了一個計算實驗,以評估該數據模型在實際可擴展性方面(而不是增加數據和在複雜情況下的效率方面)的性能。研究所產生的所有數據、模型、原型和調查問卷結果都可從網上公開獲取。

05 一種使用灰狼優化算法和MapReduce的新聚類方法

論文摘要:

隨著技術的進步,數據量正迅速增長。需要更加高效地分析方法來支持有關數據的智能決策。數據聚類是一種重要的數據挖掘分析方法,廣泛應用於數據分析領域。面對日益增長的海量數據集的分析需求,當今迫切需要改進傳統的數據分析方法。

本文針對大規模數據集基於提出了一種有效的聚類方法——基於MapReduce的灰狼優化算法(MR-EGWO)。該方法引入了一種新型的灰狼優化算法——增強型灰狼優化算法(EGWO),將灰狼的搜索策略與二項式交叉混合,並引入了萊維飛行(lévy flight)步驟,從而增強搜索能力。

此外,該算法還可被用於優化聚類過程。實驗在七個UCI基準數據集上測試了EGWO的聚類效率,並將其與五種現有的聚類技術(即K-均值、粒子群優化(PSO)、引力搜索算法(GSA)、蝙蝠算法(BA)以及灰狼優化算法(GWO))進行了比較。通過收斂圖和箱線圖驗證了EGWO的收斂性和一致性。此外,將提出的EGWO在Hadoop框架中的MapReduce模型上並行化,並命名為MR-EGWO來處理大規模數據集。

另外,本文還從F-measure的角度驗證了MR-EGWO的聚類質量,並將其與基於MapReduce的四種最優聚類進行了比較:並行K均值、並行 K-PSO、基於MapReduce的人工峰群優化(MR-ABC)、基於動態頻率的並行k-bat算法(DFBPKBA)。實驗結果表明,本研究提出的技術為大規模數據聚類提供了前景廣闊且強大的替代方案。

06 快速深度卷積人臉檢測在困難樣本挖掘中的應用

論文摘要:

人臉檢測是機器學習中一項重要的視覺信息分析技術。大數據的興起導致了海量可視化數據的積累,從而更加需要正確快速的分析方法。深度學習方法為此問題提出了一個解決方案。

研究表明,大量高可變性數據訓練可以顯著提高其有效性,但這通常會導致昂貴的計算成本並且使模型高度複雜化。若以分析海量數據集中的大量可視化內容為目標,模型的複雜程度對模型是否能夠取得成功來說至關重要。本文介紹了一種針對人臉檢測的輕量級深度卷積神經網絡(CNN),該網絡設計的目的是減少訓練和測試時間,並使其有效性優於之前發表的深度卷積神經網絡論文。

為了在不影響效率的前提下訓練這種輕量級深度神經網絡,本文提出了一種漸進式正例及困難負例挖掘的新訓練方法,並證明了該方法能夠顯著提高訓練速度和精度。此外,本研究還訓練了一個能夠檢測個體面目特徵的獨立深層網絡,建立並評估了能夠將兩個網絡輸出相結合的模型。兩種方法都能夠檢測被嚴重遮擋和各類姿勢變化下的人臉,解決了真實情況下進行實時人臉檢測的難題,本文提出的方法在無人飛行器(UAVs)等移動環境中也適用。

07 列車延誤預測系統:大數據分析視角

論文摘要:

目前使用的列車延誤預測系統並沒有利用最先進的工具和技術:從鐵路信息系統收集大量列車歷史運行數據,處理和提取有用且可操作的信息。相反,現在的預測系統依賴於鐵路基礎設施專家基於經典單變量統計建立的靜態規則。

本文旨在利用最新的大數據技術、學習算法和統計方法,構建一個面向大規模鐵路網的數據驅動的列車延誤預測系統(TDPS)。特別是,本文提出了一種針對淺層和深度極限學習機的快速學習算法,該算法充分利用了最新的內存大規模數據處理技術來預測列車延誤,並與目前最先進的TDPSs算法進行了比較。來自義大利鐵路網的真實數據表明,該方案能夠改進目前最先進的TDPSs算法。

08 上下文感知計算中的大數據應用——前景與挑戰

論文摘要:

大數據時代已經到來了,無數的應用程式和系統生成的數據量、種類和速度都是傳統計算系統和資料庫無法管理的。傳感器已經存在與各種設備中,傳感器收集的數據已經成為大數據的主要來源之一。

本文主要關注從數據派生上下文並據此行動的上下文感知計算系統是如何處理大量數據的。大型行業參與者,即谷歌、雅虎和亞馬遜已經藉助來自於電子郵件、聊天信息、瀏覽和購物歷史的用戶數據開發了上下文感知應用程式。例如,Gmail通過了解航班預訂信息來提醒用戶注意航班時間表。同樣,亞馬遜會了解用戶的喜好並推薦相關商品等。在本文中,我們從大數據角度研究了上下文感知計算系統。首先,本文在傳感平台基礎上提出現有工作的分類法,然後討論了大數據上下文感知系統領域的最新發展,重點討論了大數據上下文感知系統如何應對各種大數據挑戰。最後,本文對涉及設計和開發上下文感知的大數據生成系統的開放性研究問題進行了深入分析。

09 基於4V大數據流的高效資源管理系統

論文摘要:

成千上萬的數據源正以前所未有的速度不斷生成大數據流。對此類數據流的分析需要雲資源,隨著雲上大數據的發展,合理分配雲資源成為一個重要的研究課題。當前使用的方法是根據數據特徵分配雲資源。但是由於數據生成的隨機性,大數據流中的數據特徵是未知的,這給選擇和分配合適的資源到大數據流帶來了困難。

針對這一問題,本文提出了一種高效的資源管理系統。該系統初步估計了大數據流在容量、速度、多樣性和可變性方面的數據特徵。估計值以名為數據特徵(CoD)的向量表示。另一方面,藉助自組織映射(SOM),可動態創建雲資源集群。SOM使用CoD來創建集群並將其分配到大數據流。

此外,由SOM形成的集群的拓撲順序可減少等待時間。文中提出的系統已經過實驗測試。實驗結果表明,該系統不僅可以有效地預測數據特徵,而且可以有效地提高雲資源的性能。

10 用於深度學習大數據分析的GPGPU神經網絡原型

論文摘要:

大數據涉及大量複雜的、持續增長的數據。考慮到數據存儲和網絡的快速發展,各組織都在收集包含有用信息的持續增長的大型數據集。為了在有效期內從這些數據集中提取信息,使用分布式和並行算法是十分重要的。機器學習是大數據分析常用的方法,其中收集的數據被用於預測未來的行為。

利用人工神經網絡進行深度學習是從複雜數據集中提取信息的常用方法之一。與傳統的機率機器學習技術相比,深度學習能夠創建更為複雜的模型,這為我們提供了有關如何原型化的在GPU和CPU集群上執行深度學習應用程式的分步指南。Python和Redis是本指南的核心支持工具。

本教程將能幫助讀者在幾個小時內了解構建分布式高性能GPU應用程式的基礎知識。由於我們不依賴任何深度學習應用程度或框架,因此可以針對讀者的想法在大數據上進行原型設計的任何並行算法來調整本教程。最後,本文將討論如何從原型過渡到完全成熟的生產應用程式。

11大數據系統應對機器學習挑戰:大數據科學即服務

論文摘要:

近年來,人們見證了兩大方面的進步,一是日常生活中產生和收集的數據規模的巨大進步,二是人們利用現代技術來處理、分析和理解這些數據的能力的進步。這兩大趨勢的交點就是今天所說的大數據科學。大數據科學需要可擴展的體系結構來存儲和處理數據。

雲計算是支持大數據存儲、處理和複雜分析應用程式的實用且經濟的解決方案。本文將詳細分析用於支持大數據科學作為數據科學家們的商品服務的軟體堆棧的構建模塊。此外,研究還根據支持的服務模型對大數據分析框架的最新技術進行了分析和分類,目前這些框架大多在雲上可用。與此同時,本文還提供了有關該領域的最新發展和挑戰。

12 Marcher:支持能源意識高效能計算和大數據分析的異構系統

論文摘要:

過多的能源消耗是設計和部署下一代超級計算機的主要制約因素。要將高性能計算和大數據應用程式的能耗降至最低,就要從架構、系統支持和應用程式的多個層次上使用新的節能技術(硬體和軟體)。

在過去的十年中,我們見證了在開發更加節能的硬體和基礎設施方面的重大進展。然而,軟體的能效並沒有得到很大的提高。阻礙綠色軟體技術探索的障礙之一就是缺少能夠為技術評估和驗證提供精確的、實時功率和能量測量的工具和系統。

Marcher是一個異構高性能計算基礎結構,旨在通過為能源敏感型高性能計算和大數據分析研究提供支持來填補這一空白。Marcher系統配備了Intel Xeon CPUs, Intel Many Integrated Cores (Xeon Phi), Nvidia GPUs, 可識別能耗的存儲系統以及硬碟驅動器 (HDDs) 和固態磁碟 (SSDs)的混合存儲。

為研究人員獲取這些主要計算組件分解後的細粒度能耗數據提供了易於使用的工具和介面。本文介紹了Marcher系統的設計,並演示了Marcher功率測量工具在不同研究項目中用於獲取詳細能耗數據的用法。

13 BLADYG:用於大型動態圖的圖形處理框架

論文摘要:

近年來,大型動態圖的分布式處理變得越來越流行,特別是在某些領域,例如:社會網絡分析、Web圖分析和空間網絡分析。在這種情況下,人們提出了許多分布式/並行圖形處理系統,例如:Pregel, PowerGraph, GraphLab, 和Trinity。

然而,這些系統智能處理靜態圖,而沒有考慮演化圖和動態圖的問題。在本文中,我們考慮了圖形處理系統中的規模和動態性問題。本文介紹了BLADYG,一種能夠解決大規模圖形中的動態性問題的圖形處理框架。

文中介紹了在AKKA框架基礎上實現BLADYG。我們通過將其應用於大型動態圖的分布式k-core分解和劃分等問題,對其性能進行了試驗評估。實驗結果表明,BLADYG的性能和可擴展性在大規模動態圖中的表現令人滿意。

14 用於識別癌症驅動因素的大型DNA甲基化數據集的分類

論文摘要:

DNA甲基化是一種經過了充分研究的基因修飾,對調節基因組的功能至關重要。其改變在腫瘤發生和腫瘤抑制中起重要作用。因此,研究DNA甲基化數據有助於發現癌症中的生物標誌物。

由於關於DNA甲基化的公共數據越來越豐富——並且考慮到基因組中存在大量的甲基化點位(特徵)——因此,有一個有效處理如此大數據集的方法是十分重要的。基於大數據技術,我們提出了BIGBIOCL算法,該算法可以將監督分類方法應用於具有數十萬特徵的數據集。它旨在通過疊代刪除選定的特徵來提取可選的和等價的分類模型。

通過對從癌症基因組圖譜中提取的DNA甲基化數據集進行實驗,重點研究三種類型的腫瘤:乳腺癌、腎癌和甲狀腺癌。通過分類,準確地(準確率>97%)提取幾個甲基化位點及其相關基因。結果表明,BIGBIOCL可以在幾個小時內對數十萬個特徵執行數百次分類疊代。

此外,我們還將本方法與其他最新的分類器和基於網絡分析的DNA甲基化分析方法的性能進行了比較。最後,實驗還有效地計算了多個替代分類模型,並從DNA甲基化大數據集中提取一組候選基因,進一步研究其在癌症中的積極作用。BIGBIOCL、實驗結果、以及進行新實驗的指南可以在GitHub上面免費獲取:

https://github.com/fcproj/BIGBIOCL

15 Spark參數調整方法

論文摘要:

因為Spark成功地向開發人員隱藏了與並行性、容錯能力和集群設置相關的大部分複雜性,對大數據流分析來說,它已經成為極具吸引力的平台。

然而,這是以超過150個可配置參數為代價的,因為這些參數的組合數量呈指數增長,因此無法對其影響進行全面分析。默認值使開發人員可以快速部署他們的應用程式,但是有關是否可以提高性能的問題仍然懸而未決。

在本文中,我們通過使用巴塞隆納超級計算中心對Spark的Marenostrum III (MN3)進行了大量實驗,研究了最重要的可調Spark參數在改組、壓縮和序列化方面對應用程度性能的影響。總體目標是指導開發人員更改默認值。我們以之前的工作為基礎,在此研究中,將過去的經驗映射到反覆試驗的疊代改進方法中,以基於少量實驗運行的證據來調整任意應用程式中的參數。

該研究的主要貢獻在於提出了一種用於參數調整的系統的替代方法,該方法可以輕鬆地被應用於任何計算基礎架構,並且在應用於MH3時,其結果與最初的結果不相上下。在驗證的測試案例研究中,觀察到加速從20%開始。此外,新方法可以依靠使用樣本來運行,而不是在完整的數據集上運行,這使其更加實用。

16 有效支持高維數據項目集挖掘的並行MapReduce算法

論文摘要:

在當今世界,許多科學應用(例如生物信息學或網絡)正在不斷生成大量數據。由於每個事件通常都具有各種各樣的特徵,因此不斷生成高維數據集。為了從這些複雜的數據集中提取有價值的信息,可以使用不同的探索性數據挖掘算法來發現數據之間隱藏的、特殊的相關性。

頻繁項目集挖掘是一種有效但計算量大的技術,通常用於支持數據探索。由於分布式和並行框架的普及,能夠處理大數據的可擴展方法的開發已經擴展到頻繁的項目集挖掘。不幸的是,當前大多數算法都是為處理低維數據集而設計的,在那些以高維數據為特徵的用例中表現不佳。

本文介紹了一種基於MapReduce、用於高維數據集的頻繁項目集挖掘算法——PaMPa-HD。提出了一種有效的解決方案來並行化並加速處理過程。此外,本文還提出了輕鬆配置算法參數的不同策略。在真實高維用例上進行的實驗結果表明,該方法在執行時間、負載平衡和內存問題的堅固性方面是有效的。

17 在R中使用大數據編程:將分析範圍從一個節點擴展到數千個節點

論文摘要:

本文通過利用幾個擴展軟體包(包括來自pbdR項目的擴展)介紹了如何通過R語言實現可擴展性的教程概述。用到的軟體包包括MPI、PBLAS、ScaLAPACK、I/O庫、配置庫等。

雖然這些庫在大型分布式平台上的表現最為出色,但他們在小型集群上也能很好的運行,而且令人驚訝的是,即使在只有兩個內核的筆記本電腦上也能流暢地工作。

本教程首先介紹了圖在考慮並行實現之前提高R代碼的性能。因為R是一種高級語言,所以一個函數可以有很深的操作層次。對於大數據來說,這很容易導致效率低下。概要分析是了解R代碼性能的重要工具,可用於串行和並行改進。pbdR軟體包為開發新型分布式數據分析算法提供了高度可擴展功能。這種級別的可擴展性是其他分析軟體所無法比擬的。

對於100GB及以上的數據,複雜的分析算法可實現交互式速度(秒)。這件事得以實現是因為接口對可擴展庫只增加了很少的成本。此外,這通常是在串行R代碼很少或沒有更改的情況下實現的。本概述包括各種複雜程度不同的代碼,闡明了並行讀取數據、將串行代碼轉換為分布式並行代碼的過程以及如何在R中進行分布式矩陣計算的過程。

18 聚類算法BIRCH的變體

論文摘要:

近年來,隨著大型數據集的可用性和並行計算體系結構的興起,聚類算法又重新引起了人們的關注。然而,大多數聚類算法都有兩個缺點:它們無法隨數據集大小的增加而很好地擴展,並且常常需要適當的參數化(這並不容易)。本文介紹了A-BIRCH——BIRCH聚類算法的自動閾值估算方法。

該方法從數據中計算BIRCH的最優閾值參數,使BIRCH即使在沒有全局聚類階段(通常是BIRCH的最後一步)的情況下依然能進行聚類。如果數據滿足某些約束條件,則可能實現,如果不滿足這些約束條件,A-BIRCH將會在顯示結果之前發出相關警告。

這種方法使BIRCH最終的全局聚類步驟在很多情況下都不是必需的,這帶來了兩個好處。首先,我們不需要事先知道集群的數量。其次,如果沒有計算量巨大的最終全局聚類,快速BIRCH算法將會變得更快。

對於非常大的數據集,我們引入了BIRCH的另一種變體形式——MBD-BRICH,它與A-BIRCH結合後具有特殊優勢,但其整體而言是獨立的,並且也具有一般性的優勢。

19 Smart4Job:利用時間序列預測和語義分類進行智能工作崗位分享的大數據框架

論文摘要:

最近幾年,隨著網際網路的發展,出現了專用於自動化招聘的門戶網站和社交網絡,從而導致了優化算法的廣泛使用。為此,人們創建了許多求職網站,以便更好地發布和分享工作機會。

對於招聘人員來說,要選擇相關的招聘網站來發布招聘信息有時會很困難,因為他們總是希望能在短時間內吸引到最好的求職者。此外,某些招聘網站還會有各種不同的業務類別,這也讓選擇變得非常困難。

針對這些問題,本文建立了一種新的招聘公告推薦系統——Smart4Job,該系統能夠為新的招聘信息推薦合適和招聘網站。該系統基於多個整合為一體的大數據平台,包含領域知識分析和時間預測模型。招聘公告的語義分類需要使用受控詞彙表進行文本分析。

藉助瀏覽歷史,時間序列分析模型可以為給定崗位推薦最佳招聘網站。最終的決策過程將這些模塊的答案組合在一起。該系統已經在真實數據的基礎上進行了評估,初步結果表明,該系統具有良好的應用前景。

20 應用並行計算技術分析Terabyte TB級大氣邊界層層模型輸出

論文摘要:

在大氣科學中,隨著人們越來越容易獲得能夠處理具有精細時空解析度的計算資源,模擬輸出的大小也持續增長。隨著輸出大小的增加,串行數據分析方法會變得不堪重負,從而導致處理過程長時間延遲,或者由於內存限制而導致完全失敗。並行數據分析方法可以緩解這些問題,然而大氣科學家們往往並不了解如何實現這一目標。

因此,需要通過實例方法來指導如何在大氣模擬大數據分析中使用並行處理方法。本文提出了一些十分實用的方法,通過這些方法,可以使用消息傳遞接口(MPI)和Python並行執行分析。這些方法首先考慮了特定數據分析過程的固有空間依賴性。通過識別這些依賴性,可以在最小化進程間通信的基礎上實現數據集的水平或垂直分布。

此外,分析方法分為數據傳輸受限或計算受限兩種。在數據傳輸受限問題中,數據傳輸時間大於處理時間。

在計算受限問題中,處理時間大於數據傳輸時間。結果表明,隨著處理器數量的增加,計算受限問題的執行時間得到了改善增加節點數也可以最大程度上改善數據傳輸受限的問題。為了進一步提高計算受限問題的性能,實驗使用了圖形處理單元(GPU)和統一計算架構(CUDA)框架。實驗結果表明,該GPU實驗比MPI版本的測試分析方法有了進一步的改善。

21 無線多媒體傳感器網絡中用於監控的圖形資料庫的大數據模型仿真

論文摘要:

傳感器以各種各樣的形式存在於世界各地,如手機、監控攝像頭、智能電視、智能冰箱以及血壓監測儀。通常來講,大多數傳感器都是某些其他系統中的一部分,與系統中的其他傳感器共同組成網絡。其中有一個網絡是由數百萬個連接到網際網路的傳感器組成的,這就是物聯網(IoT)。

隨著無線通信技術的發展,多媒體傳感器及其網絡有望成為物聯網的重要組成部分。在火災探測、城市監控、預警系統等多個領域已經有了很多關於無線多媒體傳感器網絡的研究。所有這些應用程式都是通過實時數據流定位傳感器節點並長時間採集數據,這些數據可以成稱為大數據。大數據可以是結構化的也可能是非結構化的,需要存儲以進行進一步的處理和分析。

分析多媒體大數據是一項艱巨的任務,需要進行高層次建模才能有效地從數據中提取有價值的信息知識。在本研究中,我們提出了一個基於圖資料庫模型的大型資料庫模型,用來處理無線多媒體傳感器網絡生成的數據。我們引入了一個模擬器來生成綜合數據並使用圖形模型作為大資料庫來存儲和查詢大數據。

為此,我們評估了著名的基於圖的NoSQL資料庫、Neo4j和OrientDB,以及關係資料庫MySQL。我們在模擬器上進行了大量的查詢實驗,證明了在無線多媒體傳感器網絡中,某些資料庫系統是有效且可擴展的。

22 可視化和可擴展計算的閉環大數據分析方法

論文摘要:

許多科學調查都需要進行數據密集型研究,其中需要收集和分析大量的數據。為了從大數據中了解更多信息,我們首先需要從數據中提出最初的假設,然後測試並驗證這些關於數據的假設。

可視化通常被認為是一種從給定的數據集中提出假設的好方法。計算算法與可擴展計算相結合可以對大數據執行假設檢驗。此外,交互式的可視化介面能夠讓該領域的專家們直接與數據進行交互,參與到循環中,以完善其研究問題並重新定向其研究方向。

在本文中,我們討論了一個集成了信息可視化、可擴展計算和用戶介面的框架,以探索大規模的多模態數據流。從數據中發現新知識需要對這種規模的數據集進行探索性的分析,使我們能夠正確的看待數據,需要結合自下而上的模式發現和自上而下的人類知識來利用人類感知系統的力量進行發現。

我們從一種新穎的交互式時間數據挖掘方法開始,該方法幫助我們發現可靠的順序模式和精確的多元時間序列的時序信息。然後我們進行並行化的解決方案,該方案可以完成使用疊代MapReduce任務從大規模時間序列中提取可靠模式的任務。本研究利用視覺信息技術幫助科學家交互式地探索、可視化和理解其數據。例如,用戶可以通過異步web服務訪問在HPC上運行的並行挖掘算法。

通過這種方式,科學家們可以通過比較中間數據來提出新一輪的分析,以獲得更具科學意義和統計上更為可靠的模式,因此統計計算和可視化可以相互促進。此外,框架中的可視化接口使科學家可以直接參與循環,並可以重定向分析方向。以上研究結合起來,構成了一種可以通過可視化和可擴展性計算來執行閉環大數據分析的高效方法。

23 Hadoop MapReduce在SSDs上分析社交網絡的性能

論文摘要:

固態硬碟(SSDs)的出現激發了大量調查和開發新驅動器潛力的研究。本研究的重點是了解SSDs與硬碟驅動器(HDDs)在Hadoop MapReduce基礎存儲時的相對性能和優勢。特別是,本次研究將從所有早期的相關工作中分離出來,不使用之前的工作負載,而是檢查適合對呈現不同執行模式的複雜網絡進行分析的MapReduce任務和數據。

儘管會涉及大量用於複雜網絡分析的算法和實現,我們還是選擇了「標杆分析法(benchmarking methods)」,其中包含在複雜網絡中執行本地和網絡範圍內的操作的多種方法。同時,因為其可以用作更複雜的網絡處理應用程式原型,所以也足夠通用。我們在真實的社交網絡數據上執行這些算法(並排除了可能嚴重影響實驗結果的網絡寬頻的影響),評估了SSDs和HDDs的性能。

結果表明SSDs對Hadoop是有益的,這一結果也得到了部分早期研究的證實。然而,我們也提供了有力的證據,證明運行中的應用程式的處理模式也具有重要作用,因此在未來的研究中,不能盲目地將SSDs添加到Hadoop中,而應建立組件來評估應用程式的處理模式,然後直接將數據放到適當的儲存介質中。

24 適用於創新臨床模型的大數據合規性

論文摘要:

在醫療健康領域,信息十分重要,人體是數據的主要來源。因此,世界衛生保健面臨的新挑戰就是如何利用這些龐大的數據去對其進行解構。

為了從這一優勢中獲益,科學技術為人們提供了一種名為「大數據分析」的解決方案,該方案能夠管理海量數據,這些數據的性質可以不同,也可以是來自不同的計算機化醫療保健來源,因為在所有主要健康領域中數位技術的輸入都能帶來巨大變化。

臨床情報包括通過使用計算機工具實現的分析方法、提取原始臨床數據並將其轉換為重要見解的過程、能夠提供更好臨床療效的新的目的和知識。因此可以說,通過患者數據分析,臨床智能將成為解決所有護理方面問題的標準操作程序。

本文的目的是通過數據挖掘和過程挖掘技術來實現臨床情報方法,展示這兩種應用於「實際過程」數據析取的方法間的差異,以便通過「符合性檢查」與公司合規性模版(所謂的「Model 231」)中的程序進行比較。

25 通過使用城市大數據進行顆粒物預測來實現可持續的智慧城市,拋棄昂貴的空氣污染基礎設施

論文摘要:

在數據時代和城市數字化時代中產生了大量與城市環境相關的數據集和數據流。從智慧城市的各種資源中獲取和分析數據至關重要。例如,實時的空氣污染數據對於控制空氣污染、實現城市的可持續發展、保護人類免受空氣污染的危害來說是非常重要的。然而,在現實生活中,空氣污染占平均建設投資和維護成本過高。

本文旨在研究如何在不使用昂貴的污染傳感器和設備的情況下,以經濟有效的方法測量空氣污染。為實現這一目標,我們建立了顆粒物預測模型。該模型由多個組件構成,以神經網絡和回歸為核心,集成異構的多個城市數據源,從遷移學習視角對顆粒物進行預測。

顆粒物預測實驗結果表明,這些數據源能夠較好地預測顆粒物,與僅僅以空氣污染傳感器特徵為基礎的模型相比,其預測結果更為理想。本次研究中,我們用來自丹麥奧爾胡斯市的城市數據對模型進行了測試評估,並將模型性能與各種指定基線進行比較。該模型相對於基線的優越性表明了其實用性。


原文連結:

https://www.journals.elsevier.com/big-data-research/most-cited-articles

關鍵字: