中國地質大學(武漢)禹文豪教授:面向不平衡POI類別分布的電子地圖多層次標籤預測模型 |《測繪學報》2023年52卷第2期

測繪學報 發佈 2024-01-01T01:13:07.686584+00:00

YU Wenhao, WEI Cheng, CHEN Jiaxin. Predicting the unbalanced labels of POIs on digital maps using hierarchical model. Acta Geodaetica et Cartographica Sinica, 2023, 52: 318-328. DOI: 10.11947/j.AGCS.2023.20210451。

本文內容來源於《測繪學報》2023年第2期(審圖號GS京(2023)0422號)

面向不平衡POI類別分布的電子地圖多層次標籤預測模型

禹文豪1,2

, 魏鋮1, 陳佳鑫2

1. 中國地質大學(武漢)地理與信息工程學院, 湖北 武漢 430074;2. 中國地質大學(武漢)國家地理信息系統工程技術研究中心, 湖北 武漢 430074

基金項目:國家自然科學基金(42071442);中國地質大學(武漢)中央高校基本科研專項資金(CUG170640)

摘要:興趣點(POI)是電子地圖、導航等應用關注的主要要素之一,其數據質量直接影響地理信息服務的智能化水平。鑑於OpenStreetMap (OSM)等眾源地理信息數據的非專業收集特徵,其POI數據標籤常存在缺失、標記錯誤等質量問題,亟須對POI標籤進行智能化推斷和增強處理。常規神經網絡模型直接從單一層次預測多類別數據,未考慮POI類別在數量上分布不平衡的問題,其預測標籤傾向於包含較多數據的類別,學習算法難以泛化小規模樣本規則。本文考慮到不同POI類別間的數據規模差異較大,提出基於多層次POI類別組織的神經網絡預測方法,通過小樣本類別的層次化聚合,建立POI類別樹結構,在樹結構的不同層次上實現數據規模相對平衡的類別劃分,支持神經網絡高精度的標籤預測。試驗表明,本文方法僅需利用POI基礎位置信息與鄰近關係,其預測精度高於傳統方法。

關鍵詞:POI標籤 深度學習 神經網絡 多層次模型

禹文豪, 魏鋮, 陳佳鑫. 面向不平衡POI類別分布的電子地圖多層次標籤預測模型[J]. 測繪學報,2023,52(2):318-328. DOI: 10.11947/j.AGCS.2023.20210451

YU Wenhao, WEI Cheng, CHEN Jiaxin. Predicting the unbalanced labels of POIs on digital maps using hierarchical model[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(2): 318-328. DOI: 10.11947/j.AGCS.2023.20210451

閱讀全文:http://xb.chinasmp.com/article/2023/1001-1595/20230213.htm

引 言

興趣點(POI)數據是電子地圖、導航平台、專題地圖等的重要組成部分,反映餐飲、文娛、住宿等多種城市活動場所信息。受益於基於位置服務(LBS)的普及,POI數據表現出數據量大、獲取迅速、來源多樣、商業價值高等特點,其數據產品在城市規劃、社會服務、應急管理及智慧城市等領域具有廣泛應用[1-6]。作為POI數據的重要來源,眾源地理信息數據受非專業收集模式影響,相關專題數據質量參差不齊,影響POI數據產品的可靠性與準確性。例如,OSM平台的POI數據,其類別或標籤特徵往往存在標註錯誤或信息丟失的問題,如何利用空間智能模型自動糾正錯誤標籤或補全缺失信息,是該領域的一個重要研究方向。不同於信息科學領域的一般標籤預測任務,POI特徵依賴於空間關係的定義和語義信息挖掘。例如,文獻[7]提出利用POI名稱文本數據,結合分詞技術和向量空間模型構建POI目標特徵,以此輸入樸素貝葉斯模型預測樣本類別的條件概率。雖然POI名稱對於部分類別預測具有一定適應性,但POI標籤類別與其命名並無本質聯繫,建立的相關模型對不同場景的泛化能力也較弱。文獻[8—9]利用用戶訪問POI的時間、用戶人口統計信息及附近商家信息構建Placer分類器,由決策樹模型輸出POI標籤預測概率。文獻[10—11]提出了一個潛在的概率生成模型,融合了用戶簽到行為的多源數據,包括空間位置信息、時間信息以及用戶自身的配置文件等。同樣是基於用戶的簽到行為特徵。文獻[12]綜合利用了更多的簽到統計數據,首先提取POI的顯式特徵,然後基於用戶簽到行為間的相關關係構建相似POI網絡,以此提取POI間的隱式特徵,支持顯式特徵和隱式特徵耦合下的POI標籤預測。然而,傳統方法大多需要利用位置、語義、文本、行為等多源數據;考慮到不同場景下數據獲取的有限性,本文嘗試利用POI最基本的位置和類別信息推測目標缺失的標籤,提高方法在實際環境下的適應性。針對標籤預測問題,常規前饋神經網絡[13]須假設各類別的對象數量具有均衡性,而對於數量相對較少的類別,傳統模型容易將其錯分至數量較多的類別,難以顧及不平衡類別間的預測精度。事實上,POI數據具有典型的不平衡類別分布,不同POI類型承擔不同的城市功能服務,部分類別在城市系統中占主要地位,如餐廳等。如何有效顧及POI數據的類別不均衡性與空間依賴等特徵,是設計有效神經網絡標籤預測模型的關鍵。為了解決不平衡數據集分類問題,許多專家學者從數據和算法兩個層面開展了相關研究。在數據層面上,欠採樣或過採樣的方法占據主流。文獻[14]提出Tmoek-links欠採樣方法,尋找互為最鄰近的兩類樣本來去除多數類樣本中的噪音;文獻[15]提出的SMOTE方法以線性插值的方式在樣本間生成少數類樣本從而對數據過採樣。在算法層面,代價敏感學習和集成學習影響力較為廣泛。文獻[16]將較高的分類代價分給少數類,通過各類間不同的錯分代價分配提高分類器對少數類的關注度。文獻[17—19]分別提出了集成學習中著名的Bagging算法[17]、Boosting算法[18]及其變體隨機森林[19]。它們都是基於一系列的子分類器,通過某種規則將各個子分類器的結果整合起來作為最終分類結果。但對POI數據集而言,現有的不平衡數據集處理方法在分類精度的提高上始終有限。本文提出一種基於多層次類別組織的神經網絡模型,不同於神經網絡內部多層次的概念,該多層次神經網絡模型是在POI多層次類別構建的基礎上,以單個前饋神經網絡作為模型的分類結點,在每一個神經網絡分類結點進行兩個POI類別集合的分流,從而形成一個「金字塔」式的多層次網絡模型。相較於傳統模型直接在單一層面上將對象劃分至某一類別,本文模型考慮了不同類別的不平衡性,將少數類合併為一個大類,以此平衡與其他現有大類的數量差異,解決神經網絡對少數類的泛化能力不足的問題,提高POI標籤預測精度與眾源地理信息數據質量的水平。

1 POI特徵矢量初始化

參考地理學第一定理,POI目標與其周圍不同地理範圍內各類別POI的數量分布具有潛在的相關關係。因此,推斷某一POI標籤可由其鄰近空間的POI分布特徵分析實現。但如何定義鄰近空間以及提取多類型POI分布信息是該步驟的關鍵。傳統方法往往基於單距離鄰域,而對於不同的地理上下文環境,單一硬性邊界容易丟失空間依賴關係的多尺度信息,生成不完備的特徵矢量空間,進而影響POI分類器的標籤預測精度。因此,本文提出一種基於多距離鄰域的POI特徵矢量化方法。

具體上:對於有M個類別共N條POI記錄的POI數據集,假設Xn對應第n條POI記錄,Xmi對應第m個類的第i條POI記錄(i在第m個類內遍歷),兩者空間距離為dnmi。構建目標XnK級多鄰域緩衝區集合D,存儲k個順序排列的緩衝區距離邊界二元組,並統計落入各級別緩衝區範圍的不同類別POI點的數量,以此生成Xn的特徵矢量。假設第m個POI類的數據量為mJ,則該類落入Xn的第Dk個緩衝區的目標計數函數Count表示為

(1)

式中,計數判定函數I的定義為

(2)

基於以上定義,首先將Countnm&k(k=1, 2, …,K)作為目標Xn特徵空間的第((m-1)·K+k)個維度,然後依次構建XnM個類上的完備特徵空間,最後生成所有POI點的特徵矢量。具體的鄰近空間構建策略如圖 1所示。對於POI目標的鄰近範圍d,首先按照緩衝區的遞增變量a,構建目標POI的[d/a]個圓形(或環形)緩衝區,其緩衝距離區間的集合為{(0,a), (a, 2a), (2a, 3a), …, ([d/aa,d)};然後,為顧及不同距離鄰域內以及跨越緩衝區邊界的空間關係,以2a為緩衝區遞增變量,繼續生成POI的[d/a]-1個圓形(或環形)緩衝區,其緩衝距離區間的集合為{(0, 2a), (a, 3a), (2a, 4a), …, ([d/aaa,d)};疊代以上步驟,可分析多種距離鄰域、跨越不同範圍的空間關係;最後,引入距離區間{(0,d)}的圓形緩衝區和{(d, 2d)}的環形緩衝區,分別用以消除鄰近範圍d的內硬邊界與外硬邊界的影響。

圖 1 興趣點的多尺度緩衝區構建(Xn為當前POI點)Fig. 1 The construction of multi-scale buffering of POIs (Xnis the object of interest)

圖選項

由以上建模方式可見,鄰域範圍d是提取POI空間依賴特徵的重要考慮因素。在城市分析領域,有研究者指出400~600 m的空間距離足以模擬城市街區和街道等尺度上的空間交互作用[20-21]。但POI通常與多個街區的空間背景有相互作用,因此選擇1000 m作為POI對象間的基本交互範圍。文獻[22]也證實了1000 m對於POI位置評價的有效性。圖 2以包含10個類別的POI數據集為例,設置鄰近範圍d為1000 m,緩衝區遞增變量a為20 m,構建6個遞增尺度(即20、40、60、80、100、1000 m)的緩衝區集合,則該中心POI點將生成2420維(即(50+49+48+ 47+46+2)×10維)特徵屬性。此外,為訓練本文模型,採用One-Hot技術[23](即採用N位狀態寄存器對N種類別進行獨立編碼,且任意時刻只有一個有效狀態位)編碼POI數據的類別信息。由此生成的特徵矢量不僅包含有多距離鄰域空間的POI分布信息,而且可表示POI的語義類別特徵。

註:針對鄰近空間中的某一類POI,將生成242維特徵;因此,如果數據包含10類POI,將總共生成2420維的特徵向量。圖 2 興趣點的特徵空間描述示例Fig. 2 Illustration of the feature space of POIs

圖選項

2 多層次神經網絡模型

不同類型POI的數據量具有較高的異質特徵,部分POI類型的數量差異可達數百倍(如餐廳與影劇院),這種不平衡分布是限制神經網絡分類效果的關鍵因素。針對以上問題,部分學者採用集成學習、數據欠採樣及數據過採樣等策略[14-19],但對於提高POI標籤預測精度的作用有限。相關研究指出[16],神經網絡在處理分類問題上要優於傳統算法,尤其是在二分類問題上的表現比多分類問題更為精確。本文立足於神經網絡的二分類能力,耦合多個二分類前饋神經網絡(binary classification feedforward neural network,BCFNN)搭建多層次POI標籤預測模型,將POI多分類問題分解為層次二分類任務,以此提高模型泛化能力。具體多層次網絡模型如圖 3所示。

圖 3 針對興趣點標籤預測的多層次模型框架Fig. 3 The hierarchical model framework for predicting labels of POIs

圖選項

本文方法旨在通過對POI類型的層次組織,由多個原始類合併成類系,以此平衡原始POI類型數量的差異。具體採用「粗分-細分」的策略在不同層次對POI類型進行預測,提高單層次模型的預測精度。理論上,當各個類別的數據量均衡(或在同一數量級)時,模型具有[log2(i)]層,其中第j(j=1、2、…、[log2(i)])層有2j-1個分類器;每個分類器負責類系(每個類系是由

個類別組合成的集合)的二分預測。但在實際環境中,POI類別數量常表現為不平衡,類系的劃分如果仍然遵循以中間類為界限進行二分,則無法解決POI數量不平衡所導致的神經網絡泛化能力弱的問題。因此,應先將各POI類型按其數據量從小到大重新排序,獲得類別1,2,…,m,然後按照圖 4所示流程構建每一層BCFNN網絡所需要劃分的類系。

圖 4 興趣點類系劃分流程Fig. 4 The workflow of merging the classes of POIs

圖選項

具體過程為:

(1) 將輸入類系中的各個類按數據量大小重新排序,得到類別集合{ii+1、…、j}。設類別k為類系二分的界限類,類別k及其前面各類組成新類系1,類別k後面各類組成新類系2。

(2) 按順序將類別ID賦值給變量k,判斷以類別k為界限類而形成的新類系1與新類系2的數據量是否在同一數量級。若是,則將類別k作為輸入類系的二分界限類進行輸出,若不是,則取下一個類賦值給k並重複步驟(2)的判斷。

(3) 需要注意的是,如果k被賦值到最後一個類別j,則直接選取倒數第2個類別j-1作為界限類,以此降低數據不平衡的影響;另外,輸入的類系中只有兩個類別時,則直接以排序後的第一個類作為界限類。

因此,本文提出的多層次模型是按數據集中各個類別數量的大小關係逐級分層構建的,模型每一層的BCFNN網絡為下一層的BCFNN網絡提供類系再次細分的數據與對應的標籤,直至每一個BCFNN網絡劃分的類系只包含一個類別,則完成POI分類的工作。模型構建的思想借鑑於傳統機器學習的決策樹模型,區別在於該模型中每一層的每一個結點是基於BCFNN網絡而非具體的類別判定條件,避免人工制定規則的限制。

該模型的BCFNN網絡使用sigmoid函數為激活函數,L1範數函數為損失函數,並採用Adam優化算法對損失函數Loss求最小化極值,通過反向傳播實現對BCFNN相關參數的優化。

3 試驗與評價

3.1 試驗數據

試驗數據來源於廣州市中心城區的POI數據,包括10種常用的POI類型,依據高德地圖的標籤分類體系,其具體信息如圖 5和表 1所示。從中可知,廣州市的POI類型分布具有較顯著的不平衡特徵,餐廳、超市、生活服務3類POI數量占比超過65%,對模型預測效果構成較大挑戰。

圖 5 廣州市城市設施興趣點數據分布Fig. 5 The distribution of Guangzhou POIs

圖選項

表 1 廣州市城市設施興趣點類型信息Tab. 1 The information of Guangzhou urban facility POIs

3.2 試驗模型搭建

(1) 數據預處理。首先對廣州POI數據進行特徵矢量初始化,生成可直接用於多層次模型的輸入向量;然後,對每個類按1∶6的測訓比(測試樣本量與訓練樣本量的比例)隨機抽取數據,完成測試樣本與訓練樣本的劃分,具體如表 2所示。

表 2 訓練樣本與測試樣本的對比信息Tab. 2 The information of training data and test data

(2) 模型搭建。採用python語言與Pytorch深度學習框架構建多層次二分類神經網絡模型。如圖 6所示,首先將10個類別按照數據量遞增排序,其ID排序結果為{5,4,6,3,8,7,9,2,1,0};然後按照第2節的POI類系劃分方法,將各類型分層聚合,使得在同一個BCFNN網絡下(即同一層)的兩個類系具有相同級別的數據量,避免分布不均衡對模型精度的影響。

圖 6 廣州市興趣點類型的多層次組織Fig. 6 The hierarchical organization of Guangzhou POIs categories

圖選項

(3) 模型訓練。依照上述搭建的基本模型結構,對各層的BCFNN網絡採用多線程同步訓練,記錄下訓練過程中的損失函數值並繪製損失曲線。如圖 7所示,隨著訓練次數的增加各個BCFNN子模型的損失已趨於收斂。

圖 7 各層次BCFNN子模型損失曲線Fig. 7 The loss curves of BCFNN sub-models at each level

圖選項

3.3 模型預測

從總體數據中抽取1/7的測試樣本作為標籤預測目標,利用上述訓練好的模型對每一個樣本進行測試,將預測標籤與真實標籤進行對比,模型各個層次的預測目標數量見表 3。

表 3 多層次模型中各層的預測數量結果Tab. 3 The number of the predicted objects in different layers of the model

為了驗證POI多尺度特徵對本任務的影響,本文在多層次預測模型的基礎上分別設置了6個POI單一尺度特徵驅動的預測對比試驗,如圖 8所示。結果表明,基於POI單一尺度特徵的多層次模型的標籤推斷能力不如多尺度融合特徵生成的模型,由此可見,本文提出的POI多尺度依賴特徵的構建方法對提升多層次模型的預測能力具有顯著的促進作用。

圖 8 POI單一尺度和多尺度推斷精度對比Fig. 8 Accuracy comparison between single-scale prediction and multi-scale prediction

圖選項

為了驗證多層次神經網絡模型對本任務的優勢,本文選擇當下流行的數據挖掘算法模型(即基於單層次神經網絡模型[13]、基於關聯規則模型[22]、基於集成學習模型[24])和傳統的機器學習模型(基於隨機森林模型[19]、基於決策樹模型[25]、基於支持向量機模型[26])作為對比試驗,在同等條件下(輸入均為多尺度POI特徵)對7種方法的模型預測能力進行比較。如圖 9所示,通過對比各個模型之間的混淆矩陣不難發現,多層次神經網絡模型在混淆矩陣的對角線上取得了較高的灰度值,這說明本文提出的多層次POI預測模型在先聚合小樣本數據集再逐層劃分POI類別的策略下,能夠很好地對各個類別進行精準預測。相比之下,傳統的數據挖掘模型和傳統的機器學習算法在POI標籤預測任務中稍顯遜色:在POI分布存在嚴重分布不均衡的現實環境中,傳統模型算法會通過提高對大樣本數據集的擬合能力來降低模型損失從而提高整體的預測精度,而本文提出的多層次預測模型能較好地解決小樣本類別預測精度低的問題。

圖 9 POI類別預測模型的混淆矩陣對比Fig. 9 The confusion matrix of different models

圖選項

如圖 10所示,為了進一步量化對比本文的多層次POI預測模型和其他6個模型的POI標籤預測能力,採用準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分值(F1score)作為各個模型的評價指標,計算公式為

(3)

(4)

(5)

(6)

圖 10 POI類別預測模型的評價指標對比Fig. 10 The evaluation metrics of different models

圖選項

式中,TP表示模型認為POI為正類且其標籤為正類標籤;FN表示模型認為POI為負類且其標籤為正類標籤;FP表示模型認為POI為正類且其標籤為負類標籤;TN表示模型認為POI為負類且其標籤為負類標籤;下標K代表POI類別ID,K=0, 1, 2, …, 9。若規定對類別m而言,類別m為正類,除類別m外的其他類為負類。試驗結果表明,多層次神經網絡模型在僅基於POI位置信息與類別信息的前提下,POI類別的總體預測準確度達到66.6%,作為對比,傳統的機器學習算法總體準確率不足50%,基於關聯規則和集成學習算法的模型總體準確度甚至低於20%。這說明了本文多層次POI標籤預測模型在POI標籤預測任務上具有較高的可靠性。值得注意的是,在各個模型關於POI各類別的精確率對比上,總體準確率最低的關聯規則模型在各POI類別上的精確率均高於本文模型。但結合兩者的混淆矩陣不難發現,關聯規則模型善於對特徵較明顯的POI進行分類,而對於在測試集中特徵較模糊的POI,關聯規則模型會趨向於將分類到某一個POI數量較多的類別上,以此來規避不必要的損失,但其帶來的結果是總體準確率的大幅下滑。基於隨機森林和基於支持向量機的模型具有相似的特點,它們在個別POI類別上有比本文模型有更高的精確率,但它們更傾向於將特徵不夠明顯的POI統一划分到POI數量最多的類別上從而最小化模型損失,因此它們相較於關聯規則模型有更高的準確率。相比於模型精確率的評價指標,F1分值是模型精確率和召回率的調和平均數,對模型的質量評價更具有可信度。本文模型在總體準確率占優的情況下,在POI測試集各個類別上的F1分值也遠大於其他對比模型,這說明多層次預測方法較大程度改進了傳統方法的效果以及對複雜現實場景的適應性。

4 結論

POI是地理信息服務的重要數據源,其收集途徑的多樣性與便利性是POI數據產品的優勢,但同時也帶來了諸多的數據質量問題,例如標籤缺失、錯誤等。如何增強眾源POI數據特徵是地理信息領域的熱點問題。不同於一般的標籤預測任務,POI類型分布具有顯著的不平衡特徵,綜合考慮空間數據特有的依賴關係、多尺度等特徵,發展高精度的神經網絡預測模型具有重要價值。

本文旨在解決POI標籤預測的兩個關鍵問題,即多尺度特徵矢量初始化、不平衡類型分布的標籤預測。首先,依據空間依賴等地理學知識,提取目標周圍POI類型分布信息,作為當前POI的特徵空間;考慮到鄰近空間的多尺度特性,提出了基於多緩衝區的特徵矢量初始化方法,可有效考慮不同尺度空間關聯對POI標籤預測的影響。其次,針對不同POI類型的數據量差異,提出了一種新的多層次神經網絡模型,將複雜的多分類問題分解為簡單二分類任務,提高模型對不同類型數據的泛化能力和預測精度。由於本方法只需利用POI的位置數據和類別信息,其比較傳統方法具有更廣泛的應用場景。通過對比試驗發現,多層次模型比傳統關聯規則模型與集成學習方法的精度更高。後續研究將基於多層次組織策略,融合POI多源屬性數據(如簽到行為數據等)[27-28],並基於不同地區POI分布特徵設計空間鄰域範圍的自適應確定算法,進一步優化該模型,提高方法的預測精度。此外,多層次神經網絡為空間目標的標籤預測提供了一種新思路,不僅可用於POI數據,也可用於路網弧段、建築物等其他類型目標。

作者簡介

第一作者簡介:禹文豪(1987-), 男, 教授, 博士生導師, 研究方向為地圖綜合和空間數據挖掘。E-mail: ywh_whu@126.com

初審:張 琳

覆審:宋啟凡

終審:金 君

資訊

關鍵字: