數字資源長期保存國際項目巡禮(六):PANDORA

數字羅塞塔計劃 發佈 2024-05-08T04:06:06.398645+00:00

1996年NAL開始了PANDORA項目,即保存和訪問澳大利亞的網絡文獻資源項目,成為全世界首批建立網頁存檔項目的國家圖書館之一。

關注我們 - 數字羅塞塔計劃 -

澳大利亞國家圖書館(National Library of Australia,NLA)對具有長期保存價值的數字資源的收集和存儲從20世紀80年代中期就開始了,是全世界最早開始數字資源長期保存研究和實踐的機構之一。1996年NAL開始了PANDORA(Preserving and Accessing Networked Documentary Resources of Australia)項目,即保存和訪問澳大利亞的網絡文獻資源項目,成為全世界首批建立網頁存檔項目的國家圖書館之一



2006年12月,為了更加緊密地將NLA網頁存檔計劃和數字保存活動結合起來,在NLA的館藏管理部成立了一個新的分部門——網頁存檔與數字保存部,其戰略目標就在於更好地結合網頁資源描述和搜集功能,並在數據存檔工作中發展和應用數位化保存管理。NLA開發出一套PANDORA數位化存檔系統(PANdora Digital Archiving System,PANDAS),允許各參與館的負責人通過該系統開展網頁資源的存檔工作。


第一

項目概述

PANDORA項目是網際網路時代針對虛擬空間中數字文化遺產長期保存和社會記憶傳承提出的新課題,它基於社會記憶的視角,提出了網絡信息資源管理的新方向,主張對有重要價 值的網絡信息資源進行歸檔,以留存網際網路上的澳大利亞記憶。為此,PANDORA項目組制定了網絡信息資源歸檔政策、歸檔流程和框架,自主研發了網絡信息資源歸檔系統,形成了澳大利亞數字信息長期保存和利用的多方協作機制。


PANDORA項目的基礎目標包括:根據已經制定的資源選擇指南識別和選擇澳大利亞重要的聯機出版物並對之進行編目;與出版這些出版物的出版商協調工作捕獲其出版物的副本保存到NLA的數字資源中以供長期保存;在遵從公平交易規則的前提下使用戶可以利用數字資源;在充分考慮出版者的商業利益的前提下向遠程用戶提供對資源的訪問;維持長期保存聯機電子出版物的原貌;在保持以往版本的基礎上更新資源的元數據信息;隨著版本的變化將出版物轉換成新的格式。


PANDORA項目的深層目標包括:致力於就擴大版權和法定呈繳制度與出版商進行磋商;建立澳大利亞聯機出版物的永久命名系統,以克服失效連結問題;實現用基於都柏林核心元數據集的系統描述存檔文件使信息的聯機檢索更有效;與其它圖書館合作建立澳大利亞國家數字資源庫。


PANDORA項目原則:有適合NLA整體館藏發展政策的資源選擇標準;有PANDAS軟體用於收集和管理資源;資源收集工作由NLA和各個參與館共同承擔;資源存檔前獲得資源出版者的許可;對存檔的每個資源進行編目,目錄同時包含在國家圖書館目錄、國家書目資料庫和PANDORA網站上,提供多種資源發現途徑並與其它信息資源整合;對存檔的每一個出版物進行嚴格的質量檢查以確保其能夠被正確的捕獲。


NLA始終堅持在PANDORA存檔建設中採取合作共建的方法,並積極促成澳大利亞國立圖書館、各州圖書館以及其他文化機構的參與,組建了澳大利亞國家及州圖書館聯盟(National and State Libraries Australasia,NSLA)。NSLA現已擁有十多個成員,包括澳大利亞各州立圖書館、北方圖書館、國家聲像檔案館、澳大利亞戰爭紀念館、澳大利亞國家美術館,以及澳大利亞原住民、托雷斯海峽居民研究所,維多利亞州立圖書館、以及北領地圖書情報處等機構。


第二

項目思路及策略

PANDORA項目採用以「選擇性採集為主,全面性採集為輔」的策略,即在選擇性保存有重要價值的網絡信息資源的基礎上,定期對.au域名的網站進行大規模的全面性採集。以澳大利亞聯機出版物和網站為收錄對象但並不試圖保存所有聯機出版物和網站而只保存那些重要的且具有長期保存價值的部分。具體的策略如下:

1 載體形式

一般情況下,PANDORA只收錄純電子版的資源,對於有對應印本形式的電子資源,除非電子版中包含有印刷版中不包括的重要信息或價值,或者是被索引或文摘商 引用的資源,否則不在考慮範圍之內。因為相比之下,印本資源更容易採用傳統辦法長期保存。當資源的聯機版本和光碟或者磁碟版本同時存在時,優先考慮存檔聯機版本, 除非二者在內容上有重大差別,如果由於技術原因而無法下載聯機版或者無法使用其中比較有用的功能時,考慮尋找其物理格式的版本取代或補充聯機版。

02 內容類型

NLA在選擇指南中規定的一些出版物類型(但不限於這些),包括:政府的公開出版物、教育機構出版物、會議論文、電子期刊、索引和摘要代理商提供的item、在某主題領域運行三年以上和記載當前重要社會、政治等內容的網站(如選舉網站、2000年雪梨奧運會網站)等、年度報告、地圖、有價值的文學作品、公眾可存取的信息資料庫、曾以印本形式出版的文檔、任何符合ISSN、ISBN或ISMN的文檔等。上述資源的每一個新的版本(但不包括微小的變化),網站或網站的一部分,需提供某個主題、組織、國家重要人物、項目或事件的實質性的或唯一的信息。

PANDORA的每一個合作者都有自己的資源選擇指南,定義其收錄範圍。參與建設的每個圖書館都有其側重點和收錄範圍,各司其職,各個圖書館的資源選擇指南對具體遴選條件的規定有一定差異,但總體上具有相似性:國家圖書館旨在存檔那些具有國家意義的內容;州立圖書館負責存檔有關州或者區域性的資源;維多利亞州立圖書館主要採集對本州有重要價值的網絡信息資源;國家聲像檔案館負責網站相關的音樂和電影;澳大利亞戰爭紀念館則主要採集與澳大利亞軍事和戰爭相關主題的網絡信息資源;原住民及托雷斯海峽居民研究所負責存檔原住民的出版物和網站等。

PANDORA項目對網絡出版物的自願呈繳範圍進行了限定,以下網絡信息沒有被納入繳送範圍:聊天室、公告板、新聞組、遊戲、個人文章、有印刷版的在線日報、在線圖書、在線期刊、以組織網際網路信息為唯一目的的門戶網站、推銷和廣告網站、對其他來源信息進行編輯而不具有原創性內容的站點等。

03 文件格式

PANDORA存檔格式包含多媒體、音視頻、各種動態文件格式以及文本文件。部分動態生成的資料庫網站,在存檔中被存儲為靜態頁面,插件和其他軟體不在PANDORA存檔的範圍之內。PANDORA項目的歸檔資源數量龐大、類型豐富。截至2020年6月26日,項目歸檔題名量累計達65035項,文件數累計達到84245餘萬件,數據規模達53.93TB。歸檔內容涉及政府與法律、商業與經濟、歷史、藝術、旅遊、環境、健康和教育等多個領域。文件涵蓋文本、圖像、應用程式、腳本、音視頻等格式,其中主要格式類型是文本和圖像。

04 採集深度

NLA採集在線出版物的主要方法是通過軟體收集副本並將它們添加到存檔文件。若要訪問目標站點,採集軟體需要能夠導航的HTML連結。深層網頁是對應表層網頁的概念,指的是那些通過搜尋引擎及採集程序無法訪問的頁面,一般由後台資料庫動態生成。PANDORA的採集深度依網站不同而不同,通常情況下收錄整個網站。如果網站的規模十分龐大,如一個政府部門的網站,可能只選擇網站中包含某些特定信息(如某個特別的項目或計劃)的部分。有時只從一個大型網站中選擇一些出版物如電子期刊、快報或科技報告。同時不存檔外部連結,只存檔屬於本網站的連結。

05 更新頻率

根據網站和出版物的特點而各不相同,尤其考慮其出版計劃、內容的價值、穩定性和生存周期。數字信息內容的更新也體現在兩個方面,一是增加原來沒有的新內容,二是保存原有內容的變化。各成員機構分別根據自己的選擇標準收集相應的title並將其統一保存到PANDORA的資料庫中。

06 分類管理

受開放內容運動的影響,網頁存檔的軟體工具都是開源的,經過一定的開發整合就可以很好的嵌入到項目中。在國家網際網路保護同盟的合作框架下,成員開發出來的技術工具是可以共享的,所以在軟體技術方面是趨於成熟和穩定的,並已走出實驗性階段。NLA開發了Xinq工具,可將出版商提供的數據存放到一個通用的接口上。Xinq已通過 Source Forge(開源軟體分享網站)成為可分享的開放源碼。

07 資源利用

NLA致力於提供PANDORA項目存檔和其他數字集合的長期訪問。因此,在電子出版物和Web站點存檔時,PANDAS會自動為其分配唯一的持久標識符,並且標識符被記錄在該標題條目頁面的底部,方便用戶的引用。持久標識符指對數字對象(例如文章、數據集、圖像或數據流)進行持續標識,可以使這些數字資源的定位和範圍具有唯一性,把它們與相關的作者及其它實體(如機構、項目或研究團體)相關聯,使其得到持續、可靠的發現、引用和重用。除了在標題級別提供一個持久的標識符,系統也可以給所有的組件部件創建一個持久標識符。持久標識符將始終指向它所標識的資源,它可以被引用而且確保該連結永遠不會斷開。唯一的持久標識符不能在其他網頁存檔資源中提供,這是PANDORA項目的特色之一。

同時NLA建立了PANDORA的專題網站:Trove(http://trove.nla.gov.au/website)。可以從項目的主頁上訪問到這些存檔文件。可用的訪問路徑有:PANDORA主頁上的存檔標題的字母列表;PANDORA主頁上存檔標題的主題列表,分為文化、藝術、科學等18個大類;國家書目資料庫和其他參與者的在線目錄的熱連結;商業搜尋引擎(如Google,Bing)可以搜索到存檔文獻的標題。PANDORA在收割採集時已將存檔文獻編目、存檔資源作為NLA有效館藏資源的一部分,可輸入任意詞檢索。

為了增加資源被發現的機會,PANDORA還允許添加搜索框至用戶或者個人網頁,幫助更多的訪問者訪問PANDORA資源。用戶只需要將搜索框的HTML代碼複製並粘貼到用戶的網站上即可將一個 PANDORA的搜索框添加至用戶的網頁,以增加PANDORA資源被發現途徑。Trove檢索平台非常人性化,業務人員可為已存檔的網絡信息資源設置不同類別的標籤,以方便用戶檢索和利用。標籤包括實例標籤、事件標籤、組標籤和題名標籤,其中後3個為可選標籤,業務人員可自行決定是否需要。

第三

總結與展望

PANDORA項目是網絡信息長期保存中一個較為成功的案例,其目標明確、保存主體分工合理、保存平台適用性強、網站運行穩定、用戶利用情況良好,為網絡信息長期保存提供了不少可供借鑑的啟示。


對於NLA和其他研究性圖書館來說,館藏建設應滿足未來幾十年或幾個世紀的學者的需求。PANDORA項目完成的存檔澳大利亞聯機出版物僅僅是確保對其實現長期保存的第一步。NLA根據已經制定的數字資源長期保存政策,開始了對其數字館藏的風險評估,重點即PANDORA項目保存的數字資源內容,並獨自或與其它組織(包括RLG,OCLC、IIPC等)合作繼續積極開展數字保存相關研究。


數字資源長期保存是數字羅塞塔項目的核心研究內容。數字羅塞塔計劃是由楊安榮博士聯合國內知名投資機構發起的一項利用藍光存儲、數字膠片、玻璃存儲等技術,旨在解決電子檔案乃至數字信息長期保存的國產化替代科技攻關工程項目,以實現「保存社會記憶,傳承人類文明」的最終目標。

關注我們 - 數字羅塞塔計劃 -

關鍵字: