OFD/A格式需求:從通用到具體

數字羅塞塔計劃 發佈 2024-04-29T04:10:34.188963+00:00

關注我們 - 數字羅塞塔計劃 - 《OFD檔案應用指南》目前正在徵求意見,如果拿這個即將出台的標準和PDF/A對標的話,就相當於是OFD/A,這個標準一旦頒布對於長期以來缺少可參考歸檔保存版式電子文件格式標準的國內檔案部門而言無疑是一個巨大的福音,詳見筆者的另一篇公眾號文章《我們

關注我們 - 數字羅塞塔計劃 -

《OFD檔案應用指南》目前正在徵求意見,如果拿這個即將出台的標準和PDF/A對標的話,就相當於是OFD/A,這個標準一旦頒布對於長期以來缺少可參考歸檔保存版式電子文件格式標準的國內檔案部門而言無疑是一個巨大的福音,詳見筆者的另一篇公眾號文章《我們需要什麼樣的電子文件格式標準?》


01

從一般意義上講,對于歸檔保存版式電子文件格式的需求應當滿足DA/T 47-2009《版式電子文件長期保存格式需求》的通用要求,OFD/A自然也不能例外。DA/T 47-2009給出了遴選歸檔保存版式電子文件格式的需求,一共11大項:格式開放、不綁定軟硬體、文件自包含、格式自描述、顯示一致性、持續可解釋、穩健、可轉換、利於存儲、支持技術認證機制、易於利用。另外還有44小項,詳細的需求可查閱DA/T 47-2009標準。


02

但這些通用的需求比較籠統,有沒有具體一點的實例,能夠讓人一看就明白的呢?還真有!GB/T 39362-2020《黨政機關電子公文歸檔規範》附錄E中對於「單個OFD格式電子檔案表現形式示意」說明如下(為了尊重原文,以下描述中採用了OFD,實際指的就是OFD/A):

以發文為例,包含多個件內文件(正本、文件處理單、定稿、歷次修改稿等)的電子檔案可合併成一個OFD文件,其呈現形式如下:


每一份電子檔案包含的件內文件按照DA/T 22-2015《歸檔文件整理規則》的要求排序,正本放在最上面,依次為文件處理單、定稿、歷次修改稿等,將組成一份電子檔案的多個文件統一轉換併合並成一個OFD文件;對於掃描形成的電子公文內容圖像,通過OCR技術提取全文內容數據和掃描圖像合併成雙層OFD文件;對於電子檔案的元數據,可嵌入到OFD文件中。

如上所述,組成一份電子檔案的每一個OFD文件可包含形式、內容、元數據三個層次,如下圖所示:


三個層次說明如下:

形式層

圖像格式或者版式格式,保持原件的真實性,用於將來調閱、利用時的顯示。

內容層

文本格式,抽取文件中的內容,用於將來對電子檔案的全文檢索。

元數據層

XML格式,封裝電子檔案元數據,嵌入到OFD文件中,既可用於檢索,也可使OFD文件作為完整電子檔案格式不依賴於文件系統、資料庫等運行環境獨立存在。


03

以上描述實際上已經提到了很多OFD/A方面具體需求:比如雙層OFD、多頁合併、元數據嵌入等,這些都是在電子文件歸檔實際操作過程中會碰到的功能需求,將來的OFD/A肯定是需要滿足的。當然,這僅僅是一個具體的例子,筆者將以前在檔案軟體開發過程中碰到的和電子文件版式相關的需求進行了整理,這些都是需要OFD相關廠商在自身的SDK(軟體開發包)產品中實現的,便於檔案軟體的調用和集成。OFD SDK應當提供但不限於以下接口:

格式轉換接口

各種文本、圖像、圖形、網頁等文件格式轉換成OFD格式,如果能夠逆轉換則更佳;

元數據獲取接口

獲取一份電子檔案中單個OFD文件的元數據;

全文獲取接口

OFD文件中的全文內容獲取,用於對OFD文件建立全文索引;

關鍵字檢索接口

對OFD文件中的文字進行檢索,返回匹配檢索詞的頁數和位置;

XML文件嵌入接口

用於嵌入電子檔案的XML元數據文件;

XML文件獲取接口

用於獲取電子檔案的XML元數據文件;

文件合併、拆分、插入、刪除、頁面順序調整接口

多個OFD文件合併;一個OFD文件拆分成多頁;在一個OFD文件中插入或刪除某一頁或者某幾頁;一個OFD文件中的頁順序調整;

文件局部塗黑接口

對OFD文件指定頁局部區域或者整頁區域進行塗黑(用色塊前景覆蓋)處理,用於遮擋敏感信息;

文件頁旋轉接口

對OFD文件指定頁進行左旋、右旋處理;

文件線性化接口

對OFD文件進行線性化轉換處理,用於在大文件瀏覽時邊下載邊打開;瀏覽之後客戶機中不允許存在緩存文件;

文件附加接口

把其他格式文件作為附件掛接到OFD文件中,以及從OFD文件中獲取附件;

雙層OFD生成接口

針對掃描圖像文件直接生成雙層OFD文件,並支持文件合併;

固化信息校驗接口

對OFD文件中的數字簽名、電子印章等固化信息進行有效性校驗;

去除固化信息接口

去掉OFD文件中的數字簽名、可信時間戳、加密算法、特殊的壓縮算法等信息;去掉電子印章中的簽名和證書信息,只保留印章圖像;

規範性校驗接口

校驗OFD文件是否為合法、規範、有效、符合標準的OFD文件;待OFD/A標準頒布之後,還需要進一步提供OFD/A的校驗接口;

文件保護接口

給OFD文件設置打開、列印、內容提取、增刪頁面等操作的保護功能。


當然,以上需求只是從檔案軟體開發商的角度總結的,有些可能在現有OFD標準中已經提供;其中哪些可以被OFD/A標準納入成為通用需求,哪些只是用戶單位的個性需求而不適合被OFD/A標準採納,這些還需要OFD/A標準起草組的慎重甄別和遴選。

筆者還是這個觀點,標準應該從業務中來,到業務中去,來源於業務實踐的標準在將來推廣應用過程中會省去很多麻煩,也不會飄在空中落不了地。

數字羅塞塔計劃公眾號致力於作為中立的第三方客觀公正地表達自己對於檔案信息化領域的看法和觀點。真理越辯越明,我們也衷心歡迎越來越多的人投身到檔案數字資源管理和保存這一領域的研究中來並發表真知灼見,共同為人類文明的傳承而努力奮鬥!

關注我們 - 數字羅塞塔計劃 -

關鍵字: