Data go linked and shared, knowledge will go linked and move forward: 參與第二十屆國際數位圖書館會議 (Digital Library 2014)暨 第四屆語意式數位典藏研討會(Semantic Digital Archives 2014)出國報告

報告人: 黃韋菁 (Andrea Wei-Ching Huang)

2014年9月9日早上9點左右,位於倫敦的巴比肯藝術中心 (Barbican Centre) 傳來眾人齊唱生日快樂的歌聲,也正式的揭開為期一週的第20界國際數位圖書館會議 (Digital Library 2014/DL 2014) 序幕。本屆DL2014國際學術年會,由二大國際學術會議International Conference on Theory and Practice of Digital Libraries (TPDL 2014) 與由ACM 和 IEEE-CS主辦的 The Joint Conference on Digital Libraries (JCDL 2014)聯合舉行。超過450位來自30多個國家的數位圖書館領域研究人員、開發商、內容提供商、以及使用端的數位圖書館在理論與實務層面進行研究分享與經驗意見交換。 開幕演講由歐洲最大的應用科學研究機構,夫朗和斐研究所(Frauenhofer Institute) 的計算機圖學研究所所長Dieter Fellner教授以3D影像技術處理文化遺產對社會、研究與經濟層面的影響,與數位圖書館所需面臨的挑戰為題,說明對3D影像結合語意標記(semantic markup)是文化遺產保存與複製的重要關鍵技術。在文化產物以數位技術進行重建的需求下,藉由3D影像技術處理,不僅能促進學術界文物比較學的進步,並在圖書博物館界,成為結合重建保存與新興的混合式展覽模式 (實物結合數位虛擬物)的典範技術與潮流。

另外,由超過2000多個歐洲文化機構所參與的歐洲數位圖書館計畫 (Europeana) 也由執行長Jill Cousins 在會中介紹 Europeana 的 2015-2020 策略規劃。有別於過去五年以網際網路站點 (Portal) 收集整合文化數位資產的方式計畫執行,未來五年Europeana將以打造一個數位平台 (Platform) 為目標,建設一個可分享式的架構基礎 (a shared infrastructure),強化數位資產再利用 (re-use)以及創造價值為重心,推動平台成為一個使用者不僅能造訪,且能在此建立自己的使用環境與需求、能在此平台遊戲進而能創造的地方 (a place not only to visit, but also to build on, play in and create with.) 。主要的方法是透過建立一個三層的架構:

  • 第一層Core以資料內容與技術的收集為基礎,其中又以改善資料品質為優先項目;
  • 第二層Access 則以 一個泛歐洲的規模尺度(a pan-European scale)來看待資料的取用,其中又以共用 “commons”觀點與連結開放式資料(Linked Open Data/LOD)的方法,來協助第一層Core資料內容的取用,在第二層架構下,則是以開放資料 (Open the Data)為優先項目。
  • 第三層 Service 則以設計延展使用者經驗為核心,主要設計的三類使用者分別為專家學者、一般使用者、以及創新人員。

在數位資料保存的議題上,今年的會議出現許多對群眾外包資料(crowdsourcing data) 的探討,從個人資料的保存、臉書資料作為個人異地資料保存的方法、至個人化數位圖書館的設計等,群眾外包資料的議題也漸受到數位圖書館學界的重視。而在數位保存策略場次的主席Herbert Van de Sompel,而後也在專家論壇的會議場次中提出,人類和機器協同改正數位資料錯誤的時代正來臨 (the age of human and machine correct each other’s faults is coming!) 。

連結開放式資料LOD的議題在DL2014的論文發表場次中,主要被歸類於資料的轉型與描述(Data Transformation and Description)主題分類,其中又以義大利波隆納大學的研究最受注目。該研究將義大利藝術史學家費德里科.哲里 (Federico Zeri ) 所收集的29萬筆藝術作品、與歷史文件手稿的相片集 (收藏在由費德里科.哲里藝術基金會/Fondazione Federico Zeri 所支持的“Zeri e LODE”計畫所建置的The Zeri Photo Archive 中) ,藉由LOD 方法,透過發展二個主要本體論 (ontology/ 一個主要描述相片本身、另一個則主要描述藝術的再現概念),同時此二本體論也與現有資料標準模式的對應(mapping)、並充分利用國際標準語彙如W3C的後設資料溯源本體論 (W3C PROV Ontology)加以對資料進行描述。此研究目前正處於本體論的發展建置過程,未來將根據這些本體論與其他語彙(vocabulary)將資料轉成LOD的RDF格式,並透過RDF Links將資料發佈在LOD Cloud,建立便利使用者的RDF使用者界面。

目前波隆納大學雖未完成將資料發佈至LOD資料集中,但對數位圖書館學界而言,能將費德里科.哲里所收集的相片進行數位化保存,並進一步將相片本身所附有費德里科.哲里與其他藝術學者的親手記錄 (handwriting) 的註記敘述,透過運用本體論與LOD技術將資料進行語意的描述與再現。因此不論是義大利的藝術史學者、或是其他領域的世界各地使用者,未來將能透過LOD使用或再利用這批珍貴的資料,更進一步的落實費德里科.哲里當時整裡蒐集這些相片的主要願景: 這個相片典藏 (The Zeri Photo Archive) 將成為藝術學習與哲學分析這些藝術品的基本工具。

語意式數位典藏研討會(Semantic Digital Archives/ SDA) 歷年均與數位圖書館理論與實務國際會議 (TPDL)合並召開。今年第四屆語意式數位典藏研討會(SDA 2014) 也因TPDL與JCDL的合併擴大召開,而與DL2014一起在倫敦舉行。今年會議的二大主題主要探討典藏品語意的互通性與鑑別性(Interoperability and Identification)、以及文化典藏品的語意研究。其中,筆者對於義大利羅馬大學的數位圖書館系統 (the Digital Library System of the Sapienza University),針對組織機構作語意鑑別 (the organization as the source of the identification system) 所建立的階層式語意系統印象最深刻。由於羅馬大學是歐洲最大的學校組織,包含63個系所、56個圖書館、21個博物館、以及8 個行政單位,因此單一入口的數位圖書館系統所收入的數位典藏品來源、種類與型式多樣,也因此提出針對不同機構來源的典藏品 (Organization Collection) 的概念之語意描述相對重要。而為了因應歐洲典藏文化機構紛紛發佈資料至連結開放式資料資料雲(LOD Cloud) 的趨勢,典藏品機構的識別與語意更是必須建立的工作。也因此該研究針對底層(root)、數位藏品(digital collection)、數位資源(digital resource/ DR)、 以及數位物件(digital object) 四層分別設計了語意鑑別階層架構。

  • 第一層底層主要是對應到義大利國家Bibliographic System對羅馬大學這個機構的定義與鑑別ID。
  • 第二層數位藏品主要是區分羅馬大學中不同組織結構的藏品。
  • 第三層則是附予數位資源DRs不同的鑑別ID。由於一個DR在此系統中對等於國際標準組織 (ISO) 所定義的開放式檔案資訊系統 (OAIS, Open Archival Information System) 的資訊封包 (Information Package) ,其中包含物件與後設資料 (object and metadata),因此該數位資源的深層語意可藉由此分層鑑別而區分出來。

同時在DR這一階層也在美國國會系統(Library of Congress)的Linked Data Service 中註冊,並對應文化機構組織(Cultural Heritage Organization)的鑑別ID,作為對外連結的URI識別,也因此完成了國內識別與世界識別的工作。最後一層則是給予數位物件 (digital object) 本身的鑑別ID,以作為系統內部的鑑別。

值得注意的是,該研究也於最後提到,為因應LOD的趨勢發展,今年(2014) W3C 正式公佈的組織機構本體論(The Organization Ontology),以及後設資料溯源本體論 (W3C PROV Ontology) ,將是未來此系統架構對應的主要語彙。這對於典藏台灣計畫對於藏品資料的的規劃與進行,是一個可提供為參考的方向。

會議的最後一天的最後一個場次,由筆者以數位文化中心典藏台灣的藏品資料為基礎發表論文。該研究主要探究文化機構的典藏物件與研究機構的科學物件,在運用LOD模式的前提下,相互連結以及再利用的可行性。在會議中以典藏台灣的一個物件,透過描寫此物件從原有的實體物件,經過不同典藏機關的數位化與策展過程,以「一片葉子的故事」作範例,結合此研究所發展出來的概念模式(contextual framework),將物件的策展過程分為三個動態的脈絡階層,分別為資料基礎策展工程、資料發佈階段、資料再利用 (curation, publication, reusing) 以及相對應的三個描述資料語意的脈絡原素分別為: 資料再現、資料保存、資料釋義(Representation, Preservation¸ Interpretation),並以此概念模式為基礎,提出再利用之關聯性本體論R4R (Relations for Reusing Ontology),來說明典藏台灣中數位藏品與其他研究資料連結與再利用的可能性,以及資料如何運用此本體論的動態設計,對於目前文化典藏機構在不同階段也能對藏品資料的語意作描述,並為未來獲第三方再利用藏品資料的可能性作預備。

會中,場次主席不僅對此研究能運用結合不同抽象理論,而發展出的概念模型表示印象深刻與讚許,同時與會學者也紛紛對典藏台灣的藏品與研究方向表示高度興趣,並期待未來能看見典藏台灣的資料能運用此概念模式與本體論,進而實作文化機構的典藏與研究機構的科學物件相互連結運用的成果,而講者也在會中邀請相關學者參與協作。

 
reports:dl_sda2014_report Last modified: 2016/02/02 17:47