三级精品高清亚洲-久久棈精品久久久久久噜噜-免费福利在线视频-亚洲国产最大av-四虎影视永久在线观看-久久久久久久女国产乱让韩-久久99国产只有精品-日韩久久久精品影院

《基于文檔型非關系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范》解讀

日期:12-06  點擊:1209  屬于:行業(yè)標準

【法規(guī)解讀】《基于文檔型非關系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范》解讀

 

《基于文檔型非關系型數(shù)據(jù)庫的檔案數(shù)據(jù)存儲規(guī)范》(以下簡稱《規(guī)范》)(DA/T 82—2019)由國家檔案局于2019年12月16日發(fā)布,2020年5月1日起正式實施?!兑?guī)范》規(guī)定了使用文檔型數(shù)據(jù)庫存儲檔案數(shù)據(jù)的總體要求,提出了使用文檔型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)的基本功能和實施方法,適用于各級各類檔案館、機關、團體、企事業(yè)單位對檔案數(shù)據(jù)的存儲。

 

編制背景

隨著數(shù)字檔案館(室)建設的推進,館藏傳統(tǒng)載體檔案數(shù)字化普遍開展。2018年,國務院發(fā)布了《國務院關于加快推進全國一體化在線政務服務平臺建設的指導意見》,“互聯(lián)網(wǎng)+政務服務”“一網(wǎng)通辦”在全國深入推進,檔案館面臨最直接的問題就是如何高效、快速、敏捷地對接各種業(yè)務系統(tǒng),并且完整地收集、歸檔、保存各類業(yè)務數(shù)據(jù)。

目前,我國檔案部門大都采用關系型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)。關系型數(shù)據(jù)庫對數(shù)據(jù)的規(guī)范性要求高,能夠很好地管理和存儲結構化數(shù)據(jù),但對數(shù)據(jù)結構復雜類型多樣的非結構化數(shù)據(jù)的存儲和管理存在諸多局限。據(jù)統(tǒng)計,檔案數(shù)字資源中非結構化數(shù)據(jù)占據(jù)絕大部分,未來還將出現(xiàn)爆炸性增長。有效存儲、管理、利用非結構化數(shù)據(jù)是檔案工作者必須面對的課題。歷時3年,國家檔案局檔案科學技術研究所于2016年完成了“基于非關系數(shù)據(jù)庫的電子檔案存儲規(guī)范研究及系統(tǒng)實現(xiàn)”國家檔案局科技項目,在該項研究成果的基礎上,向全國檔案工作標準化技術委員會提交了《規(guī)范》的立項申請,旨在解決大規(guī)模檔案數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),優(yōu)化檔案數(shù)據(jù)存儲,推動檔案數(shù)據(jù)科學管理?!兑?guī)范》被列入2017年檔案行業(yè)標準制修訂項目計劃。

 

編制思路

《規(guī)范》主要以問題與需求為導向,充分考慮檔案數(shù)據(jù)體量大且增長快、類型繁多且結構復雜的特點,切實從我國檔案數(shù)據(jù)管理實際需要出發(fā),詳細闡述文檔型非關系型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)的技術要求、基本功能和實施方法。注重適用性、規(guī)范性、開放性、互補性,著重先進性與可操作相結合,使其利于實施。

 

主要內容解讀

《規(guī)范》分10章和2個資料性附錄,涵蓋了使用文檔型數(shù)據(jù)庫存儲檔案數(shù)據(jù)所涉及的各個工作環(huán)節(jié),構成一個內在關聯(lián)的整體,能夠起到規(guī)范使用文檔型數(shù)據(jù)庫存儲檔案數(shù)據(jù)的作用。

1

術語與定義

《規(guī)范》規(guī)定的“內容數(shù)據(jù)”“非關系型數(shù)據(jù)庫”“文檔型數(shù)據(jù)庫的拆分”以及“文檔型數(shù)據(jù)庫的合并”術語和定義屬于國內外首次提出。

2文檔型數(shù)據(jù)庫字段

《規(guī)范》提出的字段類型是為了適應不同的內容數(shù)據(jù)格式以及元數(shù)據(jù)需要。文檔型數(shù)據(jù)庫字段類型包括字符串、數(shù)值、日期、時間、文本、二進制等,其中文本字段用于存儲文本中的句子和段落,包括從電子文件中抽取的文字信息(或稱文本數(shù)據(jù)),二進制字段用于存儲任何類型的字符,包括ASCII字符以及圖像、視頻、音頻等二進制數(shù)據(jù)。文檔型數(shù)據(jù)庫允許創(chuàng)建不同類型的字段,存儲任意格式的數(shù)據(jù)。采用文檔型數(shù)據(jù)庫,能夠簡單地將不同類型、不同格式的檔案數(shù)據(jù)裝入數(shù)據(jù)庫或映射到數(shù)據(jù)庫。

3文檔型數(shù)據(jù)庫存儲

《規(guī)范》提出,文檔型數(shù)據(jù)庫的存儲對象是內容數(shù)據(jù)和元數(shù)據(jù)(含目錄數(shù)據(jù))。內容數(shù)據(jù)是電子檔案和傳統(tǒng)載體檔案數(shù)字化副本的固有信息。存儲方式之一是將內容數(shù)據(jù)和元數(shù)據(jù)全部裝入數(shù)據(jù)庫,按照與元數(shù)據(jù)的匹配關聯(lián)關系,內容數(shù)據(jù)存儲在二進制字段中,不是掛接在數(shù)據(jù)庫上;多種格式的內容數(shù)據(jù)可裝入同一數(shù)據(jù)庫,不同記錄(行)的內容數(shù)據(jù)的格式可不同;同一條記錄可存儲一個或多個內容數(shù)據(jù),同一條記錄(行)中多個內容數(shù)據(jù)的格式可不同,這些是文檔型數(shù)據(jù)庫存儲內容數(shù)據(jù)的顯著特點,也是《規(guī)范》制定的重點之一。關系型數(shù)據(jù)庫的優(yōu)勢在于能夠很好地管理和存儲結構化數(shù)據(jù)。鑒于關系型數(shù)據(jù)庫和文檔型數(shù)據(jù)庫各自的特點和優(yōu)勢,檔案部門可以將文檔型數(shù)據(jù)庫、關系型數(shù)據(jù)庫共同作為檔案數(shù)據(jù)存儲和管理的工具。

4文檔型數(shù)據(jù)庫的拆分與合并

當內容數(shù)據(jù)全部載入數(shù)據(jù)庫,數(shù)據(jù)庫會迅速變大。當數(shù)據(jù)庫容量超過備份介質容量時,就難于對數(shù)據(jù)庫整體進行備份,需要將數(shù)據(jù)庫拆分成若干個小容量的數(shù)據(jù)庫才能進行備份,數(shù)據(jù)庫拆分是《規(guī)范》制定的另一個重點?!兑?guī)范》給出了文檔型數(shù)據(jù)庫拆分的確切定義:一個數(shù)據(jù)庫被分成若干個數(shù)據(jù)完整的子數(shù)據(jù)庫。數(shù)據(jù)庫拆分的方法是以數(shù)據(jù)庫中的記錄為單位進行拆分,通過數(shù)據(jù)庫中的記錄號、記錄的容量或檢索和統(tǒng)計分析從原數(shù)據(jù)庫中提取相應的記錄,按順序將記錄導入各子數(shù)據(jù)庫。每一條記錄是一組完整的相關信息,包括內容數(shù)據(jù)及元數(shù)據(jù),保證子數(shù)據(jù)庫中各記錄的關聯(lián)數(shù)據(jù)完整。數(shù)據(jù)庫拆分可以部分拆分,數(shù)據(jù)庫拆分生成的子數(shù)據(jù)庫結構與原數(shù)據(jù)庫結構可以不同。

數(shù)據(jù)庫合并是數(shù)據(jù)庫拆分的逆操作,是若干個子數(shù)據(jù)庫合成一個數(shù)據(jù)完整的數(shù)據(jù)庫。數(shù)據(jù)庫合并的方法是以子數(shù)據(jù)庫中的記錄為單位進行合并,通過各子數(shù)據(jù)庫中的記錄號、記錄容量或檢索和統(tǒng)計分析從各子數(shù)據(jù)庫中提取相應的記錄,按順序將記錄導入一個數(shù)據(jù)庫。數(shù)據(jù)庫合并可以合成子數(shù)據(jù)庫中的部分,記錄數(shù)據(jù)庫合并形成的數(shù)據(jù)庫結構與子數(shù)據(jù)庫結構可以不同。

5數(shù)據(jù)庫備份與還原

文檔型數(shù)據(jù)庫備份的內容應包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)庫結構和數(shù)據(jù)庫定義文件,應按照數(shù)據(jù)庫結構(字段)備份數(shù)據(jù)庫數(shù)據(jù)。離線備份是文檔型數(shù)據(jù)庫備份的重要方法,是《規(guī)范》制定的第三個重點。離線備份的存儲介質有磁盤、固態(tài)硬盤、光盤等,其存儲容量有限。當數(shù)據(jù)庫容量大于備份介質容量時,需要將數(shù)據(jù)庫拆分成容量小于備份介質容量的若干個子數(shù)據(jù)庫,每個子數(shù)據(jù)庫結構與原數(shù)據(jù)庫結構相同,且保證各子數(shù)據(jù)庫中記錄的關聯(lián)數(shù)據(jù)完整,然后將各子數(shù)據(jù)庫分別備份到備份介質上。采用這種拆分備份數(shù)據(jù)庫的方法,可以直接在子數(shù)據(jù)庫中完成該記錄范圍的數(shù)據(jù)檢索和查詢,不需要對同一記錄的不同字段數(shù)據(jù)在各子數(shù)據(jù)庫間進行數(shù)據(jù)檢索,保持了各子數(shù)據(jù)庫的數(shù)據(jù)完整性。同時,保留原有的訪問控制策略,保證了原數(shù)據(jù)庫的完整性。當數(shù)據(jù)庫的容量小于備份介質的容量時,無需對文檔型數(shù)據(jù)庫做任何處理,直接對數(shù)據(jù)庫整體進行復制備份即可。

針對數(shù)據(jù)庫拆分備份的數(shù)據(jù)庫還原,《規(guī)范》提出合并還原的方法:(1)在新建數(shù)據(jù)庫系統(tǒng)合并全部子數(shù)據(jù)庫數(shù)據(jù),然后將合并形成的數(shù)據(jù)庫數(shù)據(jù)還原到原數(shù)據(jù)庫系統(tǒng)。(2)在原數(shù)據(jù)庫系統(tǒng)中合并還原全部子數(shù)據(jù)庫數(shù)據(jù)。

6

檢索與統(tǒng)計分析

隨著信息技術的發(fā)展和檔案數(shù)據(jù)利用的需要,利用檢索和統(tǒng)計分析從數(shù)據(jù)庫中提取相應的記錄進行數(shù)據(jù)庫拆分和數(shù)據(jù)庫合并,《規(guī)范》提出2個資料性附錄:檢索和統(tǒng)計分析。

(1)檢索

檢索的內容包括:中文自動分詞與中文分詞詞典、索引、檢索。為提高文檔型數(shù)據(jù)庫中檔案數(shù)據(jù)的查準率和檢索速度,實現(xiàn)對中文內容的統(tǒng)計分析,應對內容數(shù)據(jù)和元數(shù)據(jù)的中文信息進行中文自動分詞,并根據(jù)不同的檔案門類編寫相應的中文分詞詞典。中文分詞詞典是詞的集合,中文自動分詞是一種基于規(guī)則和詞典并能夠自動進行分詞的方法。規(guī)則教系統(tǒng)如何讀數(shù)據(jù),詞典告訴系統(tǒng)所讀數(shù)據(jù)是不是一個單詞。在檔案數(shù)據(jù)裝入數(shù)據(jù)庫時自動調用分詞程序,在入庫的同時掃描入庫字串,將其切分成供查找和統(tǒng)計分析應用的中文單詞。

隨著《紙質檔案數(shù)字復制件光學字符識別(OCR)工作規(guī)范》的發(fā)布實施以及電子檔案管理日漸成熟,為檔案數(shù)據(jù)全文檢索奠定了基礎。全文索引是檔案數(shù)據(jù)快速檢索的有效手段。內容數(shù)據(jù)裝入數(shù)據(jù)庫時抽取的文字信息存儲在文本字段,對文本字段每個字、詞、詞莖進行全文索引。

中文詞匯中有許多同義詞,典型的例子是政府部門大多有現(xiàn)用名稱、多個曾用名稱和簡稱,如果用其中一個名稱作為檢索詞查找,會嚴重影響檔案數(shù)據(jù)的查全率;如果用全部名稱和簡稱作為檢索詞查找,需要采用邏輯“或”,即設置多個檢索條件進行檢索,這會影響檢索效率。為保障檔案數(shù)據(jù)的查全率、查準率,提高檢索質量和檢索效率,詞表檢索是強有力的手段。詞表檢索是用詞表庫中的詞及詞之間的邏輯關系對數(shù)據(jù)庫中的文字信息進行檢索。邏輯關系包括:主詞(控制詞)、同義詞、廣義詞、狹義詞和相關詞,它們既可以是中文的詞,也可以是其他語種的詞。政府部門的現(xiàn)用名、曾用名稱和簡稱屬于同義詞,如果用其中一個名稱作為檢索詞查找,會用全部同義詞進行查找。

(2)統(tǒng)計分析

檔案數(shù)據(jù)的統(tǒng)計分析對象是內容數(shù)據(jù)和元數(shù)據(jù)的文字信息,能夠按照字段類型進行統(tǒng)計分析。字符串字段統(tǒng)計分析是對整個字段內容和字段中的詞匯(包括詞、單字、數(shù)字等)分別進行統(tǒng)計分析,例如:對歸檔部門、題名、發(fā)文單位、責任者進行統(tǒng)計分析,獲得歸檔部門、題名、發(fā)文單位、責任者的數(shù)量和分布。文本字段統(tǒng)計分析是對文本字段中的詞匯進行統(tǒng)計分析,給出不同詞匯出現(xiàn)的頻度和記錄數(shù),例如:統(tǒng)計分析不同年份或不同時期國家檔案局優(yōu)秀科技成果材料中不同詞匯出現(xiàn)的頻度。

《規(guī)范》確定采用文檔型非關系型數(shù)據(jù)庫存儲和管理檔案數(shù)據(jù)的技術要求、基本功能和實施方法具有很強的技術指導性和可操作性,為檔案部門優(yōu)化檔案數(shù)據(jù)存儲、推動檔案數(shù)據(jù)科學管理提供了有力支撐。同時,《規(guī)范》填補了相關標準的空白,對順應在線政務服務的趨勢、主動對接政府數(shù)字化轉型、實現(xiàn)單套制歸檔單軌制管理目標具有重要的現(xiàn)實意義。

 

作者單位:國家檔案局科研所

文章來源:《中國檔案》2020年第7期

 


微信掃描關注我們
工作時間: 周一至周五
9:00-18:00

聯(lián)系人:劉經(jīng)理

手機:13639961077

電話:0991-2680071

郵件:xjhxyjda@163.com

长丰县| 台中县| 日喀则市| 廊坊市| 泾川县| 莱芜市| 张家口市| 洞口县| 郸城县| 漯河市| 咸宁市| 浑源县| 莱阳市| 泰顺县| 桃园市| 西畴县| 清新县| 堆龙德庆县| 晋宁县| 新乡县| 崇仁县| 克拉玛依市| 南溪县| 威海市| 封丘县| 南乐县| 腾冲县| 科技| 兴国县| 汉川市| 金华市| 和田市| 开江县| 忻城县| 扶风县| 伊宁县| 榕江县| 封开县| 资溪县| 沂水县| 嘉峪关市|