檔案數(shù)字化是指“利用數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)壓縮技術(shù)、高速掃描技術(shù)等技術(shù)手段,將紙質(zhì)文件、聲像文件等傳統(tǒng)介質(zhì)的文件和已歸檔保存的電子檔案,系統(tǒng)組織成具有有序結(jié)構(gòu)的檔案信息庫(kù)?!睓n案的數(shù)字化可以節(jié)省檔案存貯空間,緩解庫(kù)房壓力,也可以減少因?qū)n案原件頻繁使用而造成的磨損,妥善解決珍貴檔案文獻(xiàn)的利用問(wèn)題,有利于保護(hù)檔案原件,尤其是珍貴檔案的保存。目前,數(shù)字化在檔案事業(yè)中發(fā)揮著重要的作用,已成為檔案工作發(fā)展的必然趨勢(shì)。
檔案數(shù)字化與掃描技術(shù)
檔案數(shù)字化實(shí)現(xiàn)文本的輸入,主要是采用掃描方式將紙質(zhì)的文件與檔案轉(zhuǎn)換為數(shù)字化的形式。掃描加工是通過(guò)中高速掃描儀和專(zhuān)用掃描軟件將整理和分檢好的檔案資料批量轉(zhuǎn)化成圖像文件,并自動(dòng)實(shí)現(xiàn)圖像壓縮存儲(chǔ)的過(guò)程。
(一)國(guó)家規(guī)范中的有關(guān)標(biāo)準(zhǔn)
檔案數(shù)字化標(biāo)準(zhǔn)除《電子文件歸檔與管理規(guī)范》外,就是《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》。這一技術(shù)規(guī)范指出,“掃描應(yīng)該根據(jù)檔案幅面的大小選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀【檔案掃描儀】進(jìn)行掃描。大幅面檔案可采用大幅面數(shù)碼平臺(tái),或者縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設(shè)備等進(jìn)行掃描,也可以采用小幅面掃描后的圖像拼接方式處理?!绷硗猓凹垙垹顩r較差,以及過(guò)薄、過(guò)軟或超厚的檔案,應(yīng)采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率?!?/p>
掃描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具體又細(xì)分為三種:“頁(yè)面為黑白兩色,并且字跡清晰、不帶插圖的檔案,可采用黑白二值模式進(jìn)行掃描。頁(yè)面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁(yè)面為多色文字的檔案,可采用灰度模式掃描。頁(yè)面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進(jìn)行掃描?!?/p>
掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準(zhǔn)。因?yàn)楦叻直媛嗜菀资刮募獾綇?fù)制,基于此,國(guó)家規(guī)范中規(guī)定采用黑白二值、灰度、彩色幾種模式對(duì)檔案進(jìn)行掃描時(shí),其分辨率一般均選擇≥100dpi。如遇到文字偏小、密集、清晰度較差等特殊狀況,則可以適當(dāng)提高分辨率。而需要進(jìn)行OCR漢字識(shí)別的檔案,掃描分辨率一般建議選擇≥200dpi。
(二)實(shí)際操作中的做法
實(shí)際工作中,檔案部門(mén)根據(jù)檔案本身不同情況,一般都采用各類(lèi)掃描儀進(jìn)行掃描,數(shù)碼相機(jī)則較少使用。另外,實(shí)際掃描中受檔案狀況或掃描設(shè)備所限,也存有一些暫時(shí)無(wú)法進(jìn)行數(shù)字化轉(zhuǎn)換的檔案,如紙張過(guò)于破損、發(fā)脆,或者某些尺寸過(guò)大的圖紙等。而這些只能等待設(shè)備或者技術(shù)的更進(jìn)后才可以解決。
色彩模式的選擇是依據(jù)現(xiàn)有的設(shè)備以及檔案本身狀況而定的,可以遵守循序漸進(jìn)的原則。比如檔案館在進(jìn)行紙質(zhì)檔案數(shù)字化時(shí),一期以黑白掃描為主,二期對(duì)紅頭文件及其他帶有紅章的文件進(jìn)行彩色掃描,三期則全部進(jìn)行彩色掃描。無(wú)疑,彩色掃描的層次更加豐富,清晰度更高,可以更真實(shí)地顯示檔案原貌。
分辨率的選擇與設(shè)備關(guān)系很大,在不同地區(qū)、不同部門(mén)也有所差別。如檔案館在紙質(zhì)檔案數(shù)字化的一期工程中,就將掃描分辨率定為300dpi,檔案館的數(shù)字化掃描分辨率一般在200~300dpi左右,有的高達(dá)600dpi;而在一些設(shè)備相對(duì)比較落后的部門(mén)與地區(qū),其掃描分辨率大都是按照國(guó)家規(guī)范來(lái)設(shè)定的,甚至于很多部門(mén)還達(dá)不到200dpi。分辨率越高,掃描后的圖像就越清晰,但同時(shí)必須考慮到圖像文件的大小。