當前網(wǎng)頁檔案信息的主要采集策略有兩種,分別是完全性采集策略和部分性采集策略。完全性收集策略是指對網(wǎng)頁的所有信息進行收集。目前,瑞典、奧地利和美國的多個網(wǎng)頁檔案保存項目采用了完全性采集策略。完全性采集策略的優(yōu)勢在于不需要人工對網(wǎng)頁內(nèi)容進行判斷和復(fù)制,而是完全由機器完成這一操作,因此其成本較低。對于小型的、資金較為缺乏的檔案管理部門,可適當?shù)剡x擇完全性收集策略,但需要注意對信息進行過濾。內(nèi)容結(jié)構(gòu)和類型較為單一的網(wǎng)站可通過設(shè)置關(guān)鍵詞對無用信息進行過濾,同時建立定期的人工審核機制。
部分性采集策略是指有選擇地對網(wǎng)頁的某個類型或者學科的內(nèi)容進行收集,因此其內(nèi)容的專業(yè)性較強,主題也十分鮮明。與完全性采集策略不同的是,部分性采集以價值判斷為基礎(chǔ),通過制定完善的采集標準限定采集的內(nèi)容,因此標準是否合理就成為部分性采集是否成功的決定性因素。對此,檔案管理部門在選擇部分性采集策略時,應(yīng)充分考慮到網(wǎng)頁檔案信息的動態(tài)變化性,對網(wǎng)頁信息實行動態(tài)監(jiān)控,并及時調(diào)整采集策略,不斷提高網(wǎng)頁采集的覆蓋率。
本文地址:http://cdrpkj.cn//article/28943.html