




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)學(xué)模型在檔案信息開發(fā)利用中的應(yīng)用
隨著改革開放的深入和政府信息公開進(jìn)程的加快,公眾對檔案信息的需求也越來越迫切。檔案利用需求快速增長,館藏檔案數(shù)量逐年增加,檔案數(shù)字化能力弱的矛盾凸顯出來。為此,長春市檔案館承擔(dān)的國家檔案局科技項目《檔案信息資源開發(fā)利用數(shù)學(xué)模型研究》課題已完成,初步探索了用數(shù)學(xué)的方法系統(tǒng)、定量研究檔案利用需求、檔案數(shù)字化能力、數(shù)字化檔案利用之間的關(guān)系,直觀、理性地表達(dá)其內(nèi)在規(guī)律。一、引用的方法1.MonteCarlo方法該方法也稱計算機(jī)隨機(jī)模擬方法。此法源于美國在第二次世界大戰(zhàn)進(jìn)研制原子彈的“曼哈頓計劃”。近來隨著計算機(jī)技術(shù)的發(fā)展該方法已經(jīng)成為解決數(shù)學(xué)問題的重要方法。2.TOPSIS法該法是屬于多目標(biāo)決策這一數(shù)學(xué)分支中的一種重要方法。其基本原理是通過檢測評價對象與最優(yōu)解、最劣解的距離來進(jìn)行排序,若評價對象最靠近最優(yōu)解同時又最遠(yuǎn)離最劣解,則為最好;否則為最差。其中最優(yōu)解的各指標(biāo)值都達(dá)到各評價指標(biāo)的最優(yōu)值。最劣解的各指標(biāo)值都達(dá)到各評價指標(biāo)的最差值。3.MATLAB軟件該軟件和Mathematica、Maple并稱為三大數(shù)學(xué)軟件。它在數(shù)學(xué)類科技應(yīng)用軟件中在數(shù)值計算方面首屈一指。4.術(shù)語說明全宗——年代單元:將檔案按照全宗和年份來進(jìn)行分類,如此得到的類別這里稱為全宗——年代單元。全宗——年代單元編號:所有全宗——年代單元的統(tǒng)一編號。全宗——年代單元的檔案卷數(shù):該全宗——年代單元所包含的檔案總卷數(shù)。全宗——年代單元的利用卷數(shù):該全宗——年代單元所包含的檔案總的利用卷數(shù)。檔案價值權(quán)重:一個全宗檔案價值大小所占的比重。成功率:用戶訪問到已數(shù)字化檔案的概率。5.數(shù)據(jù)說明格式說明:全宗——年代單元編號對以全宗和年代進(jìn)行檔案分類的,我們特將如此的類別稱為全宗——年代單元,它也是這里的要研究數(shù)據(jù)的基本對象。這里將把全宗——年代單元排列成如下格式(其中共m個全宗,n年)。其中全宗號往下逐漸增大,年份往右逐漸減小,所有全宗——年代單元按照從左到右,從上到下的順序從1開始遞增編號(各全宗——年代單元所在空格數(shù)據(jù)即為對應(yīng)的全宗——年代單元編號)。檔案卷數(shù):檔案進(jìn)館整理完成后,每個全宗——年代單元的檔案卷數(shù)都已進(jìn)入檔案統(tǒng)計范圍。這里視為已知數(shù)據(jù),按表1格式排列的矩陣。利用卷數(shù):對每個全宗——年代單元檔案的利用卷數(shù)進(jìn)行統(tǒng)計匯總,這里視為已知數(shù)據(jù),按表1格式排列的矩陣。檔案價值權(quán)重:為了能夠區(qū)分不同全宗檔案的價值不同,這里特引入一個指標(biāo),其確定方法后文有具體說明。對這里是未知數(shù)據(jù),按表1格式排列的矩陣。掃描情況數(shù)據(jù):有每年平均投入多少資金,每年平均掃描檔案的卷數(shù)。二、準(zhǔn)備工作1.檔案利用情況數(shù)據(jù)將檔案利用數(shù)據(jù)分解成以下兩點(diǎn):一是所有檔案利用總數(shù);二是檔案利用數(shù)據(jù)在全宗——年代單元的分布。對于前者,利用線性最小二乘法,將已知的m年的擬合出直線,從而來預(yù)測未來的檔案利用總數(shù)。其中,是第i年的年份,是第i年的檔案利用總數(shù)。方法如下:第一步從下式解出對于后者,用今年的檔案利用總數(shù)在不同的全宗——年代單元的分布作為下一年的分布。因此必須做出如下假設(shè):不同檔案利用總數(shù)對其在不同全宗——年代單元的分布沒有影響。2.檔案掃描量與投入資金的數(shù)據(jù)由于地區(qū)差異,不同地方的物價等差異較大,并且從投入的資金到最后產(chǎn)生數(shù)字化的檔案信息,中間有多種因素在影響,但總體上掃描量與投入資金是正比關(guān)系,對于比例系數(shù),直接取為若干年的總掃描卷數(shù)與總投入資金的比例。三、數(shù)學(xué)模型建立選擇模型目標(biāo):在檔案數(shù)字化的過程中主要遵循的原則有:實用性原則,開放性原則,價值性原則,搶救性原則,時效性原則。然而在實踐中,公眾已成為利用檔案的主體,可見檔案信息實用性無疑是首先需要考慮的。因此本模型的目標(biāo)即是最大化訪問到已數(shù)字化檔案的成功率。指標(biāo):檔案利用數(shù)據(jù)代表了檔案的利用率,為了最大化成功率,就得以檔案利用數(shù)據(jù)為指標(biāo)。分析:由于檔案利用數(shù)據(jù)存在明顯的扎堆現(xiàn)象——“二八現(xiàn)象”,即20%全宗的利用卷數(shù)之和可能占了總數(shù)的80%,20%年份的利用卷數(shù)之和可能占了總數(shù)的80%。如果盲目或粗放式的制定數(shù)字化順序,那么產(chǎn)生“要用的檔案未數(shù)字化,已數(shù)字化的檔案卻沒有用”現(xiàn)象也就不足為怪了。通過以上分析,顯然已經(jīng)將問題歸結(jié)為如何從檔案利用數(shù)據(jù)中選出那些利用卷數(shù)占的比例比較大的全宗——年代單元。顯然最笨的蠻干法(也稱窮舉法)可以實現(xiàn)選到最優(yōu)的組合(利用卷數(shù)總和最大)。然而,僅長春市檔案館這樣中型規(guī)模的檔案館,就有428個全宗、143個年份(1866-2008)。假設(shè)選出15個全宗,15個年份的組合,則一共有種組合,顯然已經(jīng)不是普通的個人電腦所能夠計算的了。為了提高效率,我們將從如何選擇全宗與年份的組合入手,分別采取兩種不同選擇方法得到兩個模型。1.直觀選擇模型本模型主要想法是用局部最優(yōu)來體現(xiàn)整體最優(yōu),即選擇總利用卷數(shù)最高的全宗與總利用卷數(shù)最高的年份的組合。步驟如下:求出每個全宗的總利用卷數(shù)(所有年份利用卷數(shù)之和),按從大到小次序,根據(jù)實際情況選取排在前面的部分全宗。求出每個年份的總利用卷數(shù)(所有全宗利用卷數(shù)之和),按從大到小次序,根據(jù)實際情況選取排在前面的部分全宗。按照以上兩步所選的全宗與年份組合的全宗——年代單元即為應(yīng)該先數(shù)字化的全宗——年代單元。2.MonteCarlo選擇模型使用MonteCarlo方法來進(jìn)行優(yōu)化。其基本思想是每次試驗選取一種全宗與年份組合并求出該組合總的利用卷數(shù),從大量的試驗中找出總卷數(shù)最大的組合。由于涉及組合問題,所有的情況太多,所需進(jìn)行的試驗的卷數(shù)必須非常非常大才能夠得到較理想的結(jié)果。在長春市檔案館的計算中,在不加改進(jìn)的情況下進(jìn)行試驗,發(fā)現(xiàn)即使進(jìn)行1億次試驗,所得到的結(jié)果也不如直觀選擇模型來得好。這里主要的思想是減少組合的數(shù)量,考慮到利用卷數(shù)是典型的稀疏矩陣,其中有很多全宗和年份其實是可以先被排除的,結(jié)合直觀選擇模型的方法,我們采用的方法是,先將利用卷數(shù)矩陣按照“行和”與“列和”大小從大到小進(jìn)行排列,根據(jù)實際情況選擇排在前面所占比例比較大的行和列,然后再利用下面的流程進(jìn)行計算。符號定義STEP:最大迭代次數(shù),i:當(dāng)前迭代次數(shù),S:當(dāng)前組合對應(yīng)的全宗——年代單元的利用卷數(shù)之和,m:隨機(jī)產(chǎn)生的全宗向量,n:隨機(jī)產(chǎn)生的年份向量MAX:最優(yōu)組合全宗——年代單元的利用卷數(shù)之和OPTm:最優(yōu)組合所對應(yīng)的全宗OPTn:最優(yōu)組合所對應(yīng)的年份。流程圖在具體應(yīng)用時只要根據(jù)該流程圖,即可編寫程序進(jìn)行求解。在后面的具體應(yīng)用中使用的是Matlab數(shù)學(xué)軟件進(jìn)行求解。3.TOPSIS模型目標(biāo):考慮到[2]提出的五個原則,以及具體的量化難易程度,本模型的目標(biāo)是最優(yōu)化檔案的實用性與價值性。指標(biāo):具體將考慮每個全宗——年代單元的三個指標(biāo):利用卷數(shù),檔案卷數(shù),檔案價值。檔案價值權(quán)重量化:由于是以全宗——年代單元為研究對象的,全宗的價值主要由檔案形成機(jī)構(gòu)的性質(zhì)、職能、作用、年代久遠(yuǎn)、稀缺程度等多種因素來決定的。其分類原則如下:一是考慮各種因素,把檔案價值權(quán)重分五個檔次;二是現(xiàn)行檔案主要考慮職能與來源因素,歷史檔案則考慮年代和來源因素。TOPSIS法排序符號定義Y:決策矩陣,Z:規(guī)范化決策矩陣,w:不同屬性的權(quán)重,X:加權(quán)規(guī)范陣E:綜合評價指數(shù)(優(yōu)先權(quán))。對于每個全宗——年代單元有三個數(shù)據(jù)指標(biāo):利用卷數(shù),檔案卷數(shù),檔案價值。使用決策論中的TOPSIS(逼近理想解的排序方法)法給每個全宗——年代單元計算綜合評價指數(shù)(即優(yōu)先權(quán)),同時也就給了它們的排序。決策矩陣按照數(shù)據(jù)說明中給出的全宗——年代單元編號,有如下表形式的決策矩陣。步驟六,按照的值由大到小排列數(shù)字化優(yōu)先順序。4.仿真分析利用仿真技術(shù),分別模擬長春市檔案館按照三個模型的檔案數(shù)字化順序,2009-2010兩年內(nèi)的,具體到每一天的成功率的變化情況。主要方法是利用產(chǎn)生服從一定概率分布的隨機(jī)數(shù),來模擬真實的隨機(jī)事件。(1)模塊分析數(shù)據(jù)輸入:檔案卷數(shù)矩陣?yán)镁頂?shù)矩陣全宗——年代單元的排序(對于選擇模型以選到的全宗——年代單元的先后次序排列,第三個模型用TOPSIS法產(chǎn)生的次序)每天平均數(shù)字化檔案卷數(shù):數(shù)據(jù)輸出:每天訪問到已數(shù)字化的全宗——年代單元的成功率。(2)符號定義a:檔案卷數(shù)矩陣,b:利用卷數(shù)矩陣,F(xiàn):全宗——年代單元的排序Arr_daily:每天平均用戶數(shù)量,D_num:每天平均數(shù)字化檔案卷數(shù),k:當(dāng)前天數(shù),Time:仿真的時間(天),Sum:b的利用卷數(shù)之和,Digit(i,j):已數(shù)字化的檔案卷數(shù),UDigit(i,j):未數(shù)字化的檔案卷數(shù),Succ(k):每天訪問到已數(shù)字化檔案卷數(shù)之和,NSucc(k):每天訪問到未數(shù)字化檔案卷數(shù)之和,Q(k):每天已數(shù)字化檔案的成功率。(3)仿真取值取每天用戶數(shù)量的平均值均為Arr_daily。取每天數(shù)字化檔案卷數(shù)的平均值均為D_num。只計算每天利用數(shù)字化檔案接待用戶的數(shù),即先完成數(shù)字化,再接待用戶的“常用先掃”的范圍,不考慮檔案未數(shù)字化“現(xiàn)用現(xiàn)掃”的情況。5.主要步驟初始化:a,b,F(xiàn),Arr_daily,D_num等。按照TOPSIS法產(chǎn)生的全宗——年代單元順序選擇全宗——年代單元。完成數(shù)字化檔案工作,并記錄Digit與UDigit。產(chǎn)生隨機(jī)顧客。確定所需的全宗——年代單元。確定該檔案是否已數(shù)字化。計算Succ,NSucc及Q。6.流程圖(見圖2)流程圖2四、理論應(yīng)用1.模型應(yīng)用step1準(zhǔn)備相關(guān)數(shù)據(jù)統(tǒng)計最近幾年的檔案利用總數(shù),得到擬合直線從而預(yù)測幾年內(nèi)的檔案利用總數(shù)變化。統(tǒng)計近幾年的檔案數(shù)字化卷數(shù)以及投入資金,從而按2.2可得投入資金與數(shù)字化卷數(shù)的關(guān)系。統(tǒng)計館藏檔案,并按照全宗——年代格式轉(zhuǎn)換成檔案卷數(shù)矩陣。統(tǒng)計最近一年檔案利用卷數(shù),并按照全宗——年代格式轉(zhuǎn)換成檔案卷數(shù)矩陣。按照不同全宗重要性及其他因素,統(tǒng)計檔案價值,并按照全宗——年代格式轉(zhuǎn)換成檔案價值矩陣。step2代入模型按照理論部分內(nèi)容,利用MATLAB編程,帶入相應(yīng)數(shù)據(jù),即可得三個模型的相應(yīng)結(jié)果。2.仿真分析應(yīng)用按照仿真分析要求,輸入數(shù)據(jù):檔案卷數(shù)矩陣,利用卷數(shù)矩陣,全宗——年代單元的排序以及每天平均數(shù)字化檔案卷數(shù)。按照流程,利用MATLAB編程,帶入相應(yīng)數(shù)據(jù),即可預(yù)測三個模型的數(shù)字化方案所帶來的成功率變換。3.應(yīng)用推廣這里具有很強(qiáng)很廣的應(yīng)用性,對于不同的需求可以使用不同的模型來滿足。對操作的簡易性要求比較高的用戶,這里建議采用直觀選擇模型,該模型簡單實用,僅需簡單操作即可實現(xiàn)較好的結(jié)果。所需數(shù)據(jù):利用卷數(shù)矩陣方法:按照上文直觀選擇模型的兩個步驟操作。對于要求從本質(zhì)上理解并提高數(shù)字化效率的用戶,這里建議采用TOPSIS模型,該模型稍微復(fù)雜,但是效果非常良好。所需數(shù)據(jù):利用卷數(shù)矩陣,檔案卷數(shù)矩陣,檔案價值矩陣,數(shù)字化能力。方法:按照上文TOPSIS模型的六個步驟操作。五、課題研究啟示檔案利用統(tǒng)計及需求分析是檔案數(shù)字化精細(xì)管理的基礎(chǔ)。2004年長春市檔案手工匯總了2001-2003年檔案利用數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 代加工訂單合同范本
- 井道整改合同范本
- 商業(yè)培訓(xùn)機(jī)構(gòu)合同范本
- 酒精戒斷護(hù)理措施課件
- 卷煙采購合同范本
- 商業(yè)訂金合同范本
- 醫(yī)療生意合伙協(xié)議合同范本
- 全款分期購房合同范例
- 合同范本開店合作
- 公司變賣解散合同范本
- 2025年內(nèi)蒙古巴彥淖爾市交通投資集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年無錫科技職業(yè)學(xué)院高職單招高職單招英語2016-2024歷年頻考點(diǎn)試題含答案解析
- 《復(fù)式條形統(tǒng)計圖》(說課稿)-2023-2024學(xué)年四年級下冊數(shù)學(xué)人教版
- 微量注射泵培訓(xùn)
- 2025年紹興市上虞大眾勞動事務(wù)代理(所)有限公司招聘筆試參考題庫附帶答案詳解
- 酒店會議接待服務(wù)方案
- 2025年山東商務(wù)職業(yè)學(xué)院高職單招高職單招英語2016-2024年參考題庫含答案解析
- 人工智能在企業(yè)人力資源招聘中的運(yùn)用研究
- 2025年度能源行業(yè)員工聘用合同范本
- 2023年2024年演出經(jīng)紀(jì)人之演出經(jīng)紀(jì)實務(wù)考試題庫附答案(達(dá)標(biāo)題)
- DG-T 076-2024 采茶機(jī)標(biāo)準(zhǔn)規(guī)范
評論
0/150
提交評論