文件系統(tǒng)必須毀滅(十億級文檔的管理實(shí)踐)_第1頁
文件系統(tǒng)必須毀滅(十億級文檔的管理實(shí)踐)_第2頁
文件系統(tǒng)必須毀滅(十億級文檔的管理實(shí)踐)_第3頁
文件系統(tǒng)必須毀滅(十億級文檔的管理實(shí)踐)_第4頁
文件系統(tǒng)必須毀滅(十億級文檔的管理實(shí)踐)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

文件系統(tǒng)必須毀滅——十億級文檔的管理實(shí)踐目錄CONTENT目錄遠(yuǎn)古的遺跡文檔和文件

文檔的組織數(shù)量壓倒一切

我們的實(shí)踐邁向未來遠(yuǎn)古的遺跡——文件系統(tǒng)文件系統(tǒng)

在計(jì)算機(jī)系統(tǒng)中用于控制數(shù)據(jù)的存儲和獲取

文件+文件關(guān)系文件:數(shù)據(jù)的容器通常以樹形結(jié)構(gòu)組織文件關(guān)系

文件系統(tǒng)不關(guān)心文件的內(nèi)容只關(guān)心文件的文件存儲的結(jié)構(gòu)和文件的組織遠(yuǎn)古的遺跡傳統(tǒng)文件系統(tǒng)起源于單機(jī)系統(tǒng)

依托單一數(shù)據(jù)存儲媒介

文檔數(shù)據(jù)和文檔組織一體化

著重于文件的存取,而非文件的檢索查找計(jì)算機(jī)的選擇人對于“文件”有更豐富的定義人對于“文件”有更多的組織方式文件系統(tǒng)不符合人類的認(rèn)知

文檔——人心目中的“文件”文檔和文件文檔不是簡單的一份數(shù)據(jù)文檔是個(gè)虛擬的概念:包含特定內(nèi)容的實(shí)體一個(gè)文檔可以擁有多種不同的形態(tài)Office文檔:文檔本身、縮略圖、純文本...視頻:原視頻、高清、低清、縮略圖、預(yù)覽檔案掃描件:掃描件原件、OCR件對于人而言,以內(nèi)容來認(rèn)定一個(gè)“文檔”文檔不僅僅是一份內(nèi)容有大量的附加信息依附在文檔上針對文檔的批注文檔的分類文檔的保密等級創(chuàng)建時(shí)間、修改時(shí)間附加信息往往被視作文檔的一部分,即“屬性”文檔的版本文檔隨時(shí)間推移,歷次編輯產(chǎn)生不同的版本用戶希望能夠追溯、瀏覽、恢復(fù)歷史版本多人同時(shí)編輯產(chǎn)生版本沖突文檔鎖經(jīng)常失效文檔的組織現(xiàn)實(shí)中的文檔關(guān)系內(nèi)容上的分類關(guān)系電影的分類:劇情、戰(zhàn)爭、愛情、驚悚一部電影可歸入多個(gè)分類,一個(gè)分類可包含多部電影基于屬性的關(guān)系希區(qū)柯克導(dǎo)演的電影量子力學(xué)教材......現(xiàn)實(shí)中的文檔關(guān)系文檔間的關(guān)系是圖,而非樹文件系統(tǒng)的樹形結(jié)構(gòu)不足以管理文檔依從文檔天然的邏輯關(guān)系建立模型文檔訪問控制更細(xì)的權(quán)限控制粒度基于組織架構(gòu)的訪問授權(quán)基于用戶身份的訪問控制(密級)用戶操作審核數(shù)量壓倒一切海量的文檔中小規(guī)模的企業(yè)文檔量達(dá)到千萬級別大型企業(yè)可以達(dá)到億級別,甚至十億文檔還在不停地產(chǎn)生中還有大量的歷史卷宗需要電子化文件系統(tǒng)不能適用單機(jī)無法容納,必須以單機(jī)為基礎(chǔ)的文件系統(tǒng)架構(gòu),難以分布性能不足以支撐海量文檔的訪問難以隨文檔量擴(kuò)展文檔的分級存儲海量文檔存儲的經(jīng)濟(jì)性文檔歸檔冷存儲有些文檔的數(shù)據(jù)冷,但文檔不冷我們的實(shí)踐分而治之問題分解:文檔元數(shù)據(jù):組織文檔。高響應(yīng)、高密度、多關(guān)聯(lián)訪問文檔數(shù)據(jù):保存文檔內(nèi)容。大吞吐量、高可靠元數(shù)據(jù)管理+對象存儲高性能數(shù)據(jù)庫支撐元數(shù)據(jù)對象存儲支撐文檔內(nèi)容存儲文件族一個(gè)文檔包含若干文件(數(shù)據(jù)對象)每個(gè)文件包含文檔內(nèi)容的全部或一部分文件是文檔內(nèi)容的不同形態(tài)的載體文件族中有一個(gè)是“源文件”,用戶上傳的文件有一個(gè)“主文件”,指向打開文檔時(shí)的默認(rèn)文件除源文件外,其他文件由源文件轉(zhuǎn)換生成元數(shù)據(jù)的組織保留目錄-文檔的基礎(chǔ)結(jié)構(gòu)使用分類、標(biāo)簽、關(guān)鍵字等增加文檔組織維度完整的用戶組織架構(gòu)和細(xì)粒度訪問權(quán)限增強(qiáng)訪問控制高級屬性:密級、文檔生命周期......擴(kuò)展屬性:用戶自定義屬性文檔的處理對用戶所上傳的文檔進(jìn)行處理,滿足使用要求視頻轉(zhuǎn)碼文檔縮略圖生成圖片轉(zhuǎn)換文檔分類關(guān)鍵詞提取建立全文索引......邁向未來更多的文檔量對象存儲具備支撐百億級數(shù)據(jù)對象的能力管理百億級文檔的元數(shù)據(jù)充滿挑戰(zhàn)單服務(wù)器數(shù)據(jù)庫已無法承載分布式數(shù)據(jù)庫:SQL、NoSQL、NewSQL高響應(yīng)要求權(quán)限控制帶來復(fù)雜查詢支撐應(yīng)用的平臺依托文檔管理平臺建立應(yīng)用OA、郵件、業(yè)務(wù)流轉(zhuǎn)票據(jù)影像管理、檔案資料管理解決企業(yè)應(yīng)用非結(jié)構(gòu)化數(shù)據(jù)的管理問題文檔的存取、處理、分享應(yīng)用與網(wǎng)盤用戶權(quán)限一體化應(yīng)用中的文檔快速交換對文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論