




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)導論1.日志生成目錄01概述02日志生成必要性03日志分析日志在計算機系統(tǒng)中是一個非常廣泛的概念,任何程序都有可能輸出日志:操作系統(tǒng)內(nèi)核、各種應用服務(wù)器等等。日志的內(nèi)容、規(guī)模和用途也各不相同,很難一概而論。本文討論的日志處理方法中的日志,僅指Web日志。其實并沒有精確的定義,可能包括但不限于各種前端Web服務(wù)器——apache、lighttpd、tomcat等產(chǎn)生的用戶訪問日志,以及各種Web應用程序自己輸出的日志。在Web日志中,每條日志通常代表著用戶的一次訪問行為。從日志中,我們可以得到很多有用的信息,例如訪問者的IP、訪問的時間、訪問的目標網(wǎng)頁、來源的地址以及訪問者所使用的客戶端的UserAgent信息等。如果需要更多的信息,則要用其它手段去獲?。豪缦氲玫接脩羝聊坏姆直媛剩话阈枰褂胘s代碼單獨發(fā)送請求;而如果想得到諸如用戶訪問的具體新聞標題等信息,則可能需要Web應用程序在自己的代碼里輸出。日志生成必要性毫無疑問,Web日志中包含了大量人們——主要是產(chǎn)品分析人員會感興趣的信息,最簡單的,我們可以從中獲取網(wǎng)站每類頁面的PV值(PageView,頁面訪問量)、獨立IP數(shù)(即去重之后的IP數(shù)量)等;稍微復雜一些的,可以計算得出用戶所檢索的關(guān)鍵詞排行榜、用戶停留時間最高的頁面等;更復雜的,構(gòu)建廣告點擊模型、分析用戶行為特征等等。既然這些數(shù)據(jù)是如此的有用,那么當然已經(jīng)有無數(shù)現(xiàn)成的工具可以幫助我們來分析它們,例如awstats、Webalizer,都是專門用于統(tǒng)計分析Web服務(wù)器日志的免費程序。另外還有一類產(chǎn)品,它們不分析直接日志,而是通過讓用戶在頁面中嵌入js代碼的方式來直接進行數(shù)據(jù)統(tǒng)計,或者說我們可以認為它是直接讓日志輸出到了它們的服務(wù)器。典型的代表產(chǎn)品——大名鼎鼎的GoogleAnalytics,另外還有國內(nèi)的cnzz、百度統(tǒng)計等。很多人可能會說,既然如此,我們?yōu)槭裁催€需要自己來分析日志,有必要嗎?當然有。我們的用戶(產(chǎn)品分析人員)需求是無窮盡的,上面說的這幾類工具雖然很好很強大,但顯然沒辦法滿足全部的需求。日志要求怎么進行日志分析:這并不是一個簡單的問題。即使我們把“日志”限定為Web日志,依然包含了成千上萬種可能的格式和數(shù)據(jù),而是“分析”更是難以定義,也許是簡單的統(tǒng)計值的計算,也許是復雜的數(shù)據(jù)挖掘算法。下面并不打算討論這些復雜的問題,而只是籠統(tǒng)的討論如何構(gòu)建進行日志分析工作的基礎(chǔ)。有了這些基礎(chǔ)會讓基于日志的簡單統(tǒng)計分析變得很簡單,并讓復雜的分析挖掘等變得可行。少量數(shù)據(jù)的情況:先考慮最簡單的情況,在數(shù)據(jù)規(guī)模比較小的時候,也許是幾十MB、幾百MB或者幾十GB,總之就是在單機處理尚能忍受的時候。一切都很好辦,現(xiàn)成的各種Unix/Linux工具——awk、grep、sort、join等都是日志分析的利器,如果僅僅是想知道某個頁面的PV,一個wc+grep就能搞定。如果有稍復雜的邏輯,那就使用各種腳本語言,尤其是perl,配合偉大的正則表達式,基本就可以解決所有的問題。日志分析大數(shù)據(jù)導論2.日志格式介紹目錄01日志簡介03日志舉例02日志要求04json格式日志日志(Log)
日志(Log)是系統(tǒng)在運行過程中變化的一種抽象,其內(nèi)容為指定對象的某些操作和其操作結(jié)果按時間的有序集合。文件日志(LogFile)、事件(Event)、數(shù)據(jù)庫日志(BinLog)、度量(Metric)數(shù)據(jù)都是日志的不同載體。在文件日志中,每個日志文件由一條或多條日志組成,每條日志描述了一次單獨的系統(tǒng)事件,是日志服務(wù)中處理的最小數(shù)據(jù)單元。日志簡介日志服務(wù)采用半結(jié)構(gòu)數(shù)據(jù)模式定義一條日志。該模式中包含主題(Topic)、時間(Time)、內(nèi)容(Content)、來源(Source)和標簽(Tags)五個數(shù)據(jù)域。日志要求日志服務(wù)對日志各字段的格式有不同要求,具體如下表所示:數(shù)據(jù)域含義格式主題(Topic)用戶自定義字段,用以標記一批日志。例如訪問日志可根據(jù)不同站點進行標記。包括空字符串在內(nèi)的任意字符串,長度不超過128字節(jié)。默認情況下,該字段為空字符串。時間(Time)日志中的保留字段,用以表示日志產(chǎn)生的時間,一般由日志中的時間信息直接提取生成。整型,Unix標準時間格式。單位為秒,表示從1970-1-100:00:00UTC計算起的秒數(shù)。內(nèi)容(Content)用以記錄日志的具體內(nèi)容。內(nèi)容部分由一個或多個內(nèi)容項組成,每一個內(nèi)容項為一個Key-Value對。Key為UTF-8編碼字符串,包含字母、下劃線和數(shù)字,且不以數(shù)字開頭。長度不超過128字節(jié)。不可以使用如下關(guān)鍵字:__time____source____topic____partition_time___extract_others___extract_others__Value為任意字符串,長度不超過1024*1024字節(jié)。來源(Source)日志的來源地,例如產(chǎn)生該日志機器的IP地址。任意字符串,長度不超過128字節(jié)。默認情況下該字段為空。標簽(Tags)日志的標簽,包括:用戶自定義標簽:您通過APIPutLogs寫入數(shù)據(jù)時添加的標簽。字典格式,Key和Value均為字符串類型。在控制臺查詢?nèi)罩緯r,以__tag__:為前綴展示。日志要求實際使用場景中,日志的格式多樣。為了幫助理解,以下以一條nginx原始訪問日志如何映射到日志服務(wù)日志數(shù)據(jù)模型為例說明。假設(shè)用戶nginx服務(wù)器的IP地址為17,以下為該服務(wù)器的一條原始日志:92--[01/Mar/2012:18:12:07+0800]"GET/Send?AccessKeyId=8225105404HTTP/1.1"2005"-""Mozilla/5.0(X11;Linuxi686onx86_64;rv:10.0.2)Gecko/20100101Firefox/10.0.2"日志舉例把該條原始日志映射到日志服務(wù)日志數(shù)據(jù)模型,如下:數(shù)據(jù)域內(nèi)容說明Topic“”沿用默認值,即空字符串。Time1331588527日志產(chǎn)生的精確時間,表示從1970-1-100:00:00UTC計算起的秒數(shù)。從原始日志中的時間轉(zhuǎn)換為時間戳。ContentKey-Value對日志具體內(nèi)容。Source“12.249.221.107”使用服務(wù)器IP地址作為日志源。Tags無由用戶添加或者服務(wù)端添加。日志舉例用戶可以自己決定如何提取日志原始內(nèi)容并組合成Key-Value對,例如下表:keyvalueip93methodGETstatus200length5ref_url-browserMozilla/5.0(X11;Linuxi686onx86_64;rv:10.0.2)Gecko/20100101Firefox/10.0.2日志舉例JSON(JavaScriptObjectNotation,JS對象簡譜)是一種輕量級的數(shù)據(jù)交換格式。它基于ECMAScript(歐洲計算機協(xié)會制定的js規(guī)范)的一個子集,采用完全獨立于編程語言的文本格式來存儲和表示數(shù)據(jù)。簡潔和清晰的層次結(jié)構(gòu)使得JSON成為理想的數(shù)據(jù)交換語言。易于人閱讀和編寫,同時也易于機器解析和生成,并有效地提升網(wǎng)絡(luò)傳輸效率。一段json格式的日志:{"name":"李四","sex":"女","年齡":20,"生日":"2016-01-0223:12:13"}json格式日志大數(shù)據(jù)導論3.回流用戶分析教學設(shè)計
教育培訓
信息化
微課目錄01回流用戶定義02回流用戶分析回流用戶定義01回流用戶:相當于回頭客,以前用過某物,過一段時間再次使用某物,這樣的用戶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 毛坯店面出租合同協(xié)議書
- 團隊拓展訓練合同協(xié)議書
- 水果店轉(zhuǎn)讓合同協(xié)議書
- 友誼合同協(xié)議書怎么寫的
- 美容美發(fā)商業(yè)計劃書概述
- ai教育項目計劃書
- 廣告投放合同協(xié)議書樣本
- 中國注射液用鹵化丁基橡膠塞行業(yè)市場占有率及投資前景預測分析報告
- 親子研學商業(yè)計劃書
- 菜鳥驛站合同協(xié)議書范本
- 2025年船舶駕駛員考試試卷及答案
- 2025版?zhèn)€人借款合同模板下載
- 制造部生產(chǎn)效率提升計劃
- 寵物丟失諒解協(xié)議書
- 幼兒園中班科學活動公開課《飛機本領(lǐng)大》課件
- 體育競彩考試題及答案
- 中國日用器皿行業(yè)市場前景預測及投資價值評估分析報告
- 2025年天津市西青區(qū)九年級二模數(shù)學試題(含部分答案)
- 2025年企業(yè)人力資源管理師考試真題及答案
- 2025-2030年中國玻璃容器行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 山東省濟南市2025屆高三三?;瘜W試卷(含答案)
評論
0/150
提交評論