



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2.1再給三個(gè)用于數(shù)據(jù)散布的常用特征度量〔即未在本章討論的〕,并討論如何在大型數(shù)據(jù)庫(kù)中有效的計(jì)算它們答:異眾比率:又稱離異比率或變差比。是非眾數(shù)組的頻數(shù)占總頻數(shù)的比率應(yīng)用:用于衡量眾數(shù)的代表性。主要用于測(cè)度定類數(shù)據(jù)的離散程度,定序數(shù)據(jù)及數(shù)值型數(shù)據(jù)也可以計(jì)算。還可以對(duì)不同總體或樣本的離散程度進(jìn)行比擬計(jì)算:標(biāo)準(zhǔn)分?jǐn)?shù):標(biāo)準(zhǔn)分?jǐn)?shù)〔standardscore〕也叫z分?jǐn)?shù)〔z-score〕,是一個(gè)分?jǐn)?shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過(guò)程。用公式表示為:z=(x-μ)/σ。其中x為某一具體分?jǐn)?shù),μ為平均數(shù),σ為標(biāo)準(zhǔn)差。Z值的量代表著原始分?jǐn)?shù)和母體平均值之間的距離,是以標(biāo)準(zhǔn)差為單位計(jì)算。在原始分?jǐn)?shù)低于平均值時(shí)Z那么為負(fù)數(shù),反之那么為正數(shù)。計(jì)算:Z=〔x-μ)/σ其中μ=E(X)為平均值、σ²=Var(X)X的概率分布之方差假設(shè)隨機(jī)變量無(wú)法確定時(shí),那么為算術(shù)平均數(shù)離散系數(shù):離散系數(shù),又稱“變異系數(shù)”,是概率分布離散程度的一個(gè)歸一化量度,其定義為標(biāo)準(zhǔn)差與平均值之比。計(jì)算:CV=σ/μ極差〔全距〕系數(shù):Vr=R/X’;平均差系數(shù):Va,d=A.D/X’;方差系數(shù):V方差=方差/X’;標(biāo)準(zhǔn)差系數(shù):V標(biāo)準(zhǔn)差=標(biāo)準(zhǔn)差/X’;其中,X’表示X的平均數(shù)。平均差:平均差是總體所有單位的平均值與其算術(shù)平均數(shù)的離差絕對(duì)值的算術(shù)平均數(shù)。
平均差是一種平均離差。離差是總體各單位的標(biāo)志值與算術(shù)平均數(shù)之差。因離差和為零,離差的平均數(shù)不能將離差和除以離差的個(gè)數(shù)求得,而必須講離差取絕對(duì)數(shù)來(lái)消除正負(fù)號(hào)。
平均差是反響各標(biāo)志值與算術(shù)平均數(shù)之間的平均差異。平均差異大,說(shuō)明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越大,該算術(shù)平均數(shù)的代表性就越小;平均差越小,說(shuō)明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越小,該算術(shù)平均數(shù)的代表性就越大。計(jì)算:平均差=(∑|x-x'|)÷n,其中∑為總計(jì)的符號(hào),x為變量,x'為算術(shù)平均數(shù),n為變量值的個(gè)數(shù)。2.2假設(shè)所分析的的數(shù)據(jù)包括屬性age,它在數(shù)據(jù)元組中的值〔以遞增序〕為13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.a.平均值29.963中位數(shù)是25b.眾數(shù)是25及35數(shù)據(jù)的模態(tài)是二模c.最大數(shù)和最小數(shù)的均值=(70+13)/2=41.5d.第一個(gè)四分位數(shù)在(N+1)/4=〔27+1〕/4=7處:Q1=20。而第三個(gè)四分位數(shù)在3×(N+1)/4=21處:Q3=35e.最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值是:13、20、25、35、70。f.箱線圖為g.分位數(shù)圖是一種用來(lái)展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值〔縱軸〕相對(duì)于它們的分位數(shù)〔橫軸〕被描繪出來(lái)。但分位數(shù)—分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線〔y=x〕可畫到圖中+以增加圖像的信息。落在該線以上的點(diǎn)表示在y軸上顯示的值的分布比x軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值的分布高。反之,對(duì)落在該線以下的點(diǎn)那么低。2.4C.Q-Q圖為散點(diǎn)圖為2.5.簡(jiǎn)要概述如何計(jì)算被如下屬性描述的相異性a.標(biāo)稱屬性兩個(gè)對(duì)象i和j之間的相異性可以根據(jù)不匹配率來(lái)計(jì)算:其中,m是匹配的數(shù)目〔即i和j取值相同狀態(tài)的屬性數(shù)〕,而p是刻畫對(duì)象的屬性總數(shù)。我們可以通過(guò)賦予m較大的權(quán)重,或者賦給有較多狀態(tài)的屬性的匹配更大的權(quán)重來(lái)增加m的影響。b.非對(duì)稱的二元屬性給定兩個(gè)非對(duì)稱的二元屬性,兩個(gè)都取值1的情況〔正匹配〕被認(rèn)為比兩個(gè)都取值0的情況〔負(fù)匹配〕更有意義。因此,這樣的二元屬性經(jīng)常被認(rèn)為是“一元的”〔只有一種狀態(tài)〕?;谶@種屬性的相異性被稱為非對(duì)稱的二元相異性,其中負(fù)匹配數(shù)t被認(rèn)為是不重要的,因此在計(jì)算時(shí)被忽略c.數(shù)值屬性最流行的距離度量是歐幾里得距離〔即,直線或“烏鴉飛行”距離〕。令i=〔xi1,xi2,…,xip〕和j=〔xj1,xj2,…,xjp〕是兩個(gè)被p個(gè)數(shù)值屬性描述的對(duì)象。對(duì)象i和j之間的歐幾里得距離定義為:另一個(gè)著名的度量方法是曼哈頓〔或城市塊〕距離,之所以如此命名,是因?yàn)樗浅鞘袃牲c(diǎn)之間的街區(qū)距離〔如,向南2個(gè)街區(qū),橫過(guò)3個(gè)街區(qū),共計(jì)5個(gè)街區(qū)〕。其定義如下:d.詞頻屬性在一份給定的文件里,詞頻〔termfrequency,TF〕指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。這個(gè)數(shù)字通常會(huì)被正規(guī)化,以防止它偏向長(zhǎng)的文件?!餐粋€(gè)詞語(yǔ)在長(zhǎng)文件里可能會(huì)比短文件有更高的詞頻,而不管該詞語(yǔ)重要與否。〕對(duì)于在某一特定文件里的詞語(yǔ)ti來(lái)說(shuō),它的重要性可表示為:以上式子中ni,j是該詞在文件dj中的出現(xiàn)次數(shù),而分母那么是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。2.6a.歐幾里得距離為45^0.5b.哈曼噸距離為11c.閔可夫斯基距離為233^1/3d.上確定界距離為62.8a.利用公式,得到以下的距離為歐幾里得距離0.140.670.280.220.61余弦相似性距離0.99990.99570.99990.99900.9653基于歐幾里得距離距離,排名順序是x1,x4;x3,x5,x2?;谟嘞蚁嗨贫鹊狞c(diǎn)排位是x1,x3,x4,x2,x5。b.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CPMA 033-2023成人慢性病行為危險(xiǎn)因素監(jiān)測(cè)基本數(shù)據(jù)集標(biāo)準(zhǔn)
- T/CNIDA 014-2023核電建設(shè)項(xiàng)目監(jiān)理人員配置標(biāo)準(zhǔn)
- T/CMRA 06-2019鋁框塑料模板
- T/CMA HG029-2021輪胎雪地抓著性能測(cè)試道路制作及道路驗(yàn)收和維護(hù)
- T/CIQA 2-2019檢驗(yàn)鑒定從業(yè)人員行為規(guī)范
- T/CIES 016-2018電視演播室燈光系統(tǒng)運(yùn)行維護(hù)標(biāo)準(zhǔn)
- T/CI 243-2023高層裝配式鋼結(jié)構(gòu)建筑施工技術(shù)規(guī)程
- T/CHIA 28.1-2022兒童營(yíng)養(yǎng)與健康評(píng)價(jià)指標(biāo)第1部分:0~23月齡
- T/CGAS 025-2023城鎮(zhèn)燃?xì)庀到y(tǒng)智能化評(píng)價(jià)規(guī)范
- T/CECS 10127-2021燃?xì)馊紵骶哂蔑L(fēng)機(jī)
- 2025-2030年中國(guó)威士忌酒行業(yè)運(yùn)行動(dòng)態(tài)及前景趨勢(shì)預(yù)測(cè)報(bào)告
- 小學(xué)生記憶小竅門課件
- 婚姻家庭與法律知到智慧樹章節(jié)測(cè)試課后答案2024年秋延邊大學(xué)
- 《傷寒論》課件-少陽(yáng)病提綱、小柴胡湯證
- 高速鐵路客運(yùn)服務(wù)基礎(chǔ)知識(shí)單選題100道及答案
- 2024商鋪?zhàn)赓U合同解除補(bǔ)償承諾書11篇
- 科室病歷質(zhì)量管理培訓(xùn)記錄
- 新興行業(yè)審計(jì)風(fēng)險(xiǎn)分析-洞察分析
- 體育行業(yè)在線體育服務(wù)平臺(tái)建設(shè)方案
- 玩具無(wú)人機(jī)產(chǎn)業(yè)深度調(diào)研及未來(lái)發(fā)展現(xiàn)狀趨勢(shì)
- DB43-T 3080.10-2024 湖南省立木材積、生物量及碳系數(shù)計(jì)量監(jiān)測(cè)系列模型 第10部分:林木和林分生長(zhǎng)率模型
評(píng)論
0/150
提交評(píng)論