版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一、選擇題(本題共5道小題,每小題2分,共10分)數(shù)據(jù)倉(cāng)庫(kù)是隨著時(shí)間變化的,下面的描述不正確的是(C)。數(shù)據(jù)倉(cāng)庫(kù)隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容捕捉到的新數(shù)據(jù)會(huì)覆蓋原來(lái)的快照數(shù)據(jù)倉(cāng)庫(kù)隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容數(shù)據(jù)倉(cāng)庫(kù)中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)特點(diǎn),不正確的描述是(B)。數(shù)據(jù)倉(cāng)庫(kù)使用的需求在開發(fā)初期就要明確數(shù)據(jù)倉(cāng)庫(kù)開發(fā)要從數(shù)據(jù)出發(fā)數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)是一個(gè)不斷循環(huán)的過(guò)程,是啟發(fā)式的開發(fā)在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式在有關(guān)數(shù)據(jù)倉(cāng)庫(kù)測(cè)試,下列說(shuō)法不正確的是(D)
2、。在完成數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中,需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種測(cè)試。測(cè)試工作中要包括單元測(cè)試和系統(tǒng)測(cè)試。當(dāng)數(shù)據(jù)倉(cāng)庫(kù)的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測(cè)試。系統(tǒng)的集成測(cè)試需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)的所有組件進(jìn)行大量的功能測(cè)試和回歸測(cè)試。在測(cè)試之前沒必要制定詳細(xì)的測(cè)試計(jì)劃。關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指(D)?;驹獢?shù)據(jù)與數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息下面關(guān)于數(shù)據(jù)粒度的描述不正確的是(C)。粒度是指數(shù)據(jù)倉(cāng)庫(kù)小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別數(shù)據(jù)越詳細(xì)
3、,粒度就越小,級(jí)別也就越高數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高粒度的具體劃分將直接影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量以及查詢質(zhì)量6.關(guān)于OLAP的特性,下面正確的是:(D)(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性A.(1)(2)(3)B.(2)(3)(4)C.(1)(2)(3)(4)D.(1)(2)(3)(4)(5)關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是:(C)OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用程序不同。與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù).OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.OLAP是以數(shù)據(jù)倉(cāng)
4、庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的。關(guān)于OLAP和OLTP的說(shuō)法,下列不正確的是:(A)OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高OLAP的最終數(shù)據(jù)來(lái)源與OLTP不一樣OLTP面對(duì)的是決策人員和高層管理人員OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的OLAP技術(shù)的核心是(D)。在線性對(duì)用戶的快速響應(yīng)互操作性多維分析10某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?(A)關(guān)聯(lián)規(guī)則B.聚類C.分類D.自然語(yǔ)言處理分析型CRM的(C)功能可以讓CRM對(duì)所進(jìn)行的銷售活動(dòng)相關(guān)信息進(jìn)行存儲(chǔ)和管理,將客戶所發(fā)生的交易
5、與互動(dòng)事件轉(zhuǎn)化為有意義、高獲利的銷售商機(jī)。促銷管理B.個(gè)性化和標(biāo)準(zhǔn)化C.客戶分析和建模D.客戶溝通運(yùn)用關(guān)鍵績(jī)效指標(biāo)法設(shè)計(jì)組織關(guān)鍵績(jī)效指標(biāo)依次經(jīng)過(guò)以下幾個(gè)步驟(A)。確定關(guān)鍵成功領(lǐng)域、確定關(guān)鍵績(jī)效要素、確定關(guān)鍵績(jī)效指標(biāo)計(jì)劃目標(biāo)、實(shí)施目標(biāo)、評(píng)價(jià)結(jié)果、反饋確定目標(biāo)、比較目標(biāo)、收集分析數(shù)據(jù)、系統(tǒng)學(xué)習(xí)與改進(jìn)、評(píng)價(jià)和提高確定長(zhǎng)期整體目標(biāo)、確定短期目標(biāo)13什么是KDD?(A)知識(shí)發(fā)現(xiàn)B.領(lǐng)域知識(shí)發(fā)現(xiàn)C.文檔知識(shí)發(fā)現(xiàn)D.動(dòng)態(tài)知識(shí)發(fā)現(xiàn)呼叫中心是一種基于(D)的一種新的綜合信息服務(wù)系統(tǒng)。AIT技術(shù)BCTI技術(shù)CWEB技術(shù)DCRM技術(shù)將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?(C)頻繁模式
6、挖掘B.分類和預(yù)測(cè)C.數(shù)據(jù)預(yù)處理D.數(shù)據(jù)流挖掘當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?(B)A.分類B.聚類C.關(guān)聯(lián)分析D.隱馬爾可夫鏈?zhǔn)褂媒换ナ降暮涂梢暬募夹g(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測(cè)建模D.尋找模式和規(guī)則為數(shù)據(jù)的總體分布建模,把多維空間劃分成組等問(wèn)題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測(cè)建模D.尋找模式和規(guī)則建立一個(gè)模型,通過(guò)這個(gè)模型根據(jù)已知的變量值來(lái)預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(C)根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測(cè)建模D.尋找模式和規(guī)
7、則用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?(A)A.根據(jù)內(nèi)容檢索B.建模描述C.預(yù)測(cè)建模D.尋找模式和規(guī)則下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)A.變量代換B.離散化C.聚集D.估計(jì)遺漏值下面哪個(gè)不屬于數(shù)據(jù)的屬性類型(D)。A.標(biāo)稱B.序數(shù)C.區(qū)間D.相異在上題中,屬于定量的屬性類型是(C)。A.標(biāo)稱B.序數(shù)C.區(qū)間D.相異只有非零值才重要的二元屬性被稱作(C)。A.計(jì)數(shù)屬性B.離散屬性C.非對(duì)稱的二元屬性D.對(duì)稱屬性以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法(D)。A.嵌入B.過(guò)濾C.包裝D.抽樣下面不屬于創(chuàng)建新屬性的相關(guān)方法的是(C)。A.特征提取B.特征
8、修改C.映射數(shù)據(jù)到新的空間D.特征構(gòu)造下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法?(A)A.傅立葉變換B.特征加權(quán)C.漸進(jìn)抽樣D.維歸約企業(yè)所建立的預(yù)測(cè)模型的好壞取決于模型在(A)上的表現(xiàn)效果。A.線段長(zhǎng)度B.線段斜率C.相對(duì)應(yīng)的線段長(zhǎng)度D.相對(duì)應(yīng)的A.得分集訓(xùn)練集測(cè)試集D.評(píng)價(jià)集客戶在經(jīng)濟(jì)活動(dòng)中具有多重身份,下面哪一種不是其身份之一(C)。A.行為身份B.所有權(quán)身份C.學(xué)習(xí)身份D.決策身份下列四條描述中,正確的一條是(B)。A.企業(yè)實(shí)施數(shù)據(jù)挖掘,必須要有數(shù)據(jù)倉(cāng)庫(kù)。企業(yè)要實(shí)施數(shù)據(jù)挖掘最好的方式是請(qǐng)編外專家。企業(yè)購(gòu)買現(xiàn)成數(shù)據(jù)挖掘模型的一個(gè)先決條件是:該企業(yè)的產(chǎn)品、客戶、市場(chǎng)定位和所買來(lái)的現(xiàn)成模型設(shè)計(jì)之
9、初的假設(shè)相吻合。在建模的時(shí)侯,增益最高的模型就是最好的模型。數(shù)據(jù)挖掘算法以(D)形式來(lái)組織數(shù)據(jù)。A.行B.列C.記錄D.表格企業(yè)要建立預(yù)測(cè)模型,需準(zhǔn)備建模數(shù)據(jù)集,以下四條描述建模數(shù)據(jù)集正確的是(B)。A.數(shù)據(jù)越多越好。盡可能多的適合的數(shù)據(jù)。得分集數(shù)據(jù)是建模集數(shù)據(jù)的一部分。以上三條都正確。K均值類別偵測(cè)要求輸入的數(shù)據(jù)類型必須是(B)。A.整型B.數(shù)值型C.字符型D.邏輯型在決策樹和累計(jì)增益圖的關(guān)系轉(zhuǎn)化過(guò)程圖中,決策樹上某一頁(yè)節(jié)點(diǎn)的增益與累計(jì)增益圖上的(D)相對(duì)應(yīng)。A.DBSCANB.C4.5C.K-MeanD.EM線段斜率企業(yè)為提升每個(gè)客戶的價(jià)值,應(yīng)實(shí)現(xiàn)(C)最優(yōu)化。A.促銷活動(dòng)B.預(yù)算最優(yōu)化C
10、.客戶最優(yōu)化D.三者都不是數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗(yàn)”最主要是應(yīng)用了(C)數(shù)據(jù)挖掘方法。A.分類B.預(yù)測(cè)C.組合或關(guān)聯(lián)法則D.聚類企業(yè)成功實(shí)施數(shù)據(jù)挖掘,需要以下(B)知識(shí)或技術(shù)。A.預(yù)先的規(guī)劃B.對(duì)商業(yè)文體的理解C.綜合商業(yè)知識(shí)和技能D.都需要下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù)(B)。A.等高線圖B.餅圖C.曲面圖D.矢量場(chǎng)圖在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是(D)。A.有放回的簡(jiǎn)單隨機(jī)抽樣B.無(wú)放回的簡(jiǎn)單隨機(jī)抽樣C.分層抽樣D.漸進(jìn)抽樣設(shè)X=1,2,3是頻繁項(xiàng)集,則可由X產(chǎn)生(C)個(gè)關(guān)聯(lián)規(guī)則。A.4B.5C.6D.7概念分層圖是(B)圖。A.無(wú)向
11、無(wú)環(huán)B.有向無(wú)環(huán)C.有向有環(huán)D.無(wú)向有環(huán)以下哪些算法是分類算法(B)。以下哪些分類方法可以較好地避免樣本的不平衡問(wèn)題(A)。A.統(tǒng)計(jì)方法B.鄰近度C.密度D.聚類技術(shù)A.KNNB.SVMC.BayesD.神經(jīng)網(wǎng)絡(luò)以下關(guān)于人工神經(jīng)網(wǎng)絡(luò)(ANN)的描述錯(cuò)誤的有(A)。神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常魯棒可以處理冗余特征訓(xùn)練ANN是一個(gè)很耗時(shí)的過(guò)程至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)通過(guò)聚集多個(gè)分類器的預(yù)測(cè)來(lái)提高分類準(zhǔn)確率的技術(shù)稱為(A)。A.組合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)簡(jiǎn)單地將數(shù)據(jù)對(duì)象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對(duì)
12、象恰在一個(gè)子集中,這種聚類類型稱作(B)。A.層次聚類B.劃分聚類C.非互斥聚類D.模糊聚類在基本K均值算法里,當(dāng)鄰近度函數(shù)采用(A)的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。A.曼哈頓距離B.平方歐幾里德距離C.余弦距離D.Bregman散度(C)是一個(gè)觀測(cè)值,它與其他觀測(cè)值的差別如此之大,以至于懷疑它是由不同的機(jī)制產(chǎn)生的。A.邊界點(diǎn)B.質(zhì)心C.離群點(diǎn)D.核心點(diǎn)檢測(cè)一元正態(tài)分布中的離群點(diǎn),屬于異常檢測(cè)中的基于(A)的離群點(diǎn)檢測(cè)。DBSCAN在最壞情況下的時(shí)間復(fù)雜度是(B)。A.O(m)B.O(m2)C.O(logm)D.O(m*logm)關(guān)于K均值和DBSCAN的比較,以下說(shuō)法不正確的是(A)。
13、A.K均值丟棄被它識(shí)別為噪聲的對(duì)象,而DBSCAN一般聚類所有對(duì)象。K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。K均值可以發(fā)現(xiàn)不是明顯分離的簇,即便簇有重疊也可以發(fā)現(xiàn),但是DBSCAN會(huì)合并有重疊的簇。使用交互式的和可視化的技術(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(A)A.探索性數(shù)據(jù)分析B.建模描述C.預(yù)測(cè)建模D.尋找模式和規(guī)則下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?(D)A變量代換B離散化C聚集D估計(jì)遺漏值二、判斷題(本題共10道小題,每小題1分,共10分)(T)1商務(wù)智能指收集、轉(zhuǎn)換、分析
14、和發(fā)布數(shù)據(jù)的過(guò)程,目的是為了更好的決策。(F)2數(shù)據(jù)分析是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個(gè)過(guò)程。(T)3維是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類屬性。F)4獨(dú)立的數(shù)據(jù)集市架構(gòu)的優(yōu)點(diǎn)是企業(yè)內(nèi)數(shù)據(jù)一致,不會(huì)產(chǎn)生信息孤島。T)5.星型模型的核心是事實(shí)表,事實(shí)表把各種不同的維表連接起來(lái)。(F)6企業(yè)風(fēng)險(xiǎn)分析是通過(guò)對(duì)企業(yè)的經(jīng)營(yíng)成本進(jìn)行綜合評(píng)價(jià),擬定一個(gè)企業(yè)成本的臨界值。(T)7衡量客戶忠誠(chéng)的唯一尺度就是客戶是否重復(fù)或持久地購(gòu)買企業(yè)的產(chǎn)品或者服務(wù)。(T)8在BI中,DW是前提和基礎(chǔ),負(fù)責(zé)統(tǒng)一數(shù)據(jù)規(guī)則的處理和存儲(chǔ)。(F)9客戶服務(wù)管理是對(duì)客戶意見或投訴以及售前、售中、售后服務(wù)進(jìn)行
15、管理。(F)10.平衡計(jì)分卡共包括三個(gè)層面,分別是財(cái)務(wù)層面、客戶層面、內(nèi)部業(yè)務(wù)流程層面。(T)11數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測(cè)數(shù)據(jù)等任務(wù)。(F)12在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。(F)13OLAP是用來(lái)協(xié)助企業(yè)對(duì)響應(yīng)事件或事務(wù)的日常商務(wù)活動(dòng)進(jìn)行處理。(T)14數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合用以支持管理決策的過(guò)程。(T)15.數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個(gè)過(guò)程。(F)16C4.5決策樹算法是國(guó)際上最早、最有影響力的決策樹算法,(T)17平衡計(jì)分卡是從
16、財(cái)務(wù)、客戶、內(nèi)部運(yùn)營(yíng)、學(xué)習(xí)與成長(zhǎng)四個(gè)角度,將組織的戰(zhàn)略落實(shí)為可操作的衡量指標(biāo)和目標(biāo)值的一種新型績(jī)效管理體系。F)18客戶服務(wù)管理是對(duì)客戶意見或投訴以及售前、售中、售后服務(wù)進(jìn)行管理。(F)19.企業(yè)績(jī)效管理的目的在于進(jìn)一步加強(qiáng)成本的事前控制,同時(shí)有助于通過(guò)盈虧分析,輔助產(chǎn)品科學(xué)的報(bào)價(jià)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量越大,其應(yīng)用價(jià)值也越大。F啤酒與尿布的故事是聚類分析的典型實(shí)例。F等深分箱法使每個(gè)箱子的記錄個(gè)數(shù)相同。T數(shù)據(jù)倉(cāng)庫(kù)“粒度”越細(xì),記錄數(shù)越少。F數(shù)據(jù)立方體由3維構(gòu)成,Z軸表示事實(shí)數(shù)據(jù)。F決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。FID3算法是決策樹方法的早期代表。TC4.5是一種典型的關(guān)聯(lián)規(guī)則挖掘算法。F回歸分析
17、通常用于挖掘關(guān)聯(lián)規(guī)則。F人工神經(jīng)網(wǎng)絡(luò)特別適合解決多參數(shù)大復(fù)雜度問(wèn)題。T概念關(guān)系分析是文本挖掘所獨(dú)有的。F可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。F孤立點(diǎn)在數(shù)據(jù)挖掘時(shí)總是被視為異常、無(wú)用數(shù)據(jù)而丟棄。TSQLServer2005不提供關(guān)聯(lián)規(guī)則挖掘算法。F決策樹方法特別適合于處理數(shù)值型數(shù)據(jù)。F數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)為歷史數(shù)據(jù),從來(lái)不需要更新。T數(shù)據(jù)立方體是廣義知識(shí)發(fā)現(xiàn)的方法和技術(shù)之一。F數(shù)據(jù)立方體的其中一維用于記錄事實(shí)數(shù)據(jù)。T數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對(duì)于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式的發(fā)掘。(T)圖挖掘技術(shù)在社會(huì)網(wǎng)絡(luò)分析中扮演了重要的角色。(T)模式為對(duì)數(shù)據(jù)集的全局性總結(jié),它對(duì)整個(gè)測(cè)量空間的每一點(diǎn)做出描述
18、;模型則對(duì)變量變化空間的一個(gè)有限區(qū)域做出描述。(F)尋找模式和規(guī)則主要是對(duì)數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。(F)離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或者值。(T)離散屬性總是具有有限個(gè)值。(F)噪聲和偽像是數(shù)據(jù)錯(cuò)誤這一相同表述的兩種叫法。(F)用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。(T)特征提取技術(shù)并不依賴于特定的領(lǐng)域。(F)可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量。F定量屬性可以是整數(shù)值或者是連續(xù)值。(T)可視化技術(shù)對(duì)于分析的數(shù)據(jù)類型通常不是專用性的。(T)DSS主要是基于數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。(F)OLAP技術(shù)側(cè)重于把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,
19、是繼數(shù)據(jù)庫(kù)技術(shù)發(fā)展之后迅猛發(fā)展起來(lái)的一種新技術(shù)。(T)商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計(jì)上的主要區(qū)別在于:后者把結(jié)構(gòu)強(qiáng)加于商務(wù)之上,一旦系統(tǒng)設(shè)計(jì)完畢,其程序和規(guī)則不會(huì)輕易改變;而前者則是一個(gè)學(xué)習(xí)型系統(tǒng),能自動(dòng)適應(yīng)商務(wù)不斷變化的要求。(T)數(shù)據(jù)倉(cāng)庫(kù)中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。(F)54數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的組成部分包括數(shù)據(jù)倉(cāng)庫(kù)、倉(cāng)庫(kù)管理、數(shù)據(jù)抽取、分析工具等四個(gè)部分。(F)Web數(shù)據(jù)挖掘是通過(guò)數(shù)據(jù)庫(kù)仲的一些屬性來(lái)預(yù)測(cè)另一個(gè)屬性,它在驗(yàn)證用戶提出的假設(shè)過(guò)程中提取信息。(F)關(guān)聯(lián)規(guī)則挖掘過(guò)程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。(F)聚類(clustering)是這樣的過(guò)程:它找出
20、描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。(F)分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。(T)對(duì)于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,移去或者減少這些樣本對(duì)分類結(jié)果沒有影響。(T)Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。(F)三、名詞解釋(本題共4道小題,每小題5分,共20分)商務(wù)智能商務(wù)智能是融合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,集成企業(yè)內(nèi)外數(shù)據(jù),進(jìn)行加工并從中提取能夠創(chuàng)造商業(yè)價(jià)值的知識(shí),面向企業(yè)戰(zhàn)略并服務(wù)于管理層、業(yè)務(wù)層,指導(dǎo)
21、企業(yè)經(jīng)營(yíng)決策,提升企業(yè)競(jìng)爭(zhēng)力。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過(guò)程。數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上或物理上把不相同來(lái)源、格式、特點(diǎn)的數(shù)據(jù)有機(jī)地整合,從而為企業(yè)提供全面的數(shù)據(jù)共享。OLAP(聯(lián)機(jī)分析處理)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。數(shù)據(jù)挖掘數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取正確的、有用的、未知的、綜合的以及人們感興趣的知識(shí)并用于決策支持的過(guò)程。孤立
22、點(diǎn):指數(shù)據(jù)庫(kù)中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。數(shù)據(jù)規(guī)范化:指將數(shù)據(jù)按比例縮放(如更換大單位),使之落入一個(gè)特定的區(qū)域(如01)以提高數(shù)據(jù)挖掘效率的方法。規(guī)范化的常用方法有:最大最小規(guī)范化、零均值規(guī)范化、小數(shù)定標(biāo)規(guī)范化。聚類:是將物理或抽象對(duì)象的集合分組成為多個(gè)類或簇(cluster)的過(guò)程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大。ROLAP:是基于關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式的,在這種結(jié)構(gòu)中,多維數(shù)據(jù)被映像成二維關(guān)系表,通常采用星型或雪花型架構(gòu),由一個(gè)事實(shí)表和多個(gè)維度表構(gòu)成。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原始數(shù)
23、據(jù)相同的分析結(jié)果。預(yù)測(cè)型知識(shí):是根據(jù)時(shí)間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來(lái)數(shù)據(jù)庫(kù)適于存儲(chǔ)高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù)。決策分析型數(shù)據(jù)是多維性,的數(shù)據(jù),也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。決策樹:是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是分類規(guī)則挖掘的典型方法,可用于對(duì)新樣本進(jìn)行分類。遺傳算法:是一種優(yōu)化搜索算法,它首先產(chǎn)生一個(gè)初始可行解群體,然后對(duì)這個(gè)群體通過(guò)模擬生物進(jìn)化的選擇、交叉、變異等遺傳操作遺傳到下一代群體,并最終達(dá)到全局最優(yōu)。知識(shí)管理:知識(shí)管理就是對(duì)一個(gè)企業(yè)集體的知識(shí)與技能的捕獲,是為增強(qiáng)組織的績(jī)效而創(chuàng)造、獲取和使用知識(shí)的過(guò)程(知識(shí)的創(chuàng)造、儲(chǔ)存、分享、應(yīng)用
24、和更新)。Web挖掘:Web挖掘是從大量Web文檔的集合C中發(fā)現(xiàn)隱含的、有用的模式P的過(guò)程:C-P。四、簡(jiǎn)答題(本題共5道小題,每小題6分,共30分)1實(shí)現(xiàn)商務(wù)智能的四個(gè)階段是什么?答:實(shí)現(xiàn)商務(wù)智能的四個(gè)階段是數(shù)據(jù)預(yù)處理、建立數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)分析及數(shù)據(jù)展現(xiàn)。(2分)數(shù)據(jù)預(yù)處理是整合企業(yè)原始數(shù)據(jù)的第一步,包括數(shù)據(jù)抽取、轉(zhuǎn)換和裝載三個(gè)過(guò)程;(1分)數(shù)據(jù)倉(cāng)庫(kù)則是處理海量數(shù)據(jù)的基礎(chǔ);(1分)數(shù)據(jù)分析是體現(xiàn)系統(tǒng)智能的關(guān)鍵,一般采用OLAP和DM兩大技術(shù)。(1分)數(shù)據(jù)展現(xiàn)則主要保障系統(tǒng)分析結(jié)果的可視化。(1分)數(shù)據(jù)庫(kù)系統(tǒng)的局限性分析內(nèi)容復(fù)雜。在決策分析環(huán)境中,如果事務(wù)處理的細(xì)節(jié)數(shù)據(jù)量太大一方面會(huì)嚴(yán)重影響分析
25、效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會(huì)分散決策者的注意力。當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)中,事務(wù)型處理對(duì)數(shù)據(jù)的存取操作頻率高,操作處理的時(shí)間短,而分析型處理可能需要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來(lái)自企業(yè)內(nèi)部的,也有來(lái)自企業(yè)外部的。來(lái)自企業(yè)外部的數(shù)據(jù)又可能來(lái)自不同的數(shù)據(jù)庫(kù)系統(tǒng),在分析時(shí)如果直接對(duì)這些數(shù)據(jù)操作會(huì)造成分析的混亂。對(duì)于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫(kù)系統(tǒng)常常是無(wú)能為力。3數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市的區(qū)別是什么?數(shù)據(jù)倉(cāng)庫(kù)收集了關(guān)于整個(gè)組織的主題信息,因此是企業(yè)范圍的。對(duì)于數(shù)據(jù)倉(cāng)庫(kù),通常使用星座模式,因?yàn)樗軐?duì)多個(gè)相關(guān)的主題建模;(3分
26、)數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)部門子集,它針對(duì)選定的主題,因此是部門范圍的。對(duì)于數(shù)據(jù)集市,流行星型或雪花模式,因?yàn)樗鼈兌歼m合對(duì)單個(gè)主題建模。(3分)OLAP的特點(diǎn)快速性Fast:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求??煞治鲂訟nalysis:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。多維性Multidimensional:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次維的完全支持。信息性Information:OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。簡(jiǎn)述OLAP的基本操作有哪些?答:OLAP的基本操作有:切片和切塊(Slicean
27、dDice):在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進(jìn)行切片,按三維進(jìn)行切塊,可得到所需要的數(shù)據(jù)。(2分)鉆?。―rill):鉆取包含向下鉆?。―rill-down)和向上鉆?。―rill-up)/上卷(Roll-up)操作,鉆取的深度與維所劃分的層次相對(duì)應(yīng)。(2分)旋轉(zhuǎn)(Rotate)/旋轉(zhuǎn)(Pivot):通過(guò)旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。(2分)簡(jiǎn)述OLAP與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系。答:OLAP側(cè)重于與用戶的交互、快速的響應(yīng)速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動(dòng)發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息,盡管允許用戶指導(dǎo)這一過(guò)程。(3分)OLAP的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以
28、拓展OLAP分析的深度,可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復(fù)雜、細(xì)致的信息。(3分)7何謂數(shù)據(jù)挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程稱為數(shù)據(jù)挖掘。相關(guān)的名稱有知識(shí)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合、決策支持等。數(shù)據(jù)挖掘的功能包括:概念描述、關(guān)聯(lián)分析、分類與預(yù)測(cè)、聚類分析、趨勢(shì)分析、孤立點(diǎn)分析以及偏差分析等。(3分)8在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?原始業(yè)務(wù)數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),它們的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常的雜亂、不可用,即使在同一個(gè)數(shù)據(jù)庫(kù)中,也可能存在重復(fù)的
29、和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理。為數(shù)據(jù)挖掘算法提供完整、干凈、準(zhǔn)確、有針對(duì)性的數(shù)據(jù),減少算法的計(jì)算量提高挖掘效率和準(zhǔn)確程度。9簡(jiǎn)述數(shù)據(jù)預(yù)處理方法和內(nèi)容。數(shù)據(jù)清洗:包括填充空缺值,識(shí)別孤立點(diǎn),去掉噪聲和無(wú)關(guān)數(shù)據(jù)。數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。需要注意不同數(shù)據(jù)源的數(shù)據(jù)匹配問(wèn)題、數(shù)值沖突問(wèn)題和冗余問(wèn)題等。數(shù)據(jù)變換:將原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式。包括對(duì)數(shù)據(jù)的匯總、聚集、概化、規(guī)范化,還可能需要進(jìn)行屬性的重構(gòu)。數(shù)據(jù)歸約:縮小數(shù)據(jù)的取值范圍,使其更適合于數(shù)據(jù)挖掘算法的需要,并且能夠得到和原
30、始數(shù)據(jù)相同的分析結(jié)果。數(shù)據(jù)挖掘的六種常用算法和技術(shù)分別是什么?聚類分析;分類分析;關(guān)聯(lián)分析;序列模式挖掘;回歸分析;時(shí)間序列分析。數(shù)據(jù)挖掘中的數(shù)據(jù)需要采用哪些格式?數(shù)據(jù)挖掘中的數(shù)據(jù)需要采用以下格式:所有數(shù)據(jù)應(yīng)該在一個(gè)表格/數(shù)據(jù)庫(kù)視圖中每一行對(duì)應(yīng)于與業(yè)務(wù)問(wèn)題相關(guān)的一個(gè)案例忽略具有單一值/幾乎單一值的列忽略所有行的值都不同的列遺傳算法具有隱含并行性,具有更高的運(yùn)行效率。刪除所有同義列對(duì)于預(yù)測(cè)模型,目標(biāo)列必須是可識(shí)別的簡(jiǎn)述K-近鄰分類法的基本思想。答:基本思想:K近鄰分類是基于類比學(xué)習(xí)的,每個(gè)樣本代表d維空間的一個(gè)點(diǎn)。(3分)當(dāng)給定一個(gè)未知樣本時(shí),K-近鄰分類法將搜索樣本空間,找出最接近未知樣本的K
31、個(gè)訓(xùn)練樣本,這K個(gè)訓(xùn)練樣本是未知樣本的K個(gè)“近鄰”。(3分)13關(guān)聯(lián)規(guī)則挖掘能發(fā)現(xiàn)什么知識(shí)?簡(jiǎn)述其挖掘的基本步驟。答:關(guān)聯(lián)規(guī)則挖掘有助于發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品之間的聯(lián)系,找出顧客購(gòu)買行為模式。(2分)關(guān)聯(lián)規(guī)則挖掘可以分解為兩個(gè)步驟:首先找出交易項(xiàng)目中滿足最小支持度(minSupp)的項(xiàng)集(稱其為頻繁項(xiàng)集);(2分)然后由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則,對(duì)于頻繁項(xiàng)集A,若B?A,且置信度confidence(B?A-B)不小于最小置信度minConf,則B?A-B構(gòu)成關(guān)聯(lián)規(guī)則。(2分)14遺傳算法與傳統(tǒng)尋優(yōu)算法相比有什么特點(diǎn)?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機(jī)搜索,
32、搜索效率高;遺傳算法處理的對(duì)象是個(gè)體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評(píng)估個(gè)體,不需要導(dǎo)數(shù)或其他輔助信息,運(yùn)算速度快,適應(yīng)性好;15什么是決策樹?如何用決策樹進(jìn)行分類?一個(gè)統(tǒng)一的界面下進(jìn)行數(shù)據(jù)和信息交換,從而保證客戶數(shù)據(jù)的一致性。(2分)決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對(duì)大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對(duì)新樣本的分類,即通過(guò)決策樹對(duì)新樣本屬性值的測(cè)試,從樹的根結(jié)點(diǎn)開始,按
33、照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。16.簡(jiǎn)述K-平均算法的輸入、輸出及聚類過(guò)程(流程)。輸入:簇的數(shù)目k和包含n個(gè)對(duì)象的數(shù)據(jù)集。輸出:k個(gè)簇,使平方誤差準(zhǔn)則最小。步驟:任意選擇k個(gè)對(duì)象作為初始的簇中心;計(jì)算其它對(duì)象與這k個(gè)中心的距離,然后把每個(gè)對(duì)象歸入離它“最近”的簇;計(jì)算各簇中對(duì)象的平均值,然后重新選擇簇中心(離平均值“最近”的對(duì)象值);重復(fù)第2第3步直到簇中心不再變化為止。17簡(jiǎn)述構(gòu)造智能CRM系統(tǒng)的完整步驟。答:構(gòu)建一個(gè)完整的智能CRM系統(tǒng)的幾個(gè)步驟:1.整合客戶信息資源:對(duì)于那些以前沒有應(yīng)
34、用過(guò)任何CRM系統(tǒng)的企業(yè)來(lái)說(shuō),首先需要把孤立的業(yè)務(wù)系統(tǒng)整合到一個(gè)統(tǒng)一的平臺(tái)之下,解決“信息孤島”。而對(duì)于己有CRM系統(tǒng)的企業(yè),則需要建立一個(gè)企業(yè)信息門戶,使客戶和企業(yè)能在2.建立客戶數(shù)據(jù)倉(cāng)庫(kù):規(guī)劃數(shù)據(jù)倉(cāng)庫(kù),以企業(yè)的業(yè)務(wù)模型為基礎(chǔ),確定需要建立能夠描述主要業(yè)務(wù)主題的數(shù)據(jù)模型;設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),根據(jù)邏輯模型和性能要求進(jìn)行物理模型的設(shè)計(jì),制定數(shù)據(jù)存儲(chǔ)策略以及各種商業(yè)規(guī)則等;(2分)3構(gòu)造數(shù)據(jù)分析模型:根據(jù)企業(yè)需要分析的對(duì)象和目標(biāo),構(gòu)造有針對(duì)性的分析模型。(1分)4建立客戶知識(shí)管理系統(tǒng):建立一個(gè)動(dòng)態(tài)的客戶知識(shí)庫(kù)以及制定客戶知識(shí)的分發(fā)規(guī)則和保存機(jī)制。(1分)18何謂數(shù)據(jù)倉(cāng)庫(kù)?為什么要建立數(shù)據(jù)倉(cāng)庫(kù)?數(shù)據(jù)倉(cāng)庫(kù)是
35、一種新的數(shù)據(jù)處理體系結(jié)構(gòu),是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,為企業(yè)決策支持系統(tǒng)提供所需的集成信息。(3分)建立數(shù)據(jù)倉(cāng)庫(kù)的目的有3個(gè):一是為了解決企業(yè)決策分析中的系統(tǒng)響應(yīng)問(wèn)題,數(shù)據(jù)倉(cāng)庫(kù)能提供比傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)更快的大規(guī)模決策分析的響應(yīng)速度。二是解決決策分析對(duì)數(shù)據(jù)的特殊需求問(wèn)題。決策分析需要全面的、正確的集成數(shù)據(jù),這是傳統(tǒng)事務(wù)數(shù)據(jù)庫(kù)不能直接提供的。三是解決決策分析對(duì)數(shù)據(jù)的特殊操作要求。決策分析是面向?qū)I(yè)用戶而非一般業(yè)務(wù)員,需要使用專業(yè)的分析工具,對(duì)分析結(jié)果還要以商業(yè)智能的方式進(jìn)行表現(xiàn),這是事務(wù)數(shù)據(jù)庫(kù)不能提供的。(3分)20簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三級(jí)模型及其
36、基本內(nèi)容。概念模型設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì),其主要內(nèi)容包括:界定系統(tǒng)邊界和確定主要的主題域。(2分)邏輯模型設(shè)計(jì)的主要內(nèi)容包括:分析主題域、確定粒度層次劃分、確定數(shù)據(jù)分割策略、定義關(guān)系模式、定義記錄系統(tǒng)。(2分)物理數(shù)據(jù)模型設(shè)計(jì)的主要內(nèi)容包括:確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、確定數(shù)據(jù)存放位置、確定存儲(chǔ)分配以及確定索引策略等。在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)主要考慮的因素有:I/O存取時(shí)間、空間利用率和維護(hù)代價(jià)等。提高性能的主要措施有劃分粒度、數(shù)據(jù)分割、合并表、建立數(shù)據(jù)序列、引入冗余、生成導(dǎo)出數(shù)據(jù)、建立廣義索引等。(2分)21何謂聚類?它與分類有什么異同?聚類是將物理或抽象對(duì)象的集合分組成為多個(gè)類或簇(cluste
37、r)的過(guò)程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象差別較大。(3分)聚類與分類不同,聚類要?jiǎng)澐值念愂俏粗?,分類則可按已知規(guī)則進(jìn)行;聚類是一種無(wú)指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。(3分)22何謂文本挖掘?它與信息檢索有什么關(guān)系(異同)。文本挖掘是從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識(shí)的過(guò)程。它與信息檢索之間有以下幾方面的區(qū)別:(1分)方法論不同:信息檢索是目標(biāo)驅(qū)動(dòng)的,用戶需要明確提出查詢要求;而文本挖掘結(jié)果獨(dú)立于用戶的信息需求,是用戶無(wú)法預(yù)知的。著眼點(diǎn)不同:信息檢索著重于文檔中
38、字、詞和鏈接;而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)。目的不同:信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請(qǐng)求的文本子集;而文本挖掘是為了揭示文本中隱含的知識(shí)。評(píng)價(jià)方法不同:信息檢索用查準(zhǔn)率和查全率來(lái)評(píng)價(jià)其性能。而文本挖掘采用收益、置信度、簡(jiǎn)潔性等來(lái)衡量所發(fā)現(xiàn)知識(shí)的有效性、可用性和可理解性。使用場(chǎng)合不同:文本挖掘是比信息檢索更高層次的技術(shù),可用于信息檢索技術(shù)不能解決的許多場(chǎng)合。一方面,這兩種技術(shù)各有所長(zhǎng),有各自適用的場(chǎng)合;另一方面,可以利用文本挖掘的研究成果來(lái)提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個(gè)新的水平。(5分)23遺傳算法與傳統(tǒng)尋優(yōu)算法相
39、比有什么特點(diǎn)?遺傳算法為群體搜索,有利于尋找到全局最優(yōu)解;遺傳算法采用高效有方向的隨機(jī)搜索,搜索效率高;遺傳算法處理的對(duì)象是個(gè)體而不是參變量,具有廣泛的應(yīng)用領(lǐng)域;遺傳算法使用適應(yīng)值信息評(píng)估個(gè)體,不需要導(dǎo)數(shù)或其他輔助信息,運(yùn)算速度快,適應(yīng)性好;遺傳算法具有隱含并行性,具有更高的運(yùn)行效率。(6分)24.商務(wù)智能應(yīng)用趨勢(shì)更成熟的數(shù)據(jù)分析和展現(xiàn)技術(shù);從戰(zhàn)略型的BI到操作型或者實(shí)時(shí)型的BI;關(guān)注績(jī)效、關(guān)注價(jià)值、關(guān)注數(shù)據(jù)質(zhì)量。25.商務(wù)智能發(fā)展的特點(diǎn)實(shí)時(shí);標(biāo)準(zhǔn)化;嵌入式商務(wù)智能;移動(dòng)商務(wù)智能;大眾化趨勢(shì);供應(yīng)商的動(dòng)向;易用性。26商務(wù)智能與知識(shí)管理的區(qū)別:內(nèi)涵不同;知識(shí)的管理過(guò)程和技術(shù)不同;關(guān)注的只是類型
40、不同;面向的用戶不同。27.Web日志挖掘的應(yīng)用獲取用戶訪問(wèn)模式信息,理解用戶的意圖和行為分析用戶的存取模式,為用戶提供個(gè)性化的服務(wù)確定網(wǎng)站的潛在客戶群,合理制訂網(wǎng)絡(luò)廣告策略等改進(jìn)Web站點(diǎn)的結(jié)構(gòu),使網(wǎng)站點(diǎn)隨時(shí)間、用戶需求的變化而不斷調(diào)整對(duì)日志數(shù)據(jù)進(jìn)行多種統(tǒng)計(jì),包括頻繁訪問(wèn)頁(yè)、單位時(shí)間訪問(wèn)頻度、訪問(wèn)量的時(shí)間分布等利用關(guān)聯(lián)規(guī)則確定相關(guān)Web查詢(查詢修正)五、計(jì)算題(本題共2道小題,每小題10分,共20分)1.X-(Xi,X2,X3)T的協(xié)方差矩陣的特征值和特征向量分別為:九二5.83,eT二(0.383,-0.924,0)11九=2.00,eT=(0,0,1)22九3二0.17,eT二(0.9
41、24,0.383,0),求X的主成分,計(jì)算其貢獻(xiàn)率。解:(1)X的主成分是:Y二eTX二0.383X-0.924X1112Y二eTX二X222Y二eTX二0.924X+0.383X33126分)5.83(2)第1主成分的貢獻(xiàn)率為二5.83+2.00+0.17=73%5.83+2.00=98%第1,2主成分的貢獻(xiàn)率為5.83+2.00+0.17(4分)2.對(duì)于貸款申請(qǐng)的決策樹,1)請(qǐng)從下圖的決策樹中提取分類規(guī)則。低風(fēng)險(xiǎn)高風(fēng)險(xiǎn)低風(fēng)險(xiǎn)高風(fēng)險(xiǎn)2)根據(jù)決策樹判斷如下數(shù)據(jù)的風(fēng)險(xiǎn)分類。序號(hào)工作時(shí)間收入咼負(fù)債風(fēng)險(xiǎn)分類1350000否?21030000否?36100000是?解:(1)請(qǐng)從下圖的決策樹中提取分類
42、規(guī)則。1)當(dāng)收入小于等于40000元,如果工作時(shí)間大于5年的為低風(fēng)險(xiǎn);2)當(dāng)收入小于等于40000元,工作時(shí)間小于等于5年的為高風(fēng)險(xiǎn);3)當(dāng)收入大于40000元,沒有高負(fù)債的為低風(fēng)險(xiǎn);4)當(dāng)收入大于40000元,具有高負(fù)債的為高風(fēng)險(xiǎn);(6分)(2)根據(jù)決策樹判斷如下數(shù)據(jù)的風(fēng)險(xiǎn)分類。(4分)序號(hào)工作時(shí)間收入咼負(fù)債風(fēng)險(xiǎn)分類1350000否低風(fēng)險(xiǎn)21030000否低風(fēng)險(xiǎn)36100000是咼風(fēng)險(xiǎn)3、給定如下要進(jìn)行聚類的元組:2,4,10,12,3,20,30,11,25,假設(shè)分為2類,即Kl=2,初始時(shí)用前兩個(gè)數(shù)值作為類的均值:m=2和m=4。應(yīng)用K-均值聚類法寫出聚類的詳細(xì)過(guò)程(利用歐幾里德距離進(jìn)行
43、計(jì)算)。應(yīng)用K-近鄰分類法計(jì)算元組x=16屬于哪一類?設(shè)距離最近的元組為3個(gè),即K2=3。解:(1)m1m2K1K2242,34,10,12,20,30,11,252.5162,3,410,12,20,30,11,253182,3,4,1012,20,30,11,254.7519.62,3,4,10,11,1220,30,257252,3,4,10,11,1220,30,25由于均值不再變化,所以均值已經(jīng)收斂了。該問(wèn)題的答案為:K1=2,3,4,10,11,12和K2=20,30,25(5分)(2)因?yàn)镈(2,16)=14;D(4,16)=12;D(10,16)=6;D(12,16)=4;D(
44、3,16)=13;D(20,16)=4;D(30,16)=14;D(11,16)=5;D(25,16)=9;(4分)距離16最近的3個(gè)元組為11,12,20,其中,11,12屬于K1,20屬于K2,所以:X=16屬于K1類。(5分)六、論述題(共10分)1、試舉例一個(gè)商務(wù)智能的應(yīng)用案例,并論述商務(wù)智能能為企業(yè)做什么?2、下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù)?簡(jiǎn)單陳述你的理由。根據(jù)性別劃分公司的顧客。根據(jù)可贏利性劃分公司的顧客。預(yù)測(cè)投一對(duì)骰子的結(jié)果。使用歷史記錄預(yù)測(cè)某公司未來(lái)的股票價(jià)格。(a)根據(jù)性別劃分公司的顧客。不是。數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)庫(kù)中,自動(dòng)地發(fā)現(xiàn)有用信息的過(guò)程。數(shù)據(jù)挖掘技術(shù)服務(wù)用來(lái)探查
45、大型數(shù)據(jù)庫(kù),發(fā)現(xiàn)先前未知的有用模式。還可以預(yù)測(cè)未來(lái)觀測(cè)結(jié)果,例如,預(yù)測(cè)一位新的顧客是否會(huì)在一家百貨公司消費(fèi)100美元以上。但并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與信息檢索不同,使用數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別的記錄,或通過(guò)因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面,則是信息檢索領(lǐng)域的任務(wù),它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來(lái)創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。數(shù)據(jù)挖掘的任務(wù)可分為兩大類:預(yù)測(cè)任務(wù)和描述任務(wù)。主要任務(wù)有四種:聚類分析,關(guān)聯(lián)分析,異常檢測(cè),和預(yù)測(cè)建模。其目的是根據(jù)其它屬性的值,預(yù)測(cè)特定屬性的值,或?qū)С龈爬〝?shù)據(jù)中潛在聯(lián)系的模式,主要是預(yù)測(cè)某些信息。而根據(jù)性別劃分公司
46、的顧客,只是一種簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢操作,并沒有涉及預(yù)測(cè)分析。根據(jù)可贏利性劃分公司的顧客。不是。根據(jù)可贏利性劃分公司的顧客是使用閾值進(jìn)行的一種統(tǒng)計(jì)計(jì)算。它僅僅是根據(jù)消費(fèi)結(jié)果統(tǒng)計(jì)將原有顧客進(jìn)行劃分,只是一種統(tǒng)計(jì)的結(jié)果,而沒有根據(jù)這些結(jié)果的特點(diǎn)預(yù)測(cè)一個(gè)新的顧客的贏利性,這種預(yù)測(cè)才是數(shù)據(jù)挖掘。預(yù)測(cè)投一對(duì)骰子的結(jié)果。不是。因?yàn)轺蛔拥牧鶄€(gè)數(shù)值出現(xiàn)的可能性是相同的,這是一種概率計(jì)算,如果結(jié)果出現(xiàn)的可能性是不確定的,不相同的,則更像是數(shù)據(jù)挖掘的任務(wù),但在很早以前利用數(shù)學(xué)已經(jīng)能夠很好的解決這個(gè)問(wèn)題了。所以預(yù)測(cè)投一對(duì)骰子的結(jié)果不屬于數(shù)據(jù)挖掘的任務(wù),不帶有發(fā)現(xiàn)新信息的預(yù)測(cè)特點(diǎn)。使用歷史記錄預(yù)測(cè)某公司未來(lái)的股票價(jià)格。這是數(shù)據(jù)挖掘的任務(wù)??梢酝ㄟ^(guò)對(duì)歷史記錄特點(diǎn)的分析來(lái)創(chuàng)建一種模型預(yù)測(cè)未來(lái)的公司的股票價(jià)格,這是數(shù)據(jù)挖掘任務(wù)中預(yù)測(cè)建模的一個(gè)例子,預(yù)測(cè)建模涉及以說(shuō)明變量函數(shù)的方式為目標(biāo)變量建立模型,有兩類預(yù)測(cè)建模任務(wù):分類,用于預(yù)測(cè)離散的目標(biāo)變量;回歸,用于預(yù)測(cè)連續(xù)的目標(biāo)變量dmj預(yù)測(cè)某公司未來(lái)的股票價(jià)格則是回歸任務(wù),因?yàn)閮r(jià)格具有連續(xù)值屬性。3、比較急切分類(如,判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對(duì)于懶散分類(如,k-最臨近、基于案例的推理)的優(yōu)缺點(diǎn)。答:決策樹歸納的特點(diǎn):(1)決
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作心得體會(huì)總結(jié)
- 2025年度典當(dāng)物品鑒定與拍賣代理服務(wù)合同3篇
- 二零二五年度軍事通信保密協(xié)議及網(wǎng)絡(luò)維護(hù)合同3篇
- 二零二五年度幼兒早期教育托管班入園協(xié)議書3篇
- 二零二五年度養(yǎng)殖場(chǎng)租賃與農(nóng)業(yè)生態(tài)循環(huán)經(jīng)濟(jì)發(fā)展合作合同3篇
- 2025年度新型建筑材料內(nèi)部承包協(xié)議書3篇
- 2025年度農(nóng)村保潔員崗位職責(zé)及待遇合同
- 2025年度水產(chǎn)養(yǎng)殖廢棄物處理設(shè)施建設(shè)合作協(xié)議合同3篇
- 2025年度教育培訓(xùn)機(jī)構(gòu)掛靠合作協(xié)議書標(biāo)準(zhǔn)模板3篇
- 二零二五年度農(nóng)業(yè)現(xiàn)代化土地承包合作框架協(xié)議3篇
- 2023年鞍山市海城市教育局畢業(yè)生招聘筆試真題
- 遼寧省撫順縣2024-2025學(xué)年九年級(jí)上學(xué)期期末物理試卷(含答案)
- 2024-2025學(xué)年安徽省合肥市巢湖市三年級(jí)數(shù)學(xué)第一學(xué)期期末達(dá)標(biāo)測(cè)試試題含解析
- 浙江省寧波市九校2023-2024學(xué)年高一上期末聯(lián)考生物試題
- 乳腺中心建設(shè)方案
- 安環(huán)部2025年度工作計(jì)劃
- 2024年行政執(zhí)法人員執(zhí)法資格知識(shí)考試題庫(kù)(附含答案)
- 交通運(yùn)輸安全風(fēng)險(xiǎn)管控制度
- 北京城市學(xué)院《食品質(zhì)量檢測(cè)技術(shù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 無(wú)人駕駛 物流行業(yè)市場(chǎng)調(diào)研分析報(bào)告
- 浙江省寧波市慈溪市2023-2024學(xué)年高二上學(xué)期期末考試 數(shù)學(xué) 含解析
評(píng)論
0/150
提交評(píng)論