商務(wù)智能平臺應(yīng)用研究_第1頁
商務(wù)智能平臺應(yīng)用研究_第2頁
商務(wù)智能平臺應(yīng)用研究_第3頁
商務(wù)智能平臺應(yīng)用研究_第4頁
商務(wù)智能平臺應(yīng)用研究_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、商務(wù)智能平臺應(yīng)用研究楊志蓉(經(jīng)濟管理學(xué)院 指導(dǎo)教師:顧忠偉)摘 要:商務(wù)智能在中國的發(fā)展方興為艾,競爭也日趨激烈。如何更多的了解商務(wù)信息,并將這種信息轉(zhuǎn)變?yōu)椤爸R”,從而為管理人員方便,迅速地提供更準確,高質(zhì)的信息以支持商務(wù)智能,已經(jīng)成為企業(yè)商務(wù)決策的一個緊迫的課題。 Pentaho是一個完整的開源BI平臺。Pentaho BI項目提供了企業(yè)級的報表、多維分析、儀表盤、數(shù)據(jù)挖掘和工作功能、幫助組織更加有效率的運營 本文是基于Pentaho 平臺進行BI研究,分析了零售業(yè)所處的競爭環(huán)境和自身的特點,然后提出了完整的針對零售業(yè)的商務(wù)智能解決方案。該解決方案的主要特點是:提供一體化的商務(wù)智能解決方案

2、包括查詢、報表、分析、儀表盤 、數(shù)據(jù)整合及數(shù)據(jù)挖掘等各方面完善的功能關(guān)鍵詞:商務(wù)智能;Pentaho;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘Abstract:Business intelligence (BI) has a very good prospect in China, but the competition will become fiercer and fiercer. The problem how to understand further business information and transfer them into the knowledge, so as convenient an

3、d rapid to provide managers with better accurate and high quality information to support valuable business decision, has become a very urgent project which the business decision of enterprises are facing. Pentaho is a integrated BI platform in Open Source Business Intelligence. The Pentaho BI Projec

4、t provides enterprise-class reporting, analysis, dashboard, data mining and workflow capabilities that help organizations operate more efficiently and effectively.This paper based on the pentaho BI platform for research, analyzes the competition environment and characteristics of the retail industry

5、, and then puts forward complete BI solutions. The main characteristic of pentaho BI solution is to provide the perfect functions of Query、RePorting、Analyze、Dashboard、Data Integration and Data mining for the integration of business intelligence solutions.Key words:BI; Pentaho; Data Warehouse;Data mi

6、ning 第一章 緒論第一節(jié) 引言隨著全球信息化的發(fā)展,現(xiàn)代企業(yè)信息化進程得到巨大發(fā)展和廣泛應(yīng)用,各種業(yè)務(wù)系統(tǒng)的廣泛應(yīng)用以及互聯(lián)網(wǎng)的蓬勃發(fā)展,為計算機應(yīng)用系統(tǒng)的運行積累了大量的歷史數(shù)據(jù)。但在很多情況下,這些海量數(shù)據(jù)在原有的作業(yè)系統(tǒng)中是無法提煉并升華為有用的信息并提供給業(yè)務(wù)分析人員與管理決策者。現(xiàn)在,大多數(shù)企業(yè)并不缺少數(shù)據(jù),而是苦惱于海量數(shù)據(jù)而總嫌知識不夠。無怪乎未來學(xué)家奈斯比特(John Naisbitt)驚呼:“人類正被信息淹沒,卻饑渴于知識。” 林杰斌 劉明德 陳湘 編著數(shù)據(jù)挖掘與OLAP理論與實務(wù)清華大學(xué)出版社面臨浩瀚無邊的數(shù)據(jù),人們呼喚從數(shù)據(jù)的汪洋大海中去蕪存精,去偽存真。如何才能不被

7、信息的汪洋大海所淹沒,解決企業(yè)中普遍存在的“數(shù)據(jù)監(jiān)獄”和“數(shù)據(jù)貧窮”現(xiàn)象,為企業(yè)決策分析人員方便、迅速地提供更準確、高質(zhì)的信息,已成為企業(yè)當(dāng)前迫切需要解決的問題,而傳統(tǒng)的數(shù)據(jù)分析工具、方法對海量數(shù)據(jù)的處理和及時、準確的商務(wù)分析力不從心,因此商務(wù)智能技術(shù)就是在這樣的背景下應(yīng)運而生和蓬勃發(fā)展,并越來越顯示出強大的生命力 。本文就是要探討如何針對企業(yè)現(xiàn)存的問題,通過收集、整理和分析企業(yè)內(nèi)外部的各種海量數(shù)據(jù),轉(zhuǎn)換成更有價值的商用信息,以便用于支持決策,提出可行性商務(wù)智能應(yīng)用解決方案。第二節(jié) 論文背景及意義信息時代,對信息處理和利用能力的強弱成為決定企業(yè)興衰成敗的關(guān)鍵?,F(xiàn)今功能強大的以交易為基礎(chǔ)的信息系

8、統(tǒng)已經(jīng)在各個主導(dǎo)工業(yè)領(lǐng)域變得越來越普遍。這一趨勢極大地改變了中國乃至全球的市場架構(gòu),并迫使每個企業(yè)不得不全力以赴來獲得競爭中的優(yōu)勢地位,包括使用大量的商務(wù)智能系統(tǒng)。因為商務(wù)智能系統(tǒng)使得企業(yè)能對數(shù)據(jù)進行二次開發(fā)和利用,將數(shù)據(jù)轉(zhuǎn)為信息,信息轉(zhuǎn)為知識,再將知識轉(zhuǎn)為企業(yè)的競爭優(yōu)勢。作為當(dāng)今企業(yè)業(yè)務(wù)主管或者信息主管,您會認識到無論您身處于哪一個行業(yè),我們都面臨著知識經(jīng)濟時代的挑戰(zhàn)。您是否能夠最大限度地使用信息資源來管理和影響企業(yè)決策流程,將決定企業(yè)是否能擁有最大程度的競爭優(yōu)勢。舉例來說:在超級市場通過條碼掃描,把每一宗商品交易輸入數(shù)據(jù)庫中,一個中型超市買賣的商品就數(shù)萬種,每天的交易量上萬筆,如此大量的數(shù)

9、據(jù),傳統(tǒng)的數(shù)據(jù)庫不能很好的回答老板所關(guān)心的問題:商品在不同季節(jié)或一天的不同時間中銷售量有何變化規(guī)律?商品A銷售量的增加是否會同時帶動商品B的銷售?如何調(diào)整商品的資金比例以達到最佳的資源調(diào)配?各種商品的銷售之間是否存在一定的關(guān)聯(lián)(如美國Wall Mart 超市通過“知識發(fā)現(xiàn)”技術(shù)意外地發(fā)現(xiàn),尿布和啤酒常常擺在一起銷售,原來先生們?yōu)樾『①I尿布時又隨手帶回啤酒,而WalMart將尿布和啤酒放在同一貨架,使得銷售量雙雙增長)?這些問題,一方面是希望對當(dāng)前情況進行更加深入的了解,比如哪個商品銷售創(chuàng)造的利潤最可觀,另一個方面是希望能夠預(yù)測未來可能發(fā)生的情況,比如預(yù)測未來六個月內(nèi)顧客可能希望購買的商品?!傲?/p>

10、解現(xiàn)在,預(yù)測未來”,這正是商務(wù)智能可以完成的工作。 林杰斌 劉明德 陳湘 編著數(shù)據(jù)挖掘與OLAP理論與實務(wù)清華大學(xué)出版社那么,在商務(wù)智能系統(tǒng)中所有這些寶貴信息是從何得出呢?令人吃驚的是,幾乎所有的企業(yè)都已經(jīng)具備了回答以上問題的原始數(shù)據(jù)。事實上,企業(yè)的信息生產(chǎn)系統(tǒng)每天都在產(chǎn)生并儲存大量的產(chǎn)品市場和客戶信息,也許信息來自于銷售,預(yù)定,客戶服務(wù)以及技術(shù)支持系統(tǒng)。而企業(yè)面臨的真正挑戰(zhàn)是如何從中發(fā)掘出全部的潛在商機。大多數(shù)企業(yè)只利用了很少比例的數(shù)據(jù)資源用于戰(zhàn)略分析,而余下的數(shù)據(jù)資源(經(jīng)常與其他一些外部資源混雜在一起,像各種政府報告,研究成果,銷售記錄等等)將作為一座金礦等待被發(fā)掘,被篩選。在過去的幾年里

11、,幾乎每個企業(yè)都建立了自己的信息中心,收集和整理了大量的歷史數(shù)據(jù)。但是這些數(shù)據(jù)數(shù)量之大遠遠超出了可以控制和理解的范圍,數(shù)據(jù)庫變成了“數(shù)據(jù)監(jiān)獄”,數(shù)據(jù)成了數(shù)據(jù)監(jiān)獄中的“囚犯”,有些數(shù)據(jù)成為了歷史數(shù)據(jù),等于被判處了無期徒刑。怎樣將這些“數(shù)據(jù)囚犯”變成有價值的生產(chǎn)力要素,就是使用商務(wù)智能的目的所在。第三節(jié) 國內(nèi)外研究現(xiàn)狀企業(yè)大量的數(shù)據(jù)帶來巨大的動力,為企業(yè)BI舞臺上實現(xiàn)商務(wù)解決方案提供了競爭優(yōu)勢。支持商務(wù)決策,數(shù)據(jù)須從整個企業(yè)中集合起來,以便分析和解釋。商務(wù)在如今的快節(jié)奏世界中尋找自身優(yōu)勢,它們欣賞信息被快速傳輸?shù)紹I中的方式,因此,BI在快速發(fā)展.根據(jù)國際數(shù)據(jù)公司(IDC,Internationa

12、lDataCompany)預(yù)計,2007年至2008年,由于“商業(yè)智能大眾化”的需求不斷增長,因此在商業(yè)智能應(yīng)用軟件領(lǐng)域?qū)⒊霈F(xiàn)下一波投資熱潮,人們需要可擴展性更高、界面更易于使用的應(yīng)用軟件。國內(nèi)外都重視商務(wù)智能BI的價值,以下是IDC預(yù)測,從現(xiàn)在到2007年,BI將以20.3年復(fù)合增長率發(fā)展,屆時將達到108億美元。圖1-1 IDC 商務(wù)智能預(yù)測2006-2007年中國商業(yè)智能發(fā)展報告中闡述:從全球范圍來看,商業(yè)智能(BI)已經(jīng)成為最重要的信息系統(tǒng)。從國內(nèi)來看,商業(yè)智能已經(jīng)被越來越多的企業(yè)管理者所認識,其中包括金融、電信、保險、能源、零售等行業(yè)的決策者。商業(yè)智能已經(jīng)成為這些行業(yè)信息化建設(shè)的重中

13、之重。據(jù)China BI統(tǒng)計,2006年中國大陸地區(qū)的BI產(chǎn)品許可證市場容量約為8億元人民幣,同比2005年增長33%;BI系統(tǒng)集成(BI軟件系統(tǒng),但不包括許可證)市場容量約為6億元人民幣,共計14億元。BI市場帶動相關(guān)軟硬件銷售額為5億元人民幣。在未來幾年內(nèi)商業(yè)智能市場需求旺盛,市場規(guī)模增長迅速。一、國外BI廠商簡介按照起源來分,有專門做商業(yè)智能的廠商和原來的數(shù)據(jù)庫廠商。第一類專門做商業(yè)智能的廠商,技術(shù)先進、產(chǎn)品擴展性好,已經(jīng)占領(lǐng)了中國商業(yè)職能的大部分市場份額,主要軟件廠商有SAS,Business Objects等。例如:SAS商業(yè)智能解決方案主要用于快速做出明智的決策及促使企業(yè)或組織進步

14、,SAS行業(yè)解決方案可以幫助客戶更好、更準確地傳達決策信息,提升決策能力和決策水平,從戰(zhàn)略管理和運營管理兩個層面同時推動企業(yè)發(fā)展。第二類是從原來的數(shù)據(jù)廠商發(fā)展而來的,主要有Sybase、IBM、Oracle等,它們通常提供完整的解決方案,產(chǎn)品各具特色,集成度高,也占有一部分市場份額。二、國內(nèi)BI廠商簡介國內(nèi)知名的BI獨立軟件開發(fā)商數(shù)量較少,規(guī)模仍然較小,但是發(fā)展迅速,基本都處于良性循環(huán)。例如:廣州尚南、潤乾軟件、奧威智動等都是國內(nèi)知名的BI獨立軟件開發(fā)商。例如:北京潤乾軟件技術(shù)有限公司主要從事企業(yè)級報表工具產(chǎn)品的研發(fā)和推廣,一直致力于在平臺產(chǎn)品領(lǐng)域的探索,其自主獨創(chuàng)的數(shù)據(jù)統(tǒng)計模型是迄今為止唯一

15、能零編碼處理復(fù)雜非線性報表的軟件,成為報表領(lǐng)域的新一代革命性產(chǎn)品,潤乾曾榮膺“2006中國商業(yè)智能最佳報表軟件廠商”稱號。三、國內(nèi)BI發(fā)展的地區(qū)分布國內(nèi)不同地區(qū)的BI發(fā)展水平差異巨大,根據(jù)China BI網(wǎng)站訪問者所在地計算出各地區(qū)的BI發(fā)展指數(shù)。圖1-2 中國重要省市的BI發(fā)展指數(shù)四、國內(nèi)BI行業(yè)發(fā)展隨著中國商業(yè)智能市場逐步走向成熟,用戶日趨理性,傳統(tǒng)行業(yè)中精通BI技術(shù)的人越來越多,因此BI發(fā)展更加務(wù)實。根據(jù)China BI掌握的需求情況,各行業(yè)的BI發(fā)展水平參差不齊。 2006-2007年中國商業(yè)智能發(fā)展報告 httP:/圖1-3 中國BI各行業(yè)發(fā)展比例第四節(jié) 論文的框架本論文的總體研究框

16、架可以表示為下圖: 圖1-4論文技術(shù)走勢圖本論文共分為七章。第一章為緒論部分,主要介紹了論文的背景及意義,國內(nèi)外的研究現(xiàn)狀,論文的框架、創(chuàng)新點及研究方法。首先討論了“知識經(jīng)濟”時代激烈市場競爭環(huán)境中,企業(yè)普遍存在的“數(shù)據(jù)監(jiān)獄”和“數(shù)據(jù)貧窮”現(xiàn)象,由此給出本文研究商務(wù)智能企業(yè)應(yīng)用解決方案的現(xiàn)實意義。圍繞本論文研究的宗旨和前提,緒論給出了本論文擬解決的幾個問題,并圍繞這些問題組織本論文的總體研究框架。最后,緒論部分還指出了本論文的主要創(chuàng)新點以及采用的研究方法,同時為了本論文研究的科學(xué)、順利開展,對論文的進度安排做了個規(guī)劃,以保證論文研究的整體進展。第二章是本論文研究的理論基礎(chǔ),主要通過文獻研究,首

17、先給出了商務(wù)智能的綜述,進而介紹了傳統(tǒng)信息系統(tǒng)的不足,商務(wù)智能的歷史發(fā)展,商務(wù)智能系統(tǒng)處理流程和框架,并闡明商務(wù)智能業(yè)務(wù)應(yīng)用價值。本章一方面為后面的研究做了理論鋪墊,另一方面也有助于我們發(fā)現(xiàn)當(dāng)前研究的不足之處,表明了本論文研究的理論意義。第三章通過循序漸進的不斷學(xué)習(xí)研究Pentaho理論和技術(shù),并以此思路闡述Pentaho 項目概況,設(shè)計思想,基于Pentaho平臺的BI開發(fā),Pentaho BI平臺的總體架構(gòu),Pentaho BI的特征及Pentaho BI是如何解決商務(wù)問題的。因而展示Pentaho BI開發(fā)的技術(shù)層面和Pentaho平臺整體解決方案的框架。第四章介紹了基于Pentaho平

18、臺的BI開發(fā),闡述Pentaho BI開發(fā)的特點,開發(fā)的方法,開發(fā)的流程以及開發(fā)的工具,并提出Pentaho BI開發(fā)系統(tǒng)的效益評估。第五章是本文的實踐研究分析,也是本文研究的重點。通過Pentaho BI 應(yīng)用平臺的實踐,闡述Pentaho項目的技術(shù)路線,項目開發(fā)工具以及步驟和方法。第六章重點介紹了Pentaho BI 零售行業(yè)實例應(yīng)用分析。通過了解國內(nèi)零售行業(yè)的市場現(xiàn)狀和競爭環(huán)境分析,業(yè)務(wù)需求分析,實踐應(yīng)用 Pentaho BI解決方案,提供數(shù)據(jù)處理、OLAP應(yīng)用、儀表盤應(yīng)用、數(shù)據(jù)挖掘應(yīng)用、報表應(yīng)用等一體化應(yīng)用功能。其中重點包括零售業(yè)務(wù)中的銷售分析、產(chǎn)品退貨分析、庫存分析、客戶結(jié)構(gòu)分析、促

19、銷效果分析、商品價格分析等分析模型。作為論文的最后一部分,第七章給出了本論文的總結(jié),指出了本論文研究的不足之處,以及未來研究的新視角探討。 SHAPE * MERGEFORMAT 第五節(jié) 論文的創(chuàng)新點和研究方法本論文研究的指導(dǎo)性目標是:(1)、突出集成性。即將數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘及決策支持等多種技術(shù)融于一體,以決策支持為核心,為企業(yè)管理層提供多種決策服務(wù)為目的。(2)、突出實用性。針對零售行業(yè)的競爭分析,業(yè)務(wù)需求分析提出Pentaho BI可行性解決方案。(3)、突出工程性。從Pentaho的設(shè)計思想、運行環(huán)境、平臺的總體架構(gòu)方面展示Pentaho項目開發(fā)和系統(tǒng)的實施應(yīng)用。本論文研究方

20、法:在論文研究過程中特別注重關(guān)注多種研究方法的綜合應(yīng)用,以獲得較好的研究效果,這主要體現(xiàn)在一下幾個方面:理論研究與實踐應(yīng)用研究相結(jié)合本論文屬于商務(wù)智能平臺具體業(yè)務(wù)中的應(yīng)用研究,理論研究主要涉及商務(wù)智能理論研究,數(shù)據(jù)倉庫研究,數(shù)據(jù)挖掘研究,OLAP研究等,本論文理論研究部分主要采取文獻研究形式,通過廣泛閱讀相關(guān)領(lǐng)域文獻和專業(yè)網(wǎng)站上的技術(shù)文檔構(gòu)建論文的理論框架。理論研究必須在實踐應(yīng)用研究的驗證下才能體現(xiàn)其價值性,因此本論文同樣關(guān)注應(yīng)用研究部分。和大多數(shù)商務(wù)智能技術(shù)行業(yè)應(yīng)用文章一樣,本文實踐應(yīng)用部分也以某具體零售超市為研究單位,提出Pentaho BI可行性解決方案。通過Pentaho平臺的接口引擎

21、集成的案例,實踐應(yīng)用選擇KETTLE工具進行數(shù)據(jù)篩選、過濾、轉(zhuǎn)換;選擇WEKA工具進行數(shù)據(jù)挖掘;選擇BIRT報表工具設(shè)計自定義個性化中國式報表,展示了Pentaho BI平臺應(yīng)用技術(shù)層面和路線,提出完整性實用可行解決方案。定性研究與定量研究相結(jié)合本論文采取在定性研究的基礎(chǔ)上進行定量研究的研究方法。第二章 商務(wù)智能研究概述第一節(jié) 商務(wù)智能基本概念商務(wù)智能(Business Intelligence,簡稱BI)的概念最早是由Gartner Group于1996年提出的。從不同的角度,BI可以有不同的定義,如果從IT技術(shù)的角度來定義BI,可以認為BI是運用了數(shù)據(jù)倉庫、聯(lián)機在線分析和數(shù)據(jù)挖掘技術(shù)來處理

22、和分析數(shù)據(jù)的技術(shù),它允許用戶查詢和分析數(shù)據(jù)庫或數(shù)據(jù)倉庫,進而得出影響商業(yè)活動的關(guān)鍵因素,最終幫助用戶做出更好、更合理的決策;Data Warehouse Institute組織認為“BI是將數(shù)據(jù)轉(zhuǎn)換成知識并將知識應(yīng)用到商業(yè)行為上的一個過程”;Gartner Group 則認為“BI是將數(shù)據(jù)轉(zhuǎn)換成信息的過程,然后通過發(fā)現(xiàn)將信息轉(zhuǎn)化為知識”。 王茁、顧潔 編著 三位一體的商務(wù)智能(BI)管理、技術(shù)與應(yīng)用 電子工業(yè)出版社確切地講,BI并不是一項新技術(shù),它將數(shù)據(jù)倉庫(DW)、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘(DM)等技術(shù)與客戶關(guān)系管理(CRM)等結(jié)合起來應(yīng)用于商業(yè)活動實際過程當(dāng)中,實現(xiàn)了技術(shù)服務(wù)于決

23、策的目的;Mark Hammond從管理的角度看待BI,認為BI是從“根本上幫助你把公司的運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或者知識),并且在恰當(dāng)?shù)臅r間通過恰當(dāng)?shù)氖侄伟亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕薄?在總結(jié)商務(wù)智能定義的眾多版本,針對國內(nèi)市場王茁在三位一體的商務(wù)智能(BI)管理、技術(shù)與應(yīng)用 中提出的BI定義 安淑芝等 編著 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 清華大學(xué)出版社:指企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計商務(wù)知識和見解,改善商務(wù)決策水平,采取有效的商務(wù)行動,完善各種商務(wù)流程,提升各方面商務(wù)績效,增強綜合競爭力的智慧和能力。第二節(jié) 傳統(tǒng)信息系統(tǒng)的不足傳統(tǒng)的

24、信息系統(tǒng)是在面向業(yè)務(wù)操作的在線事務(wù)處理系統(tǒng),在日常事務(wù)處理中,用戶對系統(tǒng)和數(shù)據(jù)庫的要求是數(shù)據(jù)存取頻率要高,操作時間要短;而分析型系統(tǒng)則面向企業(yè)的決策分析,在決策分析中,有的決策問題請求可能導(dǎo)致系統(tǒng)長達數(shù)小時的運行,有的決策分析問題的解決需要遍歷數(shù)據(jù)庫中大部分的數(shù)據(jù),這些是日常事務(wù)處理系統(tǒng)所無法承擔(dān)的。因此操作型數(shù)據(jù)和決策分析型數(shù)據(jù)應(yīng)該分離。 張云濤 龔玲著 數(shù)據(jù)挖掘原理與技術(shù) 電子工業(yè)出版社這兩類處理在目標、所處理的數(shù)據(jù)及所涉及的技術(shù)上都有很大的不同。因此傳統(tǒng)的信息系統(tǒng)不適用于分析處理,主要表現(xiàn)在以下方面:無法保證一致性靈活性不足信息孤島無法滿足決策分析的需要第三節(jié) 商務(wù)智能是什么商業(yè)智能是什

25、么?簡而言之,它是能夠幫助用戶對自身業(yè)務(wù)經(jīng)營做出正確明智決策的工具。如何利用企業(yè)積累的數(shù)據(jù)增進對業(yè)務(wù)情況的了解,幫助我們在業(yè)務(wù)管理及發(fā)展上作出及時、正確的判斷,然后采用明智的行動-這就是商業(yè)智能。從本質(zhì)上說,商務(wù)智能并不是一門新技術(shù),它是已有的技術(shù)的組合和集成。IDC將商務(wù)智能定義為下列軟件工具的集合。 于宗民 劉義寧 祈國輝 編著 數(shù)據(jù)倉庫項目管理實踐人民郵電出版社終端用戶查詢和報告工具。專門用來支持初級用戶的原始數(shù)據(jù)訪問,不包括適用于專業(yè)人士的成品報告生成工具。OLAP工具。提供多維數(shù)據(jù)管理環(huán)境,其典型的應(yīng)用是對商業(yè)問題的建模與商業(yè)數(shù)據(jù)分析。OLAP也被稱為多維分析。數(shù)據(jù)挖掘(Data M

26、ining)軟件.使用諸如神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù),用來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,做出基于數(shù)據(jù)的推斷。數(shù)據(jù)集市(Data Mart)和數(shù)據(jù)倉庫(Data Warehouse)產(chǎn)品。包括數(shù)據(jù)轉(zhuǎn)換、管理和存取等方面的預(yù)配置軟件,通常還包括一些業(yè)務(wù)模型,如財務(wù)分析模型。主管信息系統(tǒng)(EIS,Executive Information System)。企業(yè)機構(gòu)利用上述軟件工具在統(tǒng)一的BI平臺上建立所需要的企業(yè)范圍內(nèi)的商業(yè)分析,因此BI的本質(zhì)就是解決方案。第四節(jié) 商務(wù)智能系統(tǒng)處理流程和框架商務(wù)智能的一般過程是:1、從不同的數(shù)據(jù)源(交易系統(tǒng)或其他內(nèi)容儲存系統(tǒng))收集的數(shù)據(jù)中提取有用的數(shù)據(jù)2、對數(shù)據(jù)進行清理以保證數(shù)

27、據(jù)的質(zhì)量3、將數(shù)據(jù)經(jīng)轉(zhuǎn)換、重構(gòu)后存入數(shù)據(jù)倉庫或數(shù)據(jù)集市(這時數(shù)據(jù)變?yōu)樾畔ⅲ?、尋找合適的查詢、報告和分析工具和數(shù)據(jù)挖掘工具對信息進行處理(這時信息變?yōu)檩o助決策的知識)5、最后將知識呈現(xiàn)于用戶面前,轉(zhuǎn)變?yōu)闆Q策整個處理流程如下圖: 圖2-1 BI系統(tǒng)處理流程BI系統(tǒng)從結(jié)構(gòu)上分三層,第一層是數(shù)據(jù)采集整合層,第二層是數(shù)據(jù)存儲管理層,第三層是應(yīng)用展現(xiàn)層。 數(shù)據(jù)采集整合層數(shù)據(jù)存儲管理層應(yīng)用展現(xiàn)層圖2-2 BI系統(tǒng)層次框架第五節(jié) 商務(wù)智能業(yè)務(wù)應(yīng)用價值“將數(shù)據(jù)作為企業(yè)戰(zhàn)略資產(chǎn)并在數(shù)據(jù)質(zhì)量方面繼續(xù)投資,是使企業(yè)成為行業(yè)先鋒的重要保證。”-摘自2001年全球數(shù)據(jù)管理高峰會發(fā)表的技術(shù)的白皮書。 于宗民 劉義寧 祈國

28、輝 編著 數(shù)據(jù)倉庫項目管理實踐 人民郵電出版社這段話向所有企業(yè)展示了兩個重要的信息:一方面,數(shù)據(jù)是企業(yè)的重要戰(zhàn)略資產(chǎn),已經(jīng)成為企業(yè)制定和執(zhí)行商務(wù)活動的重要驅(qū)動之一;另一個方面,數(shù)據(jù)資產(chǎn)也使得企業(yè)的市場定位發(fā)生了重大的變化,它使企業(yè)可以從一個貿(mào)易驅(qū)動型企業(yè)轉(zhuǎn)化為信息驅(qū)動型企業(yè)。比如,由于商務(wù)智能能夠回答諸如客戶關(guān)系、地區(qū)性差異、資源充足率、產(chǎn)品生命周期、提高物流速度的方法以及產(chǎn)品定價等多個關(guān)系到企業(yè)生存與發(fā)展的問題,所以,它可以幫助企業(yè)更理智地做出關(guān)系到企業(yè)長期生存的行為決策,也就體現(xiàn)商務(wù)智能業(yè)務(wù)應(yīng)用的真正價值所在。第三章 Pentaho BI應(yīng)用解決方案第一節(jié) Pentaho項目概況Penta

29、ho是一個強大的開源BI產(chǎn)品。它擁有一個很有抱負的核心管理團隊。夢想將來Pentaho可以挑戰(zhàn)BI業(yè)界的領(lǐng)先者。Pentaho是最被看好的開源商業(yè)智能BI項目之一,也是專家建議關(guān)注的開源商業(yè)智能項目之一。 Pentaho Home 產(chǎn)品信息 http:/www.P/Pentaho的核心團隊是由具有成功創(chuàng)建過商業(yè)智能系統(tǒng)的技術(shù)專家組成的,他們大多來自頂級的商業(yè)廠商,例如Business Objects、Cognos、Hyperion、IBM、甲骨文和SAS等。目前,Pentaho的主要組成元素包括報表生成、分析、數(shù)據(jù)挖掘和工作流管理等等。這些組件通過J2EE、Web Service、SOAP、H

30、TTP、Java、JavaScript、Portals等技術(shù)集成到Pentaho平臺中來。Pentaho BI項目提供了企業(yè)級的報表、多維分析、儀表盤、數(shù)據(jù)挖掘和工作流功能,幫助組織更加有效率的運營。第二節(jié) Pentaho設(shè)計思想Pentaho的設(shè)計思想主要體現(xiàn)在三個方面,一是“集成化”,二是“面向解決方案”,三是“以流程為中心”。所謂集成化,是指將眾多不同的BI產(chǎn)品集成到一個統(tǒng)一的框架中來,使之可以相互協(xié)作。以往的BI產(chǎn)品,往往只專注于BI的某一特定領(lǐng)域,如Jfree主要關(guān)注表表的生成,Quartz主要關(guān)注日程的管理等等。然而一個完整的BI應(yīng)用往往需要這些BI產(chǎn)品能夠相互協(xié)作。Pentaho

31、通過引入“Action”的概念,提供了一個讓多種BI產(chǎn)品協(xié)作的機制?!癆ction”是Pentaho平臺提供的最基本的操作單元,它類似于一種編程語言的基本語句。所有完成具體功能的BI產(chǎn)品作為“插件”集成到Pentaho平臺中,每種插件為Pentaho平臺提供一種或幾種“Action”,每個Action有自己的輸入和輸出,多個Action連接起來就構(gòu)成了Action序列,完成一個較復(fù)雜的功能。Pentaho平臺負責(zé)在各個Action之間傳遞參數(shù),這樣多種不同的BI產(chǎn)品便能夠協(xié)同工作了。所謂解決方案(Solution),是基于Pentaho平臺的一個具體的BI應(yīng)用。Solution與Pentaho

32、平臺的關(guān)系和Web應(yīng)用與應(yīng)用服務(wù)器之間的關(guān)系十分類似。如 REF _Ref144106553 h * MERGEFORMAT 圖 所示,Pentaho平臺本身作為一個Web應(yīng)用部署在應(yīng)用服務(wù)器上,而Solution又作為一個“Pentaho應(yīng)用”,部屬在Pentaho平臺上。Solution本身實質(zhì)上是一系列Action序列的集合,這些序列在網(wǎng)頁上如何顯示,如何被調(diào)用,功能如何實現(xiàn)完全由Pentaho平臺來管理,這使得Solution的開發(fā)者,也就是Pentaho的使用者,可以將開發(fā)工作集中于具體的BI業(yè)務(wù)邏輯的開發(fā)上,而不用去關(guān)心網(wǎng)頁的設(shè)計、服務(wù)器的部署等等細節(jié)。圖 3-1 Pentaho平

33、臺層次關(guān)系圖流程即Action序列,是Solution的基本組成單位,它由多個以某種順序執(zhí)行的Action組成。Action是Pentaho平臺所提供的最基本的BI操作,大到生成一個報表,小到打印一行字,都可以是一個Action。Action之間可以順序執(zhí)行,也可以有分支或循環(huán)。Pentaho平臺的“以流程為中心”是指整個平臺的工作核心就是如何解釋執(zhí)行一個個Action序列的描述文件。用戶在做具體的BI應(yīng)用開發(fā)時,也應(yīng)當(dāng)把精力集中在描述Action序列上。Pentaho平臺將BI業(yè)務(wù)邏輯的開發(fā)以Solution的形式與系統(tǒng)的其它部分獨立開來,使得用戶可以隨心所欲的綜合運用各種不同的BI產(chǎn)品為自

34、己服務(wù),其設(shè)計理念十分值得稱道。第三節(jié) Pentaho BI平臺的開發(fā)Pentaho BI平臺包括一個 BI 框架、BI 組件、一個 BI 工作臺和桌面收件箱。BI 工作臺是一套設(shè)計和管理工具,集成到Eclipse環(huán)境?;赑entaho平臺的BI開發(fā)十分簡便,開發(fā)者只需要進行Solution的開發(fā)即可,而開發(fā)Solution,只需給出Solution中所包含的所有Action序列的描述文件即可。為了方便基于Pentaho平臺的BI應(yīng)用開發(fā),Pentaho項目組提供了一個基于Eclipse的集成開發(fā)環(huán)境:Pentaho Design Studio。用戶僅需要以一種圖形化的形式輸入Action序

35、列的描述,而由該開發(fā)工具產(chǎn)生相應(yīng)的Action序列描述文件,十分方便。 曾坤 吳大愚 張百達著Pentaho源代碼閱讀報告Pentaho中國社區(qū)http:/www.biP/Pentaho BI 平臺構(gòu)建于服務(wù)器、引擎和組件的基礎(chǔ)之上,包括J2EE 服務(wù)器、安全與權(quán)限控制、Portal、工作流、規(guī)則引擎、圖表、協(xié)作、內(nèi)容管理、數(shù)據(jù)集成、多維分析和系統(tǒng)建模等功能。這些組件的大部分是基于標準的,可使用其他產(chǎn)品替換之。其Pentaho BI開發(fā)的技術(shù)目標:提供審計構(gòu)件 提供安全和單點登錄 提供日志構(gòu)件 為組件和視圖提供通用存儲 提供完整的行程安排組件 提供規(guī)則引擎集成 提供解答引擎(報表、多維分析、儀

36、表盤和數(shù)據(jù)挖掘組件) 提供工作流集成 暴露所有的平臺組件作為 web services 遵循BI平臺的所有技術(shù)規(guī)范第四節(jié) Pentaho BI平臺的體系架構(gòu)Pentaho提出了全面的商務(wù)智能解決方案,包括前端工具、在線分析處理工具、數(shù)據(jù)挖掘工具、企業(yè)數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理器、數(shù)據(jù)預(yù)處理工具、報表設(shè)計器等。設(shè)計和管理工作臺是一個基于 Eclipse 的桌面工作臺,它提供了:報表,儀表盤,分析視圖的易于使用的設(shè)計工具。工作流流程設(shè)計器商業(yè)規(guī)則編輯器數(shù)據(jù)準備的數(shù)據(jù)挖掘工作臺OLAP 建模工具Pentaho BI的體系結(jié)構(gòu) 王娜、覃輝譯Pentaho - 開放源碼的商業(yè)智能平臺技術(shù)白皮書Pentaho

37、中國社區(qū) /Projects/Pentaho如下圖:圖3-2 Pentaho BI的體系結(jié)構(gòu)注意 Pentaho BI 工作臺體系結(jié)構(gòu)圖 王娜、覃輝譯Pentaho - 開放源碼的商業(yè)智能平臺技術(shù)白皮書Pentaho中國社區(qū) /Projects/Pentaho:BI 工作臺是一個桌面的,基于 Eclipse 的設(shè)計和管理環(huán)境。BI 工作臺產(chǎn)生工作流定義和解決方案(Solution)定義文件,它們被服務(wù)器用于執(zhí)行 BI 解決方案(Solution)。BI 工作臺運行于多個平臺。BI 工作臺審計解決方案(Solution)定義文檔的創(chuàng)建和編輯。一個版本控制系統(tǒng)用于維護解決方案(Solution)定

38、義文檔,并提供同步和版本管理能力。BI 工作臺允許以圖形化的方式查看和編輯解決方案(Solution),報表,查詢,業(yè)務(wù)規(guī)則,儀表盤和工作流。BI 工作臺是一個 Java 應(yīng)用程序,安裝在系統(tǒng)管理員和設(shè)計者的桌面計算機上。第五節(jié) Pentaho BI特征Pentaho商務(wù)智能項目提供企業(yè)級報表制作,分析,數(shù)據(jù)挖掘與工作流的功能。這個軟件提供靈活的部署選項以使它可作為嵌入式組件來使用,或作為定制BI應(yīng)用程序的解決方案或作為一個完全脫離容器,完整的BI平臺。Pentaho包括Eclipse BIRT,JasPerRerorts,Mondrian,JPivot,調(diào)度(scheduling),web服

39、務(wù),商業(yè)規(guī)則等。Pentaho開源BI系統(tǒng)是一個完全由各開源項目組成的BI平臺,另外,它還強調(diào)了兩個概念:BI系統(tǒng)應(yīng)該以工作流為核心,BI應(yīng)用應(yīng)該借助工作流技術(shù)將自身作為業(yè)務(wù)決策的一個環(huán)節(jié),實現(xiàn)與企業(yè)業(yè)務(wù)過程的整合;有效的BI系統(tǒng)必須是面向解決方案的,而不是面向平臺/工具。BI系統(tǒng)不但要提供像傳統(tǒng)的BI廠商那樣的BI工具及平臺,更要提供針對特定項目制定方案的集成開發(fā)環(huán)境(它提供基于Eclipse的客戶化環(huán)境)。第六節(jié) Pentaho BI如何解決問題企業(yè)利用Pentaho BI平臺接口引擎集成各功能組件統(tǒng)一建立所需要的企業(yè)范圍內(nèi)的商業(yè)分析,因此Pentaho BI的本質(zhì)就是解決方案。那么Pen

40、taho BI是如何解決問題的呢?Pentaho BI平臺集成工作流,商業(yè)規(guī)則,信息傳送和通知,調(diào)度,審計,應(yīng)用程序集成,內(nèi)容瀏覽,用戶接口,具有報表,分析,儀表盤功能的設(shè)計和管理工具,以及數(shù)據(jù)挖掘組件和引擎。構(gòu)建一個商業(yè)智能解決方案(Solution)所必需的組件和技術(shù):報表,工作列,商業(yè)規(guī)則,儀表盤/分析,web 服務(wù),調(diào)度,方便的 web 和桌面用戶接口的混合,以及審計。Pentaho BI 平臺是第一個以業(yè)務(wù)流程為中心的,面向 solution 的商業(yè)智能平臺。引用Pentaho的Creating Pentaho Solutions文檔中非常經(jīng)典的案例:業(yè)務(wù)問題:當(dāng)一個許可證有效期已滿

41、的雇員在一家醫(yī)療機構(gòu)工作時,需要注意到這個問題,一個代理工人必須替換這個雇員,直到他們的許可證被更新過。注意到何種情況下,一個病人的安全是有風(fēng)險的和發(fā)生風(fēng)險的可能性。業(yè)務(wù)目標:提高病人的安全,減少沒有許可證的雇員的責(zé)任,減少替換沒有許可證的雇員時,雇用的代理職員上的花銷。當(dāng)前業(yè)務(wù)流程:每個經(jīng)理維護她所在部門的許可證有效期的一個列表。建議解決方案:從一個集中式的數(shù)據(jù)庫,預(yù)約生成報表,它根據(jù)部門,列出了每個雇員持有的許可證,以及他們當(dāng)前許可證的有效期。方案1:給他們要求的東西創(chuàng)建一個 50 頁的報表并每月發(fā)送給每個部門。Resulting Business 業(yè)務(wù)流程:報表的運行沒有被審計。如果報表

42、沒有被如期的產(chǎn)生,那人們需要多久才能發(fā)現(xiàn)這種情況呢?每個部門的經(jīng)理需要讀取報表和過濾信息。但是,有可能報表丟失,管理員休假,或者日期搞錯了。當(dāng)管理員發(fā)現(xiàn)license 即將過期時,他們會使用郵件給同事們發(fā)一個通知。但通知可能會丟失或弄錯郵箱。雇員盡力規(guī)劃預(yù)備工作,申請 和 認證 時間。但如果時間表發(fā)生沖突, 將導(dǎo)致預(yù)備工作受損。雇員在 license 過期前,因為沒有時間做更多的預(yù)備工作或者認證而失敗。這個 solution 是不完整的,因為它僅僅自動化了信息傳遞,它對于必須要發(fā)生的真實 業(yè)務(wù)流程并沒有任何輔助作用。業(yè)務(wù)目標被使用報表產(chǎn)品的方式來達到。方案 2:給他們真正需要的東西創(chuàng)建業(yè)務(wù)規(guī)則

43、來判定為了對每種類型的license做足預(yù)備工作而需要的交付周期,并增加對問題域的解決路徑。每天或每周運行一個列出雇員在他們交付周期內(nèi)的審計報表。對于每個雇員,初始化一個預(yù)定義的license更新業(yè)務(wù)流程:在經(jīng)理與雇員之間雙向傳遞電子化信息要求經(jīng)理與雇員都要做電子化確認指導(dǎo)雇員編排預(yù)備工作時間表指導(dǎo)經(jīng)理審核并批準時間表要求雇員輸入認證測試日期逐步告警功能,如果沒有足夠的再測試時間獲得的話要求經(jīng)理校驗新的license傳遞認證失敗的通知給經(jīng)理和時間表調(diào)度程序,提供許可證更新業(yè)務(wù)流程的在線、實時的報表。產(chǎn)生月度和季度的績效審計報表這個方案解決了業(yè)務(wù)問題。第七節(jié) Pentaho BI平臺快速啟動Pe

44、ntaho BI 平臺是一個以流程為中心的,工作流驅(qū)動的,可擴展平臺,用于解決商業(yè)智能問題。那么如何快速啟動Pentaho 平臺呢?下載安裝文件。 自由下載最新的Pentaho-demo文件。這個下載包括一個預(yù)配置的 JBoss (httP:/) application server 以及samples數(shù)據(jù)。啟動server,在Pentaho-demo 目錄下雙擊start-Pentaho.bat文件。訪問平臺 samples 的 URL :httP:/localhost:8080/Pentaho/Home打開WEB瀏覽器顯示如下圖: 圖3-3 Pentaho商務(wù)智能平臺第四章 基于Penta

45、ho平臺的BI開發(fā)第一節(jié) Pentaho BI開發(fā)的特點數(shù)據(jù)作為一種企業(yè)資產(chǎn),自然有必要增加這種資產(chǎn)的價值,提高它的利用程度,而在企業(yè)內(nèi)部實施BI就是一個增加企業(yè)信息資產(chǎn)價值的方法。那么怎樣開發(fā)這樣的項目呢?Pentaho構(gòu)建一個商業(yè)智能解決方案(Solution)所必需的組件和技術(shù):報表,工作列,商業(yè)規(guī)則,儀表盤/分析,web 服務(wù),調(diào)度,方便的 web 和桌面用戶接口的混合,以及審計。一、開發(fā)優(yōu)勢Pentaho BI成本性通過使用開放源碼,Pentaho 能顯著降低 BI 解決方案(Solution)所有者的成本。開放源碼組件協(xié)助提供一個可擴展的,健壯的平臺。所有者的成本主要和適當(dāng)?shù)募杏?/p>

46、解決方案(Solution)的定制和業(yè)務(wù)流程的集成/自動化。Pentaho BI定制性BI 平臺有外部規(guī)則引擎,可編輯的流程,源代碼可用性,可重用的 BI 組件,以及充分定制的用戶接口。平臺執(zhí)行可編輯的流程,并可和外部業(yè)務(wù)流程集成。結(jié)果是一個高度可定制的解決方案(Solution)。Pentaho BI靈活性BI 平臺是以流程為中心的,基于工作流的,以商業(yè)規(guī)則為指導(dǎo)。它可以很容易的集成到業(yè)務(wù)流程,并有內(nèi)置的流程性能報表。業(yè)務(wù)規(guī)則用于識別問題和異常,并執(zhí)行被審計的流程來解決它們。即指當(dāng)完全不同的特定的BI要求產(chǎn)生時,系統(tǒng)能夠通過對Pentaho BI基本成分的變更,使得新的專用BI的產(chǎn)生,這種靈

47、活性也稱為適配的靈活性。Pentaho BI擴展性Pentaho提供了源代碼?;A(chǔ)設(shè)施, 組件,引擎和接口可任意修改。其擴展性空間很大。二、用戶需求分析因為BI要解決的問題大多時非結(jié)構(gòu)化的問題,決策者(管理者)所希望的要求往往時間變化著的。開發(fā)BI沒有一個固定的模式,從哪來入手呢?研究誰是BI的用戶?他們的信息需求是什么?盡管企業(yè)的管理者們面臨種種經(jīng)營管理方面的問題,但是他們很難設(shè)想應(yīng)當(dāng)用一個BI作為其支持決策解決問題的工具。與其等著這些經(jīng)理們提出一份文字化的BI要求,倒不如讓他們提出各種在實際工作中遇到的問題,由開發(fā)人員去研究是否可以為解決這些問題發(fā)揮BI的作用。從現(xiàn)行信息系統(tǒng)的基礎(chǔ)入手,從

48、而找到開發(fā)BI的突破點。如果現(xiàn)行系統(tǒng)對于決策問題難以發(fā)揮作用,那么就產(chǎn)生了開發(fā)BI的需求。開發(fā)人員可以通過對企業(yè)經(jīng)理的調(diào)查,得到他們的具體信息要求,看哪些信息是通過對數(shù)據(jù)庫的操作和檢索即可實現(xiàn),哪些必須要經(jīng)過使用模型化的方法,經(jīng)過分析才能達到要求??梢杂纱藛覤I開發(fā)工作。三、開發(fā)團隊很多情況下BI開發(fā)需要組織中的經(jīng)理和開發(fā)人員共同參與,進行團隊作業(yè)。一般而言,與BI開發(fā)有關(guān)的人員可能包括一下一些角色。最終用戶,是BI開發(fā)團隊中不可缺少的成員??赡苁瞧髽I(yè)的高級經(jīng)理,也可能是市場分析人員等提供決策信息的專業(yè)人員,或是一個做某種決策的委員會,其中每個成員都直接涉及到?jīng)Q策的形成。助理人員,是做技術(shù)性

49、工作的專業(yè)人員,有較強的專業(yè)知識背景。輔助決策者使用BI系統(tǒng)。信息技術(shù)部門,解決信息系統(tǒng)技術(shù)性問題。技術(shù)專業(yè)人員,企業(yè)外部的信息技術(shù)企業(yè),輔助信息技術(shù)部門進行系統(tǒng)開發(fā),有豐富的BI技術(shù)性專業(yè)知識,但對企業(yè)情況基本不了解。四、實行項目管理在BI啟動以后,還必須在整個實施過程中實行項目管理。將系統(tǒng)實施分割成若干可管理的過程,設(shè)置若干過程的里程碑,然后通過項目管理計劃,對各種人員、設(shè)備的進程進行管理。第二節(jié) Pentaho BI開發(fā)方法由于BI系統(tǒng)的特殊性質(zhì),在系統(tǒng)開發(fā)過程中要根據(jù)系統(tǒng)的應(yīng)用領(lǐng)域、業(yè)務(wù)范圍、用戶對象等,采用恰當(dāng)?shù)拈_發(fā)方法。從信息系統(tǒng)軟件開發(fā)方法論的觀點來看,采用生命周期法,可分為6個

50、階段。系統(tǒng)規(guī)劃階段系統(tǒng)分析階段系統(tǒng)設(shè)計階段系統(tǒng)實施階段系統(tǒng)操作和維護階段系統(tǒng)的評價與控制階段由于BI的面向非結(jié)構(gòu)化問題的性質(zhì),在開發(fā)一個復(fù)雜的BI時,可以考慮按照如下圖所提出的任務(wù)來進行項目管理,以推進項目的順利進展。圖4-1 BI開發(fā)的8個階段第三節(jié) Pentaho BI實施流程基于Pentaho的BI開發(fā)是以平臺的使用為基礎(chǔ)的,在系統(tǒng)設(shè)計期間我們用工作流管理平臺來設(shè)計業(yè)務(wù)的工作流程以及各功能模塊之間的應(yīng)用整合。在系統(tǒng)實現(xiàn)階段,使用數(shù)據(jù)篩選、過濾和轉(zhuǎn)換工具(Kettle),聯(lián)機分析處理(Mondrian OLAP),數(shù)據(jù)挖掘(Weka),復(fù)雜報表設(shè)計(BIRT)的使用,然后在Pentaho中

51、編寫相應(yīng)的配置文件。模塊設(shè)計書系統(tǒng)分析員元分析報告系統(tǒng)設(shè)計員數(shù)據(jù)分析模型配置人員分析展示平臺PentahoBI平臺圖4-2基于Pentaho平臺開發(fā)流程如下圖5.3顯示了BI系統(tǒng)一個相對完整的實施流程:分析數(shù)據(jù),并分發(fā)分析結(jié)果確定需要完成的數(shù)據(jù)分析應(yīng)用理解業(yè)務(wù)需求確定需要的數(shù)據(jù)分析主題確定涉及應(yīng)用的業(yè)務(wù)系統(tǒng)確定數(shù)據(jù)涉及應(yīng)用的數(shù)據(jù)范圍明確數(shù)據(jù)所代表的業(yè)務(wù)含義按照分析的結(jié)果將數(shù)據(jù)裝載到BI系統(tǒng)圖4-3 BI系統(tǒng)項目實施的工作流程第四節(jié) Pentaho BI系統(tǒng)開發(fā)分析Pentaho實時地對企業(yè)中不同部門、不同區(qū)域、不同時期、不同信息系統(tǒng)(如財務(wù)軟件、ERP、CRM)中的數(shù)據(jù)進行采集、抽取、整合和轉(zhuǎn)

52、化,并按維度與層次對主題建立數(shù)據(jù)分析模型,進行多維、深度分析,找尋隱藏在數(shù)據(jù)與數(shù)據(jù)之間的潛在關(guān)系,在預(yù)測模型的基礎(chǔ)上對未來做出判斷。同時通過豐富的圖形和立體報表靈活地展現(xiàn)數(shù)據(jù)。其BI 實現(xiàn)包含很多階段:業(yè)務(wù)需求分析,這個過程是根據(jù)用戶提出的要求,明確本次項目中需要完成的目標。業(yè)務(wù)流程模型化,這個過程是根據(jù)已經(jīng)分析完成的業(yè)務(wù)需求,使用業(yè)務(wù)流程建模技術(shù)將相應(yīng)的業(yè)務(wù)流程用數(shù)據(jù)模型的方式記錄下來。設(shè)計和開發(fā)數(shù)據(jù)存儲空間,將企業(yè)內(nèi)部所有與業(yè)務(wù)需求分析內(nèi)容相關(guān)的數(shù)據(jù)存放在一起,運用數(shù)據(jù)倉庫技術(shù),建立數(shù)據(jù)模型,提供業(yè)務(wù)分析應(yīng)用。規(guī)范業(yè)務(wù)規(guī)則,業(yè)務(wù)規(guī)則是指影響或引導(dǎo)企業(yè)經(jīng)營行為,并為保證企業(yè)降低經(jīng)營風(fēng)險而預(yù)設(shè)

53、置的經(jīng)營政策。例如路口信號燈,“紅燈停,綠燈行,黃燈等待”就是三個業(yè)務(wù)規(guī)則,建立整合信息平臺,這個過程是將本次分析需要的數(shù)據(jù)都集中存放起來。分析數(shù)據(jù),提供分析結(jié)果。通過各種業(yè)務(wù)應(yīng)用,數(shù)據(jù)挖掘分析,展現(xiàn)可示化結(jié)果。而Pentaho中的BI工作流程又可具體為:完成報表和信息傳送需求儀表盤 和 KPI(關(guān)鍵性能指標)顯示異常可能原因的高級分析集成報表和流程管理/工作流流程的分析和調(diào)整基本統(tǒng)計聚類分析 采購部銷售部財務(wù)部人事部發(fā)現(xiàn)、應(yīng)用 多維分析報表EIS即席查詢數(shù)據(jù)分析數(shù)據(jù)分析平臺數(shù)據(jù)建模數(shù)據(jù)挖掘 數(shù)據(jù)倉庫數(shù)據(jù)倉庫統(tǒng)一口徑和指標標準字典信息數(shù)據(jù)整合抽取、轉(zhuǎn)換、清洗 POS財務(wù)人事其他數(shù)據(jù)源 圖4-4

54、 Pentaho BI 系統(tǒng)架構(gòu)第五節(jié) Pentaho BI開發(fā)工具(1)、數(shù)據(jù)源本系統(tǒng)的數(shù)據(jù)源主要是ERP系統(tǒng)的數(shù)據(jù)庫,該ERP系統(tǒng)是以SQL SERVER2000數(shù)據(jù)庫管理系統(tǒng)為數(shù)據(jù)庫平臺的。(2)、ETL工具采用Kettle作為ETL工具,Kettle通過JDBC接口連接SQL Server2000數(shù)據(jù)源并抽取數(shù)據(jù)。Kettle可以高效地將數(shù)據(jù)加載到SQL Server2000的數(shù)據(jù)倉庫中。即將來自ERP的不同類型數(shù)據(jù)采用通用數(shù)據(jù)整合平臺進行抽取、凈化、轉(zhuǎn)換和裝載,形成可以被系統(tǒng)識別的統(tǒng)一數(shù)據(jù)格式,導(dǎo)入數(shù)據(jù)倉庫存放。(3)、數(shù)據(jù)倉庫采用MS SQL Server2000作為數(shù)據(jù)倉庫,另一

55、方面存儲構(gòu)建數(shù)據(jù)倉庫的表,另一方面也存儲星型模型數(shù)據(jù)集市的維表和事實表。(4)、OLAP服務(wù)器采用Mondrian服務(wù)器作為OLAP服務(wù)器,Mondrian服務(wù)器是一款非常優(yōu)秀的J2EE應(yīng)用服務(wù)器,具有良好的運行效率和可靠性。方便定義維度構(gòu)建OLAP立方體。(5)、OLAP展示工具采用JPivot作為OLAP的展示工具,JPivot連接并操作Cube Designer多維分析模型設(shè)計的OLAP立方體,最終用戶通過Pentaho在WEB瀏覽器中進行OLAP操作。(6)、數(shù)據(jù)倉庫應(yīng)用處理工具數(shù)據(jù)倉庫的應(yīng)用處理主要展現(xiàn)在復(fù)雜的查詢和報表上,采用 BIRT所見即所得的開源報表工具,以隨意拖放和設(shè)置各種

56、報表的表格和圖表控件,還可以快速方便地設(shè)置報表的數(shù)據(jù)來源。在報表的設(shè)計過程中,用戶可以隨時預(yù)覽報表的結(jié)果。(7)、數(shù)據(jù)挖掘工具應(yīng)用Pentaho合并的WEKA開源數(shù)據(jù)挖掘工具,WEKA提供豐富的算法,如決策樹算法、聚類算法、關(guān)聯(lián)規(guī)則、回歸算法等。(8)、元數(shù)據(jù)管理工具使用即席查詢設(shè)計報表 Metadata Editor,該工具和數(shù)據(jù)庫以及Pentaho緊密結(jié)合,可以實現(xiàn)自動元數(shù)據(jù)管理。綜上,Pentaho BI平臺應(yīng)用各開源工具集成商務(wù)智能系統(tǒng)平臺構(gòu)建已初步完成,其涉及的開源工具的介紹和操作應(yīng)用在第六章中詳細介紹。第六節(jié) Pentaho BI系統(tǒng)效益評估對于系統(tǒng)效益的評估也是整個BI開發(fā)過程中

57、的一環(huán)。主要是目的是對系統(tǒng)開發(fā)的工作進行總結(jié),分析項目是否取得預(yù)想的效益。通常對BI項目的評估時常用的三種基本方法是:投資回報率法、評分評估法和價值分析法。一、實施速度 Pentaho BI技術(shù)方案處于當(dāng)今高節(jié)奏的信息時代,若想在激烈的競爭中謀取更好的發(fā)展,企業(yè)的經(jīng)營管理就必須跟上這樣的節(jié)奏。企業(yè)的信息化系統(tǒng)是經(jīng)營管理的重要體現(xiàn)。因此,企業(yè)對軟件系統(tǒng)的實施周期必然有了更高的要求。J2EE 體系下的業(yè)務(wù)解釋平臺所具有的高度可重用性,及并發(fā)行性的特征,可以大大的提高軟件的開發(fā)效率,減少開發(fā)周期,降低成本,滿足企業(yè)要求。 二、系統(tǒng)穩(wěn)定性 由于整個開發(fā)周期中,程序?qū)崿F(xiàn)的比率大大縮小,我們就可以適當(dāng)增加

58、系統(tǒng)分析和設(shè)計的比例,同時應(yīng)用平臺提供的成熟的業(yè)務(wù)規(guī)則,可以使系統(tǒng)在功能上最大程度的滿足用戶需求,減少系統(tǒng)運行后的功能更改。平臺實現(xiàn)的高度的代碼重用,有效的避免了拷貝粘貼,因此極大的減少程序BUG 的產(chǎn)生。這些都可以使系統(tǒng)的運行穩(wěn)定性大大提高。 三、系統(tǒng)可維護性 使用 B/S結(jié)構(gòu),用戶客戶端不需要安裝應(yīng)用程序,大大降低部署難度??蛻舳溯p負載,降低對客戶機的性能要求。這些對節(jié)約項目成本的作用顯而易見。使用多層結(jié)構(gòu),可以使系統(tǒng)的改動局部化,降低變動的影響和成本。使用業(yè)務(wù)解釋平臺增強系統(tǒng)的可維護性,系統(tǒng)的改動只要通過修改配置文件就可完成。第七節(jié) 小結(jié)綜上,具體提出了基于Pentaho BI平臺開發(fā)的

59、特點、開發(fā)的方法、開發(fā)的流程以及開發(fā)的工具和系統(tǒng)的效益評估。然而Pentaho BI開發(fā)所涉及的開發(fā)工具是如何應(yīng)用的?又是如何集成的?將在下一章中詳細介紹這些開發(fā)工具的實踐部署和應(yīng)用。第五章 Pentaho BI平臺應(yīng)用實例Pentaho BI 平臺是一個以過程為核心,面向解決方案的,可擴展的商務(wù)智能平臺。它的出現(xiàn),使得一系列的面向商務(wù)智能的獨立產(chǎn)品如KETTLE、BIRT等等,能夠集成在一起,構(gòu)成一項項復(fù)雜的、完整的商務(wù)智能解決方案。Pentaho開源BI系統(tǒng)是一個完全由各開源項目組成的BI平臺,系統(tǒng)主要采用以下開源項目,并對其進行改進、擴充與集成:OLAP服務(wù)器: MondrianOLAP

60、展示:JPivot關(guān)系型數(shù)據(jù)庫:Firebird RDBMSETL工具:KETTLE工作流引擎:Shark and Jawe應(yīng)用服務(wù)器/Portal服務(wù)器/ O/R影射:Jboss數(shù)據(jù)挖掘:Weka集成管理/開發(fā)環(huán)境:Eclipse報表、表格、圖形等組件:Eclipse Birt一個完整的BI系統(tǒng),無外乎由ETL(數(shù)據(jù)抽取轉(zhuǎn)換工具)+DW(數(shù)據(jù)倉庫)+OLAP(聯(lián)機分析工具)三部分構(gòu)成,如下圖展示:圖5-1 BI系統(tǒng)應(yīng)用以下就針對數(shù)據(jù)篩選、過濾、轉(zhuǎn)換工具,OLAP分析工具,報表設(shè)計工具,在Pentaho BI集成平臺中的應(yīng)用進行示例分析。第一節(jié) 應(yīng)用部署 = 1 * GB3 安裝 j2sdk-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論