2023年【干貨】教育大數(shù)據(jù)之?dāng)?shù)據(jù)集成系統(tǒng)_第1頁
2023年【干貨】教育大數(shù)據(jù)之?dāng)?shù)據(jù)集成系統(tǒng)_第2頁
2023年【干貨】教育大數(shù)據(jù)之?dāng)?shù)據(jù)集成系統(tǒng)_第3頁
2023年【干貨】教育大數(shù)據(jù)之?dāng)?shù)據(jù)集成系統(tǒng)_第4頁
2023年【干貨】教育大數(shù)據(jù)之?dāng)?shù)據(jù)集成系統(tǒng)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

【干貨】教育大數(shù)據(jù)之?dāng)?shù)據(jù)集成系統(tǒng)class="aligncentersize-fullwp-image-5735544"src="/wp-files/2023/01/qMpVFF17ZUjG5XmbxrRJ.png"alt=""width="900"height="420"/>

一個(gè)風(fēng)雨交加的晚上,領(lǐng)導(dǎo)把我拉到會(huì)議室說:老影啊,公司接到一個(gè)項(xiàng)目,需要在3個(gè)月里完成一個(gè)大數(shù)據(jù)平臺(tái)的開發(fā),用于項(xiàng)目的交付,這個(gè)任務(wù)交給你了,加油搞!此刻的我:搞?搞事情啊!由此我開頭了數(shù)據(jù)平臺(tái)的“闖關(guān)之路”,遇到的第一個(gè)boss就是數(shù)據(jù)集成系統(tǒng)

01什么是數(shù)據(jù)集成?

百科里的解釋是:把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在規(guī)律上或物理上有機(jī)地集中,從而為企業(yè)供應(yīng)全面的數(shù)據(jù)共享;通俗講就是把分散在各個(gè)系統(tǒng)中的各種類型的數(shù)據(jù)統(tǒng)一匯聚起來,主要體現(xiàn)在一個(gè)“集”字。而數(shù)據(jù)集成系統(tǒng)就是供應(yīng)數(shù)據(jù)集成力量的平臺(tái),是一站式解決異構(gòu)數(shù)據(jù)存儲(chǔ)互通,消退數(shù)據(jù)孤島的同步平臺(tái),為大數(shù)據(jù)各系統(tǒng)和業(yè)務(wù)方供應(yīng)數(shù)據(jù)集成的高效通道。

拿現(xiàn)實(shí)中的實(shí)例類比來說,數(shù)據(jù)集成就好比把各種糧食通過不同的管道灌輸?shù)揭粋€(gè)大糧倉中,這些管道就是數(shù)據(jù)集成系統(tǒng),我們可以支持接入各式各樣的糧食,小麥、玉米、大豆等等,同時(shí)支持在這些管道中加一些濾網(wǎng),比如在大豆的管道中加上5mm的濾網(wǎng),此時(shí)從大豆管道過來的糧食只有5mm以下的大豆,這就相當(dāng)于數(shù)據(jù)集成系統(tǒng)中的數(shù)據(jù)過濾功能;這個(gè)糧倉相當(dāng)于集成目的,我們把數(shù)據(jù)集成進(jìn)來之后存儲(chǔ)在這里,供其他各方消費(fèi)。

02教育為什么要做數(shù)據(jù)集成?

1.數(shù)據(jù)大爆炸

現(xiàn)在是一個(gè)信息大爆炸時(shí)代,互聯(lián)網(wǎng)的高速進(jìn)展、快速普及,讓信息無處不在、無孔不入,每天在我們所生活在的這個(gè)世界消失了大量的信息,教育場(chǎng)景下也不例外,隨著各種信息化系統(tǒng)的涌入,信息以空前的速度增長,教育從業(yè)者體驗(yàn)著信息時(shí)代便捷的同時(shí),也給他們帶來了問題和“副作用”,從浩如煙海的信息海洋中快速而精確?????地獵取他們最需要的信息,變得特別困難。

2.數(shù)據(jù)來源多樣化

隨著《教育信息化2.0行動(dòng)方案》的提出,教學(xué)過程中的信息化系統(tǒng)越來越多,比如作業(yè)系統(tǒng)、考試系統(tǒng)、選課系統(tǒng)、才智課堂等等,每個(gè)系統(tǒng)都會(huì)產(chǎn)生大量的數(shù)據(jù),存儲(chǔ)在各自的數(shù)據(jù)庫中,假如系統(tǒng)的服務(wù)商不同,可能數(shù)據(jù)的格式也不一樣,致使教育場(chǎng)景下的數(shù)據(jù)越來越多,越來越難以管理。

3.數(shù)據(jù)集不同結(jié)構(gòu)

教育場(chǎng)景下的數(shù)據(jù)集可能是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至非結(jié)構(gòu)化的;比如:考試系統(tǒng)中的數(shù)據(jù)是結(jié)構(gòu)化的,評(píng)價(jià)系統(tǒng)中的數(shù)據(jù)是半結(jié)構(gòu)化的,課堂實(shí)錄中的數(shù)據(jù)是非結(jié)構(gòu)化的;不同結(jié)構(gòu)的數(shù)據(jù)需要整合成統(tǒng)一的結(jié)構(gòu)才能夠進(jìn)行統(tǒng)計(jì)和分析。

4.數(shù)據(jù)冗余

數(shù)據(jù)中有許多冗余、錯(cuò)誤、敏感數(shù)據(jù),假如不進(jìn)行數(shù)據(jù)清洗,會(huì)影響數(shù)據(jù)分析的效率和結(jié)果;在這種狀況下需要我們配置統(tǒng)一的標(biāo)準(zhǔn),對(duì)數(shù)據(jù)進(jìn)行簡潔的處理,以便于后續(xù)進(jìn)行統(tǒng)計(jì)分析。

03數(shù)據(jù)集成系統(tǒng)對(duì)教育的價(jià)值是什么?

大數(shù)據(jù)技術(shù)能夠?qū)㈦[蔽于海量數(shù)據(jù)中的信息和學(xué)問挖掘出來,根據(jù)科學(xué)的教育評(píng)價(jià)準(zhǔn)則,對(duì)教學(xué)數(shù)據(jù)進(jìn)行科學(xué)的統(tǒng)計(jì)分析,供應(yīng)有價(jià)值的教學(xué)質(zhì)量測(cè)評(píng)與分析數(shù)據(jù),實(shí)現(xiàn)對(duì)教育活動(dòng),教育過程和教育結(jié)果的價(jià)值評(píng)判,為提高教育質(zhì)量,教育決策以及學(xué)校改進(jìn)日常教學(xué)方法供應(yīng)科學(xué)的依據(jù),實(shí)現(xiàn)教育管理的智能化,提升教育管理與服務(wù)水平。

數(shù)據(jù)集成系統(tǒng)作為底層基礎(chǔ)支撐性服務(wù),是大數(shù)據(jù)系統(tǒng)的核心組成部分。通過供應(yīng)數(shù)據(jù)集成力量,將教育各部門和來自互聯(lián)網(wǎng)的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一的匯聚接入,存儲(chǔ)到大數(shù)據(jù)存儲(chǔ)組件,并支持?jǐn)?shù)據(jù)的預(yù)處理,為大數(shù)據(jù)系統(tǒng)供應(yīng)原始數(shù)據(jù)支撐。

04數(shù)據(jù)集成系統(tǒng)怎么做?

1.建設(shè)原則

數(shù)據(jù)采集系統(tǒng)針對(duì)實(shí)際項(xiàng)目中簡單的、異構(gòu)的數(shù)據(jù)環(huán)境,實(shí)現(xiàn)對(duì)多種數(shù)據(jù)源的集成,支持的關(guān)系數(shù)據(jù)庫有Oracle、MySQL、Sqlserver等,支持的文件類型有txt文件、csv文件、excel文件等,支持的接口類型有webservice接口、http接口、socket接口等。

對(duì)于不同的大數(shù)據(jù)存儲(chǔ)需求,實(shí)現(xiàn)對(duì)多種大數(shù)據(jù)存儲(chǔ)組件的支持,支持的大數(shù)據(jù)存儲(chǔ)組件包括HDFS、HBase、Hive、Solr、Elasticserach等。

針對(duì)數(shù)據(jù)的預(yù)處理需求,實(shí)現(xiàn)對(duì)數(shù)據(jù)的清洗、轉(zhuǎn)換、標(biāo)準(zhǔn)化等預(yù)處理的支持,并且支持清洗規(guī)章、轉(zhuǎn)換規(guī)章的用戶自定義,以及清洗、轉(zhuǎn)換、導(dǎo)入流程的用戶自定義。

在數(shù)據(jù)采集系統(tǒng)中,各類功能點(diǎn)模塊化、組件化,便于步驟獨(dú)立,保證系統(tǒng)內(nèi)部模塊自治,同時(shí)便于多種步驟、方法的組合應(yīng)用。

簡化用戶操作,通過圖形化的配置方式,簡潔,敏捷,使得用戶無需過分關(guān)懷數(shù)據(jù)庫的各種內(nèi)部細(xì)節(jié),而專注于功能。

2.數(shù)據(jù)集成信息框架

數(shù)據(jù)集成信息流

3.功能結(jié)構(gòu)

為了快速實(shí)現(xiàn)數(shù)據(jù)集成系統(tǒng),滿意后續(xù)項(xiàng)目交付,經(jīng)過和研發(fā)大佬的多次溝通,優(yōu)先實(shí)現(xiàn)為業(yè)務(wù)供應(yīng)數(shù)據(jù)集成的力量的數(shù)據(jù)源管理和集成任務(wù)管理。明確了第一版需求,只要包含數(shù)據(jù)源管理和集成任務(wù)管理就可以支持項(xiàng)目交付,因此功能結(jié)構(gòu)設(shè)計(jì)如下:

數(shù)據(jù)集成系統(tǒng)功能結(jié)構(gòu)圖

4.建設(shè)內(nèi)容

1)數(shù)據(jù)源管理

數(shù)據(jù)源模塊主要管理平臺(tái)支持的數(shù)據(jù)組件的基礎(chǔ)信息,包含各種數(shù)據(jù)組件的新增,配置和管理,如關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)庫IP,端口,訪問信息等。這里大家可以理解為一個(gè)中間層,先通過數(shù)據(jù)抽取組件將各系統(tǒng)數(shù)據(jù)抽取到這里,以備后續(xù)集成任務(wù)管理模塊的調(diào)用。

在這里可以對(duì)數(shù)據(jù)源進(jìn)行增刪改查,前提是需要和數(shù)據(jù)來源方溝通好,需要供應(yīng)數(shù)據(jù)庫IP相關(guān)信息,下方是頁面示例:

數(shù)據(jù)源管理列表

2)集成任務(wù)管理

當(dāng)用戶創(chuàng)建好數(shù)據(jù)源之后,需要有一個(gè)模塊支持用戶創(chuàng)建集成任務(wù),相當(dāng)于上文中講到的,上游的全部糧食都預(yù)備好了,需要我們供應(yīng)搭建管道的地方,讓用戶把全部的管道搭起來,然后把各種糧食都匯聚到一起。此時(shí)集成任務(wù)管理模塊誕生了,這個(gè)模塊下主要對(duì)數(shù)據(jù)集成的任務(wù)進(jìn)行統(tǒng)一的管理,支持用戶對(duì)數(shù)據(jù)集成任務(wù)進(jìn)行增刪改查。

①操作列表功能

上線:集成任務(wù)完成創(chuàng)建狀態(tài)默認(rèn)為未上線,此時(shí)用戶可將集成任務(wù)上線,上線為就緒狀態(tài);運(yùn)行:上線狀態(tài)下的任務(wù)支持運(yùn)行,運(yùn)行自動(dòng)調(diào)用任務(wù)執(zhí)行組件,開頭數(shù)據(jù)集成;下線:已上線的任務(wù)支持下線;刪除:未上線和已下線的任務(wù)支持刪除;編輯:未上線和已下線的任務(wù)支持編輯。

數(shù)據(jù)集成任務(wù)列表

②任務(wù)運(yùn)行

集成任務(wù)創(chuàng)建好之后,假如需要周期性的拉取數(shù)據(jù),這時(shí)候需要支持進(jìn)行例行周期配置,支持用戶配置定時(shí)任務(wù);同時(shí)支持用戶進(jìn)行失敗策略、任務(wù)執(zhí)行優(yōu)先級(jí)等相關(guān)參數(shù)的配置。3)新增集成任務(wù)

為了便利用戶填寫,支持用戶選擇不同的數(shù)據(jù)源類型,數(shù)據(jù)接口類型不同,需要配置的參數(shù)信息也不同;但是總體來說數(shù)據(jù)集成主要分為三步:

數(shù)據(jù)接入:回答數(shù)據(jù)從哪來的問題;數(shù)據(jù)處理:回答對(duì)數(shù)據(jù)要做什么的問題;數(shù)據(jù)輸出:回答數(shù)據(jù)要到哪去的問題。下方以將第三方數(shù)據(jù)庫數(shù)據(jù)集成到hive中為例舉例說明。選擇數(shù)據(jù)庫之后,頁面進(jìn)入數(shù)據(jù)集成任務(wù)配置頁,三個(gè)步驟依次如下:

①數(shù)據(jù)接入

主要配置數(shù)據(jù)源相關(guān)信息,需要用戶填寫數(shù)據(jù)源表相關(guān)信息:

數(shù)據(jù)源:數(shù)據(jù)集群相關(guān)信息;數(shù)據(jù)庫:源數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫;是否分表:假如分表存儲(chǔ)需要從多個(gè)表抽取數(shù)據(jù);表名:源數(shù)據(jù)所在表名;數(shù)據(jù)歸屬產(chǎn)品/系統(tǒng):這部分?jǐn)?shù)據(jù)在名目管理系統(tǒng)維護(hù),這里直接引用;數(shù)據(jù)預(yù)覽:支持用戶對(duì)所選表進(jìn)行預(yù)覽,查看數(shù)據(jù)格式。

數(shù)據(jù)接入

②數(shù)據(jù)處理

到在數(shù)據(jù)集成過程中會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,考慮到后續(xù)的擴(kuò)展性,這里直接將各種處理步驟提煉為公共組件,支持用戶自定義選擇,第一期可支持:字段映射過濾、賬號(hào)匹配、數(shù)據(jù)脫敏、數(shù)據(jù)轉(zhuǎn)換;為了節(jié)約操作,數(shù)據(jù)處理默認(rèn)以字段映射過濾開頭,自動(dòng)選擇一項(xiàng),用戶可直接點(diǎn)擊下一步。

數(shù)據(jù)處理

③數(shù)據(jù)輸出

此時(shí)的數(shù)據(jù)經(jīng)過預(yù)處理,已經(jīng)完成了清洗、轉(zhuǎn)換的操作,接下來就需要將處理完的數(shù)據(jù)存下來,以備后續(xù)使用。

數(shù)據(jù)輸出

05數(shù)據(jù)集成結(jié)束后做什么?

下面以同學(xué)畫像的思路和大家簡潔聊聊。通過從各個(gè)系統(tǒng)中采集過來的數(shù)據(jù),包含但不限于:同學(xué)上網(wǎng)數(shù)據(jù)、網(wǎng)頁掃瞄時(shí)長、作業(yè)完成數(shù)據(jù)、作業(yè)完成時(shí)長、課堂互動(dòng)數(shù)據(jù)等等,關(guān)心學(xué)校管理者針對(duì)同學(xué)群體進(jìn)行標(biāo)簽化分析。關(guān)心教育管理者從學(xué)習(xí),網(wǎng)絡(luò)行為,生活等多維度分析同學(xué)群體的習(xí)慣和特點(diǎn),為學(xué)校實(shí)現(xiàn)共性化培育教育供應(yīng)數(shù)據(jù)支撐。

同學(xué)畫像整體分為個(gè)人畫像和群體畫像:

1)群體畫像

通過對(duì)同學(xué)行為數(shù)據(jù)和結(jié)果數(shù)據(jù)的分析,為每個(gè)同學(xué)貼上具有行為或思想的特征標(biāo)簽,并根據(jù)群體分類,教育管理者可以查看每個(gè)分類的人群特征,并從學(xué)校、班級(jí)、男女比例等各方面進(jìn)行群體標(biāo)簽的分析,關(guān)心學(xué)校定位不同標(biāo)簽人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論