版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章緒論本文運(yùn)用決策樹、隨機(jī)森兩種算法,對(duì)大學(xué)生出行旅游決策心理進(jìn)行研究分析,將研究背景與問(wèn)題提出、研究目的與意義、研究軟件、研究創(chuàng)新點(diǎn)以及文章結(jié)構(gòu)作為緒論部分所要表述的內(nèi)容。1.1研究背景近年來(lái),我國(guó)的旅游產(chǎn)業(yè)呈現(xiàn)出較快的發(fā)展勢(shì)頭。第三產(chǎn)業(yè)中,旅游業(yè)扮演者非常重要的角色,它有力地促進(jìn)著我國(guó)經(jīng)濟(jì)的全面發(fā)展,旅游行業(yè)逐漸成為我國(guó)經(jīng)濟(jì)支柱產(chǎn)業(yè)之一,很多省市都在把發(fā)展重心向旅游產(chǎn)業(yè)轉(zhuǎn)移。在旅游群體當(dāng)中,大學(xué)生是整個(gè)旅游市場(chǎng)的一個(gè)重要而又獨(dú)立的組成部分。大學(xué)生作為社會(huì)的一個(gè)特殊群體,具有一定的經(jīng)濟(jì)獨(dú)立能力和自我生活能力,有相對(duì)寬松的時(shí)間,具有更多的冒險(xiǎn)精神和追夢(mèng)遐想,這些促成了大學(xué)生旅游熱。因此,大學(xué)生作為一支旅游生力軍的地位確實(shí)不容忽視。2020年疫情襲來(lái),全球受到疫情的影響,各行各業(yè)或多或少的受到了疫情的影響,旅游業(yè)更甚,而旅游業(yè)在這種情況下,要如何更好地進(jìn)行面對(duì)大學(xué)生群體的發(fā)展,勢(shì)在必行。近年來(lái)隨著我國(guó)經(jīng)濟(jì)飛速發(fā)展,旅游業(yè)發(fā)展成為國(guó)內(nèi)學(xué)術(shù)界探討的熱點(diǎn)話題之一。旅游業(yè)不斷地細(xì)分目標(biāo)市場(chǎng),讓大學(xué)生這一特殊群體在行業(yè)內(nèi)成為了一塊重要的消費(fèi)人群。通過(guò)查閱相關(guān)文獻(xiàn)后發(fā)現(xiàn),對(duì)于出行旅游方面較多是圍繞在旅游出行現(xiàn)狀、旅游出行體驗(yàn)等方面進(jìn)行研究,而對(duì)旅游決策的影響因素研究比較欠缺。本文以大學(xué)生為對(duì)象,對(duì)其旅游決策的影響因素進(jìn)行實(shí)證分析,希望能補(bǔ)充這塊研究欠缺,為以后更深入的研究提供一定參考借鑒。1.2研究目的本研究針對(duì)大學(xué)生旅游決策的影響因素進(jìn)行分析,通過(guò)問(wèn)卷調(diào)查收集到的大數(shù)據(jù)作為分析大數(shù)據(jù)來(lái)源,并結(jié)合大數(shù)據(jù)挖掘技術(shù)的決策樹、隨機(jī)森林,深入了解大學(xué)生出行旅游決策的心理過(guò)程,進(jìn)而找出影響大學(xué)生旅游決策的主要影響因素,并在其研究結(jié)果之上進(jìn)行分析、討論,希望能夠?yàn)槁糜涡袠I(yè)從業(yè)者和經(jīng)營(yíng)者提供有價(jià)值的參考。1.3國(guó)內(nèi)研究現(xiàn)狀劉小嵌(2017)通過(guò)問(wèn)卷調(diào)查的方式深入了解了年輕旅游者這一不斷壯大的特殊群體的決策心理過(guò)程,分析出旅游企業(yè)需要為其提供心之所向的體驗(yàn)服務(wù)產(chǎn)品,真正做到滿足這一特定游客群體的個(gè)性化需求[2]。趙鵬(2012)構(gòu)建了大學(xué)生旅游消費(fèi)行為影響因素模型,通過(guò)驗(yàn)證假設(shè),發(fā)現(xiàn)出行前旅游決策、對(duì)旅游目的地的感知、旅游動(dòng)機(jī)三者與旅游目的地的選擇都顯著相關(guān)[3]。鄭海青(2017)利用基于Scrapy框架的網(wǎng)絡(luò)爬蟲技術(shù)和基于BeautifulSoup的網(wǎng)頁(yè)信息提取技術(shù),從馬蜂窩旅游網(wǎng)抓取了景點(diǎn)大數(shù)據(jù)結(jié)合問(wèn)卷調(diào)查的方式,使用了結(jié)合了貝葉斯分類推薦和關(guān)聯(lián)規(guī)則推薦的混合推薦算法具有較好的推薦準(zhǔn)確率和覆蓋度,能夠滿足對(duì)用戶對(duì)景點(diǎn)推薦的需求[4]。目前國(guó)內(nèi)學(xué)者對(duì)于大學(xué)生旅游決策影響因素分析的研究相對(duì)較少,且主要是通過(guò)問(wèn)卷調(diào)查的形式,研究方法大多是采用簡(jiǎn)單的描述性統(tǒng)計(jì)分析和回歸分析方法為主。本文將引入大數(shù)據(jù)挖掘算法(決策樹、隨機(jī)森林)來(lái)分析大學(xué)生旅游決策影響因素,希望能增補(bǔ)大學(xué)生旅游決策影響因素分析的研究方法。1.4研究工具與方法本文將使用決策樹及隨機(jī)森林兩種算法作為基礎(chǔ)算法,并以此來(lái)確定大學(xué)生旅游決策影響因素的影響大小。決策樹是用二叉樹形圖來(lái)表示處理邏輯的一種工具??梢灾庇^、清晰地表達(dá)加工的邏輯要求。特別適合于判斷因素比較少、邏輯組合關(guān)系不復(fù)雜的情況。隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。
第二章大數(shù)據(jù)挖掘概述2.1大數(shù)據(jù)挖掘定義大數(shù)據(jù)挖掘出現(xiàn)在20世紀(jì)90年代,近年來(lái),大數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,并且得到了迅猛的發(fā)張,已然成為大大數(shù)據(jù)時(shí)代中各行各業(yè)中的一大熱點(diǎn)。所謂大數(shù)據(jù)挖掘技術(shù)是指從大型大數(shù)據(jù)庫(kù)中揭示出隱含的、有噪聲的、隨機(jī)的、先前未知的并具有潛在價(jià)值信息的非平凡過(guò)程[5]。通過(guò)大數(shù)據(jù)篩選和大數(shù)據(jù)預(yù)處理,幫助決策者分析歷史大數(shù)據(jù)以及當(dāng)前大數(shù)據(jù),高度自動(dòng)化地分析原有的大數(shù)據(jù)進(jìn)行歸納性推理[6]。2.2大數(shù)據(jù)挖掘方法大數(shù)據(jù)挖掘分為有指導(dǎo)的大數(shù)據(jù)挖掘和無(wú)指導(dǎo)的大數(shù)據(jù)挖掘。有指導(dǎo)的大數(shù)據(jù)挖掘是利用可用的大數(shù)據(jù)建立一個(gè)模型,這個(gè)模型是對(duì)一個(gè)特定屬性的描述。無(wú)指導(dǎo)的大數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。具體而言,分類、估值和預(yù)測(cè)屬于有指導(dǎo)的大數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則和聚類屬于無(wú)指導(dǎo)的大數(shù)據(jù)挖掘。(1)分類,它首先從大數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用大數(shù)據(jù)挖掘技術(shù),建立一個(gè)分類模型,再將該模型用于對(duì)沒(méi)有分類的大數(shù)據(jù)進(jìn)行分類,。(2)估值,估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準(zhǔn)備工作。(3)預(yù)測(cè),它是通過(guò)分類或估值來(lái)進(jìn)行,通過(guò)分類或估值的訓(xùn)練得出一個(gè)模型,如果對(duì)于檢驗(yàn)樣本組而言該模型具有較高的準(zhǔn)確率,可將該模型用于對(duì)新樣本的未知變量進(jìn)行預(yù)測(cè)。(4)相關(guān)性分組或關(guān)聯(lián)規(guī)則,其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。(5)聚類,它是自動(dòng)尋找并建立分組規(guī)則的方法,它通過(guò)判斷樣本之間的相似性,把相似樣本劃分在一個(gè)簇中[7]。2.3大數(shù)據(jù)挖掘流程大數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。有以下基本流程:(1)明確目標(biāo),在實(shí)施大數(shù)據(jù)挖掘之前,須明確通過(guò)大數(shù)據(jù)挖掘去解決什么樣的問(wèn)題。(2)大數(shù)據(jù)搜集,當(dāng)明確了目標(biāo)后,需要去搜集大數(shù)據(jù),搜集的大數(shù)據(jù)即可以影響到這些問(wèn)題的解決辦法,大數(shù)據(jù)搜集決定了后期工作進(jìn)程的順利程度。(3)大數(shù)據(jù)清洗,搜集到的大數(shù)據(jù)來(lái)源是復(fù)雜混亂的,必須保證大數(shù)據(jù)的“干凈”,因?yàn)榇髷?shù)據(jù)的質(zhì)量高低將會(huì)影響最終結(jié)果的準(zhǔn)確性。(4)構(gòu)建模型,在保證大數(shù)據(jù)“干凈”的前提下,需要考慮以什么樣的模型能進(jìn)行建模,以確保更好的解決問(wèn)題,。(5)模型評(píng)估,從已建的模型中挑選出最佳的模型,主要目的就是讓這個(gè)最佳的模型能夠更好地反映大數(shù)據(jù)的真實(shí)性。(6)應(yīng)用部署,把從大數(shù)據(jù)挖掘中得到的規(guī)律運(yùn)用到實(shí)際問(wèn)題中去。
第三章大數(shù)據(jù)挖掘方法概述3.1決策樹算法決策樹(DecisionTree,DT)算法是一種經(jīng)典的大數(shù)據(jù)挖掘算法,是目前應(yīng)用最為廣泛的歸納推理算法之一,在大數(shù)據(jù)挖掘中受到研究者的廣泛關(guān)注[8]。目前,決策樹算法主要分為分類與回歸樹算法(ClassificationandRegressionTree,CART)、ID3算法、C4.5算法[9]。算法不一樣,隨之對(duì)應(yīng)的衡量標(biāo)準(zhǔn)也不同[10]。本文采用分類與回歸樹(ClassificationandRegressionTree,CART)來(lái)進(jìn)行分類問(wèn)題的研究并建立分類決策樹。CART分類決策樹算法主要通過(guò)遞歸地構(gòu)建二叉樹[11]。使用基尼系數(shù)(Gini)選擇特征,基尼系數(shù)代表了模型的不純度,基尼系數(shù)越小,不純度越低,特征越好[12]。假設(shè)樣本集為 ,類別集為 ,其中每個(gè)類對(duì)應(yīng)的一個(gè)樣本子集Li1≤i≤n。樣本集中屬于類L(3-1)可推斷出,如果決策樹擁有兩個(gè)屬性,使用特征L=1將A劃分為兩部分,即劃分為A1(滿足 的樣本集L=1合),A2(不滿足(3-2)決策樹的結(jié)果直觀、明確、易懂。決策樹的每個(gè)分支決策樹在建立過(guò)程中會(huì)建立一個(gè)樹狀的結(jié)構(gòu),其結(jié)構(gòu)由根節(jié)點(diǎn)、子節(jié)點(diǎn)、葉節(jié)點(diǎn)組成,每個(gè)分支代表預(yù)測(cè)的方向,葉節(jié)點(diǎn)代表著最終的預(yù)測(cè)結(jié)果[13]。如圖3-1為決策樹的樹狀結(jié)構(gòu)圖。圖3-1決策樹的樹狀結(jié)構(gòu)圖在決策樹中復(fù)雜性參數(shù)CP和最小分支節(jié)點(diǎn)數(shù)M是十分重要的兩個(gè)參數(shù),決定著分類準(zhǔn)確率的好壞。決策樹生成過(guò)程中,建立不同的分枝,需要考慮到子節(jié)點(diǎn)上如何選擇度量和評(píng)估要素的屬性,隨后使用不一樣的度量值來(lái)確定。每個(gè)子節(jié)點(diǎn)都需要不斷重復(fù)以上的過(guò)程,一直到最終達(dá)到規(guī)定的預(yù)設(shè)條件才可以停止。當(dāng)出現(xiàn)屬性的變量不能夠再繼續(xù)進(jìn)行分割,或者每個(gè)訓(xùn)練集都?xì)w到了同一個(gè)分類上,再或者樹的深度已經(jīng)超過(guò)了預(yù)設(shè)值(復(fù)雜性參數(shù)CP和最小分支節(jié)點(diǎn)數(shù)M)的情況出現(xiàn)時(shí),就可以停止。3.2隨機(jī)森林算法隨機(jī)森林(RandomForest,RF)算法模型是在決策樹算法的基礎(chǔ)上形成的,由眾多的決策樹構(gòu)成,但其每個(gè)決策樹之間都不存在關(guān)聯(lián)性[14]。每當(dāng)遇到要判斷樣本時(shí),主要根據(jù)遵循可放回的原則,將所抽到的大數(shù)據(jù)樣本放置到?jīng)Q策樹的根節(jié)點(diǎn)上,以確保樹與樹之間是相互獨(dú)立的關(guān)系。隨后,由決策樹依據(jù)屬性類別進(jìn)行“投票”,并形成相應(yīng)結(jié)果,得出最優(yōu)分類結(jié)果[15]。隨機(jī)森林算法主要有以下四個(gè)步驟[16]:步驟1:在最開始的訓(xùn)練集為A的情況下,基于Bootstrap方法,采用帶有替換的再抽樣模型,先在里面抽取一個(gè)樣本集n,接著,重構(gòu)n棵分類樹。這里面,每個(gè)樣本都包含了k個(gè)屬性。步驟2:對(duì)樣本進(jìn)行隨機(jī)的選擇,先挑出k個(gè)屬性特征,再挑出里面的s個(gè)屬性,要求s<k。隨后檢查每個(gè)分類點(diǎn),確定閾值,最終選擇的屬性是在s個(gè)屬性中分類能力最強(qiáng)的。步驟3:不對(duì)決策樹的生長(zhǎng)過(guò)程進(jìn)行修剪。步驟4:終極預(yù)測(cè)值實(shí)行的方式是“投票”,當(dāng)樣本進(jìn)入隨機(jī)森林后,各決策樹會(huì)進(jìn)行確定和過(guò)濾,并利用分類器進(jìn)行相應(yīng)“投票”,最終“投票”票數(shù)多的獲勝,該結(jié)果就是最終預(yù)測(cè)結(jié)果。隨機(jī)森林的算法步驟如圖3-2所示:圖3-2隨機(jī)森林步驟
第四章基于大數(shù)據(jù)挖掘的大學(xué)生旅游決策影響因素分析4.1大數(shù)據(jù)準(zhǔn)備本研究采用電子問(wèn)卷調(diào)查方式,為確保問(wèn)卷最終的合理性,在正式發(fā)放,先進(jìn)行了問(wèn)卷預(yù)測(cè)試,測(cè)試通過(guò)后再進(jìn)行正式問(wèn)卷的分發(fā)。正式問(wèn)卷共收回大數(shù)據(jù)1224筆,大數(shù)據(jù)清洗、刪除無(wú)效問(wèn)卷后共獲取到有效問(wèn)卷1119筆(有效率91.42%)。隨后,將包含目標(biāo)變量和解釋變量的大數(shù)據(jù)轉(zhuǎn)換為.csv格式,便于之后運(yùn)用R語(yǔ)言工具進(jìn)行相關(guān)分析。為了預(yù)測(cè)模型能夠具有良好的泛化能力,則將樣本大數(shù)據(jù)中80%作為訓(xùn)練大數(shù)據(jù),其余20%作為測(cè)試大數(shù)據(jù)。并調(diào)整DT、RF的參數(shù),建立預(yù)測(cè)模型。運(yùn)算結(jié)果訓(xùn)練集均大于測(cè)試集,且誤差不超過(guò)10%,則說(shuō)明沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象。4.1.1問(wèn)卷設(shè)計(jì)本問(wèn)卷主要面向的是貴陽(yáng)市大學(xué)生,除了基本的個(gè)人信息外,本研究對(duì)大學(xué)生出行旅游決策的心理因素采用五點(diǎn)量表進(jìn)行設(shè)計(jì)。通過(guò)較為直觀的表述,使得被調(diào)查者理解起來(lái)較為容易,填寫問(wèn)卷時(shí)也較為方便。量表中包含通過(guò)文獻(xiàn)、社會(huì)經(jīng)驗(yàn)得出的“閑暇時(shí)間”、“可自由支配收入”、“出行體驗(yàn)感”、“親朋好友推薦”、“旅游景區(qū)評(píng)價(jià)”、“旅游景區(qū)的知名度”、“與旅游目的地的距離”、“旅游景區(qū)的娛樂(lè)設(shè)施、飲食安全狀況”、“旅游景區(qū)門票、娛樂(lè)項(xiàng)目的價(jià)位”9個(gè)主要影響大學(xué)生旅游決策的因素。該設(shè)計(jì)對(duì)于問(wèn)卷的回收和處理具有方便的效果,便于之后對(duì)于每個(gè)被調(diào)查者關(guān)于問(wèn)題的反饋,可以進(jìn)行較為詳細(xì)準(zhǔn)確的分析。問(wèn)卷主要包括“游客本身”、“旅游目的地”、“旅游決策”三個(gè)模塊,其中“游客本身”、“旅游目的地”兩個(gè)模塊的選項(xiàng)為1至5項(xiàng),1到5分別代表的是“影響非常大”、“影響比較大”、“影響一般”、“影響比較小”、“沒(méi)有影響”,“旅游決策”模塊的選項(xiàng)為1、2,分別代表的是“有影響”、“沒(méi)有影響”,被調(diào)查者選擇其中一項(xiàng)來(lái)回答。4.1.2大數(shù)據(jù)測(cè)試本研究大數(shù)據(jù)來(lái)源于電子問(wèn)卷調(diào)查的方式,通過(guò)廣泛閱讀相關(guān)文獻(xiàn)、期刊及新聞熱點(diǎn)等素材,利用問(wèn)卷星平臺(tái)對(duì)問(wèn)卷進(jìn)行設(shè)計(jì),之后將制作好的問(wèn)卷借助QQ、微信等平臺(tái)進(jìn)行分發(fā)。本問(wèn)卷研究對(duì)象主要針對(duì)貴陽(yáng)市大學(xué)生群體,內(nèi)容涵蓋大學(xué)生對(duì)于旅游出行決策的影響因素情況。最終收回了1224筆問(wèn)卷,清洗大數(shù)據(jù)并清楚無(wú)效問(wèn)卷后共獲取到有效問(wèn)卷1119筆(有效率91.42%)。因此,在這項(xiàng)研究中,首先采用SPSS軟件測(cè)試調(diào)查大數(shù)據(jù)的可靠性和有效性,再通過(guò)主成分分析確定一個(gè)目標(biāo)變量和八個(gè)解釋變量。4.2大數(shù)據(jù)預(yù)處理4.2.1信度檢驗(yàn)預(yù)測(cè)試采用信度分析,其目的是為了確保本研究樣本大數(shù)據(jù)的可信度。Cronbach'sα值用來(lái)衡量量表是否具有內(nèi)部一致性[17]。其取值介于0-1之間,具體如下表4-1所示:表4-1Cronbach'sα取值情況表Cronbach'sα取值在問(wèn)卷分量表中的含義<0.6需要重新進(jìn)行設(shè)計(jì)0.6-0.7需要進(jìn)行修改0.7-0.8可以接受>0.8具有很好的信度表4-2所顯示的是本研究調(diào)查中原始問(wèn)卷的預(yù)測(cè)試信度檢驗(yàn)結(jié)果。表4-2預(yù)測(cè)試問(wèn)卷信度檢驗(yàn)結(jié)果面向主題變量Cronbach'sα 整體可靠度游客本身閑暇時(shí)間0.9520.961可支配收入0.958體驗(yàn)感0.958朋友推薦0.957評(píng)價(jià)0.96知名度0.958旅游目的地距離0.9570.961安全保障0.957景區(qū)類型0.958服務(wù)態(tài)度0.957價(jià)格0.958旅游決策影響度影響0.9600.9614.2.2效度檢驗(yàn)效度用以測(cè)量問(wèn)卷能夠有效測(cè)量到研究者所需測(cè)量事物的程度[18]。首先對(duì)其進(jìn)行KMO和Bartlett檢驗(yàn),來(lái)判斷指標(biāo)之間是否存在相關(guān)關(guān)系。檢驗(yàn)出的KMO>0.6,Bartlett檢驗(yàn)的,為高度顯著,適合進(jìn)行主成分分析。通常,當(dāng)KMO>0.6,說(shuō)明我們用于測(cè)量的指標(biāo)是有效的;KMO值越大且越接近于1,說(shuō)明這種有效性越高。具體如表4-3表示:表4-3KMO取值范圍KMO取值是否適合作為因子進(jìn)行分析<0.5不適合0.5-0.6不太適合0.6-0.7勉強(qiáng)適合0.7-0.8適合0.8-0.9很適合>0.9非常適合由表4-4可以看出,三個(gè)面向主題KMO值均高于0.6,表明該預(yù)調(diào)研問(wèn)卷中的大數(shù)據(jù)具有良好的結(jié)構(gòu)效度:表4-4預(yù)測(cè)試問(wèn)卷效度檢驗(yàn)結(jié)果面向主題變量KMOsig游客本身閑暇時(shí)間0.8660可支配收入體驗(yàn)感朋友推薦評(píng)價(jià)知名度旅游目的地距離0.8610安全保障景區(qū)類型服務(wù)態(tài)度價(jià)格旅游決策影響度影響0.91804.2.3主成分分析主成分分析法(PrincipalComponentAnalysis,PCA)是一種統(tǒng)計(jì)分析方法。它利用多變量的線性變換來(lái)選取不重要的變量,廣泛應(yīng)用于大數(shù)據(jù)的降維和特征提取。主要步驟如下:(1)計(jì)算樣本大數(shù)據(jù)集合 的均值,之后對(duì)樣本大數(shù)據(jù)進(jìn)行中心化,其化后的樣本記為 。(2)計(jì)算最開始的那個(gè)大數(shù)據(jù)集合當(dāng)中X的協(xié)方差矩陣Y。(3)對(duì)Y特征進(jìn)行分解,通過(guò)分解之后,可以求出特征值以及與之對(duì)應(yīng)的特征向量Wi(4)從所選擇的累積貢獻(xiàn)中提取前m個(gè)特征值, 為所提取的m個(gè)特征值所對(duì)應(yīng)的特征向量,前m個(gè)特征向量的組合矩陣可表示為 ,所提取的m個(gè)主成分為 。在本研究的原始問(wèn)卷中,共有11個(gè)變量,并且每個(gè)變量都與本研究相關(guān)聯(lián)。如下表4-5所示,通過(guò)對(duì)問(wèn)卷信度、效度的檢驗(yàn)結(jié)果,進(jìn)行PCA提取因子,可知“閑暇時(shí)間、可支配收入、體驗(yàn)感、評(píng)價(jià)、朋友推薦、距離、安全保障、價(jià)格”這8個(gè)變量的因子負(fù)荷系數(shù)相對(duì)較高,排名前8,且均>0.4,各變量間的關(guān)聯(lián)性較強(qiáng)。同時(shí)這8個(gè)變量的信度檢驗(yàn)結(jié)果為Cronbach'sα值均>0.9,效度檢驗(yàn)結(jié)果為KMO的值均>0.7,Bartlett球形檢驗(yàn)均為ρ<0.01,則選取該8個(gè)變量作為問(wèn)卷的解釋變量,選取“影響度”作為該問(wèn)卷的目標(biāo)變量。表4-5主成分分析面向主題變量Cronbach'sα KMOsig因子負(fù)荷系數(shù)游客本身閑暇時(shí)間0.9630.91200.979可支配收入0.9670.864體驗(yàn)感0.9670.86朋友推薦0.9670.859評(píng)價(jià)0.9670.862知名度0.9680.849旅游目的地距離0.9670.90400.857安全保障0.9680.90400.853景區(qū)類型0.9680.842服務(wù)態(tài)度0.9680.845價(jià)格0.9680.854旅游決策影響度影響0.9670.97700.8654.3基于大數(shù)據(jù)挖掘的大學(xué)生旅游決策影響因素分析4.3.1決策樹算法在大學(xué)生旅游決策影響因素分析中的應(yīng)用首先在R-studio安裝“rpart”程序包,并用程序包來(lái)讀取大數(shù)據(jù)集,再通過(guò)sample()函數(shù)劃分10%的測(cè)試集和90%的訓(xùn)練集以建模分析。確定目標(biāo)變量之后使用訓(xùn)練集大數(shù)據(jù)并將復(fù)雜性參數(shù)(ComplexityParameter,CP)設(shè)為0.01來(lái)建立決策樹模型,使用plot()函數(shù)畫出決策樹圖,并由該圖得出決策樹規(guī)則。最后使用predict()函數(shù)來(lái)預(yù)測(cè)訓(xùn)練集和測(cè)試集大數(shù)據(jù)的正確率,保證擬合是否良好。4.3.2決策樹算法實(shí)證結(jié)果與分析將決策樹中復(fù)雜性參數(shù)(ComplexityParameter,CP)設(shè)為0.01。運(yùn)算結(jié)果為訓(xùn)練集預(yù)測(cè)率81.13%,測(cè)試集預(yù)測(cè)率78.57%??梢姶髷?shù)據(jù)預(yù)測(cè)準(zhǔn)確率較高,模型的泛化能力較強(qiáng)。圖4-1決策樹訓(xùn)練集決策規(guī)則圖從圖4-1可知,閑暇時(shí)間(Time)、距離(Distance)、價(jià)格(Price)、朋友推薦(Recommend)是影響大學(xué)生出行旅游決策心理的主要因素。決策樹以Time為根節(jié)點(diǎn)進(jìn)行劃分,說(shuō)明Time是大學(xué)生出行旅游決策的首要影響因素。決策樹以Time是否小于4.5作為切分值,當(dāng)Time<4.5時(shí),選擇左半樹,當(dāng)Time>=4.5時(shí),即選擇右半樹。以此遞推到葉節(jié)點(diǎn),滿足節(jié)點(diǎn)要求的則選擇到左枝下,若不滿足,則選擇到右枝下。本決策樹共有6條決策樹規(guī)則,具體如下:決策樹規(guī)則1:當(dāng)Time<3.5時(shí),得到規(guī)則1,即大學(xué)生的出行旅游決策受到影響。決策樹規(guī)則2:當(dāng)Time<4.5,Time>=3.5,Distance<3.5,時(shí),得到規(guī)則2,即大學(xué)生的出行旅游決策受到影響。決策樹規(guī)則3:當(dāng)Time<4.5,Time>=3.5,Distance>=3.5,Price<3.5時(shí),得到規(guī)則3,即大學(xué)生的出行旅游決策受到影響。決策樹規(guī)則4:當(dāng)Time<4.5,Time>=3.5,Distance>=3.5,Price>=3.5,Recommend>=3.5時(shí),得到規(guī)則4,即大學(xué)生的出行旅游決策受到影響。決策樹規(guī)則5:當(dāng)Time<4.5,Time>=3.5,Distance>=3.5,Price>=3.5,Recommend<3.5時(shí),得到規(guī)則5,即大學(xué)生的出行旅游決策沒(méi)有受到影響。決策樹規(guī)則6:當(dāng)Time>=4.5時(shí),得到規(guī)則6,即大學(xué)生的出行旅游決策沒(méi)有受到影響。4.3.3隨機(jī)森林算法在大學(xué)生旅游決策影響因素分析中的應(yīng)用首先在R-studio安裝“randomForest”程序包,并用程序包來(lái)讀取大數(shù)據(jù)集,再通過(guò)sample()函數(shù)劃分20%的測(cè)試集和80%的訓(xùn)練集以建模分析。確定目標(biāo)變量之后使用訓(xùn)練集大數(shù)據(jù)和500棵決策樹將來(lái)建立隨機(jī)森林模型,使用plot()函數(shù)畫出影響因子圖及ntree=500的收斂圖,可以顯著的展示出各個(gè)變量對(duì)大學(xué)生旅游決策的影響程度。最后使用predict()函數(shù)來(lái)預(yù)測(cè)訓(xùn)練集和測(cè)試集大數(shù)據(jù)的正確率,保證擬合是否良好。4.3.4隨機(jī)森林算法實(shí)證結(jié)果與分析隨機(jī)森林訓(xùn)練集預(yù)測(cè)準(zhǔn)確率為84.24%,測(cè)試集預(yù)測(cè)準(zhǔn)確率為81.69%,大數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率較高,由此說(shuō)明模型的泛化能力較好。IncreasedNodePurity是一種評(píng)估的方法,即通過(guò)利用殘差的非負(fù)平方和來(lái)求得取值,解釋變量影響目標(biāo)變量的程度取決于該值的大小。通過(guò)建立RF模型,得到影響因子圖及ntree=500的收斂圖。圖4-2隨機(jī)森林影響因子圖如圖4-2所示,可以看出閑暇時(shí)間(Time)的IncreasedNodePurity值最大。此外,8個(gè)解釋變量的重要程度排序?yàn)殚e暇時(shí)間(Time)>評(píng)價(jià)(Appraise)>價(jià)格(Price)>可支配收入(Revenue)>距離(Distance)>安全保障(Security)>安全(Recommend)>體驗(yàn)感(Experience),事實(shí)證明,閑暇時(shí)間(Time)對(duì)大學(xué)生出行旅游決策心理有著很大的影響。圖4-3隨機(jī)森林ntree=500收斂圖如圖4-3所示,RF測(cè)試時(shí)隨機(jī)選取500個(gè)基礎(chǔ)樣本,當(dāng)取值大于100棵樹以后,錯(cuò)誤率趨于穩(wěn)定,誤差收斂。4.4大數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)果分析4.4.1算法結(jié)果比對(duì)本研究主要采用了DT、RF模型研究方式,針對(duì)大學(xué)生出行旅游決策的影響因素進(jìn)行大數(shù)據(jù)分析,將大數(shù)據(jù)中80%作為訓(xùn)練集,20%作為測(cè)試集,進(jìn)行10折隨機(jī)交叉運(yùn)算。對(duì)比不同的模型,可以發(fā)現(xiàn):在DT模型中,閑暇時(shí)間(Time)、距離(Distance)、價(jià)格(Price)、朋友推薦(Recommend)是影響大學(xué)生出行旅游決策的主要因素。在RF模型中,閑暇時(shí)間(Time)的IncreasedNodePurity值最大,且在8個(gè)解釋變量的重要排序程度中位列第一。相較于前幾個(gè)因素,安全保障(Security)、安全(Recommend)、體驗(yàn)感(Experience)三個(gè)因素的影響程度相對(duì)較小。即大學(xué)生群體在制定出行旅游決策時(shí),大學(xué)生本身的閑暇時(shí)間是影響大學(xué)生進(jìn)行決策的主要依據(jù)。此外,DT、RF通過(guò)運(yùn)用混淆矩陣運(yùn)算得出的預(yù)測(cè)準(zhǔn)確率均在80%以上,訓(xùn)練集均大于測(cè)試集,且誤差不超過(guò)10%,沒(méi)有過(guò)度擬合現(xiàn)象。4.4.2大學(xué)生旅游決策影響因素分析根據(jù)以上模型得出的結(jié)果,可以發(fā)現(xiàn)均與現(xiàn)實(shí)生活中存在的問(wèn)題存在一致性。在現(xiàn)實(shí)生活中,人們進(jìn)行出行旅游決策時(shí),閑暇時(shí)間的多少是大學(xué)生進(jìn)行決策的關(guān)鍵,大學(xué)生由于還是一個(gè)以學(xué)業(yè)為主的群體,仍需完成在校課業(yè),在做旅游決策的時(shí)候需要首先考慮到自己是否有時(shí)間,致使許多大學(xué)生面對(duì)此種情況會(huì)猶豫不決。因?yàn)樗麄儠?huì)考慮到自己花費(fèi)時(shí)間出行旅游是否符合在做旅游決策時(shí)的需求和預(yù)期,在決策前會(huì)考慮時(shí)間的多少。尤其是疫情之下,各地學(xué)校因疫情的管控或多或少會(huì)限制大學(xué)生進(jìn)出校園時(shí)間,大學(xué)生的閑暇時(shí)間不得不受到影響。因此,旅游行業(yè)從業(yè)者和經(jīng)營(yíng)者若要想吸引顧客并擁有持續(xù)顧客群,必須在合適的時(shí)間段上進(jìn)行斟酌,并樹立品牌口碑意識(shí)。4.5對(duì)策建議4.5.1加強(qiáng)旅游市場(chǎng)監(jiān)管,確保信息的真實(shí)性研究表明,大學(xué)生外出旅游受網(wǎng)絡(luò)對(duì)景點(diǎn)評(píng)價(jià)影響較大,網(wǎng)絡(luò)上所發(fā)布的旅游信息的真實(shí)性相對(duì)重要。因此政府相關(guān)部門更要對(duì)旅游市場(chǎng)進(jìn)行監(jiān)管,為大學(xué)生提供真實(shí)、權(quán)威的信息。近些年來(lái)旅游亂象層出不窮,許多不良商家抓住大學(xué)生假期期間“窮游”的心理進(jìn)行虛假宣傳等手段來(lái)欺騙大學(xué)生,此種行為應(yīng)該嚴(yán)厲打擊,保證良好的網(wǎng)絡(luò)信息環(huán)境。4.5.2高校需要正確引導(dǎo)大學(xué)生樹立正確的安全旅游觀念高校是大學(xué)生最密集活動(dòng)最頻繁的地方,對(duì)于大學(xué)生的旅游觀念、旅游選擇等方面更具有影響力,因此引導(dǎo)大學(xué)生樹立正確的旅游觀念,掌握基本的旅游常識(shí)和技能是高校應(yīng)做的事。旅游常識(shí)和安全教育是非常重要的,研究表明安全保障這一因素對(duì)大學(xué)生旅游決策影響較小,大學(xué)生這一年輕群體是充滿激情、熱愛(ài)探索的一個(gè)特殊群體,在這一信息爆炸的時(shí)代,大學(xué)生往往會(huì)為了網(wǎng)絡(luò)上所謂的熱門景點(diǎn)而忽視了安全,高校應(yīng)該引起重視并開展旅游安全教育,定期開展相關(guān)講座以及安全外出旅游教育。4.5.3“有的放矢”的推出旅游產(chǎn)品大學(xué)生出行旅游受閑暇時(shí)間影響最大,大部分大學(xué)生會(huì)選擇在寒暑假和各種節(jié)日的小長(zhǎng)假出行,呈現(xiàn)出目標(biāo)多、時(shí)間長(zhǎng)、全年分布均勻的特點(diǎn),而且時(shí)間相對(duì)固定,旅游企業(yè)可以根據(jù)這種出行特點(diǎn)推出有針對(duì)性的旅游產(chǎn)品,例如推出夏令營(yíng)游、小長(zhǎng)假游、雙休短途游等旅游服務(wù)。在高校附近的旅游景點(diǎn)可以針對(duì)大學(xué)生周末出行旅游高峰期推出短途、一日游等旅游產(chǎn)品及服務(wù),吸引附近大學(xué)生出行旅游。4.5.4面向大學(xué)生群體,旅游企業(yè)需要精準(zhǔn)的市場(chǎng)營(yíng)銷大學(xué)生群體獲得的信息更多來(lái)自于網(wǎng)絡(luò)以及身邊好友的推薦,運(yùn)用多種手段進(jìn)行營(yíng)銷,打造良好的知名度,在網(wǎng)絡(luò)上形成良好的熱度,做到有口皆碑。創(chuàng)建自己的景點(diǎn)特色并樹立口碑,不斷優(yōu)化景點(diǎn)環(huán)境,提升景點(diǎn)服務(wù)。旅游產(chǎn)品以及服務(wù)在價(jià)格上應(yīng)該在大學(xué)生能接受的范圍內(nèi),應(yīng)制定適應(yīng)市場(chǎng)、符合大學(xué)生旅游能夠接受的價(jià)格亦可推出類似團(tuán)購(gòu)等活動(dòng)給到大學(xué)生群體一定的優(yōu)惠。不斷抓住旅游熱點(diǎn),吸引大學(xué)生眼球,用景點(diǎn)特色來(lái)提高回頭率。
結(jié)論本研究通過(guò)問(wèn)卷調(diào)查的方式,為確保問(wèn)卷的針對(duì)性,研究對(duì)象主要集中在貴陽(yáng)市大學(xué)生群體,今后會(huì)逐步擴(kuò)大研究范圍,為旅游行業(yè)從業(yè)者和經(jīng)營(yíng)者提供更有效的依據(jù)。運(yùn)用DT、RF算法建立預(yù)測(cè)模型,訓(xùn)練集的預(yù)測(cè)準(zhǔn)確率分別為81.13%、84.24%,測(cè)試集的預(yù)測(cè)準(zhǔn)確率為78.57%、81.69%,兩種預(yù)測(cè)模型均沒(méi)有過(guò)擬合(Overfitting)訓(xùn)練大數(shù)據(jù),且泛化能力強(qiáng)。由此反映出大學(xué)生自身的閑暇時(shí)間是大學(xué)生群體進(jìn)行旅游心理決策的重要影響因素。因此,旅游行業(yè)從業(yè)者和經(jīng)營(yíng)者應(yīng)著重關(guān)注時(shí)間的方面,使得經(jīng)營(yíng)效果達(dá)到最佳。根據(jù)實(shí)驗(yàn)結(jié)果,可以證明在本研究中預(yù)測(cè)模型的判別結(jié)果是有意義,有價(jià)值和具有可信度的。雖然本研究使用的模型都能對(duì)大學(xué)生旅游決策影響因素分析有比較好的效果,但是對(duì)于使用大數(shù)據(jù)挖掘技術(shù)對(duì)大學(xué)生旅游決策影響因素分析的研究還要繼續(xù),因?yàn)楸疚囊矁H僅使用了幾種大數(shù)據(jù)挖掘的技術(shù)。模型的構(gòu)建中還存在很多奇特的參數(shù),在本研究中并沒(méi)有一一的優(yōu)化,而這些參數(shù)的選擇都會(huì)影響模型的效果,因此在今后的研究中,研究者也可以采用其他優(yōu)化算法,例如智能型算法、人工神經(jīng)網(wǎng)絡(luò)算法等,或許實(shí)驗(yàn)結(jié)果會(huì)得到更好的效果。
參考文獻(xiàn)[1]高歌.大大數(shù)據(jù)應(yīng)用對(duì)河北省旅游業(yè)發(fā)展的影響及促進(jìn)研究[D].河北大學(xué),2021.[2]劉小嵌.移動(dòng)互聯(lián)網(wǎng)背景下年輕旅游者旅游消費(fèi)決策影響因素研究[D].湖南師范大學(xué),2017.[3]趙鵬.大學(xué)生旅游消費(fèi)行為影響因素研究[D].中南大學(xué),2012.[4]鄭海青.基于大數(shù)據(jù)挖掘的個(gè)性化旅游推薦研究[D].武漢大學(xué),2017.[5]姜騰.大數(shù)據(jù)挖掘技術(shù)應(yīng)用于職業(yè)教育信息系統(tǒng)研究[J].辦公自動(dòng)化,2019,24(03):59-63.[6]于雪萌基于學(xué)生行為分析的教育大數(shù)據(jù)挖掘算法研究[D]山東師范大學(xué),2020.[7]張?jiān)徶诜菭I(yíng)利性、大數(shù)據(jù)挖掘和科學(xué)管理的高校財(cái)務(wù)分析、評(píng)價(jià)與管理研究:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2014.05[8]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(01):43-45.[9]鞠靜.基于決策樹算法的高校圖書館圖書采訪決策模型研究[D].河北大學(xué),2021.[10]楊小娟決策樹算法在學(xué)生課程成績(jī)分析中的應(yīng)用研究[D]云南師范大
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO 22765:2025 EN Nuclear fuel technology - Sintered (U,Pu)O2 pellets - Guidance for ceramographic preparation for microstructure examination
- 紋身配樂(lè)課程設(shè)計(jì)
- 自動(dòng)裝料系統(tǒng)plc課程設(shè)計(jì)
- 藝術(shù)課體驗(yàn)課課程設(shè)計(jì)
- 大地測(cè)量GPS課程設(shè)計(jì)
- 《刮痧西學(xué)中》課件
- 九年級(jí)歷史下冊(cè)期末綜合檢測(cè)課件
- 制造企業(yè)員工手冊(cè)
- 數(shù)據(jù)化課程設(shè)計(jì)
- 流水燈課程設(shè)計(jì)概述
- 《區(qū)塊鏈原理詳解》課件
- 車間勞動(dòng)定額制定與執(zhí)行
- 員工安全行為激勵(lì)機(jī)制的設(shè)計(jì)與實(shí)施方案解析
- 高一物理必修1期末考試測(cè)試題(五套)
- 泌尿外科膀胱鏡檢查技術(shù)操作規(guī)范
- 避雷針、線保護(hù)范圍計(jì)算表
- 10KV變配電室交接班管理制度
- 風(fēng)機(jī)振動(dòng)正常范圍國(guó)標(biāo)標(biāo)準(zhǔn)
- 江蘇省南京市外國(guó)語(yǔ)學(xué)校2022-2023學(xué)年七年級(jí)上學(xué)期第一次段考英語(yǔ)試卷
- 針對(duì)土石方運(yùn)輸重難點(diǎn)解決措施
- 多工步組合機(jī)床的plc控制系統(tǒng)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論