




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 基于大數據的煙葉質量評估平臺的設計與應用 高榮孫忱摘 要:煙葉質量受多種因素的影響,為實現(xiàn)煙葉質量分析、預測和預警的平臺,設計并實現(xiàn)了基于大數據分析和云計算技術的web大數據挖掘平臺,通過采集抓取互聯(lián)網上涵蓋煙葉的整個種植周期的煙葉種植區(qū)氣候、環(huán)境、土壤、病蟲害等信息,輔以其他檢測數據,利用大數據分析技術評估和預測煙葉的質量。應用效果表明,利用大數據算法對影響煙葉質量的互聯(lián)網數據進行挖掘分析,不僅可以用較小的人力物力完成更大覆蓋區(qū)域的全面的煙葉質量評估,還可實現(xiàn)質量預測預警,為卷煙生產提供保障。關鍵詞:煙葉質量評估;大數據;web數據挖掘中
2、圖分類號:ts46煙葉是卷煙工業(yè)企業(yè)生存和發(fā)展的基礎,是對卷煙產品的發(fā)展具有制約作用的重要資源。煙葉的品質、產量水平受氣溫、大氣環(huán)境條件、土壤以及病蟲害等生態(tài)條件和生產措施因素的影響,而煙葉原料的采購又具有范圍廣、數量大、種類多、結構寬等特點。為保證煙葉的質量,需要對煙葉種植的整個周期進行監(jiān)控。傳統(tǒng)的方式需要依靠現(xiàn)場實地抽檢、監(jiān)測,有著耗費人力物力比較大、收集到的信息量比較少、覆蓋的種植區(qū)域比較小、最終數據匯總和處理比較困難、企業(yè)之間數據互通比較困難等缺點。隨著全球信息化和互聯(lián)網技術的高速發(fā)展,互聯(lián)網上出現(xiàn)了海量的數據信息。大量的非結構化的天氣信息、溫濕度信息、病蟲害的預報、土壤情況等信息都可
3、以直接從互聯(lián)網上采集到,利用這些數據來進行分析和預測,就是大數據處理技術的應用。建立基于大數據的煙葉種植質量評估平臺,可以避免傳統(tǒng)監(jiān)控方式的缺點,更快速、有效、準確的實現(xiàn)煙葉質量分析、預測、預警,從而為卷煙生產提供更好的保障和條件。1 系統(tǒng)架構1.1 大數據分析與云計算技術大數據分析是從種類繁多的海量數據中,快速獲得有價值信息的一種技術,它是商業(yè)智能的演進,正在改變世界的各個領域,從商業(yè)到醫(yī)療衛(wèi)生、政府機構、農業(yè)和經濟領域、人文以及社會的各個領域。大數據分析的特點在于能夠利用全部數據,而不是僅僅依靠隨機采樣的一小部分樣本數據1-2,因為可以收集、存儲和分析所有的相關數據信息,就不會受到樣本集小
4、、樣本有偏差或者隨機性不夠所帶來的分析誤差的影響,從而可以獲得更準確合理的分析結果。目前已經出現(xiàn)了很多利用大數據進行分析和預測的例子。例如,谷歌利用聚合搜索數據對流感進行跟蹤,可達到接近實時的效率和非常高的準確度3。后面探討如何利用從互聯(lián)網采集到的各種非結構化信息,結合企業(yè)自有的煙葉檢測、采購數據,分析和預測收獲時煙葉質量的方法。大數據分析通?;谠朴嬎闫脚_實現(xiàn),因為實時的大型數據集的分析需要非常強有力而又彈性可擴展的計算能力,云計算平臺正好適應了這種需求。云計算是一種成本低的分布式并行計算環(huán)境,可以適應規(guī)模不同的數據,開發(fā)方便,向用戶屏蔽了底層的技術細節(jié),節(jié)點加載、數據的劃分和任務調度無需用
5、戶考慮。使用云計算可以在不增加現(xiàn)有設備的情況下大幅度提高數據處理的規(guī)模和效率,節(jié)點的擴充非常方便,系統(tǒng)可以自動處理失敗的節(jié)點,容錯性能比較好。1.2 平臺框架設計并實現(xiàn)了一個統(tǒng)一的基于云計算的可以靈活擴展的大數據處理平臺(bdap,big-data analysis platform),能夠實現(xiàn)數據采集、實時分析,批量處理和數據導出等功能。平臺具有以下特性:(1)可從不同的數據源(web數據、結構化數據、數據庫等等)以很高的吞吐能力把數據存儲在基于hadoop的大數據中心中;(2)可對實時數據做流分析;(3)支持工作流管理,工作流支持與標準的企業(yè)信息系統(tǒng)或者是hadoop操作進行交互;(4)支
6、持高效率的數據導出,可以把數據導出到nosql數據庫或者關系數據庫;(5)支持不同數據源數據的協(xié)同分析。該平臺框架如圖1所示:整個平臺由數據層、大數據處理層、管理層三部分組成,平臺由數據流驅動,數據層負責將各種數據來源以流的方式提供給中間的大數據處理層;大數據處理層是建立在云計算平臺之上的,負責對數據層傳入的數據流進行分析處理,處理之后的數據由管理層展現(xiàn)給終端用戶。在bdap平臺的基礎上,結合煙葉種植質量評估的需求,設計了具體的實施方案和關鍵算法,形成了基于大數據的煙葉種植質量評估平臺(bdap-tq,big-data analysis platform for tobacco quality
7、),下面將介紹該平臺的技術實現(xiàn)細節(jié)。2 技術實現(xiàn)2.1 數據層實現(xiàn)數據層實現(xiàn)數據采集和清理的功能,采用web界面的調度平臺,實時監(jiān)控云平臺上的爬蟲運行狀況。獲取的數據分類存入hadoop分布式文件系統(tǒng)(hdfs)中或者數據庫中,可以采集到瀏覽器能瀏覽的結構化和非結構化的內容,支持各種頁面類型。數據層基于云計算平臺,可以根據數據抓取的資源需求進行彈性擴展,具有高效的信息處理技術,可以準確獲取系統(tǒng)所需求的內容。數據層的實現(xiàn)框架如圖2所示:關于采集數據的選擇過濾,主要是對氣象、大氣、土壤、病蟲害等信息進行提取,這是因為:(1)煙葉的質量和產量受環(huán)境條件和生產措施的影響,從煙草品質來看,對氣溫條件的要
8、求是前期較低,中期較高,氣溫過高和過低對煙葉質量影響都很大4。(2)大氣環(huán)境條件也是影響煙葉質量的重要條件之一,重金屬鉛在環(huán)境中容易污染植物葉片,作物中鉛的含量富集程度以葉最高。作物中鉛含量的調查表明,靠近公路兩側的作物的鉛含量遠遠高于遠離公路的作物,大氣中的鉛含量決定了農作物中的鉛含量水平5。(3)土壤是優(yōu)質煙葉生產的基礎,土壤因素與煙葉的品質和產量密切相關。隨著吸煙與健康研究的深入開展,人們越來越關注煙葉含有重金屬的問題,煙葉重金屬的含量和其他作物有一定的相關性,因此可以通過互聯(lián)網上大量的其他作物的重金屬情況結合gis進行關聯(lián)性分析,可以得出種植區(qū)域煙葉重金屬含量情況。(4)煙草病蟲害的爆
9、發(fā),會導致煙葉品質和產量降低。要實現(xiàn)優(yōu)質煙葉生產,需要認真防治病蟲害。在煙草從種植到生產的整個過程中,不論是鮮煙葉、調制后的煙葉或者是成品煙葉隨時都有可能遭受到病蟲害的損害,這將給煙農、煙草工商業(yè)帶來巨大的損失。因此,煙草病蟲害的防治是保證煙葉產量,提高煙葉質量,發(fā)展煙草生產的重要任務。這些通過互聯(lián)網采集到的信息,經過清理加工,得到模型化的數據存入hdfs中,再配合上企業(yè)原有的煙葉收購檢測數據,就實現(xiàn)了數據層所需要的功能。2.2 大數據處理層實現(xiàn)要對數據層采集到的氣象、環(huán)境、土壤、病蟲害等數據進行處理分析,以得到煙葉種植質量的評估預測結果。評估算法以關聯(lián)模型為基礎6-7,首先作如下模型定義:設
10、歷年不同地點氣象、大氣、土壤、病蟲害等數據的向量為x,煙葉檢測質量數據的向量為y,元組(x,y)=xy,對任意向量 ,定義i的支持度supp(i)=count(i),其中count(i)表示i在向量集合(x,y)中出現(xiàn)的次數;對任意向量 ,定義xiyi的關聯(lián)可信度為conf(xiyi)/supp(xi);設可信度閾值為,定義關聯(lián)規(guī)則集合為xkyk=xk,yk where conf(xkyk)。分析處理的算法流程如下:(1)由數據層采集清理得到歷年各地數據的向量集合(x,y);(2)選擇閾值,計算規(guī)則集合xkyk,其中的xk為條件集合;(3)對欲評估的當前條件數據x,計算其與集合xk中各向量的j
11、accard相似度sim(x,xk)=|xxk|/|xxk|,并記xm為使得sim(x,xm)=minsim(x,xk)的條件向量;(4)取滿足規(guī)則(xmym)xkyk的ym,即為評估預測結果。由于以上處理均為大數據量計算和存儲,所以本層是建立在基于hadoop和mapreduce框架的云計算平臺之上的,使用了分布式存儲與并行計算技術,從而能夠通過低成本的基礎單元節(jié)點完成高性能的處理任務。2.3 管理層實現(xiàn)管理層整體框架基于soa設計,可以根據需要增加新的服務模塊,前臺為基于html5的響應式web設計,內容布局能隨用戶使用顯示器的不同而變化,支持從移動終端進行訪問,可以通過web前臺定制大數
12、據挖掘的工作流,支持處理過的數據導出到關系數據庫,可以通過web界面檢索數據分析的結果,并且實現(xiàn)了決策支持系統(tǒng)。信息發(fā)布服務模塊支持與手機終端的交互,煙農可以利用手機app或者是短信平臺來獲取平臺推送的種植和預警信息。3 應用效果介紹了利用互聯(lián)網上大量非結構化的天氣、溫濕度、土壤情況、病蟲害等信息,作為數據源構建的bdap-tq平臺,輔以從相關行業(yè)獲取的結構化專業(yè)數據,利用web數據挖掘技術通過關聯(lián)分析,對煙葉種植質量進行全面的評估,并可以預測最終收獲的煙葉的質量,而不用派遣大量員工去田間地頭采集數據。通過該平臺除了監(jiān)控預測國內煙草種植以外,還可以分析預測進口煙葉的質量。其中,在土壤檢測方面,
13、還嘗試了結合相關作物分析的方式,這是因為目前我國還沒有遍布全國的土壤檢測網絡,土壤的檢測主要是靠抽檢和農民送檢。傳統(tǒng)方法對重金屬只能采用抽樣法檢測,缺點是費時費力,檢測的區(qū)域比較小,粒度太大,效率比較低。通過互聯(lián)網上大量其他作物的重金屬情況結合gis進行關聯(lián)性分析,可以得出所關心的種植區(qū)域煙葉重金屬的含量情況。隨著國家對大數據越來越重視,建設一個基于大數據的煙葉種植質量評估平臺是非常必要的。目前bdap-tq平臺已經完成了數據層全部模塊,大數據處理層的數據分析部分和管理層的部分模塊,因為需要從互聯(lián)網上抓取大量的數據來計算相應的模型,數據的積累需要一個過程,在數據量還不足夠大的情況下,分析和預測
14、的結果可能還不夠好,后續(xù)的工作是繼續(xù)完善和增加bdap-tq的功能模塊,擴大數據來源,積累更多的數據,增強數據處理能力,縮小需要實時處理數據的延遲時間,增強bdap-tq平臺的實用性。參考文獻:1fernández a,del río s,herrera f,et al.an overview on the structure and applications for business intelligence and data mining in cloud computingc.7th international conference on knowledge mana
15、gement in organizations:service and cloud computing.springer berlin heidelberg,2013:559-570.2viktor mayer-sch?nberger,kenneth neil cukier.big data:a revolution that will transform how we live,work and thinkm.hodder export,2013-03-14.3ginsberg j,mohebbi m h,patel r s,et al.detecting influenza epidemics using search engine query dataj.nature,2008(7232):1012-1014.4陸永恒.生態(tài)條件對煙葉品質的影響研究進展j.中國煙草科學,2007(01):43-465李義強,李成富,許立峰.我國部分煙葉產區(qū)土壤和煙葉重金屬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東交通學院《金融學概論》2023-2024學年第二學期期末試卷
- 上海南湖職業(yè)技術學院《大學信息技術》2023-2024學年第二學期期末試卷
- 湖南中醫(yī)藥大學《中國建筑史》2023-2024學年第二學期期末試卷
- 南方科技大學《工業(yè)通信與網絡技術》2023-2024學年第二學期期末試卷
- 湖北工業(yè)大學工程技術學院《制漿造紙機械與設備》2023-2024學年第二學期期末試卷
- 浙江大學《經典本草與湖湘中醫(yī)藥文化》2023-2024學年第二學期期末試卷
- 黑龍江幼兒師范高等專科學?!侗髅缹W》2023-2024學年第二學期期末試卷
- 成都工貿職業(yè)技術學院《設計與開發(fā)課程設計》2023-2024學年第二學期期末試卷
- 內蒙古經貿外語職業(yè)學院《地理信息工程課程設計與實踐》2023-2024學年第二學期期末試卷
- 湖南交通職業(yè)技術學院《空間文學與敘事》2023-2024學年第二學期期末試卷
- 藍色卡通風學生班干部競選介紹PPT模板課件
- 人教新目標英語九年級上冊單詞中文Units
- 機動車牌證申請表格模板(完整版)
- 部編版小學語文三年級(下冊)學期課程綱要
- 道路交通事故責任認定行政復議申請書范例
- 高效液相含量測定計算公式
- 六宮格數獨解題技巧
- 公安機關通用告知書模板
- 工程款支付審批流程圖
- 人教版七年級歷史下冊第一單元填空題
- 封頭重量和容積計算
評論
0/150
提交評論