軟件工程研究中的效度問題_第1頁
軟件工程研究中的效度問題_第2頁
軟件工程研究中的效度問題_第3頁
軟件工程研究中的效度問題_第4頁
軟件工程研究中的效度問題_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

歡迎閱讀本文檔,希望本文檔能對您有所幫助!歡迎閱讀本文檔,希望本文檔能對您有所幫助!歡迎閱讀本文檔,希望本文檔能對您有所幫助!歡迎閱讀本文檔,希望本文檔能對您有所幫助!歡迎閱讀本文檔,希望本文檔能對您有所幫助!歡迎閱讀本文檔,希望本文檔能對您有所幫助!軟件工程研究中的效度問題

摘要在過去十年中,由于開源項目存檔的可利用性,使用軟件資源庫構(gòu)件的經(jīng)驗研究已經(jīng)成為了流行。在本文中,我們調(diào)查了過去3年對ICSE和FSE會議記錄的研究,并對其按照開源項目與專利項目,以及在這些研究中所使用主題程序的多樣性進行分類。我們的調(diào)查顯示,最近的經(jīng)驗研究中幾乎有一半(49%)僅僅使用了開源項目。目前的研究或是從這些結(jié)果中得出一般性結(jié)論,或是明確否定任何超出特定主題軟件的領域所得出的結(jié)論。我們得出結(jié)論,經(jīng)驗性軟件工程的研究人員必須考慮到由于只使用幾個知名的開源軟件項目所引起的外部效度問題,這些對數(shù)據(jù)源選擇的討論是軟件工程研究的一個重要的議題。而且,我們建議,軟件資源庫基準應有一個共同的研究架構(gòu),并共享經(jīng)驗性分析結(jié)果,這是為了更好地解決外部效度問題,并促進經(jīng)驗軟件工程中分析軟件構(gòu)件的研究。

分類和主題描述D2.0[軟件工程]:通用通用術(shù)語效度關(guān)鍵詞經(jīng)驗研究,外部效度,開源軟件1.介紹在過去的幾年中,軟件工程研究人員充分利用了開源軟件項目提供的豐富信息。研究人員已經(jīng)開發(fā)了開源代碼庫,問題追蹤器,郵寄檔案列表和其他產(chǎn)品來進行他們的經(jīng)驗研究。從表面上看,這些研究??的進行是為了獲悉更多的軟件開發(fā)狀態(tài),以及可以如何改善它。在嚴格審查開源軟件時,這些研究中有許多得出了關(guān)于軟件工程的一般性的結(jié)論。盡管這些研究結(jié)果是有用的,這類研究的作者很少就效度面臨的威脅發(fā)表意見,特別是僅僅在研究現(xiàn)有的開源軟件的時候呈現(xiàn)出的外部效度問題。一些研究人員明確否認特定研究項目以外的任何結(jié)論,從而在其他方向走得太遠。這兩種方法都無助于提高目前的技術(shù)水準或改進軟件工程中的實踐。

在本文中,我們探索軟件工程研究中效度面臨的潛在威脅,這些研究使用軟件構(gòu)件檔案作為一個數(shù)據(jù)集。通常在討論效度時,我們特別強調(diào)關(guān)于選擇使用開源數(shù)據(jù)作為主要研究數(shù)據(jù)源時的外部效度問題。我們調(diào)查了過去幾年FSE和ICSE的會議記錄,以確定被發(fā)現(xiàn)問題的普遍性,提出了我們覺得有關(guān)改善經(jīng)驗性軟件工程研究現(xiàn)狀的問題,以及用何種方式可以讓這方面知識的研究方法有所改進的建議。2.實驗的效度對于任何類型的實驗,為了給出有說服力的論據(jù),它們必須具有高度有效性。當對一個實驗效度的完整處理被更好地留給了另外的資源,這個部分可以簡單應對在軟件工程研究中對于內(nèi)部,外部,以及建構(gòu)效度的挑戰(zhàn)。2.1建構(gòu)效度建構(gòu)效度是指具體的測量值是否真的模擬構(gòu)成假設定理的自變量和因變量。換句話說,一個具有高建構(gòu)效度的經(jīng)驗研究能夠確保研究參數(shù)與研究問題緊密相關(guān)。2.2內(nèi)部效度在經(jīng)驗研究中,干擾因素對內(nèi)部效度是一個主要的威脅。我們的調(diào)查顯示,在軟件工程研究中,選擇性偏差是一個普遍的問題,并且限制了這些研究的效度。內(nèi)部效度對計算者來說很難處理,因為觀察變量的變化可能歸因為其他一些變量的存在或者變化度,這些與被控變量有聯(lián)系,但沒有明確地模式化變量。2.3外部效度一般地,外部效度指的是除了那些直接觀察結(jié)果以外的領域,其研究或?qū)嶒灲Y(jié)果的適用性。如果一個研究的結(jié)論支持整個研究領域,那么就說這個研究具有高外部效度。在大多數(shù)科學科目中,研究者們非常重視對外部效度的研究,因為研究結(jié)果可以廣泛適用于其他情況。一個給定研究的外部效度有幾個方面:·研究是否在領域中推廣到了其他學科·是否存在足夠的根據(jù)和論點來支持聲明的普遍性·研究成果是否能驗證預期的理論減輕建構(gòu)和內(nèi)部效度問題常常比應對面向內(nèi)部效度的威脅更重要,因為解決前兩者是先決條件,之后才能考慮研究結(jié)果超出進行研究的主題領域之外的普遍性。然而,每個軟件工程研究應該爭取一個高層次的外部效度,因為軟件世界太大,太復雜了,無法全面地研究。研究人員選擇研究代表性的項目,然后對其總體概括出結(jié)論是很重要的。3.研究中的開源數(shù)據(jù)隨著最近的開源軟件開發(fā)和數(shù)據(jù)的激增,研究人員已經(jīng)轉(zhuǎn)向這些容易取得開發(fā)數(shù)據(jù)和構(gòu)件的資源。盡管有困難,不管是否能夠被理解,這樣做的情況已經(jīng)發(fā)生。有一段時間在開源研究領域,從開源資料庫中獲得一套平衡的數(shù)據(jù)已經(jīng)成為一個難題,一些數(shù)據(jù)集合已經(jīng)嘗試著去解決這個問題。然而,開源數(shù)據(jù)在一些方面要區(qū)分于專利軟件數(shù)據(jù)。首先,當使用開源數(shù)據(jù)集時,研究人員們經(jīng)常可以使用軟件工程過程中的產(chǎn)品,而當審查專利軟件時,研究人員們通??梢缘玫揭粋€關(guān)于軟件系統(tǒng)以及軟件系統(tǒng)構(gòu)建和維護環(huán)境的更為完整的視圖。其次,進一步偏置源數(shù)據(jù)是開源軟件的領域。許多最成熟的開源項目是系統(tǒng)領域軟件,這可能會引起它自己特有的一系列發(fā)展傾向。以其他領域方向為發(fā)展目標的軟件工程可能會有特殊的問題,并且不能被系統(tǒng)特有的軟件偏置精準地捕獲到。第三,大量存在的工作決定了開源項目的社會結(jié)構(gòu)。與此同時,專利項目已經(jīng)建立了組織結(jié)構(gòu),通過研究它們,研究人員們可能放棄探索社會關(guān)系的時間密集型過程。此外,考恩威法則指出軟件的設計和構(gòu)建是否開放或私化,可能會被組織結(jié)構(gòu)深遠影響。由于開源項目的組織結(jié)構(gòu)通常是自發(fā)形成的,能夠使用開源項目數(shù)據(jù)解答的關(guān)于通信和組織結(jié)構(gòu)的研究問題類型,不能推廣到結(jié)構(gòu)明確定義的封閉源項目。最后,使用開源項目數(shù)據(jù)進一步使研究方法的驗證變得復雜,因為很難找到合適的工作人員(開發(fā)者,管理者,測試者),讓他們驗證自動化軟件分析的結(jié)果,因為貢獻者的角色常常是隱蔽的,他們的工作都基于自愿的原則。3.1在研究中開源數(shù)據(jù)的調(diào)查一個關(guān)于過去會議的簡單調(diào)查有助于說明我們的觀點。這樣一個調(diào)查,盡管不能完全代表所有的軟件工程研究,卻可以表明目前在主要的軟件工程會議上的普遍觀點。在這個調(diào)查中,我們研究了相對于使用合適的源軟件構(gòu)件,僅僅使用開源軟件構(gòu)件進行經(jīng)驗研究的范圍。雖然可操作的開源定義可能是不固定的,但是我們決定用這樣一個定義去區(qū)分開源項目和封閉性項目,那就是“現(xiàn)成的源代碼和開發(fā)工具”。此外,開源項目存在于一個開放的發(fā)展實踐和授權(quán)的連續(xù)統(tǒng)一體,所以分類必然是主觀的。在分類文章的過程中,我們尋找那些使用開源數(shù)據(jù)的文章,而不僅僅是那些構(gòu)造了一個開源工具,或者是在一個開源授權(quán)下提供他們的工具的文章。當作者使用他們的工具作為開源框架的一部分,以按照各種其他作用或者不同文章討論中提及到的開源項目將數(shù)據(jù)源區(qū)分開,我們也不會把這些文章分類為開放性的。表1說明了我們關(guān)于使用OSS對比PSS的研究結(jié)果。我們的調(diào)查結(jié)果很有啟發(fā)性。在最近的ICSE或FSE中使用軟件項目作為研究對象的文章中,幾乎一半僅僅使用了OSS數(shù)據(jù),而其他23%的使用了PSS數(shù)據(jù)。只有15%的文章使用了若干OSS,PSS或常規(guī)數(shù)據(jù)(包括生產(chǎn)實例和基準)的結(jié)合。我們希望OSS與PSS之間的區(qū)別不會像我們認為的那么巨大,以免使大量軟件工程研究的效度問題引起爭議。在做這個調(diào)查的時候,我們注意到了一些有趣的現(xiàn)象。每當提到開源項目時,總會用到很多“生產(chǎn)階段代碼”或“現(xiàn)實世界應用”這類時期。許多文章愿意承認使用來自SourceForge的項目作為他們唯一的輸入數(shù)據(jù)源,然而輕易忽視了這種做法所帶來的問題。我們也注意到很多作者選擇在他們制造的數(shù)據(jù)中測試算法或程序,例如樣本程序和基準。然而這些測試在研究過程中是一個重要的步驟,因此獲得的結(jié)果不會使他們的外部效度更可信(見第5節(jié)標記處的討論)。有趣的是,主題數(shù)據(jù)源的實現(xiàn)語言似乎也很容易被曲解。例如,許多用研究工具是用JAVA編寫的,因此作者選擇JAVA程序作為他們的數(shù)據(jù)源。找不到標準化的“產(chǎn)業(yè)”語言,例如VisualBasic或Cobol.這些語言雖然過時了,也許不能處在軟件工程研究的最前沿,大量現(xiàn)有系統(tǒng)仍然在這類平臺上運作,在一定規(guī)格基礎上,軟件工程實踐者們?nèi)匀辉诮佑|和使用這些語言。對改進軟件工程實踐狀態(tài)感興趣的研究者們,可以考慮將使用這些語言進行編寫的項目作為候選的研究對象,將會做得更好。會議文章總量用到數(shù)據(jù)的文章數(shù)據(jù)源開放封閉常規(guī)合并ICSE’07ESEC/FSE’07ICSE’08FSE’08ICSE’09ESEC/FSE’09494256315038392136193820181217722109595751025232247563總量數(shù)據(jù)占比例266—175100%8649%4023%2414%2715%表1:在研究文章中開放性源作為數(shù)據(jù)源4.開放式問題上面所給的背景資料,我們相信經(jīng)驗軟件工程領域必須解決下面的問題,以增加主要使用開源數(shù)據(jù)進行的研究的外部效度?!じ叨纫蕾囬_源數(shù)據(jù)對效度有什么威脅?·開源開發(fā)與專利開發(fā)實踐在意義方面有不同之處嗎?·是否有足夠多種類的開源數(shù)據(jù)使結(jié)果具有普遍性?即使當效度問題存在,作者可以識別出這些問題,并解決它們嗎?項目委員會,評審員和研究人員可以并應該共同工作,解決這些問題并增加軟件工程研究的效度。通過認識各種數(shù)據(jù)源的優(yōu)點和偏差,作者可以在考慮到專利軟件與開源軟件開發(fā)差異性的基礎上,更好地提高他們研究的質(zhì)量,解決那些關(guān)于效度的問題。例如,從歷史來看,開源團隊在工作方式上與專利軟件團隊有根本性的不同。成員們頻繁來去,他們在地理位置上分布廣泛,根據(jù)需要他們留下了如電子郵件存檔這類長期使用的交流工具的信息。這些特征尤其和軟件工程研究人員研究的大型項目有關(guān)。相比之下,專利的團隊工作方式有所不同,他們可能留給研究人員更少的有用信息。閑聊、會議以及其他的通訊往往沒有記錄。在某些情況下,這樣的相互交流可以占用一個標準工作日的75分鐘。專利軟件開發(fā)擁有而開源開發(fā)沒有的一類資源,是參與人員的使用權(quán)。當有大量數(shù)據(jù)供給時,專利軟件收集信息相比簡單地將自動挖掘技術(shù)應用到大型開源數(shù)據(jù)庫更加費時,代價更大。此外,開源軟件的成功對專利軟件廠商并沒有很大的影響。許多公司利用不斷深入的全球化,在地理上廣泛分布團隊以期達到最大限度的工作效率。雖然源代碼不能在開源許可證條件下使用,但是實際的開發(fā)實踐已經(jīng)開始借鑒這些開放資源。同時,成功的開放資源項目往往獲得商業(yè)公司的贊助、使用和奪標購買。在這種情況下,許可證或許會保持開放,但是開發(fā)構(gòu)架開始變得嚴格,漸漸回到傳統(tǒng)的開發(fā)過程。 5.基準最后值得注意的一點是軟件工程研究中基準的使用。我們不是第一個建議在軟件工程中使用基準的,但是我們的調(diào)查數(shù)據(jù)顯示先前的請求往往被忽視。對于軟件效度的威脅正在增加,對于經(jīng)驗基準的正確設置連同其他措施一起將加強軟件工程領域效度問題的研究。雖然軟件測試領域已經(jīng)開始使用軟件構(gòu)件基礎設施庫(SIR)評估各種測試方法,我們研究的許多論文都引用了這個資源庫的構(gòu)件,但是這些論文很少對整個程序組有一個綜合全面的考慮,因為SIR資源庫會因為用回歸測試和錯誤數(shù)據(jù)覆蓋軟件歷史而受到限制。SIR是一個很好的開始,但是為了增強實驗的有效性,研究人員需要一個更為完整的數(shù)據(jù)集。構(gòu)建一個具有代表性的基準數(shù)據(jù)集是很不容易的,但是其他領域的結(jié)果是令人鼓舞的。例如,為編譯器優(yōu)化的研究建的Dacapo基準已經(jīng)在學術(shù)界和產(chǎn)業(yè)界采用并繼續(xù)發(fā)展。雖然基準的制定有很多的困難(研究者會優(yōu)化研究以適應基準的特點),我們相信這些基準帶來的好處遠遠超過了研究成本。鑒于軟件的發(fā)展變化非常迅速,維持這一套基準可能非常耗時間。盡管有這些困難,一套恰當?shù)幕鶞蕬摫徽J為是軟件工程研究中效度實驗的先決條件。而且,這些基準將促進研究方法的比較性評估。目前,由于缺乏共同的基準和對這些基準的分析結(jié)果,研究者經(jīng)常被迫重復他人用過的方法,并經(jīng)常和相同主題的軟件比較,承擔了不必要的高昂的驗證研究方法費用。6.結(jié)論自從ICSE和FSE的初期,軟件工程研究取得了很大的進展,而且使用真實軟件系統(tǒng)進行經(jīng)驗驗證的限制有很大程度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論