基于信息技術(shù)的我國科學(xué)研究監(jiān)測分析系統(tǒng)的設(shè)計與實現(xiàn)_第1頁
基于信息技術(shù)的我國科學(xué)研究監(jiān)測分析系統(tǒng)的設(shè)計與實現(xiàn)_第2頁
基于信息技術(shù)的我國科學(xué)研究監(jiān)測分析系統(tǒng)的設(shè)計與實現(xiàn)_第3頁
基于信息技術(shù)的我國科學(xué)研究監(jiān)測分析系統(tǒng)的設(shè)計與實現(xiàn)_第4頁
基于信息技術(shù)的我國科學(xué)研究監(jiān)測分析系統(tǒng)的設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于信息技術(shù)的我國科學(xué)研究監(jiān)測分析系統(tǒng)的設(shè)計與實現(xiàn)

為了更好地推動中國計算機科學(xué)的研究,國家自然科學(xué)基金委員會(以下簡稱“行政部門”)于2004年底開始了由省長基金委員會主任的基金項目《科學(xué)與文化發(fā)展監(jiān)測體系研究》。其主要內(nèi)容是運用先進的信息技術(shù),監(jiān)測和分析國內(nèi)外科學(xué)形勢的發(fā)展趨勢,正確、實時地分析和評估學(xué)科相關(guān)研究熱點、研究項目、主要研究機構(gòu)、科學(xué)研究人員、科技資源的分布以及科學(xué)文章的發(fā)表,為制定和選擇科學(xué)和行政領(lǐng)域的“五一”計劃提供參考依據(jù)。以及制定和選擇“五”計劃。本文作為項目研究的階段性成果,主要是對管理科學(xué)論文進行了作者分析,以數(shù)據(jù)挖掘(datamining)、信息萃取(informationextraction)、知識發(fā)現(xiàn)(knowledgediscovery)、數(shù)據(jù)可視化技術(shù)(datavisualization)等信息科學(xué)前沿技術(shù)為手段,從科技文獻數(shù)據(jù)庫、Web網(wǎng)頁、SCI、中國期刊網(wǎng)等中提取與管理科學(xué)研究相關(guān)的科技信息,建立一個獨立的管理科學(xué)技術(shù)監(jiān)測數(shù)據(jù)集,從而實現(xiàn)對管理科學(xué)領(lǐng)域的作者產(chǎn)出能力,作者地區(qū)分布,高產(chǎn)作者群分布及其關(guān)聯(lián)情況的動態(tài)監(jiān)測、分析和有效評估,最后把分析結(jié)果以可視形式直觀地展現(xiàn)出來,使人們更清楚地了解我國管理科學(xué)科研隊伍的現(xiàn)狀,為科研管理工作提供幫助。1根據(jù)監(jiān)測目標(biāo)的主要特點,分為3步技術(shù)監(jiān)測(technologymonitoring)是指對過去、現(xiàn)在和未來的科學(xué)、技術(shù)、經(jīng)濟和社會發(fā)展所進行的系統(tǒng)研究,以科學(xué)技術(shù)信息、數(shù)據(jù)分析為基礎(chǔ),以信息科學(xué)前沿技術(shù)為手段,綜合集成各方面專家的戰(zhàn)略性智力,對科學(xué)技術(shù)活動進行動態(tài)監(jiān)視、測量、分析及評估的方法。其目標(biāo)是為技術(shù)管理及決策提供動態(tài)、準(zhǔn)確的科學(xué)技術(shù)發(fā)展?fàn)顟B(tài),從而把握技術(shù)機會,降低風(fēng)險,提高效率。根據(jù)技術(shù)監(jiān)測方法的主要特點,把技術(shù)監(jiān)測分為以下3步:(1)數(shù)據(jù)準(zhǔn)備①定義問題和目標(biāo);②建立目標(biāo)數(shù)據(jù)集;③數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)庫重構(gòu)。(2)數(shù)據(jù)挖掘和分析(3)知識表示為了更深入地說明技術(shù)監(jiān)測方法在管理科學(xué)論文作者分析中的應(yīng)用,本文對管理科學(xué)部遴選的20種管理科學(xué)核心期刊論文進行了實證分析。2系統(tǒng)的開發(fā)與實現(xiàn)為了有效獲取管理科學(xué)研究現(xiàn)狀及發(fā)展趨勢的信息,在基于智能化知識采掘的高新技術(shù)監(jiān)測分析技術(shù)平臺基礎(chǔ)上,根據(jù)管理科學(xué)研究實際需要,設(shè)計開發(fā)了一套“人機結(jié)合”的管理科學(xué)監(jiān)測分析系統(tǒng),系統(tǒng)數(shù)據(jù)流程圖如圖1所示。系統(tǒng)主要分為3個子系統(tǒng):數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘與分析、知識表示。最終自動生成一份管理科學(xué)動態(tài)監(jiān)測報告,提供給有關(guān)專家進行定性和定量綜合集成分析。2.1數(shù)據(jù)獲取與管理為了研究國內(nèi)管理科學(xué)研究現(xiàn)狀、各地區(qū)研究水平以及科研人員研究實力,針對管理科學(xué)部主任基金項目“管理科學(xué)發(fā)展的監(jiān)測體系研究”項目所擬定的研究任務(wù),并結(jié)合管理科學(xué)部“十一五”管理科學(xué)戰(zhàn)略研究與優(yōu)先資助領(lǐng)域遴選工作的需要,擬定出管理科學(xué)國內(nèi)科研人員情況技術(shù)監(jiān)測需求:管理科學(xué)國內(nèi)研究現(xiàn)狀(國內(nèi)論文發(fā)表情況)分析、論文作者地區(qū)分析、高產(chǎn)作者統(tǒng)計分析。遠程數(shù)據(jù)本地化是技術(shù)監(jiān)測方法的基礎(chǔ),是為了分析能夠長期進行,并且實現(xiàn)數(shù)據(jù)動態(tài)監(jiān)測跟蹤,數(shù)據(jù)獲取是其中很重要的一步。動態(tài)、快速、便捷地獲得數(shù)據(jù),并把它存儲起來是這一步的主要工作。我們把數(shù)據(jù)源分為2種:①利用搜索引擎搜尋。由于搜索引擎大都采用數(shù)據(jù)庫來記錄網(wǎng)站信息和網(wǎng)頁信息,我們使用已經(jīng)編制的科技搜索詞典作為搜索關(guān)鍵詞,在搜索引擎中鍵入查詢對象名稱。②采用人工查找。由于網(wǎng)站設(shè)計了不讓搜索引擎發(fā)現(xiàn)的安全措施,所以必須使用人工查找的方法發(fā)現(xiàn)數(shù)據(jù)源。獲取數(shù)據(jù)后,集成在數(shù)據(jù)庫中,整個過程如圖2所示。針對管理科學(xué)國內(nèi)科研人員情況的技術(shù)監(jiān)測需求,選取管理科學(xué)部遴選的20種管理科學(xué)核心期刊作為監(jiān)測對象,數(shù)據(jù)來源于《中國期刊網(wǎng)》全文數(shù)據(jù)庫,期間為1994年1月到2004年11月,采用上述數(shù)據(jù)跟蹤獲取方法,對這些期刊發(fā)表的所有論文數(shù)據(jù)進行獲取、集成后形成本地數(shù)據(jù)庫,共收集數(shù)據(jù)26496條,形成有關(guān)國內(nèi)管理科學(xué)研究情況的監(jiān)測數(shù)據(jù)集。針對此監(jiān)測數(shù)據(jù)集,從中除去明顯錯誤的數(shù)據(jù)和冗余的數(shù)據(jù),去除噪聲或無關(guān)數(shù)據(jù),對書訊、文摘、講話、訪談、書評、簡報、目錄等數(shù)據(jù)進行了篩選和剔除,最后形成包含25755條有效數(shù)據(jù)的管理科學(xué)研究監(jiān)測數(shù)據(jù)集,并通過數(shù)據(jù)庫重構(gòu)形成含有多類分析屬性的數(shù)據(jù)集,為數(shù)據(jù)挖掘做好準(zhǔn)備工作。2.2關(guān)聯(lián)算法的計算方法針對以上經(jīng)過處理的監(jiān)測數(shù)據(jù)集,并結(jié)合專家知識,我們采用數(shù)據(jù)挖掘、技術(shù)預(yù)測、自然語言處理、信息萃取、知識發(fā)現(xiàn)等工具,依據(jù)特定的數(shù)據(jù)挖掘算法(如技術(shù)組群自動識別、技術(shù)創(chuàng)新指標(biāo)、自然語言處理和競爭分析、模糊聚類等)提取數(shù)據(jù)模式,并用數(shù)據(jù)可視化方法表達成易于理解的形式。基于以上工具及算法,通過技術(shù)監(jiān)測分析自動生成了管理科學(xué)國內(nèi)論文發(fā)表情況、論文作者地區(qū)分布、高產(chǎn)作者統(tǒng)計等各類表格,并通過關(guān)聯(lián)算法,得出各地區(qū)之間、機構(gòu)之間、個人之間的關(guān)聯(lián)關(guān)系,通過技術(shù)圖譜自動生成技術(shù)生成各類關(guān)聯(lián)可視圖。與此同時,對上述統(tǒng)計表格及關(guān)聯(lián)可視圖在機器處理的基礎(chǔ)上進行解釋、評估和價值評定,并對某些數(shù)據(jù)和信息進行了補充和修訂。其中,關(guān)聯(lián)算法主要涉及2種計算:(1)共生計算本研究通過對技術(shù)關(guān)鍵詞的共生關(guān)系(termsco-occurrences)計算來識別、確定一組文獻內(nèi)部所包含的技術(shù)組(群)。假定有n篇文獻,這n篇文獻包含有m個技術(shù)關(guān)鍵詞,則建立了{n×m}的關(guān)聯(lián)矩陣X,在X中,文獻Di的關(guān)鍵詞Tkeyi的權(quán)值,用布爾代數(shù)值表示,當(dāng)Tkeyi在Di文獻中出現(xiàn)時取1,否則取0?;谶@個{文獻×關(guān)鍵詞}的X矩陣,可進一步得到與{關(guān)鍵詞×關(guān)鍵詞}共生的關(guān)聯(lián)矩陣∶T=XT·X。技術(shù)共生關(guān)系分析是通過對反映文獻主題內(nèi)容的詞進行關(guān)聯(lián)性或相異性定量分析,研究文獻的內(nèi)在聯(lián)系和科學(xué)結(jié)構(gòu)的一種方法,其基本出發(fā)點是:①科學(xué)研究的熱點是由一系列在內(nèi)容上密切相關(guān)的研究課題和概念組成的,這些熱點是眾多科學(xué)研究人員注意和跟蹤的對象。②熱衷或從事于某一科學(xué)熱點研究的科學(xué)家,無論其社會背景和知識背景如何不同,在很大程度上,對于同一研究課題和概念,所使用的詞匯是基本一樣的。(2)關(guān)聯(lián)度計算兩元素之間關(guān)聯(lián)性的大小稱為關(guān)聯(lián)度。嚴格意義上的關(guān)聯(lián)度是指系統(tǒng)發(fā)展過程中因素間相對變化的情況,也就是變化大小、方向及速度等指標(biāo)的相對性。如果兩者在系統(tǒng)發(fā)展過程中相對變化基本一致,則認為兩者關(guān)聯(lián)度大;反之,兩者關(guān)聯(lián)度就小。我們提出通過對各元素所涉及技術(shù)關(guān)鍵詞的共生關(guān)系來計算元素之間的關(guān)聯(lián)關(guān)系。(i)文獻組的各文獻之間關(guān)聯(lián)度計算方法可以使用一般聚類分析方法中常用的一些關(guān)聯(lián)度計算方法,如關(guān)聯(lián)系數(shù)、距離系數(shù)等;也可以根據(jù)需要,自己定義關(guān)聯(lián)性測度方法。關(guān)聯(lián)性測度方法沒有嚴格的標(biāo)準(zhǔn)。具體問題中哪種測度方法最好,要用聚類和關(guān)聯(lián)分析的結(jié)果是否符合實際情況來驗證。文獻組中Di和Dj之間的關(guān)聯(lián)度根據(jù)公式sim(Di?Dj)=∑k=1mb2iksim(Di?Dj)=∑k=1mbik2計算,bik為Di與Dj的關(guān)聯(lián)權(quán)值。(ii)文獻組內(nèi)各關(guān)鍵詞之間關(guān)聯(lián)度計算方法文獻組中Tkeyi和Tkeyj之間的關(guān)聯(lián)度根據(jù)公式sim(Tkeyi?Tkeyj)=∑k=1mt2iksim(Τkeyi?Τkeyj)=∑k=1mtik2計算,tik為Tkeyi與Tkeyj的關(guān)聯(lián)權(quán)值。2.3之間的競爭態(tài)勢評估在技術(shù)監(jiān)測中,很重要的是洞悉和傳達數(shù)據(jù)所表達的含義,即監(jiān)測者必須為用戶展示數(shù)據(jù)所隱含的關(guān)系和意義。為此我們將技術(shù)創(chuàng)新指標(biāo)、技術(shù)關(guān)聯(lián)網(wǎng)絡(luò)等結(jié)果以用戶容易理解的方式(將關(guān)聯(lián)圖和統(tǒng)計表可視化),形成管理科學(xué)動態(tài)監(jiān)測報告,以便專家參考。通過分析與期刊論文作者有關(guān)的圖表,可以對不同地區(qū)、機構(gòu)及科研人員之間的競爭態(tài)勢進行評估分析,了解他們的研究方向以及技術(shù)優(yōu)勢所在;通過對地區(qū)、機構(gòu)、個人進行關(guān)聯(lián)分析,可以反映出地區(qū)之間、機構(gòu)之間、個人之間在研究方向上的聯(lián)系、關(guān)聯(lián)度及其研究水平的相對比較。3發(fā)表科學(xué)管理的評論3.1科學(xué)期刊數(shù)量逐年增加針對這20種管理科學(xué)核心期刊近11年內(nèi)發(fā)表的25755篇學(xué)術(shù)類和技術(shù)類論文,利用文獻計量方法,統(tǒng)計出各年份論文發(fā)表數(shù)量及增長率情況,見表1和圖3。從圖表中可以看出,近11年間,國內(nèi)管理科學(xué)期刊論文數(shù)量基本保持持續(xù)增長,特別是1996年到1997年增長更是迅猛。隨著管理科學(xué)學(xué)科的不斷壯大,各相關(guān)期刊的容量也在不斷增大,出版周期在縮短,并且不斷出版增刊,使得論文數(shù)量在平穩(wěn)中不斷增加。比如,《管理工程學(xué)報》1994年收錄論文48篇,平均每期12篇,到2004年收錄論文量增長至121篇,平均每期30篇;《系統(tǒng)工程學(xué)報》2000年以前為季刊,從2001年起改成了雙月刊;《科學(xué)學(xué)研究》在1997年以后都有大量增刊出版。以上情況都說明,管理科學(xué)研究在不斷發(fā)展與進步,相關(guān)研究成果數(shù)量也不斷增加,說明國內(nèi)管理科學(xué)研究發(fā)展具有較強活力,研究隊伍在快速壯大。3.2核心作者單位分布根據(jù)洛特卡定律的最初原則,本次研究對象為論文第一作者。在25755篇管理科學(xué)研究論文中,第一作者信息明晰的共計17514篇,占論文總數(shù)的68.00%,作者共計10448人。其中,大陸作者10388人,發(fā)文17443篇;香港作者20人,發(fā)文35篇;臺灣作者9人,發(fā)文11篇;美國作者10人,發(fā)文13篇;日本作者8人,發(fā)文9篇;其他國家作者3人,發(fā)文3篇。我們將作者以發(fā)表論文的篇數(shù)分類列于表2中。根據(jù)洛特卡和普賴斯對科學(xué)家的生產(chǎn)率和活動規(guī)律的研究,發(fā)表5篇以上論文的作者是這些期刊的核心作者。國內(nèi)管理科學(xué)領(lǐng)域發(fā)表論文最高產(chǎn)的作者是北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院的李京文院士,11年間共在這20種管理科學(xué)核心期刊上發(fā)表論文48篇。經(jīng)統(tǒng)計,核心作者主要分布在重點大學(xué)的管理學(xué)院和一些有影響的科研院所。其中,有534人是高校作者,38人是中國科學(xué)院的作者,政府部門及其他研究機構(gòu)有35人,個人情況不詳?shù)挠?4人。在高校作者中,西安交通大學(xué)有36人,上海交通大學(xué)有32人,清華大學(xué)有31人,天津大學(xué)有28人。由此可見,中國科學(xué)院和這些高校在管理科學(xué)研究方面具有十分明顯的人才優(yōu)勢。3.3文獻分類與研究內(nèi)容相關(guān)的問題在第一作者信息明晰的17514篇管理科學(xué)論文中,論文作者遍及31個省、自治區(qū)、直轄市,也有部分論文作者來自港、臺及國外,所載論文國內(nèi)作者的地區(qū)分布見表3。從表3可以看出,北京地區(qū)的作者發(fā)文量最大,占論文總數(shù)的18.76%,其次為上海、江蘇、浙江、陜西、天津、湖北、遼寧,發(fā)文量均在1000篇以上,這8個省市共發(fā)表論文12206篇,占69.69%。從作者數(shù)量上看,國內(nèi)作者總?cè)藬?shù)為10388人,北京地區(qū)為2017人,占總?cè)藬?shù)的19.42%,其次為上海、江蘇、浙江、陜西、天津、湖北、遼寧,作者人數(shù)也都超過500人,這8個省市的作者總數(shù)達7102人,占總?cè)藬?shù)的68.37%。觀察我國管理科學(xué)論文及作者在各省自治區(qū)、直轄市的分布情況,可以看到論文數(shù)量和作者人數(shù)的排序是比較一致的。北京、上海等地在管理科學(xué)研究方面有明顯的優(yōu)勢,這也說明這些地區(qū)在管理科學(xué)理論研究及應(yīng)用方面有雄厚的實力,力量較強,研究人員數(shù)量較多,可視為我國管理科學(xué)理論與實踐研究的重要基地。與此相反,一些邊遠地區(qū)或少數(shù)民族地區(qū)作者和論文數(shù)量較少,表現(xiàn)出該地區(qū)在管理科學(xué)理論與實踐研究方面比較落后。從而可看出,管理科學(xué)科研人才及研究成果的數(shù)量與該地區(qū)或城市的社會生產(chǎn)力和科學(xué)文化的發(fā)展程度成正相關(guān)關(guān)系。此外,港、臺、澳及國外近40位學(xué)者在國內(nèi)管理科學(xué)核心期刊發(fā)表論文近百篇,說明海外學(xué)者在中國管理科學(xué)領(lǐng)域的學(xué)術(shù)研究還是較活躍的。針對管理科學(xué)監(jiān)測數(shù)據(jù)集,利用技術(shù)組群自動識別算法,我們得到了發(fā)文量及作者人數(shù)排名前15位的地區(qū)之間的關(guān)聯(lián)關(guān)系,并用技術(shù)圖譜自動生成技術(shù)以形象化的形式把結(jié)果展示出來。在圖4中,球體大小表示發(fā)文量情況,而球體之間線段表示地區(qū)之間的關(guān)聯(lián)情況,線段短,表示兩地研究比較接近,關(guān)聯(lián)度大。從圖中可以看出,北京、福建和廣東的研究方向比較接近,形成了一個技術(shù)組群,上海、浙江雖然發(fā)文量和作者人數(shù)比較多,但是研究內(nèi)容與以北京為中心的技術(shù)群組關(guān)聯(lián)度比較小。相對而言,黑龍江與其他地區(qū)的研究不太一致,而且數(shù)量也是比較少的。3.4高產(chǎn)作者的關(guān)系在以上分析結(jié)果的基礎(chǔ)上,采用文獻計量學(xué)、技術(shù)組群識別、技術(shù)創(chuàng)新指標(biāo)、自然語言處理等前沿信息技術(shù)進一步挖掘,得出了發(fā)表論文總數(shù)量排名前20位的作者(見表4),并識別出其主要研究領(lǐng)域的關(guān)鍵詞,通過關(guān)聯(lián)共生分析、社會關(guān)系網(wǎng)絡(luò)圖技術(shù)、技術(shù)圖譜生成技術(shù),獲得論文高產(chǎn)作者關(guān)系網(wǎng)絡(luò)圖(見圖5),高產(chǎn)作者間的關(guān)系以可視化形式直觀展現(xiàn)。分析得出,20位高產(chǎn)作者發(fā)表論文總量為567篇,人均發(fā)文量28.35篇。其中發(fā)文量最多的是北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院的李京文院士,其主要研究領(lǐng)域與高輝清、胡少維的研究領(lǐng)域關(guān)聯(lián)度很高;而周寄中、許慶瑞和王英都在“高技術(shù)”領(lǐng)域研究比較突出,所以3人關(guān)聯(lián)度較高,形成了一個三角閉環(huán)。從年齡結(jié)構(gòu)上看,年齡在30~39歲的學(xué)者有6位,占總數(shù)的30%,40~49歲的有9位,占總數(shù)的45%,60歲以上的有5位。從分析中可以看出,高產(chǎn)作者以中老年學(xué)者居多,年齡結(jié)構(gòu)趨于老齡化。由此可見,國內(nèi)管理科學(xué)界學(xué)者在步入中年后才進入論文高產(chǎn)期,也即對管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論