




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第五講:編輯室里的數(shù)據(jù)分析目錄CONTENTS數(shù)據(jù)清理數(shù)據(jù)分析數(shù)據(jù)清理和分析過程中的倫理問題行業(yè)PPT模板/hangye/數(shù)據(jù)清理01數(shù)據(jù)清理一項對比數(shù)據(jù)科學(xué)家和數(shù)據(jù)記者的數(shù)據(jù)準備工作的研究發(fā)現(xiàn),數(shù)據(jù)記者在接受深度訪談時,反復(fù)提及他們在做數(shù)據(jù)準備工作時會面臨的四個挑戰(zhàn):區(qū)域性:由于不同地區(qū)的數(shù)據(jù)收集者在收集數(shù)據(jù)時具有獨立性和空間的分散性,這導(dǎo)致相同主題的數(shù)據(jù)在不同區(qū)域結(jié)構(gòu)不一致。
歷時性:關(guān)于同一現(xiàn)象的統(tǒng)計數(shù)據(jù)可能隨著時間的演變而發(fā)生變化。
碎片化:關(guān)于相似主題的不同表格包含邏輯相關(guān)卻內(nèi)容不同的項目。
不同的數(shù)據(jù)集:尋找不同數(shù)據(jù)集中的關(guān)聯(lián)——找到其中相同的數(shù)據(jù)實體,是一個充滿不確定性的工作。KasicaS,BerretC,MunznerT.DirtyDataintheNewsroom:ComparingDataPreparationinJournalismandDataScience.CHI'23:Proceedingsofthe2023CHIConferenceonHumanFactorsinComputingSystems.(2023-04-19)[2024-01-20].https://www.cs.ubc.ca/group/infovis/pubs/2023/dirty-data-in-the-newsroom/dirty-data-in-the-newsroom.pdf.
數(shù)據(jù)清理數(shù)據(jù)清理(DataWrangling)也被稱為數(shù)據(jù)清洗、數(shù)據(jù)補救或數(shù)據(jù)轉(zhuǎn)換,指把原始數(shù)據(jù)轉(zhuǎn)換為可更好地進行分析的數(shù)據(jù)格式的一系列過程。這是我們在進行數(shù)據(jù)分析前一個必要的工作環(huán)節(jié)。大多數(shù)時候我們采集的數(shù)據(jù)未必是理想數(shù)據(jù),可能存在或多或少的問題,有人形象地稱此為“壞數(shù)據(jù)”(baddata)或“臟數(shù)據(jù)”(dirtydata)。數(shù)據(jù)清理既是采用適當(dāng)?shù)姆椒ㄌ幚頂?shù)據(jù)中存在的問題的過程;也是對采集的數(shù)據(jù)進行匯總整理和結(jié)構(gòu)化的過程。數(shù)據(jù)清理可以是一個人工或機器自動完成的過程,
它包含觀察數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、清洗數(shù)據(jù)、擴充數(shù)據(jù)、驗證數(shù)據(jù)和發(fā)布數(shù)據(jù)六個步驟。數(shù)據(jù)清理0102030405觀察數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)清洗數(shù)據(jù)擴充數(shù)據(jù)驗證數(shù)據(jù)06發(fā)布數(shù)據(jù)數(shù)據(jù)清理一、觀察數(shù)據(jù)觀察數(shù)據(jù)是數(shù)據(jù)清理的第一步,指熟悉數(shù)據(jù),構(gòu)思如何使用數(shù)據(jù)的過程。這一過程中需要對數(shù)據(jù)質(zhì)量做出觀察和判斷,其中包括辨別數(shù)據(jù)呈現(xiàn)的趨勢和模式,發(fā)現(xiàn)其中存在的明顯問題,例如數(shù)據(jù)缺失、不準確的數(shù)據(jù)值等。對數(shù)據(jù)的五個新聞要素做分析,可以幫助我們發(fā)現(xiàn)數(shù)據(jù)中的問題,明確最終需要清理的數(shù)據(jù)范圍。數(shù)據(jù)清理Who數(shù)據(jù)是誰提供的
What你想用數(shù)據(jù)告訴人們什么
When數(shù)據(jù)是何時采集的
Why這組數(shù)據(jù)有何意義Where數(shù)據(jù)的地理屬性
數(shù)據(jù)清理二、結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是一個將數(shù)據(jù)轉(zhuǎn)換為可被分析的數(shù)據(jù)格式的過程,要轉(zhuǎn)換成怎樣的數(shù)據(jù)表取決于使用怎樣的分析模型來解釋數(shù)據(jù)。機器可讀的數(shù)據(jù)文件,即為了便于計算機進行讀取和處理而生成的數(shù)據(jù)文件,而不是為了向人類用戶展示。這些數(shù)據(jù)的結(jié)構(gòu)與其內(nèi)容相關(guān),但與數(shù)據(jù)的最終展示形式不同。常見的機器可讀數(shù)據(jù)文件格式包括CSV、XML、JSON和xls/xlsx文檔等等。與機器可讀的數(shù)據(jù)相反,另一類數(shù)據(jù)文件格式側(cè)重視覺呈現(xiàn),承擔(dān)向用戶展示數(shù)據(jù)的功能,但不便于計算機讀取數(shù)據(jù)和處理分析。常見的側(cè)重視覺呈現(xiàn)的數(shù)據(jù)文件格式包括Word文檔、HTML網(wǎng)頁和PDF文檔。數(shù)據(jù)清理二、結(jié)構(gòu)化數(shù)據(jù)從PDF中提取數(shù)據(jù)的三種方法:通過人工復(fù)制粘貼,這種方法能簡單入手,但耗時耗力,且容易導(dǎo)致數(shù)據(jù)提取不穩(wěn)定、易出差錯;采用PDF轉(zhuǎn)換器,這類轉(zhuǎn)換軟件或在線轉(zhuǎn)換網(wǎng)站可以相對快捷高效地提取數(shù)據(jù),但不太方便處理批量數(shù)據(jù)提取;由程序員編寫自動化腳本,通過Python等程序語言調(diào)用轉(zhuǎn)換PDF的工具包,從而實現(xiàn)批量數(shù)據(jù)提取的任務(wù)。案例:“笨方法”做出的好新聞韓國報紙《京鄉(xiāng)新聞》發(fā)布作品《平均每天有三個工人永遠不會下班》數(shù)據(jù)清理三、清洗數(shù)據(jù)清洗數(shù)據(jù)是指消除數(shù)據(jù)中存在的錯誤,以免它們影響數(shù)據(jù)分析和數(shù)據(jù)價值。清洗數(shù)據(jù)包括刪除空白單元格或行/列,移除異常值,使所有輸入都標(biāo)準化。這個過程的目標(biāo)是確保數(shù)據(jù)中不會有影響分析的差錯。識別和消除任何影響數(shù)據(jù)清理后續(xù)過程的壞數(shù)據(jù)。參考Quartz網(wǎng)站發(fā)布的《壞數(shù)據(jù)指南》你怎么看:在計算機科學(xué)領(lǐng)域,有一句俗語“Garbagein,garbageout”,指輸入垃圾數(shù)據(jù)會導(dǎo)致垃圾結(jié)果,你如何理解這種觀點?數(shù)據(jù)清理三、清洗數(shù)據(jù)清洗數(shù)據(jù)時需要注意的事項:做好數(shù)據(jù)備份,另存數(shù)據(jù)并合理命名備份存檔。檢查數(shù)據(jù)是否完整、規(guī)范、一致,尤其是手動錄入、匯總的數(shù)據(jù)。檢查是否有合并單元格,如果有合并單元格需將其拆分、并做好數(shù)據(jù)填充。檢查是否有異常值:包括重復(fù)值、錯誤值、空白行、列/單元格等。檢查數(shù)據(jù)格式是否正確、一致:如文本、數(shù)字、日期應(yīng)對應(yīng)相應(yīng)的格式。對缺失的數(shù)據(jù)進行填補,包括單元格的空值和零值的處理。“整潔的數(shù)據(jù)”應(yīng)該符合三個規(guī)則:每一列是一個變量;每一行代表一個觀測值/記錄;不要把不同類型的數(shù)據(jù)堆在一個數(shù)據(jù)表里面。(WickhamH,RStudio.TidyData.JournalofStatisticalSoftware.2014,59(10),1-23.DOI:10.18637/jss.v059.i10.
)數(shù)據(jù)清理四、擴充數(shù)據(jù)判斷數(shù)據(jù)是否足以做分析,如果不夠充足,則需要從其他數(shù)據(jù)集中找相應(yīng)的數(shù)值來填充和擴展數(shù)據(jù)。案例:RUC新聞坊的作品《暴雨再襲,臺風(fēng)對華北、東北影響在加劇嗎?》
數(shù)據(jù)清理五、驗證數(shù)據(jù)進一步檢查在前面所完成的數(shù)據(jù)準備階段的工作,確認數(shù)據(jù)是否一致,質(zhì)量是否足夠且安全。數(shù)據(jù)驗證可以通過機器或人工來完成。常見的數(shù)據(jù)驗證類型包括以下幾種:數(shù)據(jù)類型驗證:確認每個字段、列、列表、范圍或文件中的數(shù)據(jù)與指定的數(shù)據(jù)類型和格式匹配。
約束驗證:檢查給定的數(shù)據(jù)字段輸入是否符合特定范圍內(nèi)的指定要求。例如,它驗證數(shù)據(jù)字段是否具有最小或最大字符數(shù)。
結(jié)構(gòu)化驗證:確保數(shù)據(jù)符合指定的數(shù)據(jù)格式、結(jié)構(gòu)或模式。
一致性驗證:確保數(shù)據(jù)樣式一致。例如,它確認所有值均保留兩位小數(shù)。
代碼驗證:類似于一致性檢查,并確認用于不同數(shù)據(jù)輸入的代碼是正確的。例如,檢查國家/地區(qū)代碼。(KernerSM.DataValidation.(2022-01)[2023-12-13],/searchdatamanagement/definition/data-validation.)數(shù)據(jù)清理六、發(fā)布數(shù)據(jù)經(jīng)過驗證后的數(shù)據(jù)就可以發(fā)布了,這里的發(fā)布數(shù)據(jù)不是指直接對公眾發(fā)布,而是將數(shù)據(jù)提供給機構(gòu)內(nèi)的其他人進行分析。在數(shù)據(jù)清理階段,數(shù)據(jù)科學(xué)家或數(shù)據(jù)記者需要采用機構(gòu)內(nèi)合適的共享格式來發(fā)布數(shù)據(jù),例如,有些機構(gòu)采用在線電子表格的方式進行項目內(nèi)不同人員的共享。
數(shù)據(jù)分析02數(shù)據(jù)分析統(tǒng)計分析大數(shù)據(jù)分析新聞編輯室里的數(shù)據(jù)分析包含兩大類:一類是采用社會統(tǒng)計學(xué)領(lǐng)域的數(shù)據(jù)分析方法所做的處理和分析,另一類則是采用將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的數(shù)據(jù)挖掘(datamining)方法所做的大數(shù)據(jù)分析。
數(shù)據(jù)分析一、新聞中常見的統(tǒng)計學(xué)概念與統(tǒng)計分析方法統(tǒng)計學(xué)是應(yīng)用數(shù)學(xué)的一個分支,是收集、分析、表述和解釋數(shù)據(jù)的科學(xué)。統(tǒng)計分析分為統(tǒng)計描述和統(tǒng)計推論兩類,統(tǒng)計描述是指將所觀察的數(shù)據(jù)、資料,進行整理、歸納和分析,以期找出某種規(guī)律。而統(tǒng)計推論則指根據(jù)不完全數(shù)據(jù)對全體做出正確推論的方法,它要求根據(jù)統(tǒng)計資料的統(tǒng)計規(guī)律性,運用概率論,正確地從局部推論到整體。(盧淑華.社會統(tǒng)計學(xué)(第五版).北京:北京大學(xué)出版社.2021,16-20.
)
數(shù)據(jù)分析(一)統(tǒng)計描述在數(shù)據(jù)新聞中的應(yīng)用統(tǒng)計描述可以提供關(guān)于一組定量數(shù)據(jù)特征的簡單描述,在數(shù)據(jù)新聞中,常用的統(tǒng)計方法有頻次分布、集中趨勢測量法、離散趨勢測量法和相關(guān)等。1.頻次分布(frequencydistribution)社會統(tǒng)計學(xué)里的頻次分布指一個概念或變量的全部取值及其頻次的集合。例如,將一組變量分為不同組段,然后將各組段對應(yīng)的觀察值歸納到各組段中,最后清點各組段觀察值個數(shù)(頻次),就可以形成該變量的頻次分布。傷亡類型人數(shù)輕傷890重傷396死亡1106數(shù)據(jù)來源:《中國林業(yè)統(tǒng)計年鑒》統(tǒng)計時段:1998-2017年表:森林火災(zāi)人員傷亡統(tǒng)計表數(shù)據(jù)分析與頻次分布相關(guān)的概念百分比(percent)相對數(shù)中的一種,所謂相對數(shù),即表示一個數(shù)是另一個數(shù)的百分之幾,也稱為百分率或百分數(shù)。只有明確基數(shù)的百分比才具有意義,如果不知道具體的基數(shù)是多少,百分比數(shù)據(jù)就缺乏了可參照的基礎(chǔ)。
百分點一個很容易與百分比混淆的概念,它指不同時期以百分數(shù)的形式表示的相對指標(biāo)的變化幅度,1個百分點=1%。
百分比變化用新數(shù)值減去舊數(shù)值,所得的差再除以舊數(shù)值,就得到了百分比變化。百分比變化能夠讓讀者清楚地了解到數(shù)值隨著時間的發(fā)展產(chǎn)生了怎樣的變化趨勢。環(huán)比和同比是兩個常見的不同的描述百分比變化的術(shù)語。數(shù)據(jù)分析(一)統(tǒng)計描述在數(shù)據(jù)新聞中的應(yīng)用正態(tài)分布是變量概率分布的一種形態(tài),在平均值中央點的概率最高,兩側(cè)的概率逐漸降低,其曲線圖形類似鐘形。正態(tài)分布又稱常態(tài)分布,這是我們身邊很多現(xiàn)象的正常狀態(tài)。例如人們身高、體重、智力水平的分布,都呈現(xiàn)出正態(tài)分布的趨勢。
正態(tài)分布可以用來檢驗數(shù)據(jù)是否合理。如果依照常識,某組數(shù)據(jù)理應(yīng)出現(xiàn)正態(tài)分布,但實際數(shù)據(jù)卻并不吻合,這時就需要數(shù)據(jù)記者、編輯對數(shù)據(jù)展開核查,首先核查是否在數(shù)據(jù)整理分析的過程中出現(xiàn)了差錯,如確認無誤,則需要調(diào)查是何原因?qū)е逻@組數(shù)據(jù)出現(xiàn)了異常情況,或許這些異常背后就蘊含著新聞。
數(shù)據(jù)分析案例:從正態(tài)分布圖中發(fā)現(xiàn)網(wǎng)戀的身高謊言克里斯蒂·魯?shù)拢–hristianRudder)的作品《有關(guān)網(wǎng)戀的大謊言》(TheBigLiesPeopleTellinOnlineDating)
數(shù)據(jù)分析案例:從正態(tài)分布圖中發(fā)現(xiàn)網(wǎng)戀的身高謊言數(shù)據(jù)分析2.集中趨勢(Centraltendency)也被稱為集中值,指用某一個典型的變量值或特征值來代表變量的全貌。與集中趨勢相關(guān)的統(tǒng)計概念包括以下三個:均值(mean,即平均數(shù)):是最常用到的統(tǒng)計量,表示某變量的所有變量值的集中趨勢或平均水平,它適用于分析定距變量。中位值(median):如果一組數(shù)據(jù)中恰好使累積概率取1/2的變量值,即將一組數(shù)據(jù)按大小排列,取最中間的那個數(shù)值,這就是中位值或中位數(shù)。
眾值(mode):指在一組數(shù)據(jù)中出現(xiàn)頻次最高的數(shù)值。眾值適用于分析定類、定序和定距變量。
(一)統(tǒng)計描述在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析3.離散趨勢(Dispersiontendency)
離散趨勢是指一組數(shù)據(jù)背離分布集中值的特征,反映了各變量值遠離其集中值的程度。離散趨勢可以通過異眾比率(非眾數(shù)組的頻數(shù)占總頻數(shù)的比率)、極差(觀察的最大值與觀察的最小值的差數(shù))、四分互差(用75%位點數(shù)據(jù)和25%位點數(shù)據(jù)相減而得的差數(shù))、方差與標(biāo)準差來測量。方差(variance)是各個數(shù)據(jù)與平均值之差的平方和的平均值,表示一系列數(shù)據(jù)或統(tǒng)計總體的分布特征的值。標(biāo)準差(standarddeviation)也稱均方差,是各數(shù)據(jù)偏離平均值的距離的平均值,它是方差的算術(shù)平方根。
(一)統(tǒng)計描述在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析案例數(shù)據(jù)分析統(tǒng)計推論是指根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)據(jù)特征的統(tǒng)計分析方法。統(tǒng)計推論大體可分為兩部分:一是通過樣本對總體的未知參數(shù)進行估計,簡稱參數(shù)估計(parameterestimation);二是通過樣本對總體的某種假設(shè)(例如參數(shù)或分布情況)進行檢驗,簡稱假設(shè)檢驗(hypothesistest)
(二)統(tǒng)計推論在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析1.參數(shù)估計
參數(shù)估計可以細分為點估計和區(qū)間估計,其中點估計是用樣本計算出來的一個數(shù)來估計未知參數(shù),而區(qū)間估計則是通過樣本計算出一個范圍來對參數(shù)進行估計。一般的,點估計的精度較難判斷,而區(qū)間估計則既要給出一定的參數(shù)區(qū)間,還要求給出所給區(qū)間未知參數(shù)的概率。
置信度也被稱為置信概率、置信系數(shù),指以測量為中心,在一定范圍內(nèi),真值出現(xiàn)在該范圍內(nèi)的幾率。置信度表示用置信區(qū)間估計的可靠性,一般置信度是根據(jù)實際情況預(yù)先被設(shè)定的,常給定為0.95。置信區(qū)間指在某一置信度下,以測量值為中心,真值出現(xiàn)的范圍,即一定概率下真值出現(xiàn)的取值范圍,這里的概率就是置信度。
與置信度相關(guān),顯著性水平表示的是用置信區(qū)間估計不可靠的概率。置信度和顯著性水平之和為1,因而假設(shè)給定的置信度為0.95,那么就意味著顯著性水平為0.05。(二)統(tǒng)計推論在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析2.假設(shè)檢驗統(tǒng)計學(xué)意義上的假設(shè)檢驗是指“經(jīng)過抽樣獲得一組數(shù)據(jù),即一個來自總體的(隨機)樣本,如果根據(jù)樣本計算的某個統(tǒng)計量(或幾個統(tǒng)計量)表明在原假設(shè)H0成立的條件下幾乎是不可能發(fā)生的,就拒絕或否定這個原假設(shè),并繼而接受它的對立面——備擇假設(shè)。反之,如果在原假設(shè)H0成立的條件下,根據(jù)樣本所計算的某個統(tǒng)計量發(fā)生的可能性不是很小的話,那么就接受原假設(shè)?!?/p>
這里H0也被稱為“零假設(shè)”,而顯著性水平α是在零假設(shè)成立條件下,統(tǒng)計檢驗中所規(guī)定的小概率的標(biāo)準,即規(guī)定小概率的數(shù)量界線,常用的標(biāo)準為α=0.10、α=0.05或α=0.01。p值是根據(jù)樣本計算得出的概率,如果p值小于α,說明零假設(shè)被拒絕,繼而接受備擇假設(shè);反之則原假設(shè)成立。(二)統(tǒng)計推論在數(shù)據(jù)新聞中的應(yīng)用數(shù)據(jù)分析案例數(shù)據(jù)分析數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代,指“通過仔細分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、趨勢和模式的過程”。它是一種將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的技術(shù),是在大型數(shù)據(jù)存儲庫中自動地發(fā)現(xiàn)信息的過程。
(王光宏,蔣平.數(shù)據(jù)挖掘綜述.同濟大學(xué)學(xué)報.2004(2).)數(shù)據(jù)挖掘吸納了多個學(xué)科的給養(yǎng),不僅利用了來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗等思維與工具,還包括了人工智能、模式識別和機器學(xué)習(xí)的摸索算法、建模技術(shù)和學(xué)習(xí)理論,并借助于數(shù)據(jù)庫技術(shù)、并行計算、分布式計算等領(lǐng)域的最新成果發(fā)展而成。(
TanP-N,SteinbachM,KumarV.數(shù)據(jù)挖掘?qū)д?完整版).范明,范宏建(譯).北京:人民郵電出版社.2010:2-6.
)
二、數(shù)據(jù)新聞中的數(shù)據(jù)挖掘
數(shù)據(jù)分析二、數(shù)據(jù)新聞中的數(shù)據(jù)挖掘
1234預(yù)測建模predictivemodeling以說明變量函數(shù)的方式為目標(biāo)變量建立模型。預(yù)測建模任務(wù)包含分類和回歸兩種,分類用于預(yù)測離散的目標(biāo)變量,回歸則用于預(yù)測連續(xù)的目標(biāo)變量。關(guān)聯(lián)分析associationanalysis用于發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式。聚類分析clusteranalysis旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。異常檢測anomalydetection識別其特征顯著不同于其他數(shù)據(jù)的觀測值,這樣的觀測值成為異常點或離群點。TanP-N,SteinbachM,KumarV.數(shù)據(jù)挖掘?qū)д?完整版).范明,范宏建(譯).北京:人民郵電出版社.2010:2-6.
數(shù)據(jù)分析案例:《穆魯羅瓦檔案》
2021年9月,美國普林斯頓大學(xué)、英國和挪威的建筑師團體Interprt以及法國調(diào)查媒體Disclose共同開展了兩年之久的調(diào)查項目《穆魯羅瓦檔案》發(fā)布,該項目在數(shù)千份解密軍事文件、數(shù)百小時的計算和數(shù)十份未發(fā)表的證詞的幫助下,揭示了1966年至1974年間法國在波利尼西亞群島上空的數(shù)次核爆炸實驗對當(dāng)?shù)仄矫駧淼暮宋廴颈裙俜焦嫉臄?shù)據(jù)要嚴重得多的事實。項目中的最具挑戰(zhàn)性的部分是團隊開發(fā)了一種技術(shù)模型,利用普林斯頓大學(xué)的計算機在實驗室中虛擬重現(xiàn)了法國的核試驗。完成計算后,設(shè)計師和建筑師對法屬波利尼西亞群島上的放射性云及其沉降物的軌跡進行3D建模,并模擬了村莊受到的輻射影響以及食物和居民受到污染的精確程度。
數(shù)據(jù)分析案例:《53027條留言背后,網(wǎng)絡(luò)樹洞里絕望者的自救與互助》》國內(nèi)數(shù)據(jù)挖掘方法最為集中的應(yīng)用在文本挖掘領(lǐng)域。文本挖掘可以是對單文檔的數(shù)據(jù)挖掘,也可以是對文檔集的數(shù)據(jù)挖掘。文本挖掘需要先采用分詞、特征表示和特征提取等技術(shù)對數(shù)據(jù)做預(yù)處理,然后才可展開挖掘分析,常見的文本挖掘分析技術(shù)有文本結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、文本關(guān)聯(lián)分析、分布分析和趨勢預(yù)測等。
2019年9月,澎湃新聞發(fā)表的作品對因抑郁而自殺的女大學(xué)生“走飯”的3276條微博文本展開了情感分析,并對這些微博后的53027條留言文本做了主題分析和社會網(wǎng)絡(luò)分析。
對“走飯”的所有微博(包括小號)進行文本的情感分析后生成的“情感樂章”
數(shù)據(jù)分析0102分組分析指根據(jù)數(shù)據(jù)分析對象的特征,按照一定的標(biāo)準(指標(biāo)),把數(shù)據(jù)分析對象劃分為不同的部分和類型來進行研究,以揭示其內(nèi)在的聯(lián)系和規(guī)律性。
030405結(jié)構(gòu)分析指總體內(nèi)的各部分與總體之間進行對比的分析方法,即總體內(nèi)各部分占總體的比例,屬于相對指標(biāo)。
平均分析指運用計算平均數(shù)的方法來反映總體在一定時間、地點條件下某一數(shù)量特征的一般水平。綜合評價分析是一種多變量評價分析,運用多個指標(biāo)對多個參評單位進行評價的方法。
06對比分析是指將兩個或兩個以上的數(shù)據(jù)進行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物的發(fā)展性狀和變化規(guī)律。
三、實用的數(shù)據(jù)分析思路
相關(guān)分析即通過相關(guān)表或相關(guān)圖等方式來判斷兩個變量是否存在不確定的統(tǒng)計關(guān)系的數(shù)據(jù)分析方法。
數(shù)據(jù)分析0102缺乏代表性的均值
030405僅供參考的趨勢
缺乏可比性的對比
將相關(guān)關(guān)系等同因果關(guān)系
06忽略基數(shù)的百分比
四、警惕“數(shù)據(jù)陷阱”
將抽樣樣本直接等同于全樣本
數(shù)據(jù)清理和分析中的倫理問題03數(shù)據(jù)清理和分析中的倫理問題記者需要時刻警惕,對數(shù)據(jù)錯誤的處理和倫理問題可能會損害數(shù)據(jù)新聞的準確和嚴謹。在操作數(shù)據(jù)新聞的過程中,倫理問題遍布各個環(huán)節(jié):數(shù)據(jù)采集中需注意不能片面選擇數(shù)據(jù)源,注重多源交叉核實和驗證;文案寫作環(huán)節(jié)需注意交代數(shù)據(jù)的背景信息,描述數(shù)據(jù)時不能故意歪曲,需闡明數(shù)據(jù)的局限;數(shù)據(jù)可視化環(huán)節(jié)中需注意視覺設(shè)計如何準確地展現(xiàn)數(shù)據(jù),而不能用視覺規(guī)律誤導(dǎo)受眾等。一般的新聞報道倫理也適用于數(shù)據(jù)新聞領(lǐng)域,同時,數(shù)據(jù)新聞因其涉及數(shù)據(jù)和可視化,其倫理規(guī)范上還存在一定的特殊性。
數(shù)據(jù)清理和分析中的倫理問題2012年,美國康涅狄格州的一所小學(xué)發(fā)生了校園槍擊案,紐約懷特普萊恩斯的《期刊新聞》(JournalNews)的一位記者撰寫了一篇關(guān)于槍擊事件可能擴大化的報道,公開可獲取槍支許可證的數(shù)據(jù),并附有三張帶有槍支許可證持有者位置的在線地圖,這些地圖上還公布了一些郊縣槍支許可證持有者的姓名與地址。此舉引發(fā)了當(dāng)?shù)毓姷目棺h,同時也使該國記者在社群中展開廣泛討論。有研究發(fā)現(xiàn),記者社群關(guān)于該事件的討論主要圍繞新聞倫理展開,涉及“自由與責(zé)任”“新聞目的”“隱私”“驗證”“后果”“替代方案”等主題框架。該研究對數(shù)據(jù)新聞從業(yè)者提出了如下的建議:一、隱私數(shù)據(jù)處理數(shù)據(jù)清理和分析中的倫理問題1.每當(dāng)數(shù)據(jù)包含個人信息時,新聞編輯室必須討論是否將其發(fā)布到網(wǎng)上。2.新聞編輯室需要考慮的問題包括:第一,該信息是否服務(wù)于新聞和公共目的?到什么程度?數(shù)據(jù)必須至少滿足這兩個目的才能發(fā)布到網(wǎng)上。第二,這些信息可能會傷害誰?到什么程度?數(shù)據(jù)元素是否會給個人的私生活帶來風(fēng)險?可能錯誤或過時的數(shù)據(jù)會產(chǎn)生什么潛在影響?第三,是否有其他方案可以最大限度地減少傷害,例如匯總個人數(shù)據(jù)而不是使用個人姓名和地址?第四,數(shù)據(jù)可以驗證嗎?是否采取了合理的步驟來驗證數(shù)據(jù)的準確性?在發(fā)布之前可以通知數(shù)據(jù)庫中涉及的人員嗎?可以采取哪些措施來糾正發(fā)布后發(fā)現(xiàn)的數(shù)據(jù)錯誤?3.最終決定應(yīng)考慮所有這些因素,以新聞目的和盡量減少傷害為最高優(yōu)先級。
CraigD,KettererS,YousufM.ToPostorNottoPost:OnlineDiscussionofGunPermitMappingandtheDevelopmentofEthicalStandardsinDataJournalism.Journalism&MassCommunicationQuarterly.2017,94(1),168-188.DOI:10.1177/1077699016684796.
數(shù)據(jù)清理和分析中的倫理問題在一項針對前述全球數(shù)據(jù)新聞獎和SIGMA數(shù)據(jù)新聞獎的獲獎項目的研究中,研究者發(fā)現(xiàn):關(guān)于隱私數(shù)據(jù)處理是他們調(diào)查的三個倫理問題中表現(xiàn)最不完善的,盡管大多數(shù)項目都采用例如隱藏元數(shù)據(jù)和使用虛構(gòu)來源名稱等方法來保護其數(shù)據(jù)來源和故事中出現(xiàn)的個人來源,但是幾乎沒有一個項目解釋了它們是出于何種原因而排除姓名、地址和其他相關(guān)信息等個人數(shù)據(jù),所有研究的項目都沒有提及知情同意,后者被視為保護新聞報道中出現(xiàn)的個人隱私的一項基本權(quán)利。
Chaparro-DomínguezM-á,Díaz-CampoJ.DataJournalismandEthics:BestPracticesintheWinningProjects(DJA,OJAandSigmaAwards),JournalismPractice,2023,17(6),1321-1339,DOI:10.1080/17512786.2021.1981773.
數(shù)據(jù)清理和分析中的倫理問題“我們采集不到跟個人隱私相關(guān)的數(shù)據(jù),可能最近也就是信令數(shù)據(jù)了,但是信令數(shù)據(jù)本來就是脫敏的,已經(jīng)過濾掉任何跟個人隱私相關(guān)的東西了,都是去ID化的處理。你能分析到的是這個用戶有什么行為,他的年齡、他用的手機,但不能知道他是誰。我們有的時候也想聯(lián)系到個人,由信令出發(fā),其實想找到屬于這一個批次數(shù)據(jù)的真實個人,然后有利于講故事,但根本就拿不到?!?中央廣播電視總臺新聞中心經(jīng)濟新聞部記者劉佳昕
)“如果和互聯(lián)網(wǎng)平臺合作挖掘數(shù)據(jù),給我們提供的數(shù)據(jù)都是脫敏的、沒有個人的信息。如果是我們在網(wǎng)上公開平臺采集的話,其實也很少涉及到個體的行為的情況?!?南都大數(shù)據(jù)研究院秘書長凌慧珊
)
數(shù)據(jù)清理和分析中的倫理問題“在設(shè)計問卷的時候就會注意不問敏感的隱私數(shù)據(jù),如果是爬數(shù)據(jù)的話,平臺都會對用戶數(shù)據(jù)做保護,也不太能爬到別人的隱私數(shù)據(jù),只能爬到用戶發(fā)了什么帖子、帖子內(nèi)容是什么。如果是明顯地引用用戶的留言和圖片,一般編輯或作者會去找他們要授權(quán),得到許可后再使用?!?/p>
(網(wǎng)易數(shù)讀主編巫雨松)“在爬取數(shù)據(jù)的時候,或者錄入數(shù)據(jù)的時候,以及在找其他組織要數(shù)據(jù)的時候,我們會有意識地隱去一些和個體比較密切、能鎖定到個體的信息,其他組織也會因為數(shù)據(jù)隱私問題考慮不給我們這些數(shù)據(jù),或者給我們一個脫敏后的版本。感覺現(xiàn)在對數(shù)據(jù)隱私的規(guī)范確實比幾年前更敏感。”(財新傳媒的數(shù)據(jù)記者張梅婷)
數(shù)據(jù)清理和分析中的倫理問題一、隱私數(shù)據(jù)處理“數(shù)據(jù)脫敏”主要是指數(shù)據(jù)去隱私化,即運用一定的脫敏規(guī)則使某些敏感信息數(shù)據(jù)變形,從而保護報道對象的隱私。
案例:澎湃新聞“美數(shù)課”欄目發(fā)布的《我們?nèi)チ讼嘤H角6次,收集了這874份征婚啟事》《轉(zhuǎn)角遇到愛》系列報道在數(shù)據(jù)結(jié)構(gòu)化的過程中排除了收集數(shù)據(jù)中指向過于精細的“聯(lián)系方式”“家庭住址”等個人隱私數(shù)據(jù);對結(jié)構(gòu)化的數(shù)據(jù)中具有個人隱私的數(shù)據(jù)做相應(yīng)的模糊化處理。
數(shù)據(jù)清理和分析中的倫理問題在數(shù)據(jù)工作中,創(chuàng)建并遵循一個數(shù)據(jù)保護計劃,該項計劃旨在降低泄漏數(shù)據(jù)的概率,并且在數(shù)據(jù)泄漏發(fā)生后能夠降低傷害。英國數(shù)據(jù)服務(wù)中心(UKDataService)歸納的數(shù)據(jù)保護計劃必備的五項要素(也被稱為“5個安全”):項目安全:對涉及道德倫理的項目數(shù)據(jù)采取限制措施對象安全:訪問僅限于可信任的數(shù)據(jù)人員(例如,經(jīng)過道德培訓(xùn)的人)數(shù)據(jù)安全:盡可能將數(shù)據(jù)標(biāo)識并匯總設(shè)置安全:對儲存于計算機中的數(shù)據(jù)采取適當(dāng)?shù)奈锢恚ɡ?,鎖閉的房間)和軟件(例如,密碼保護、加密)保護成果安全:審查研究成果以防止意外隱私泄漏
[美]馬修·薩爾加尼克.計算社會學(xué):數(shù)據(jù)時代的社會研究.趙紅梅,趙婷譯.中信出版集團.2019:280-289.
數(shù)據(jù)清理和分析中的倫理問題二、透明性透明性一直被視為新聞業(yè)的重要職業(yè)準則。2001年,比爾·科瓦齊和湯姆·羅森斯蒂爾在《新聞的十大基本原則》中較早系統(tǒng)性地提出“透明性原則”(ruleoftransparency)?!巴该鳌币馕吨浾吆途庉嬓柙谛侣剤蟮乐凶龀霰匾恼f明,解釋新聞是如何獲得的,為什么要用特定的方式處理和表達,以及坦誠報道中尚未解決的問題和局限。他們認為這一原則能夠替代飽受爭議的客觀性原則。(比爾·科瓦奇,湯姆·羅森斯蒂爾.新聞的十大基本原則.劉海龍,連曉東,譯.北京:中國人民大學(xué)出版社,2011.)邁克爾·卡爾森(MichaelKarlsson)對透明性原則做了分類,將之區(qū)分為“公開的透明性”和“參與的透明性”。公開的透明性指新聞選擇和制作方式的公開,而參與的透明性則涉及受眾參與新聞選擇和制作的程度。(KarlssonM.RitualsofTransparency:EvaluatingOnlineNewsOutlets’UsesofTransparencyRitualsintheUnitedStates,UnitedKingdomandSweden.JournalismStudies.2010,11
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 付國外傭金合同范本
- 化妝品廣告合同范本
- 豐田汽車合同范本
- 光伏運營合作合同范本
- 農(nóng)戶辣椒種植合同范本
- 優(yōu)惠倉庫租賃服務(wù)合同范本
- 冷凍海鮮銷售合同范本
- 農(nóng)村購買墳地合同范本
- 中石油員工業(yè)績合同范本
- 會務(wù)定金合同范本
- 央企最新版員工手冊vvv
- 2019安徽中考語文真題含答案
- 新生兒科出科考試試卷試題
- 信息化教學(xué)設(shè)計教案大學(xué)語文
- FSC-COC培訓(xùn)學(xué)習(xí)
- 植物的營養(yǎng)器官:根、莖、葉匯總
- 會議、匯報材料排版格式
- 華為公司產(chǎn)品線獎金分配暫行辦法
- 兒童能力評估量表(PEDI拍迪)
- 道岔及交叉渡線施工方案
- 第三套廣播體操《七彩陽光》分解動作講解(共4頁)
評論
0/150
提交評論