人工智能基礎(chǔ) 課件 8.2 利用AI清洗數(shù)據(jù)_第1頁
人工智能基礎(chǔ) 課件 8.2 利用AI清洗數(shù)據(jù)_第2頁
人工智能基礎(chǔ) 課件 8.2 利用AI清洗數(shù)據(jù)_第3頁
人工智能基礎(chǔ) 課件 8.2 利用AI清洗數(shù)據(jù)_第4頁
人工智能基礎(chǔ) 課件 8.2 利用AI清洗數(shù)據(jù)_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第8章大模型操作表格任務(wù)1:借助AI獲取外部數(shù)據(jù)任務(wù)2:利用AI清洗數(shù)據(jù)任務(wù)3:AI助力WPS表格函數(shù)運用從網(wǎng)絡(luò)上獲取數(shù)據(jù)從文件中提取數(shù)據(jù)WPS表格格式設(shè)置處理缺失值去除重復(fù)值處理錯誤格式數(shù)據(jù)排序、篩選公式與函數(shù)AI助力函數(shù)運用2任務(wù)2:利用AI清洗數(shù)據(jù)處理缺失值去除重復(fù)值處理錯誤格式數(shù)據(jù)排序、篩選利用AI清洗數(shù)據(jù)將外部數(shù)據(jù)導(dǎo)入表格后,通常需要對數(shù)據(jù)進行清洗,以確保數(shù)據(jù)的準(zhǔn)確性和一致性。數(shù)據(jù)清洗涉及多個方面,包括處理缺失值、去除重復(fù)值、調(diào)整數(shù)據(jù)格式等。通過清洗數(shù)據(jù),可以消除錯誤、填補缺失、修正不一致的數(shù)據(jù),從而確保數(shù)據(jù)集的質(zhì)量。處理缺失值缺失值是指導(dǎo)入的數(shù)據(jù)集中有空白單元格或者以特殊符號表示的缺失數(shù)據(jù)。在數(shù)據(jù)處理中,缺失值是一個常見的問題。缺失值可能會導(dǎo)致數(shù)據(jù)分析結(jié)果的偏差,因此需要進行妥善處理。處理缺失值了解缺失值產(chǎn)生的原因?qū)τ谶x擇合適的處理方法非常重要。缺失值可能是由于數(shù)據(jù)采集過程中的遺漏、數(shù)據(jù)損壞或其他原因?qū)е碌摹?分析缺失原因2處理缺失值的方法(1)刪除法如果缺失值的數(shù)量較少,且對數(shù)據(jù)分析的影響不大,可以考慮直接刪除包含缺失值的行或列。(2)填充法均值填充:對于數(shù)值型數(shù)據(jù),可以使用該列的均值來填充缺失值。中位數(shù)填充:對于存在異常值的數(shù)據(jù),中位數(shù)填充可能更合適。眾數(shù)填充:適用于分類數(shù)據(jù)。插值法:根據(jù)數(shù)據(jù)的分布情況,使用插值算法來估算缺失值。(3)模型預(yù)測法利用機器學(xué)習(xí)模型,根據(jù)其他相關(guān)變量來預(yù)測缺失值。在使用AI輔助處理缺失值時,可以借助相關(guān)的數(shù)據(jù)處理工具和算法,自動識別和處理缺失值,提高數(shù)據(jù)清洗的效率和準(zhǔn)確性。處理缺失值【例】某家庭記錄日常支出的表格中缺失部分?jǐn)?shù)據(jù),請選擇合適的方式處理缺失值。對于日常支出表來說,缺失的值要么是沒有花銷,要么是忘記了記錄花銷,且根據(jù)觀察每一項前后數(shù)值都不大,因此選擇將缺失的數(shù)據(jù)全部填充為0。輸入提示詞:將有缺失值的部分用數(shù)字0填充。處理缺失值【例】某氣象觀測站的觀測數(shù)據(jù)因為某些原因有所缺失(使用NaN表示),需要處理這些缺失值。氣候數(shù)據(jù)不能像前一個例子一樣簡單的填補為0,需要綜合溫度、濕度、降水量、風(fēng)速、氣壓進行估算。輸入提示詞:綜合考慮溫度、濕度、降水量、風(fēng)速、氣壓的關(guān)系,對缺失值數(shù)據(jù)進行填補填補的新數(shù)據(jù)小數(shù)點位數(shù)與同列其他值保持一致給我填充了缺失值后的新表格。去除重復(fù)值在處理表格數(shù)據(jù)時,經(jīng)常會遇到重復(fù)值的情況,即數(shù)據(jù)中存在重復(fù)的記錄或數(shù)值。重復(fù)值可能會干擾數(shù)據(jù)分析的準(zhǔn)確性,一般需要對重復(fù)值進行刪除。去除重復(fù)值【例】圖書館借閱記錄表中有部分借閱記錄重復(fù)了,借助AI快速去除重復(fù)數(shù)據(jù)。在當(dāng)前例子中很明顯的看到有3條借閱記錄是重復(fù)的,真實的借閱記錄數(shù)據(jù)量會非常大,人工不容易發(fā)現(xiàn)和剔除,使用AI工具則可以快速完成重復(fù)值的刪除。輸入提示詞:去除圖書館借閱記錄中的重復(fù)記錄并顯示去除重復(fù)后的新表。處理錯誤格式在數(shù)據(jù)表中,錯誤格式可能會導(dǎo)致數(shù)據(jù)分析和處理的不準(zhǔn)確。常見的錯誤包括日期格式不一致、數(shù)字格式錯誤、文本格式混亂等。例如,有的日期采用“2024/10/01”的格式,有的日期采用“2024年10月1日”的格式。例如有的數(shù)字被設(shè)為文本格式、或使用了不統(tǒng)一的小數(shù)點位數(shù)。例如,同一列中包含了多種不同的文本格式。傳統(tǒng)的手動調(diào)整不僅費時,而且容易出錯、有遺漏,利用AI可以更高效地處理這些錯誤格式。處理錯誤格式【例】某社交媒體的用戶數(shù)據(jù)中存在多處數(shù)據(jù)格式多樣且不一致的情況,需要將各列數(shù)據(jù)調(diào)整統(tǒng)一??梢钥闯霭l(fā)布時間的日期格式不統(tǒng)一,點贊數(shù)、評論數(shù)、分享數(shù)的數(shù)字格式也不統(tǒng)一,地理位置也用了多種表達方式。借助AI工具,將其快速更正。處理錯誤格式輸入提示詞:處理該表中錯誤數(shù)據(jù)格式,將每一列的格式調(diào)整統(tǒng)一,遵循以下格式要求:發(fā)布時間:年-月-日小時:分鐘,例如2024-01-0112:30點贊數(shù)、評論數(shù)、分享數(shù):使用整數(shù),例如100地理位置:顯示城市名,例如北京處理完錯誤數(shù)據(jù)格式后,顯示新表數(shù)據(jù)排序、篩選WPS表格的排序功能,可以對單元格進行升序、降序和自定義排序。1排序【例】將圖書信息表,按照出版日期降序排列。數(shù)據(jù)排序、篩選【例】將圖書信息表,按照出版日期降序排列。選中E列,單擊在“數(shù)據(jù)”菜單欄下的“排序”圖標(biāo),可以對單元格進行降序。彈出的對話框中,“擴展選定區(qū)域”表示與其同行的單元格也隨之移動?!耙援?dāng)前選定區(qū)域排序”指的是僅僅對E列進行降序排列,其他的單元格不移動。數(shù)據(jù)排序、篩選WPS表格的篩選功能,可以快速篩選出符合條件的單元格。2篩選【例】對上例中的圖書信息表進行篩選,篩選出歷史類的圖書。選中表格第一行任意單元格,單擊“數(shù)據(jù)”菜單欄中的“篩選”旁的下拉箭頭,選擇“篩選”。數(shù)據(jù)排序、篩選WPS表格的篩選功能,可以快速篩選出符合條件的單元格。2篩選【例】對上例中的圖書信息表進行篩選,篩選出歷史類的圖書。在表格的第一行的每個標(biāo)題右下角都出現(xiàn)了篩選圖標(biāo)(綠色小箭頭)。選中“類別”右下角的下拉圖標(biāo),在展開的面板中選擇“歷史”。篩選出“歷史”類圖書任務(wù)實施任務(wù)目的:使用AI大模型清洗數(shù)據(jù)并通過WPS表格對數(shù)據(jù)進行排序和篩選。任務(wù)描述:某電商平臺的數(shù)據(jù)保存在3張表中,分別為用戶表、商品表和訂單表。其中訂單表中存在缺失值、重復(fù)值、錯誤格式等情況,選擇一款大模型工具對錯誤數(shù)據(jù)進行處理。針對清洗后的數(shù)據(jù),使用WPS表格設(shè)置排序和篩選。任務(wù)實施步驟1:觀察當(dāng)前數(shù)據(jù)表根據(jù)觀察,訂單表中部分聯(lián)系電話、單價、總價存在缺失值,下單日期格式不統(tǒng)一,O008號訂單出現(xiàn)了重復(fù)值。訂單表商品表用戶表任務(wù)實施步驟2:數(shù)據(jù)清洗(1)針對缺失值:用戶的聯(lián)系電話,可以在用戶表中找到對應(yīng)的值;商品的單價,可以在商品表中找到對應(yīng)的值;總價等于單價乘以購買數(shù)量;(2)針對錯誤格式:將下單日期統(tǒng)一設(shè)置成年/月/日的格式;(3)針對重復(fù)值:刪除重復(fù)訂單;按照以上處理方式,使用AI大模型完成數(shù)據(jù)清理。任務(wù)實施步驟3:在WPS表格中更新數(shù)據(jù)將數(shù)據(jù)復(fù)制到WPS表格的訂單表中并保存。任務(wù)實施步驟4:設(shè)置表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論