資料清洗二三事,工作筆記

 前情提要

現在的目的要透過Log 向醫院提出建議與改善。

所以在整理Log的時候,不能再以單純的統計Log數量,而是要去找Log前後的時間差及彼此之間的關係性。(圖1)

Log彼此之間的關係性(圖1)


整理過程

這期間勢必會伴隨著資料重新整理在整理,這些資料不光是原本統計而已。(圖2)

原本統計(圖2)

心得

這段期間不斷地重新整理資料、重新清洗,不再是一開始簡單的正規劃資料,反而要在更細的去分析  錯誤原因  那些時間重複log 只能算一筆。

在預處理資料的時候 要很小心,有的時候因為其他原因發生的併發原因,就只能找出 起始的原因,如果用工具統計 就無法找到併發原因了。

工具只是補助,一開始透過工具調查只是初步,下步就需要再透過 初步的調查結果 去找出併發原因 再重新找出 是否有其他的例外。

這2個禮拜 整理了 60份 每份都有10萬筆以上,真的看到頭昏眼花😵😵


最近和朋友聊天,得知她要整理1萬多筆的資料,找出不要重複的資料就行了。

她很苦惱不知該如何下手....

她:哀~資料好多...有1萬多筆

我:才1萬筆?


留言