資料清洗二三事,工作筆記
前情提要
現在的目的要透過Log 向醫院提出建議與改善。
所以在整理Log的時候,不能再以單純的統計Log數量,而是要去找Log前後的時間差及彼此之間的關係性。(圖1)
| Log彼此之間的關係性(圖1) |
整理過程
這期間勢必會伴隨著資料重新整理在整理,這些資料不光是原本統計而已。(圖2)
| 原本統計(圖2) |
心得
這段期間不斷地重新整理資料、重新清洗,不再是一開始簡單的正規劃資料,反而要在更細的去分析 錯誤原因 那些時間重複log 只能算一筆。
在預處理資料的時候 要很小心,有的時候因為其他原因發生的併發原因,就只能找出 起始的原因,如果用工具統計 就無法找到併發原因了。
工具只是補助,一開始透過工具調查只是初步,下步就需要再透過 初步的調查結果 去找出併發原因 再重新找出 是否有其他的例外。
這2個禮拜 整理了 60份 每份都有10萬筆以上,真的看到頭昏眼花😵😵
最近和朋友聊天,得知她要整理1萬多筆的資料,找出不要重複的資料就行了。
她很苦惱不知該如何下手....
她:哀~資料好多...有1萬多筆
我:才1萬筆?
留言
張貼留言