自引進IC封裝開始,臺灣半導體產業(yè)已發(fā)展40余年,近年來總產值已近20,000億元新臺幣,在全世界占有一席之地。半導體產業(yè)競爭力來自於成本、良率及交貨時間,其中良率更是一家公司有競爭力之所在。近年來自動化生產及物聯網(技術發(fā)展,使得所有半導體制程相關的數據得以蒐集與保存,這些數據包含產品數據、機臺數據、量測數據、缺陷機數據、晶圓接受度測試數據及晶圓測試數據,如何有效的使用這些大數據數據一直是半導體產業(yè)重要的課題之一。除了提升產品良率之外,產品/制造流程缺陷追蹤、供應計畫、提升能源效率…等都可以利用大數據分析提升公司競爭力?!?/p>
處理這些數據主要可分成三個步驟:數據前處理、數據分析、驗證與評估。在數據前處理時必須先修正數據錯誤,常見的數據錯誤有以下兩種:
1.數據出現異常值。透過盒須圖可輕易的分析出異常值,通常發(fā)生的在設備工程師在調整機臺的時候或是由其他外在因素造成,因此這樣的值通常直接刪除。
2.數據出現遺漏值。因偵測設備的限制,有時數據會有不完整的情況,處理這樣的狀況可透過補值的方式(內插法、平均法等)回填可能的數據或直接刪除該筆數據。
因每種數據的性質與內容不同,為有效使用這些數據,將數據庫整合為必要的步驟。如何整合這些數據庫首先需考量實際問題需求,再來考量數據庫數據的型態(tài),例如機臺數據為連續(xù)型數據、缺陷機數據為離散型數據,因應不同的數據型態(tài)必須選擇不同的方式去做合并。
在數據分析處理上,常見的方式可分成以下幾種方式:
1.利用數據分群演算法,例如K-means演算法、階層式分群演算法將原始數據分群。
2.將分群好的數據透過決策樹找出造成問題發(fā)生的可能因子,或透過機器學習演算法,例如SVM建立模型,預測問題是否會發(fā)生,藉此實作出預警系統。
數據分析完之後必須評估結果是否符合現實以避免過適現象。在此步驟往往會發(fā)生分析結果和過往經驗不一致的情況,除了花許多時間與工程師溝通確認之外,還需找不同的數據集交互驗證,已確保數據分析方式是可行的。
在處理大量的數據時面臨到許多的挑戰(zhàn),例如:傳統的分析工具與方法通常適用在小規(guī)模的數據上,當數據量大且復雜時往往失去其效用、分析數據需耗費大量的計算時間,如何快速的處理大量數據是一項大的挑戰(zhàn)。近年來已有一些工具可解決以上的問題,例如:MLlib即可支援一些機器學習的套件在Spark平臺、RHadoop及SparkR套件可支援R的分析工具在Hadoop及Spark平臺上。除了在分析數據時面臨的挑戰(zhàn)之外,TATA Consultancy Services(TCS)顧問公司在2013年從其他面向提出在處理大數據數據時面臨的許多挑戰(zhàn),舉例來說:數據工程師需取得部門經理的高度信任、對於不同的商業(yè)決策需決定該使用哪些數據、利用大數據分析幫忙部門經理做決策…等,以上的問題待管理相關的人員來解決。
對於半導體產業(yè)來說,透過大數據數據分析歷史數據,挖掘其中有用的資訊以提升公司競爭力是非常有效的一種方式??萍疾颗c臺積電在2014年下半年即舉辦相關的比賽,希冀發(fā)掘半導體相關數據的各種有用資訊。相信往後會有越來越多人力與資源投入這領域,讓半導體產業(yè)邁入新的世代。
編輯點評:反觀安防產業(yè),如今安防大數據也開始普遍應用于公安刑偵、智能交通等領域,通過卡口數據統計分析、特定場合的人臉識別等技術實現安防數據的高效利用,并且在智能前端等應用也是近來技術探討的熱點。作為一項熱門的技術,大數據分析如何在安防整體解決方案中大放異彩,并成功應用于更廣闊的領域,是今后安防技術結合視頻監(jiān)控業(yè)務不斷拓寬邊界的制勝法寶。