亚洲qingse中文在线,99久久这里只有精品不卡

企業(yè)如何實現(xiàn)對工業(yè)大數(shù)據(jù)的預處理？

2018-12-11 10:59

數(shù)據(jù)分析，包括大數(shù)據(jù)分析，在企業(yè)的業(yè)務(wù)中，特別是在傳統(tǒng)的商務(wù)行業(yè)，已有多年的應用實踐，在消費者市場的營銷中已成了必不可缺的技術(shù)。隨著工業(yè)互聯(lián)網(wǎng)和智能制造的興起和發(fā)展，工業(yè)大數(shù)據(jù)技術(shù)也越來越受到各方關(guān)注。在“中國制造2025”的技術(shù)路線圖中，工業(yè)大數(shù)據(jù)是作為重要突破點來規(guī)劃的，而在未來的十年，以數(shù)據(jù)為核心構(gòu)建的智能化體系會成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動力。

對制造企業(yè)而言，不論是新實施的系統(tǒng)還是老舊系統(tǒng)，要實施大數(shù)據(jù)分析平臺，就需要先弄明白自己到底需要采集哪些數(shù)據(jù)。因為考慮到數(shù)據(jù)的采集難度和成本，大數(shù)據(jù)分析平臺并不是對企業(yè)所有的數(shù)據(jù)都進行采集，而是相關(guān)的、有直接或者間接聯(lián)系的數(shù)據(jù)，企業(yè)要知道哪些數(shù)據(jù)是對于戰(zhàn)略性的決策或者一些細節(jié)決策有幫助的，分析出來的數(shù)據(jù)結(jié)果是有價值的。

比如企業(yè)只是想了解產(chǎn)線設(shè)備的運行狀態(tài)，這時候就只需要對影響產(chǎn)線設(shè)備性能的關(guān)鍵參數(shù)進行采集。

再比如，在產(chǎn)品售后服務(wù)環(huán)節(jié)，企業(yè)需要了解產(chǎn)品使用狀態(tài)、購買群體等信息，這些數(shù)據(jù)對支撐新產(chǎn)品的研發(fā)和市場的預測都有著非常重要的價值。

因此，建議企業(yè)在進行大數(shù)據(jù)分析規(guī)劃的時候針對一個項目的目標進行精確的分析，比較容易滿足業(yè)務(wù)的目標。明確目標以后，就要著手開始搜集數(shù)據(jù)并進行預處理了。本期格物匯將跟大家介紹，企業(yè)如何實現(xiàn)對工業(yè)大數(shù)據(jù)的預處理。

數(shù)據(jù)采集

首先我們看看數(shù)據(jù)是如何獲取的，在現(xiàn)實生活中，我們所面對的問題，往往都是抽象復雜的。我們來看如下兩個例子：

如何提升產(chǎn)品的良率？

可能這是制造業(yè)最為普遍的一個問題，如果我們要分析解決這個問題，常常就會問到：什么產(chǎn)品？有多少條產(chǎn)線在生成？經(jīng)過了哪些機臺？影響產(chǎn)品良率的因素有哪些？我們可能會提出很多很多這樣的問題，解決這些問題需要對相關(guān)業(yè)務(wù)知識非常了解，盡可能多的找出與問題有關(guān)的數(shù)據(jù)。

如何進行人臉識別？

這問題更加復雜一些，雖然我們每個人的大腦每天都在做人臉識別，但是大腦如何工作的卻異常難懂。我們可能需要做很多科研工作，去挖掘到底哪些數(shù)據(jù)會影響到人臉識別的正確率。如果這些數(shù)據(jù)本身沒有，很可能還需要進行測量采集，比如兩眼之間的距離，嘴的寬度和長度等等。當然，我們還會評估采集的成本，并對這些數(shù)據(jù)有效性進行評估，驗證我們的成本是否值得去花費精力測量。

數(shù)據(jù)預處理簡介

數(shù)據(jù)采集以后，數(shù)據(jù)往往存放在數(shù)據(jù)庫或文件系統(tǒng)中，我們需要把他們導入到算法模型中進行訓練，得到我們想要的模型。但是我們的數(shù)據(jù)往往雜亂無章，總的來說，數(shù)據(jù)一般存在如下幾類問題：

數(shù)據(jù)類型多種多樣

我們的數(shù)據(jù)中常常出現(xiàn)字符型，時間型，數(shù)字型等多種數(shù)據(jù)類型。其中：字符型是無法代入模型計算的，所以我們根據(jù)需要，可以對字符型數(shù)據(jù)進行編碼轉(zhuǎn)換。常用的編碼方法有：

數(shù)字編碼：對于有大小比較的字符型數(shù)據(jù)，可以直接轉(zhuǎn)換成數(shù)字編碼。比如：

Onehot編碼：對于沒有大小比較的字符型數(shù)據(jù)，可以使用Onehot獨熱編碼。比如：

時間類型往往是一類特殊的數(shù)據(jù)，把時間簡單看成一個實數(shù)的話，往往不符合邏輯。對于帶時間的數(shù)據(jù)，我們通常使用時間序列的分析方法進行分析。有時候我們更加關(guān)注的是兩列時間的差值，這時我們可以構(gòu)建時間差值列作為新的變量加入模型之中。

數(shù)字型往往是導入模型進行訓練的主要部分，數(shù)字型又可以細分為離散型和連續(xù)型，因為離散與連續(xù)的數(shù)據(jù)分布顯著不同，我們可以對其進行分開處理。數(shù)字型之間各個列常存在量綱差異，有的數(shù)據(jù)可能很大，有的數(shù)據(jù)可能很小，我們需要去除數(shù)據(jù)量綱，防止模型對數(shù)據(jù)較大的列進行偏倚（數(shù)據(jù)值較大時通常方差也較大）。常用的數(shù)據(jù)去量綱的方法有最大最小值歸一化法，均值標準差標準化法等等。

數(shù)據(jù)格式不對

我們期望數(shù)據(jù)格式是表結(jié)構(gòu)，矩陣格式，或者是張量格式。然而我們拿到的數(shù)據(jù)往往不是格式化的數(shù)據(jù)，比如機臺的日志數(shù)據(jù)，圖像數(shù)據(jù)，音頻視頻數(shù)據(jù)。我們需要對上述數(shù)據(jù)轉(zhuǎn)換，把數(shù)據(jù)格式轉(zhuǎn)換成我們想要的格式。

數(shù)據(jù)中存在異常

數(shù)據(jù)中還會出現(xiàn)缺失值，異常值等異常，這些情況也會強烈影響到模型的訓練，我們需要對空值進行補值。如何補值需要我們對數(shù)據(jù)非常了解，才能推斷出該用什么值來補值，才不會改變原有的數(shù)據(jù)分布。一般的補值方法有：0值補值，均值補值，中位數(shù)補值，按上一個數(shù)補值，移動平均補值，線性插值，相關(guān)列補值法等等，對于缺失值比例較大的列，可以采取直接刪除的方法。異常值則需要創(chuàng)建規(guī)則，對異常值進行識別，再用正常的值進行替換，故異常值也有類似于缺失值的替換方法。

本文作者：格創(chuàng)東智OT團隊