2025년 1월 28일 화요일

표준편차(Standard Deviation) or 시그마(Sigma) 란? 그리고 표준편차 구하는 법, Sigma로 데이터 분석 및 관리 하는 법

*목차*
1. 표준편차(Standard Deviation) or 시그마(Sigma) 의미
2. 표준편차 구하는 법( + 분산 )
3. 표준편차 계산 공식
4. 표준편차로 공정 데이터 Monitoring ( 1~6 sigma ) 






 반도체 분야에서 공정 엔지니어로 일을 하다 보면 데이터 분석은 필수인 것 같아요.....
때문에 여러가지 분석 방법에 대해서 알 필요가 있더라고요...
방대한 양의 데이터를 분석 하다보면 "표준편차" 또는 "시그마"라는 용어를 자주 접하게 되는데요. 
 학생 때 통계 공부 좀 잘 할걸 그랬어요;;;;

그래서 이번 포스팅에서는 "표준편차" 또는 "시그마"가 무엇인지, 그리고 어떻게 구하는지 알아보았어요.



1. 표준편차(Standard Deviation) or 시그마(Sigma) 의미


-. 우선 이름의 사전적인 정의를 알아봤어요.
 
"표준(Standard)"은 "사물의 정도, 성격을 알기 위한 근거나 기준" 또는 "일반적인 것, 평균적인 것"을 말해요.

 그리고 "편차(Deviation)"는 수학적인 의미에서 "수치, 위치, 방향 등이 일정 기준에서 벗어난 정도나 크기"를 말해요. 
 A, B, C라는 Value(값)들이 있다고 할 때, A, B, C 값들의 평균(Average, Mean)이 있을 거에요.
그러면 각 Value의 편차는 평균(Average)를 뺀 값이 돼요. [편차 = Value - 평균]


 그러면 "표준편차(Standard Deviation)"은 무슨 의미일까요?
"통계집단의 분산의 정도 또는 자료의 산포도를 나타내는 수치" 
쉽게 말하면 "표준(평균)에서부터 흩어진 정도"를 뜻해요.

 다량의 데이터 값이 있을 때, 데이터 값들의 "평균(Average)" 값 만으로는 데이터들이 평균 값에 근접하게 밀집이 되어있는지 아니면 흩어져 있는지 알 수가 없어요;;;;;
 이때 "표준 편차"는 각 데이터 값들이 "평균" 값에서부터 얼마나 흩어져 있는지 확인하기 위해 사용해요.
 표준편차는 '평균에 대한 오차 정도'라고 보기도 하네요.

 표준편차는 어떤 반도체 공정의 결과 값을 관찰(Monitoring)할 때 관찰 값의 변동성을 나타내는 통계학적 척도로 사용해요. 
 공정 결과의 평균 값이 동일하게 나와도 각 데이터의 값 차이 커지면 표준편차가 커지겠죠.  공정이 항상 일정하게 나와야 되는데 표준편차가 커졌다는 건 공정 결과 값이 일정하지 않다는 거고 무언가 문제가 있다고 판단할 수 있어요.



"Sigma(시그마)"라는 용어는 수학 시간에 배운 것처럼
보통 "SUM(합)"을 의미하는 것으로 알려져 있죠.

  ∑ (Sigma) = 합 (Sum)

그런데 다른 의미로는 "Deviation(표준편차)"로 사용이 돼요.

  σ (Sigma) = 표준편차 (Deviation)


이 게시물에서 정리한 Sigma는 표준편차를 의미로 사용해요.







2. 표준편차 구하는 법 ( + 분산 )


-. "표준편차"는 "분산(Variance)"의 제곱근으로 구할 수 있어요.

우선 분산에 대해서 알아야겠네요;;;;
"분산(Variance)"이란
"관측 값에서 평균을 뺀 값을 제곱하고, 그 값들을 다 더한 전체 개수로 나눈 값" 
즉, "편차의 제곱의 평균값"으로 변량의 퍼져있는 정도를 말해요.


그러면 왜 "표준편차"는 "분산"으로 구해야 되는 걸까요?

어느 공정 결과 값이 아래처럼 4개가 있다고 합시다.

 30, 40, 60, 70 

4가지 값의 평균 값50이에요.
각 값의 편차를 구해보면,

30 - 50 = -20
40 - 50 = -10
60 - 50 = +10
70 - 50 = +20

위 데이터의 편차의 평균을 구하기 위해서 편차를 그대로 다 더하면,

"(-20) + (-10) + 10 + 20 = 0"이 되어버려요....

편차의 평균이 0이 되어버리면 값의 의미가 없어져요...
그래서 여기서 편차를 제곱해버리는 "분산(Variance)"이 나와요.

각 편차를 제곱하면,

(-20)^2 + (-10)^2 + 10^2 + 20^2 
= 400 + 100 + 100 + 400
= 1000

위 값을 데이터 개수 만큼 나누면,
1000 / 4 = 250
이렇게 분산 값이 나와요.

그런데 분산의 수치는 너무 크기 때문에 데이터 값의 차이가 큰지 작은지 알기 어려워요.
그래서 분산의 제곱근을 구해서 수치를 적당히 줄여서 사용하는 것이 "표준편차"에요.







3. 표준편차 계산 공식


-. 지금 까지 표준편차가 무엇인지, 그리고 어떻게 구하는지 알아봤는데요.

이제 표준편차를 구하는 계산 공식을 알아봤어요.


아래처럼 총 n개의 값이 있다고 했을 때

시그마, Sigma


"편차"를 구하기 위해서는 우선 "평균 값"을 구해야 돼요.

평균을 구하기 위해서는 우선 모든 값을 더해야 돼요.
이것을 시그마 기호를 사용해서 아래처럼 표현할 수 있어요.

시그마, Sigma

그리고 여기에 값의 개수인 n개로 나눠 주면 평균이 되죠.

평균, 시그마, Sigma


그런데 평균을 구하는 공식을 위처럼 풀어서 쓰면 너무 길죠...
그래서 x 위에 작대기를 그어서 평균을 아래처럼 심플하게 표현할 수 있어요.

평균, Sigma, 시그마


이제 "표준편차"를 구하기 위해서는 먼저 "분산"을 구해야 되는데
분산은 각 값의 편차를 제곱해서 n개로 나눈 값이에요.
분산은 아래와 같은 식으로 표현할 수 있어요.

분산, Sigma, 시그마


"분산"까지 구했으니 이제 "표준편차"를 구할 수 있어요.
"표준편차"는 "분산"의 제곱근으로 구하기 때문에
분산 공식에 루트를 씌우면 아래처럼 "표준편차의 공식"을 구할 수 있어요.

표준편차 시그마 Sigma







4. 표준편차로 공정 데이터 Monitoring (1~6 Sigma)


-. 반도체 라인이나 공장에서 공정(Process)를 하다 보면
다양한 데이터 값과 결과 값들이 나오는데요.

 이때 나오는 데이터를 분석해서 진행 중인 공정(Process)이 정상인지 아니면 문제가 있는지 판별하고 관리를 할 수 있어요.

 그런데 양호/불량 판단을 하기 위해서는 기준이 있어야 되는데요.
여기서 기준을 세우는 하나의 방법으로 "Sigma(시그마)"를 사용해요.

이때 Sigma는 표준편차를 말해요.

양/불 판단을 위해서 Sigma로 기준을 세우는 방법은,

공정을 반복 진행하면 데이터들의 "평균"과 "표준편차(Sigma)"를 구할 수 있어요.
그러면 "평균"을 기준으로 "표준편차"만큼 값을 더하고 빼서 
"상한선(Upper limit)" "하한선(Lower limit)"을 정할 수 있어요.

이후 데이터가 상한선, 하한선 범위 내에 들어오면 양호로 판단하고
만약 범위를 벗어나면 어떤 문제가 있는 것으로 볼 수 있어요.

보통 1Sigma로 관리한다 또는 3Sigma, 6Sigma로 데이터를 관리한다고 하는데
이것의 의미는 "표준편차 값"에 Sigma 앞의 숫자 만큼 곱한 값으로
상한선, 하한선을 정하여 데이터를 관리한다는 말이에요.

1Sigma = 1 x 표준편차(σ)
2Sigma = 2 x 표준편차(σ)
3Sigma = 3 x 표준편차(σ)
4Sigma = 4 x 표준편차(σ)
5Sigma = 5 x 표준편차(σ)
6Sigma = 6 x 표준편차(σ)


Sigma에 곱하는 숫자가 작아질 수록 데이터를 비교적 Tight 관리하는 것이고
숫자가 커질 수록 데이터를 비교적 Rough하게 관리를 해요.


한 가지 예시로 정리해봤어요.
3Sigma로 어느 데이터를 관리한다고 했을 때.

30, 33, 34, 36, 37, 39

이렇게 데이터가 있다고 하면
평균과 표준편차는 아래와 같아요.

표준편차, 시그마 Sigma


여기서 시그마 별로 상한선, 하한선 값을 구해보면 아래 표와 같아요.


표준편차 시그마, Sigma


우리는 여기서 3시그마로 관리를 할 거기 때문에

3σ = 8.73로 계산을 하면

Upper = 44
Lower = 26

데이터 범위를 정하고 관리하게 돼요.

만약에 이후 데이터가 48이 나오면 상한선을 넘어가니 불량으로 판단 할 수 있고
반대로 22로 낮게 나오면 하한선을 넘어가기 때문에 불량으로 판단 할 수 있어요.


이런 식으로 표준편차를 이용해서 데이터를 분석하고 공정을 관리할 수 있어요.



*공부하면서 정리하였는데 오류가 있으면 댓글로 알려주세요.



댓글 없음:

댓글 쓰기

표준편차(Standard Deviation) or 시그마(Sigma) 란? 그리고 표준편차 구하는 법, Sigma로 데이터 분석 및 관리 하는 법

*목차* 1. 표준편차(Standard Deviation) or 시그마(Sigma) 의미 2. 표준편차 구하는 법( + 분산 ) 3. 표준편차 계산 공식 4. 표준편차로 공정 데이터 Monitoring ( 1~6 sigma )