딥러닝은 넓은 의미로 머신러닝 중 '신경망(Neural Network)'이라는 모델의 일종입니다.
딥러닝을 정확하게 이해하기 위해 머신러닝에서의 '모델'의 역할과 일반적인 신경망의 구조 설명할 예정입니다.
1. 머신러닝(Machine Learning)의 개념
머신러닝은 데이터 속에 있는 '수학적인 구조'를 컴퓨터로 계산하여 발견해 내는 구조입니다.
예를 들어, 아래의 그림 1-1은 어느 특정 도시의 올해 1년간 월별 평균 기온을 나타낸 것입니다.
이 데이터를 기반으로 내년 이후의 월별 평균 기온을 예측한다면 어떻게 해야 할까요?
<그림 1-1. 월별 평균 기온 그래프>
가장 간단한 답은 올해 평균 기온과 동일한 수치로 예측하는 것이지만, 조금 더 연구해 볼 여지가 있습니다.
이 그래프에서는 월별 평균 기온이 직선으로 연결되어 있는데, 기후변화의 원리를 생각해보면 월별 평균 기온은 본질적으로 완만한 곡선으로 변화합니다.
이러한 변화에 대해 월별로 무작위적인 노이즈(Noise)가 더해져 그림 1과 같은 모습이 되었다고 생각할 수 있습니다.
<그림 1-2. 완만한 곡선으로 예측한 평균 기온>
따라서, 전체적인 데이터를 살펴보고 그림 1-2와 같은 부드러운 곡선으로 표현해 보았습니다.
내년 이후의 평균 기온을 이 곡선상의 값으로 예측한다면 정확도가 더 높을 것으로 기대할 수 있습니다.
이처럼 주어진 데이터의 수치를 있는 그대로 받아들이는 것이 아니라 그 속에 있는 '원리'를 생각하는 것을 '데이터의 모델화'라고 합니다.
이렇게 해서 생각해 낸 구조가 바로 데이터의 '모델'입니다. 데이터의 모델은 일반적으로 식으로 표현할 수 있습니다.
예를 들면, 그림 2의 곡선이 다음과 같은 4차 함수로 표현된다고 가정해보도록 하겠습니다.
<수식 1-1. 그림 1-2의 완만한 선 그래프>
x = 1, 2, 3, 4 ... 12가 각각의 월을 나타내며, 식 1-1로 계산된 y가 해당 월의 예상 평균 기온이라고 하겠습니다.
각 항의 계수 w값을 잘 조절하면 그림 1-2와 같은 그럴듯한 곡선을 얻을 수 있습니다.
다만, 계수의 값을 구체적으로 결정하기 위해서는 또 하나의 지표가 필요합니다. 이는 위의 식에서 예상되는 값과 실제 데이터의 오차로 판단합니다.
그림 1-1의 기초 데이터 값을 t1, t2, t3 ... t12라고 하겠습니다. 이때 수식 1-1에 x = 1, 2, 3 ... 12를 대입해서 얻은 예상 평균 기온을 y1, y2, y3 ... y12라 하고 다음 값을 계산합니다.
이는 일반적으로 제곱 오차라고 하는데, 월별 예측값과 실제 데이터 차이의 제곱을 더한 값입니다. 전체를 2로 나누는 것은 계산 상황에 따른 것이며 본질적인 것은 아닙니다.
<수식 1-2. 오차 함수(Error Function)>
지금까지의 과정을 간단히 요약하면 아래와 같습니다.
주어진 데이터를 기반으로 미지의 데이터를 예측하는 식(수식 1-1)을 생각합니다.
식에 포함된 파라미터의 좋고 나쁨을 판단하는 오차 함수(수식 1-2)를 준비합니다.
오차 함수를 최소화할 수 있도록 파라미터값을 결정합니다.
이러한 과정을 거쳐 파라미터값이 구체적으로 결정되면 얻어진 식을 이용해 내년 이후의 평균 기온을 예측할 수 있습니다.
만약, 예측의 정밀도가 좋지 않았다면 처음 생각한 식(수식 1-1), 즉 데이터의 '모델'이 적합하지 않았을 수 있습니다.
미지의 데이터에 대한 예측 정밀도를 향상하기 위해서는 최적의 모델, 즉 예측용 식을 발견하는 것이 주요하다고 할 수 있습니다.
2. 신경망(Neural Network)의 필요성
신경망을 설명할 때에는 다른 예제로 데이터의 분류 문제를 설명하려고 합니다.
특정 바이러스가 감염되었는지를 판정하는 간단한 예비 검사가 있고, 검사 결과는 두 종류의 수치(x1, x2)로 주어집니다.
이 두 가지 수치를 기반으로 바이러스의 감염되었을 확률을 구한 다음, 확률이 어느 정도 높은 환자는 정밀 검사로 전환한다고 가정하도록 하겠습니다.
아래의 그림 1-3은 지금까지 예비 검사를 받은 환자의 검사 결과와 실제로 바이러스에 감염되어 있는지를 나타내는 그래프입니다.
이 예비 검사의 정밀도를 조사하기 위해 모든 환자에 대해 예비 검사와 정밀 검사를 모두 수행해서 얻어진 데이터라고 가정합니다.
이 데이터를 기반으로 새로운 검사 결과(x1, x2)에 대해 감염 확률을 계산하는 식을 구하는 것이 본 예제의 과제입니다.
<그림 1-3. 예비 검사의 결과와 실제 감염 상황을 나타낸 그래프>
그림 1-3을 살펴보면 직관적으로 두 그룹으로 분류할 수 있음을 알 수 있습니다.
직선의 오른쪽 위 영역은 감염되어 있을 확률이 높고, 왼쪽 아래 영역은 감염되어 있을 확률이 낮다고 생각할 수 있습니다.
여기서, 이 경계를 나타내는 직선을 수식 1-3과 같이 수식으로 표현해 보도록 하겠습니다.
<수식 1-3. 그림 1-3을 두 그룹으로 분류하는 직선>
수식 1-3은 (x1, x2)라는 두 개의 값을 입력하면 ƒ(x1, x2)라는 하나의 값을 출력하는 함수이고, 그 값이 크고 작음에 따라 감염 확률이 높거나 낮음을 의미합니다.
평면 상의 직선은 y = ax+ b의 형식으로 많이 알려졌지만, 여기서는 x1과 x2로 이루어진 관계식으로 나타내기 위해 이와 같은 형식을 사용하였습니다.
이 형식의 장점은 ƒ(x1, x2)의 값이 ± ∞ 를 향해 증가(감소)해 가는 성질을 확인할 수 있다는 것입니다.
<그림 1-4. 직선을 이용한 분류와 감염 확률로의 변환>
따라서 0부터 1을 향해 값이 변화하는 함수 σ(x)를 준비하고 ƒ(x1, x2)의 값을 대입하면, 검사 결과 (x1, x2)로부터 감염 확률 P(x1, x2)를 구하는 함수를 만들 수 있습니다..
그림 1-4의 아랫부분은 수식을 그래프로 표현한 것입니다. 이는 '머신러닝 모델의 3단계'에서 1단계에 해당합니다.
이후에는 수식 1-4에 포함된 파라미터인 w0, w1, w2의 좋고 나쁨을 판단하는 오차 함수를 준비하고, 이를 최소화하도록 파라미터를 결정하는 흐름으로 진행됩니다.
<수식 1-4. 검사결과로부터 감염 확률을 구하는 함수>
위와 같은 과정을 거쳐 탄생한 모델의 문제점은 바로 주어진 데이터를 직선으로 분류할 수 있다는 전제 조건입니다.
예를 들면, 주어진 데이터가 그림 1-5과 같은 경우를 생각해보면, 이는 아무리 생각해도 단순하게 직선으로 분류할 수 없고,
그림에 나타냈듯이 구부러진 직선 혹은 곡선을 이용해 분류해야 합니다.
<그림 1-5. 직선으로 분류할 수 없는 데이터의 해>
식 1-3에 나타낸 직선 방정식을 보다 복잡한 수식으로 치환하여 구부러진 직선이나 곡선으로 표현할 수 있으면 되지만, 이는 그리 간단하지 않습니다.
현실의 머신러닝에서 이용하는 데이터는 그림 1-5와 같이 평면에 그릴 수 있을 정도로 단순한 것이 아니기 때문입니다.
예를 들면, 검사 결과 수치가 두 종류가 아닌 20종류일 때, 이를 그림으로 표현하려면 20차원 공간 그래프가 필요합니다.
이를 그림으로 나타내기는 불가능하며 머릿속으로 상상하기도 곤란합니다.
현재의 머신러닝은 기본적으로 데이터 모델, 즉 1단계에서 준비해야만 하는 식 자체는 사람이 생각해내야 합니다.
다만 그런 와중에도 유연성이 높은, 다양한 데이터에 대응할 수 있는 '수식'을 생각하려는 노력이 이어져 왔습니다.
신경망은 이러한 식 중의 한 가지 형태라고 볼 수 있습니다.
그렇다면 수식 1-3과 같이 하나의 단순한 수식으로 결과를 출력하는 것이 아니라 복수의 수식을 조합한 함수를 만드는 것에 대해 생각해 볼 수 있는데, 이것이 신경망입니다.
신경망은 딥러닝의 핵심이 되는 구조이므로 앞으로 차근차근 설명하도록 하겠습니다.
<그림 1-6. 단일 노드로 구성된 신경망>
그림 1-6은 세상에서 가장 간단한 신경망이라고 할 수 있습니다. 이는 수식 1-4를 신경망 형태로 나타낸 것입니다.
왼쪽부터 (x1, x2)라는 두 값을 입력하면 내부에서 ƒ(x1, x2) 값이 계산되고, 이를 시그모이드 함수 σ(x)로 0~1의 값으로 변환한 것이 변수 z로 출력됩니다.
이는 신경망을 구성하는 최소의 유닛으로, 뉴런(Neuron) 혹은 노드(Node)라고 합니다.
위와 같은 노드를 다층으로 중첩함으로써 더욱 복잡한 신경망이 얻어집니다. 그림 1-7은 2계층 노드로 구성된 신경망의 예시입니다.
첫 번째 계층의 두 노드에는 ƒ(x1, x2)와 ƒ(x1, x2)라는 1차 함수가 부여되어 있는데, 각각의 계수값은 서로 다릅니다.
이들을 시그모이드 함수 σ(x)로 변환한 값의 쌍인 (z1, z2)를 다시 두 번째 계층의 노드로 입력하여 최종적인 출력값 z가 얻어지는 과정을 나타내고 있습니다.
<그림 1-7. 2계층 노드로 구성된 신경망>
이 신경망에는 w10, w11, w12, w20, w21, w22, w0, w1, w2라는 9개의 파라미터가 존재합니다.
이 값들을 조정함으로써 단순한 직선이 아닌 복잡한 경계선을 표현할 수 있습니다.
마지막의 z값이 감염 확률 P를 나타낸다고 가정하고 있으므로 z = 0.5가 되는 부분이 경계선에 해당합니다.
이러한 파라미터 값을 잘 조정하여 z = 0.5가 되는 부분을 그리면 그림 1-10의 결과를 얻을 수 있습니다.
이는 각 (x1, x2)에 의한 z의 값을 색의 농담으로 나타낸 것으로, 오른쪽 위 영역이 z > 0.5에 해당합니다.
그림 1-7의 오른쪽 예를 보면 이것만으로는 아직 대응할 수 없다는 것을 확인할 수 있습니다.
이러한 경우에는 노드의 수를 증가시킨, 더 복잡한 신경망을 이용해야 할 것으로 판단됩니다.
노드를 증가시키는 방법에는 몇 가지 패턴이 있습니다. 하나는 계층의 수를 늘려 신경망을 다층화하는 것이고,
다른 하나는 하나의 계층에 포함된 노드의 수를 늘리는 것입니다. 그림 1-8과 같은 신경망을 구성할 수 있습니다.
<그림 1-8. 보다 복잡한 다층 신경망>
다만, 여기서 신경망의 난해함이 드러납니다. 원칙적으로는 노드의 수를 늘려가면 아무리 복잡한 경계선이라도 그릴 수 있습니다.
그러나 아무렇게나 노드를 늘려가면 파라미터의 수가 방대해져 파라미터를 최적화하는 3단계의 계산이 곤란해집니다.
이는 현실적인 시간 내에 계산이 끝나지 않는다는 컴퓨터의 성능 문제와 더불어, 최적인 값을 계산하는 알고리즘 그 자체를 만들 수 없는 경우도 생깁니다.
머신러닝을 통해 신경망에 도전한다는 것은 주어진 문제에 대해 실제로 계산할 수 있으며, 데이터의 특성에 맞는 신경망을 구성한다는 것입니다.
그리하여 다양한 연구자들이 이런 어려움에 계속 도전해 오면서 등장한 것이 딥러닝(Deep Learning)이라는 특별한 형태의 신경망을 이용한 방법입니다.
Reference
- 나카이 에츠지, '텐서플로로 시작하는 딥러닝', 제이펍, 2009