Tensorflow와 Algorithm Flow
구글 텐서플로를 사용하면 머신 러닝 문제를 아주 효과적으로 해결할 수 있습니다. 머신 러닝은 음성 인식, 자연어 처리, 영상 처리 등의 다양한 분야에서 사용되고 있습니다. 텐서플로가 동작하는 방식이 처음에는 낮설게 느껴질 수 있지만, 이러한 복잡한 계산 방식 덕분에 복잡한 알고리즘을 쉽게 개발할 수 있습니다.
텐서플로는 Linux, MacOS, Window를 지원합니다. 텐서플로의 핵심 코드들은 C++로 작성되어 있지만, Python으로 구현된 라이브러리만으로도 충분히 머신 러닝을 진행할 수 있습니다.
텐서플로 참고 사이트
텐서플로 알고리즘의 흐름
- 데이터셋 생성
- 데이터 전처리
- 데이터셋 분할
- 머신 러닝 알고리즘 파라미터 설정
- 변수 및 플레이스홀더 초기화
- 모델 구조 정의
- 비용 함수(Loss Function) 선언
- 모델 초기화 및 학습
- 모델 평가
- 파라미터 재정의 (선택)
- 적용 및 결과 예측
데이터셋 생성
머신 러닝 뿐만 아니라 데이터 분석을 위해서는 데이터셋이 필요합니다. 데이터셋은 직접 생성하거나 외부에서 가져오는 방식으로 얻을 수 있습니다.
데이터 전처리
데이터 전처리는 머신 러닝을 진행하는 데 있어 아주 중요한 역할을 수행합니다. 대부분의 데이터셋은 머신 러닝을 진행하는데 적합한 형태로 제공되지 않기 때문에 적절한 형태로 변환할 필요성이 있습니다. 텐서플로는 데이터 전처리를 위한 다양한 내장 함수를 제공합니다.
데이터셋 분할
머신 러닝 알고리즘 테스트를 위해 일반적으로 Test Set과 Train Set으로 데이터를 구분합니다. 필요에 따라서는 알고리즘 매개변수의 조절이 필요하기 떄문에 매개변수의 최적 값을 정하기 위해 검증셋까지 구분하는 경우도 있습니다.
머신 러닝 알고리즘 파라미터 설정
일반적인 알고리즘에는 학습을 위해 다양한 파라미터가 존재하고, 파라미터에 따라 예측 결과가 변화합니다. 따라서, 학습을 진행하기 이전에 파라미터를 적절히 설정하는 것이 중요합니다.
변수 및 플레이스홀더 초기화
텐서플로는 수정할 수 있는 값과 수정할 수 없는 값이 있습니다. 텐서플로는 비용 함수를 최소화하는 최적화 과정에서 변수 값, 가중치(Weight)와 편향(Bias) 값을 조정합니다. 데이터를 플레이스 홀더 자리에 투입해 최적화를 진행합니다. 변수 및 플레이스 홀더의 크기와 타입을 모두 초기화 시점에 지정하여 처리 대상에 대한 정보를 텐서플로에 알려주어야 합니다. 또한, 텐서플로가 처리할 데이터의 타입도 알려주어야 합니다.
(*플레이스홀더(Placeholder)에 대한 설명은 추후에 진행하도록 하겠습니다.)
모델 구조 정의
학습을 위한 모델을 정의해야 합니다. 모델 정의는 계산 그래프 생성을 통해 이루어 집니다. 텐서플로는 모델의 결과를 얻기 위해 특정 연산과 값을 변수 및 플레이스홀더에 지정해야 합니다.
(*계산 그래프에 대한 설명 또한 추후에 진행하도록 하겠습니다)
비용 함수 선언
모델을 정의한 이후 모델 평가를 진행해야 합니다. 이를 위해 비용 함수를 정의합니다. 비용 함수는 해당 모델이 예측한 값이 실제 값과 얼마나 차이가 있는지를 알려주는 중요한 요소입니다.
모델 초기화 및 학습
그래프 인스턴스를 생성하고 플레이스홀더에 데이터를 투입해 학습을 진행합니다.
모델 평가
구축한 모델이 얼마나 잘 예측하는지를 알아보기 위해 모델 평가를 진행합니다. Train set을 통해 학습한 모델이 Test set에서는 어떻게 예측하는지 파악합니다. 결과로서 모델의 과적합, 과소적합 등의 여부를 판단할 수 있습니다.
파라미터 재정의
필요에 따라서는 구축한 모델의 성능이 만족스럽지 않을 때 알고리즘의 매개변수를 변경하고 싶을 수 있습니다. 알고리즘의 매개변수를 조정해가며 모델의 성능을 향상시킵니다.
적용 및 결과 예측
새로운 데이터를 생성해보고 구축한 모델에 적용해보며 얼마나 잘 예측하는지 확인합니다.
'Machine Learning > Tensorflow' 카테고리의 다른 글
[ML/TensorFlow] 1. Tensorflow에서 Tensor를 생성하는 방법 (0) | 2018.12.20 |
---|