AI 에이전트 ALF

New

리소스

지원

딥러닝이란 무엇인가요?

AI-CX 개념허브

Tena • Hyeri Jo, Editor

2024년 10월 15일

개념허브

챗GPT 이후, 모두가 AI를 이야기하고 있습니다.

비즈니스 현장에서도, 개인적인 용도로도 생성형 AI 툴을 활용하는 일이 흔하고 자연스러워지고 있죠. 하지만 AI와 머신러닝, 딥러닝, LLM 같은 개념들, 많이는 언급되는데, 쉽고도 정확하게 설명하는 콘텐츠는 많지 않은 것 같아요. 채널톡 콘텐츠팀도 AI가 항상 낯설고 어려운데요. 그래서 시작합니다.

CX 업계에서 이해하면 좋을 AI 개념들을 쉽게 풀어 소개한 '개념 허브' 시리즈!

세 번째는 바로 '딥러닝'입니다.

딥러닝(Deep Learning, DL)이란?

많은 분들이 막연히 AI 하면 ‘딥러닝’이라고 알고 계실 겁니다. 그만큼 현재의 AI 업계에서 '딥러닝'은 중요한 것을 넘어 당연한 개념인데요. 딥러닝도 결국은 머신러닝의 여러 방법론 중 하나라고 생각하시면 됩니다.

딥러닝의 정의

머신러닝은 결국 ‘컴퓨터가 스스로 데이터를 학습하도록 하는 것’입니다. 그렇다면 이를 실현하기 위한 방법에도 여러 가지가 있겠죠. 그중 하나가 사람의 뇌를 모방한 ‘인공 신경망(Neural network)’을 구축하는 방법입니다. 딥러닝은 이 인공 신경망, 정확히는 ‘깊은(=층이 여러 개인)’ 인공 신경망(Deep Neural Networks, DNN)을 사용하는 머신러닝 기법입니다.

사실 딥러닝도 인공 신경망의 한 종류인 셈입니다만, 딥러닝의 창시자인 제프리 힌튼이 일부러 딥러닝이라는 말을 쓴 이유는 2006년 당시까지만 해도 인공 신경망이 ‘한물 간’ 개념 취급을 받고 있었기 때문입니다.

인공 신경망 자체는 1958년 로젠블라트가 제안한 '퍼셉트론'까지 거슬러 올라가는 오래된 발상입니다. 하지만 초기의 인공 신경망에는 한계가 너무 많았습니다. 특히 1969년에는 마빈 민스키와 시모어 페퍼트가 ‘퍼셉트론’이라는 책에서 퍼셉트론의 한계를 지적했는데요. 이는 1차 AI 겨울을 불러온 주요한 사건으로 꼽혔을 정도입니다. 많은 AI 학자들이 2000년 초까지만 해도 ‘인공 신경망’, ‘머신러닝’, 'AI'라는 말을 꺼낼 수 없을 정도였다고 회상하죠.

"인공 신경망은 사라지는 경사도 문제로 거의 몰락에 가까운 상황에 이르렀습니다. 딥러닝의 대가인 '제프리 힌튼(Geoffrey Hinton)' 교수와 '얀 르쿤(Yann LeCun)' 교수조차 당시를 회고하며
인공 신경망이라는 용어를 사용할 경우, 연구 예산 승인이 거부되는 등 인공 신경망은 사용해서는 안 되는 용어가 됐던 적도 있었다고 합니다. 하지만 완전히 몰락할 줄 알았던 인공 신경망은 사라지는 경사도 문제를 해결할 수 있는 여러 가지 방법이 등장하면서 2000년대에 다시 부활합니다." [1]

"필자가 대학원생이었던 1997년~2002년에는 인공지능 연구를 하고 있다고 말하면 의아한 표정을 짓는 사람들이 많았다. "왜 인공지능은 실현되지 않습니까?"라고 주변의 연구자에게 물어보아도 쓴웃음만 지을 뿐이었다.
왜냐하면 '인공지능'이라는 말 자체가, 혹은 '인공지능이 가능하다'고 주장하는 것 자체가 모종의 금기로 되어 있었기 때문이다." [2]

하지만 제프리 힌튼이 2006년과 2012년, 기존 인공 신경망의 한계를 극복할 수 있는 방법들을 밝혀냈습니다. 힌튼 교수는 이때 일부러 '딥러닝'이라는 용어를 썼는데, 일종의 리브랜딩이라고 봐야겠죠. 마침 인터넷의 고도화로 딥러닝에 사용하기에 충분한 수준의 빅데이터가 생겨나고, GPU로 대표되는 하드웨어의 발달이 뒷받침되면서 딥러닝의 시대가 활짝 열렸습니다. [3] [4]

(출처=Building High-level Features Using Large Scale Unsupervised Learning)

딥러닝 이전까지 대부분의 머신러닝은 결국 인간이 ‘특징’을 추출하고 규칙을 작성해야 한다는 한계가 있었습니다. 예를 들어 사람와 고양이를 구분하는 AI를 만들려면 개와 고양이를 구분할 수 있는 기준을 명확하게 입력해야 하는데요. 사람은 개과 고양이를 단박에 구분할 수 있지만, 그렇게 할 수 있는 이유를 말로 잘 설명하지는 못합니다. 개와 고양이를 구분하는 '특징'을 알고는 있지만 이를 컴퓨터에 알려주기는 어려운 겁니다.

딥러닝의 가장 중요한 점은 컴퓨터가 사람의 도움 없이도 데이터에서 ‘특징’을 추출할 수 있다는 점입니다. 위의 이미지는 2012년 구글에서 나온 연구 결과를 요약하고 있는데요. 1000대의 컴퓨터로 1000만 개의 유튜브 이미지를 딥러닝으로 분석해 사람과 고양이를 구분해 냈습니다. [5]

이전에는 컴퓨터 프로그램에 ‘개와 고양이를 구분하는 방법’과 ‘개와 고양이 데이터’를 넣어서 ‘분류된 결과’를 얻었다면, 이제는 컴퓨터에 ‘개와 고양이 데이터’, 그리고 ‘분류된 결과’만 넣어서 ‘구분하는 방법’을 직접 찾아내도록 할 수 있다는 뜻입니다. 이제는 사람이 모르는 방법조차 컴퓨터가 알아낼 수 있게 된 겁니다. 구글 딥마인드의 개발자들은 이세돌보다 바둑을 잘 두는 방법을 모르지만, 구글 딥마인드 개발자들이 만든 알파고는 이세돌보다 바둑을 잘 두는 방법을 아는 것처럼요.

딥러닝의 원리는?

딥러닝의 원리는 기본적으로는 인공 신경망의 원리와 같습니다. 인공 신경망의 한계 일부를 보완한 것이 바로 딥러닝이니까요. 인공 신경망은 사람의 뇌를 모방한 모델입니다.

(출처=Artificial Neural Networks and its Applications)

사람의 세포를 수학적으로 모델링한 ‘퍼셉트론’이 마치 뉴런처럼 입력을 받아 출력을 내보내는 구조인데요. 퍼셉트론은 각 입력별로 ‘가중치’, 즉 강도를 부여합니다. 이 퍼셉트론을 여러 층으로 쌓아 연결한 것을 바로 인공 신경망이라고 합니다.

여기서 잠깐 딥러닝의 원리를 정말 간략하게 설명해 보고 넘어가 볼까요. (갑자기 어려운 말 나왔다고 당황하지 마시고 어려우면 패스!)

일반적인 형태의 인공 신경망은 입력층, 은닉층, 출력층으로 형성되어 있습니다. 여기서 입력층에서 은닉층을 거쳐 출력층으로 계산이 진행되는 것을 ‘순전파(Forward Propagation)’라고 하고요. 그 결과로 나온 값을 활용해 출력층에서 입력층까지 되돌아가면서 다시 가중치를 수정하는 것을 역전파(Backpropagation)’이라고 합니다. 입력에 대응하는 출력이 나올 수 있도록, 그 오차가 최소가 되도록 순전파와 역전파를 반복하면서 최적의 가중치를 찾는 과정이 바로 인공 신경망의 ‘학습’입니다.

딥러닝을 발견해낸 인물은 제프리 힌튼입니다. 제프리 힌튼은 2006년 심층 신뢰 신경망(Deep Belief Network, DBN)에 대한 논문을 발표했는데요. 그간 인공 신경망 분야에서는 신경망을 여러 층 쌓으면 학습이 잘 되지 않는다는 문제가 있었습니다. 제프리 힌튼의 2006년 논문은 데이터를 비지도 학습으로 전처리하면(사전학습, pretraning) 신경망의 층이 깊어져도 학습이 잘 된다는 것을 밝혔죠. [3]

2012년에는 이미지넷 대회에 출전해 다른 팀들보다 압도적인 성능을 보여주면서 제대로 화제를 끌었는데요. 이때 인공 신경망이 학습된 데이터만 잘 처리하고 새로운 데이터를 잘 처리하지 못하던 문제를 데이터를 고의로 누락(Dropout)시키는 방식으로 해결하기도 했습니다. [4] 그야말로 딥러닝의 아버지라고 불릴만한 인물입니다.

딥러닝에 쓰이는 인공 신경망에도 여러 가지 종류가 있는데요. 이미지 인식에 주로 쓰였던 합성곱 신경망(Convolutional Neural Network, CNN), 음성 인식 및 자연어 처리에 주로 쓰였던 RNN(Recurrent Neural Network, RNN)이 대표적입니다. CNN과 RNN은 몇 년 전까지만 해도 인기 있는 딥러닝 모델이었으나 이제는 ‘어텐션’ 개념을 적용한 트랜스포머가 그 자리를 대체하고 있습니다.

딥러닝 알고리즘의 종류

합성곱 신경망(Convolutional Neural Network, CNN)

합성곱 신경망은 이미지를 인식하는 대표적인 딥러닝 알고리즘입니다. 크게 이미지에서 '특징'을 추출하는 부분과 분류하는 부분으로 구성되어 있죠.

특징을 추출하는 부분은 컨볼루션 계층(Convolution Layer)과 풀링 계층(Pooling Layer)으로 구성됩니다. 참고로 이 '컨볼루션'이 한국어로 '합성곱'이라는 뜻으로, 이 기능 때문에 이 모델의 한국어 이름이 '합성곱 신경망'인 겁니다. 컨볼루션 계층은 이미지에 다양한 필터를 적용해 특징을 추출합니다. 풀링 계층은 추출된 특징을 압축해 특징을 줄이고 일반화하는 역할을 하죠.

컨볼루션과 풀링 작업을 거치면 이미지에서 핵심적인 특징을 추출해 유사성을 잘 판단할 수 있게 됩니다. 이렇게 필터를 적용해 추출된 '특징 맵(Feature Map)'을 입력으로 하여, '합성곱 연산'을 통해 결과를 출력하는 것이 마지막 단계, 완전 연결 계층(Fully Connected Layer)입니다. 최적의 은닉층 깊이와 적절한 활성 함수를 찾아내는 것이 성능에 결정적인 영향을 미치죠. [1]

CNN의 개념을 처음 제시한 것은 얀 르쿤으로, 그는 1990년대 전후로 CNN에 관해 여러 논문을 발표했습니다. 다만 이 개념이 유명해진 것은 2012년 제프리 힌튼이 이미지넷 대회에서 CNN을 활용한 ‘알렉스넷(AlexNet)’으로 우승한 덕분입니다. [6]

순환 신경망(Recurrent Neural Network, RNN)

음성과 텍스트, 자연어처럼 순서와 전후 연관성이 있는 데이터를 처리하기 위해 쓰이는 대표적인 딥러닝 기술은 순환신경망(RNN)입니다. 순환 신경망은 이전 단계의 출력을 다시 입력으로 사용하는 구조를 가지고 있는데요. 문장 번역, 텍스트 생성, 음성 인식 등 ‘순차적 데이터’를 다루는 작업에 주로 사용됩니다.

순환 신경망에서 데이터가 처리되는 과정은 다음과 같습니다. 우선 입력층에서는 시퀀스 데이터의 각 요소를 입력받습니다. 은닉층에서는 이전 단계의 출력을 다시 입력으로 받아, 현재 입력과 결합하여 새로운 출력을 생성합니다. 출력층은 최종 출력을 생성하여 결과를 도출합니다.

RNN은 시간에 따라 순차적으로 데이터를 처리하며, 과거 정보를 유지하여 시퀀스 데이터의 맥락을 이해할 수 있습니다. 그러나 RNN은 구조상 ‘장기 기억’이 취약한 문제가 있었고요. 이를 개선하기 위해 'LSTM(Long Short-Term Memory)'과 같은 개선된 구조가 제안되기도 했습니다. LSTM의 좀더 간단한 버전으로는 GRU(Gated Recurrent Unit)가 있습니다.

트랜스포머(transformer) 모델

트랜스포머 모델은 2017년 구글의 논문에서 처음 제안된 모델입니다. [7] 트랜스포머 이전에는 RNN과 어텐션(attention)을 이용해 언어 모델을 만들었지만, RNN은 데이터를 순차적으로 처리하기 때문에 속도가 느리다는 단점이 있었습니다. 참고로 어텐션은 2014년 기계 번역의 성능 향상을 위한 논문에서 제시된 개념인데요. 간단하게 설명하자면 알고리즘이 데이터에서 ‘중요한 부분’을 판단해서 더 많은 가중치를 주도록 하는 방법입니다. [8]

트랜스포머 모델은 RNN 말고 어텐션만으로 언어 모델(Language Model, LM)을 만드는 방법으로 제시되었습니다. 트랜스포머 모델은 언어 처리를 병렬화합니다. 주어진 텍스트 본문의 모든 토큰이 ‘순서대로’가 아니라 ‘동시에’ 학습된다는 뜻입니다. 훨씬 더 큰 데이터를 쓸 수 있게 되는 거죠. [9]

트랜스포머 모델을 활용한 AI의 대표적인 사례는 오픈AI의 ‘GPT’ 시리즈입니다. 2018년 처음 공개된 GPT는 큰 주목을 받지 못했지만 GPT-2, GPT-3은 이전보다 훨씬 더 많은 매개변수와 학습 데이터를 활용하면서 무서운 성능을 보여주었습니다. 그리고 2022년 11월 전 세계를 상대로 베타 서비스를 시작한 ‘챗GPT’는 사람들을 충격에 빠뜨렸습니다. 챗GPT의 답변들은 이전의 챗봇들과는 비교할 수 없을 정도로 자연스럽고 유용했으니까요.

이후로 트랜스포머 모델을 활용한 고성능의 AI 서비스들이 속속 등장하고 있습니다. 최근 2~3년간 AI 업계를 지배하고 있는 모델이라고 해도 과언이 아닙니다.

LLM이란?

여기까지 왔으니 이번에는 트랜스포머 모델과 밀접한 관련이 있는, 그리고 최근 AI 분야에서 가장 많이 언급되는 단어인 'LLM'은 대체 뭔지 이야기해 볼까요. 단어부터 풀어보겠습니다. ‘대규모 언어 모델(Large Language Model)’의 약자입니다.

그렇다면 언어 모델(Language Model)은 무엇일까요? 언어 모델은 AI가 사람의 말, ‘자연어’를 이해하도록 하는 방법 중 하나입니다. 단어 몇 개가 주어졌을 때, 문장을 완성하려면 그 앞뒤에 어떤 단어가 와야 하는지 확률적으로 예측하는 모델이죠. 구글이나 네이버의 검색 엔진에 검색어를 입력하면 실시간으로 다음 단어를 예상해 추천 검색어로 띄워 주는 모습을 떠올리시면 이해가 쉬울 겁니다. 물론 검색 엔진은 딥러닝 기반 언어 모델 외에도 다양한 기술이 집약된 복합 시스템이므로, 참고만 해 주세요!

트랜스포머의 등장 이전에도 언어 모델을 만드는 데에 쓰던 신경망 모델들이 존재했지만, 기존의 방식(RNN, LSTM 등)은 속도가 느리다는 단점이 있었습니다. 하지만 트랜스포머 모델은 데이터를 병렬적으로 처리할 수 있어서 한번에 많은 데이터를 처리할 수 있었고, 드디어 진정한 LLM을 구현할 수 있게 되었죠.

트랜스포머 모델과 LLM의 가능성이 본격적으로 주목받은 것은 오픈AI가 2022년 11월 LLM을 활용한 대화형 AI 애플리케이션 ‘챗GPT’를 내놓으면서부터입니다. 챗GPT는 사람의 어떤 질문에든 자연스럽게 대답하는 것은 물론, 각종 전문가 시험까지 통과하는 저력을 보였습니다. 챗GPT의 성능을 직접 확인한 대중은 어느새 훌쩍 발전한 AI의 수준에 깜짝 놀랐습니다.

이후 LLM이라는 새로운 기술의 활용에 대한 관심이 뜨거워졌으며, 새로운 연구와 서비스들이 속속 등장하고 있습니다. 이 글이 쓰이고 있는 순간에도 새로운 뉴스가 등장하고 있을 정도로요. 다음은 챗GPT 이후 발표된 주요 LLM 관련 서비스들입니다.

발표 시점	이름	회사	매개변수(개)
2022.11.	챗GPT	오픈AI	1750억
2023.2.	LLaMA-1	메타	70억~650억
2023.3.	GPT-4	오픈AI	비공개
2023.5.	PaLM2	구글	3400억
2023.7.	LLaMA-2	메타	70억~700억
2023.7.	Claude-2	앤트로픽	비공개
2023.9.	하이퍼클로바X	네이버	비공개
2023.11.	GPT-4 Turbo	오픈AI	비공개
2023.11.	Phi-1.5	MS	13억
2023.12.	Gemini 1.0	구글	32억5000만(나노), 프로, 울트라 비공개
2024.2.	Gemini 1.5	구글	비공개
2024.3.	Claude 3	앤트로픽	520억
2024.3.	Grok	xAI	330억
2024.4.	LLaMA-3	메타	80억~700억
2024.5.	GPT-4o	오픈AI	미공개

레퍼런스

[1] 한규동, “AI 상식사전”, 길벗, 2022, p. 270.

[2] 마쓰오 유타카, "인공지능과 딥러닝: 인공지능이 불러올 산업 구조의 변화와 혁신", 동아엠앤비, 2015, p. 8.

[3] G. E. Hinton, S. Osindero, and Y.-W. Teh, "A fast learning algorithm for deep belief nets", Neural Computation, vol. 18, no. 7, pp. 1527-1554, Jul. 2006.

[4] A. Krizhevsky, I. Sutskever, and G. E. Hinton, "ImageNet classification with deep convolutional neural networks", in Advances in Neural Information Processing Systems 25 (NIPS 2012), 2012.

[5] Q. V. Le et al, Building High-level Features Using Large Scale Unsupervised Learning, in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2013, pp. 7630-7634.

[6] Y. Lecun, "Generalization and network design strategies", in Connectionism in Perspective, R. Pfeifer, Z. Schreter, F. Fogelman, and L. Steels, Eds. Zurich, Switzerland: Elsevier, 1989.

[7] A. Vaswani et al., "Attention Is All You Need", arXiv, 1706.03762, Jun. 2017.

[8] D. Bahdanau, K. Cho, and Y. Bengio, "Neural Machine Translation by Jointly Learning to Align and Translate", arXiv, 1409.0473, Sep. 2014.

[9] R. Toews, "The Next Generation Of Artificial Intelligence", Forbes, Oct. 12, 2020.

작성일: 2024.7.29.