본 게시글은 학부 강의 'AI 데이터 표현과 모델링'을 기반으로 이해하고 학습한 내용을 정리하였습니다.

과거의 AI vs 현재의 AI

1945년 이전, 혹은 2000년대 이전까지 인공지능은 아직 현실과 거리가 멀었습니다. AI를 떠올리면 영화 터미네이터처럼 인간을 그대로 복제한 존재를 상상하곤 했죠. 인공지능 이라는 단어 자체가 인간의 지적 능력을 복제하는 과정으로 번역되어 온 것이라 생각합니다.
이것을 Parallel Model (병렬 모델) 이라고 합니다. 인간이 이만틈 이해하면 기계도 그만큼 이해하도록, 동일한 능력을 복제하려는 시도죠.
현재의 AI는 어떨까요?
조금 다른 시각으로 보아야 합니다.
저라는 사람은 인지적 한계가 있어요. 여기서 인공지능을 활용해서 과거에는 하지 못했던 것을 할 수 있다면 얼마나 좋을까요?
이것을 Cross Model(교차모델) 이라고 합니다. 인간이 잘하는 영역과 기계가 잘하는 영역이 반드시 같지는 않아요. 오히려 겹치는 부분도 있지만 서로 다른 부분이 있기 때문에, 각자가 잘하는 것을 가지고 협력하는 구조가 더 옳은 방향이라는 거죠.
미디어에서는 AI가 인간과 겹치는 작은 영역(인간을 대체하거나, 인간처럼 행동하는 부분)만 다루지만, 실제로는 훨씬 넓은 영역에서 활용이 가능합니다.
AI는 도구이자 문제 해결사
AI를 바라볼 때는 위에서 바라보는 Top-down 관점이 좋은 것 같아요.

커피 추출하는 과정을 떠올려 볼까요?
커피머신이 있다고 해봅시다. 이 커피머신에 어떤 원두를 넣을 것인지, 물은 얼마나, 온도는 몇 도로 설정할 것인지 알려주는 레시피가 있다고 가정해 봅시다. 그러면 우리는 어떤 레시피를 써야 원하는 결과를 얻을 수 있는지 아는 것이 중요하겠죠. 즉, 우리가 가진 커피 머신은 AI 도구가 되고, 거기에 무엇이 있는지 그리고 어떻게 사용하면 어떤 결과가 나오는지 익히는게 매우 중요하다는 겁니다.
커피머신 자체를 개선하라는게 아니에요. 어떤 커피머신이 있고, 어떤 커피를 잘 만드는지 설명할 수 있어야 합니다.
문제 정의와 문제 해결
현실 세계에서 문제를 발견하고 정의하는 것은 인간이 합니다 - Define by human.
그 문제를 풀어내는 것은 기계가 합니다 - Solve by machine
공대생이라면 누구나 공모전 한 번쯤을 나가보게 되겠죠? 대부분의 공모전은 현실 세계의 중요한 문제를 해결하는 겁니다.
문제를 해결하기 위해서는
- 문제의 현상을 이해해야 하고,
- 어떤 입력이 들어가고 어떤 출력이 나와야 하는지 설계해야 하며,
- 그런 입력을 받아서 해결할 수 있는 기술의 종류를 알아야 합니다.
AI는 지금 무엇을 잘하나요?
2026년 현재까지 발견되고 검증된 AI가 특히 잘하는 4 가지의 프레임워크가 있습니다.

Representation
표현이라고 하면 처음에는 와닿지 않을 수 있어요. 이것은 세계의 것들을 숫자(벡터)로 조합하는 것, 즉 Vector Representation입니다. Foundation Model(기반 모델)은 세상을 보고 숫자로 바꿉니다. 그 숫자 안에 '이 야구팀이 이길지 질지', '이 화학 물질이 독성이 있는지 없는지', '이 텍스트가 사람에게 해로운지' 같은 정보가 담기게 되는겁니다. 세상으 ㅣ것들을 이해하고 표현하는 것을 놀라울 정도로 잘해냅니다.
말로 설명할 수 없는 '그 무언가'를 방대한 데이터에서 추출해 표현하는 것이 바로 Representation Learning 입니다.
Classification
표현을 잘할 수 있으면 그 다음 단계로 분류가 가능해집니다. 주어진 데이터가 A 클래스인지 B클래스인지, 높은지 낮은지, 왼쪽인지 오른쪽인지, 위인지 아래인지 정해진 답 중 하나를 고르는 것이죠. 태깅된(Tagged) 데이터로 훈련을 시킵니다.
주차장에 들어갈 때 번호판을 인식하는 차단기는 요즘들어 없는 주차장을 찾기 힘들죠.
예를 들어 차량 번호 123수5479 라고 하면 여기에 있는 숫자나 글자를 하나하나 구분하는 것은 이미지에서 0 - 9, ㄱ - ㅎ 사이의 하나를 고르는 분류 기술이라는 겁니다.


이러한 이미지 분류 도메인에도 역사가 있죠.
ILSVRC(ImageNet Large Sclae Visual Recognition Competition)
이 대회에서 2012년 AlexNet이 등장하면서 딥러닝이 다크호스가 되었습니다. 이후 ZF(2013), GoogLeNet(2014), ResNet(2015),GoogLeNet v4(2016)로 이어지면서 성능이 급격히 향상되었습니다. 인간의 오류율은 약 5.1%, 2015년 ResNet이 이미 인간을 넘어섰습니다. 10년이 지난 지금은 아무도 싸우지 않아요. 적어도 시각 이미지 영역에서는 기계가 인간의 분류 능력을 이미 넘어선 것이죠.
이 분류 기술은 시각에서 시작해 수학, 언어 등으로 서서히 확장되고 있습니다. 수능 같은 시험에서도, 기계가 수학 영역에서 이미 100점을 맞습니다. 그것도 5-10분 만에 말이죠. 인간은 40분에 걸쳐 풀어야 하는 문제들인데도요.
분류 기술의 학습 방법은 이렇습니다.
Supervised Learning(지도 학습)
- 예제 문제를 풀게 하고
- 정답과 비교하여
- 잘 맞추는 방향으로 파라미터를 업데이트
대표적 알고리즘은
K-Nearest Neighbors, Linear Regression, Logistic Regression, SVM, CRF, Decision Tree, Deep Neural Network
등이 있습니다.
Exploration / Search Space
사람이 모두 탐색하기에는 너무 큰 공간을 기계가 대신 탐색합니다. 사람이 가보지 못한, 또는 가볼 수 없는 길을 기계가 먼저 가보는 것. 이건 현재 Physical AI에도 통하는 부분인 것 같다는 생각도 드네요.

여기 눈 쌓인 들판의 이미지가 있습니다.
인류 문명이 지금까지 걸어온 길의 경계선이 있다면, 앞으로 걸어갈 모든 가능성은 열려있습니다. 과거에는 사람이 직접 두 발로 앞으로 나아갔습니다. 하지만 미래에는 기계가 세상을 이해한다면, 기계가 가장 가능성 없는 곳까지 탐색하고 최선과 최악의 조건을 판별한 뒤, 그 결과를 인간에게 요약해 줄 것입니다.

2014년에 만들어져 2016년 이세돌 9단과 4:1로 승리한 사건 모두 기억하실 겁니다. 지금의 이러한 바둑의 실력자가 타임머신을 타고 1000년 전 고려시대로 가서 당시 최고의 기사( 棋士 )들과 바둑을 두면 반드시 이깁니다. 왜?
지난 1000년간 바둑의 발전을 모두 내재화한 사람이기 때문입니다. AlphaGo는 그 반대 ㅡ 미래에서 온 존재처럼, 인류가 수천 년에 걸쳐 쌓아온 것 이상의 경험을 압축적으로 학습한 것이죠. 이기지 못하는 것이 자연스러운 일입니다.
이 대목에서 고등학생 시절, 저에게 생물을 가르쳐준 제 마음 속 1타 강사님, 최정윤 선생님께서 하신 말씀이 떠오릅니다.
후손은 선조들보다 더 나아야할 책임과 의무가 있다.
이 선생님 덕분에 생물학을 좋아하게 됐고, 더 넘어서 과학을, 이제는 공학을 공부하고 있네요.

NVIDIA Eureka의 로봇 펜 돌리기 시연을 보신 적 있나요?
컴퓨터 그래픽스 환경에서 로봇이 펜을 돌리는 작업을 학습합니다. 한 대가 아니라 수십억 대의 가상 로봇이 동시에 시도합니다. 멋진 펜 돌리기 를 어떻게 정의할 수 있을까요?
펜 양쪽 끝의 센서가 손에서 최대한 멀리 떨어지되, 속도는 빠르게 ㅡ 이런 식으로 정의한다고 해요.
그러면 기계가 수백 년에 해당하는 연습을 짧은 시간에 해냅니다. 이런 시뮬레이션 결과는 실제 로봇에 이식(transparent)되죠. 현대자동차의 보스턴 다이내믹스(Boston Dynamics)도 같은 방식입니다.

아, 반가운 이름이 나왔네요. 제가 CS 공부를 하게 한 시작점.
신약 개발의 맥락에서 매우 중요하죠. 타이레놀 같은 약 하나를 개발하는 데 평균 1조원, 기간은 10년이 걸립니다. 한국에 대표적인 제약사가 적은 이유도 이 때문이죠. 신약 개발 과정에서 대부분의 후보 물질은 동물실험, 임상 1상, 2상, 3상을 거치며 탈락합니다. FDA 승인을 받는다는 것은 이 모든 과정을 통과했음을 의미합니다.
만약 사람의 구조를 이해하는 Foundation Model, 화학 구조를 이해하는 Foundation Model, 약물의 체내 흐름을 이해하는 Foundation Model이 있다면, 처음 1000개 후보 물질에서 시작하는 대신 50개 수준에서 스크리닝(screening)을 시작할 수 있습니다. 개발 기간과 비용이 대폭 줄어드는거죠. AlphaFold가 하는 일은, 어떤 물질이든 우리 몸에 들어가면 그 화학 성분이 뇌의 특정 단백질에 결합(docking)하는데, 이 도킹 과정을 이해하려면 단백질의 3D 구조를 알아야 합니다. 유전자 서열 정보만 주면 단백질의 3D 구조를 예측하는 것을 과거에는 사람이 했지만 이제는 기계가 합니다. Frederick Sanger가 이를 보고 정말 흐뭇해 하실 것 같습니다.
탐색의 핵심 기술 - Reinforcement Learning(강화학습)

닫힌 환경(Closed environment) 안에서 최적의 정책(optimal policy)을 찾는 학습 방법이에요. 로봇이 다시 화두가 되면서 잠잠해졌던 강화학습이 다시 떡상했습니다. Agent가 action을 하면, Environment가 새로운 state(상태)와 reward(보상)을 돌려주고, Agent는 보상을 최대화하는 방향으로 자신을 업데이트합니다. 이겼다 / 졌다 라는 보상 신호를 기반으로 계속 발전하는 것이죠.
Generation
사람이 평생 못 볼 양의 데이터를 보고, 인간이 구분하지 못할 정도의 유사 데이터를 생성하는 것입니다.
대표적 사례들을 볼까요.
GAN기반 가짜 얼굴 생성

10만 장의 초현실적 AI 초상화. 이 사진 속 웃고 있는 사람들은 단 한 명도 실존인물이 아니에요...!
OpenAI Sora

텍스트 설명만으로 동영상을 생성하는 기술. 눈 덮인 평월을 걷는 매머드 영상을 만들어 냈습니다.
Deepfake

최근 이란-미국 간 갈등에서 가짜 이미지가 대량으로 생산되어 정치적으로 활용하는 문제가 심각해요. 실제로 일어나지 않은 일이 마치 일어난 것처럼 만들어져 유포됩니다.

생성 영역에서 핵심 기술로는 Diffusion Model이 있어요. 텍스트를 Frozen Text Encoder에 넣어 Text Embedding을 만들고, Text-to-Image Diffusion Model이 64 * 64 이미지를 생성한 뒤, Super-Resolution Diffusion Model이 256 * 256, 1024 * 1024로 단계적으로 해상도를 높입니다. 모자를 쓰고 분홍 나비넥타이를 한 돼지 라는 텍스트를 넣으면 실제로 그런 이미지가 만들어지는거죠.
Summary
| Framework | 필요 환경 / 자원 | 대표 사례 |
| Classification | 고정된 수의 클래스, 태깅된 데이터, 잘 정의된 클래스 체계 | ImageNet Challenge |
| Reinforcement Learning | 닫힌 환경, 유한한 상태 수, 보상 / 점수 체계 | AlphaGo, 닌텐도 게임 |
| Diffusion | 대량의 이미지 - 텍스트 데이터 | Stable Diffusion, DALL-E |
'CS & AI > Welcome to AI' 카테고리의 다른 글
| 인공신경망 (0) | 2026.04.17 |
|---|---|
| 아날로그에서 디지털로 (0) | 2026.04.13 |
| 에이전트의 시대 (0) | 2026.04.10 |
| AI 뉴비를 위한 이정표 (0) | 2026.03.31 |
| Hello, AI World! (0) | 2026.03.30 |
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!