본 게시글은 학부 강의 'AI 데이터 표현과 모델링'을 기반으로 이해하고 학습한 내용을 정리하였습니다.
Representation
표현
인류 역사와 기호 관계
https://neverthe1ess.tistory.com/274
Hello, AI World!
Computer Science와 AI 복수전공한 지 좀 지났지만 이제서야 개괄적인 내용을 다루는 수업을 듣는 것 같습니다. 어쩌면 이 수업을 더 일찍 들었더라면 훨씬 공학 공부를 해 나가는데 수월했을지도 모
neverthe1ess.tistory.com
이전에 했던 이야기를 잠깐 되짚어 볼께요.
인류의 역사는 곧 기호(Symbol)의 역사와 궤를 같이 합니다.
쇼베 동굴의 벽화, 이집트 상형문자, 악보, 수학 공식, 화학식
- 이 모두가 실세계의 사물과 현상을 기호로 바꿔 표현한 결과물입니다.
인간의 가장 강력한 지적 능력은 추상화(Abstraction) 능력과 일반화(Generalization) 능력입니다. 이 능력의 자연스러운 결과물이 바로 기호와 개념이며, 기호를 통해 문명을 쌓아왔습니다. 기호로 기록된 지식은 다음 세대에 전달되고, 그 위에 새로운 지식이 더해지며 축적되어 왔어요. 인류 문명이 폭발적으로 성장한 시점에는 세 가지가 동시에 발생했습니다.
인쇄술의 발달
교통의 발달
산업혁명 - 기계의 힘
이전에는 한 사람이 쓴 글이 주변 몇 명만 읽었다면, 복제와 전파가 가능해지면서 전 세계가 같은 정보를 공유하기 시작한 겁니다.
제일 중요한 개념에 대해서 다뤄봅시다.
Representation(표현)
실세계(the Real World)의 사물과 현상을 기호(Symbol)로 변환하는 과정
이 과정을 컴퓨팅 관점에서 다시 그리면, 세상에서 정보를 뜯어내는 과정(빨간색 선, Encoding)과 의사결정을 해서 세상에 다시 정보를 내놓는 과정(파란색 선, Decoding)으로 구성됩니다. 그리고 이 둘 사이에 Computing Algorithm이 위치하죠.
인공지능 / 머신러닝은 아래 세 가지의 퓨전이라고 보면 되겠습니다.
세상을 잘 뜯어내는 연구
뛰어나게 연산하는 연구
그럴듯한 결과를 세상에 생성해내는 연구
요즘 용어로 바꾸면, 세상을 배워내는 것이 Representation Learning, 세상에 생성해내는 것이 생성형 AI(Generative AI)이며, 이 두 가지가 합쳐진 것을 Foundation Model이라 부릅니다.
데이터를 정보로 바꾸는 두 가지 패러다임
데이터로부터 의미 있는 정보(Feature)를 뽑아내는 방법에는 크게 두 가지 흐름이 있어요.
Driven by Human Insight

사람이 직접 특징(Feature)을 설계(Design)하고, 알고리즘 기반으로 추출하는 방식입니다. 2005년경의 얼굴 인식(Face Detection) 기술을 보면, 컴퓨터 비전 연구자들이 눈 사이의 간격, 코와 입의 비율 같은 필터를 직접 디자인했습니다. 이렇게 만든 필터를 이미지 위에 슬라이딩(Sliding)하면서 대조하고, 각 필터의 일치도 점수를 합산하여 이 이미지가 사람의 얼굴인지를 판별했습니다. 이런 작업을 Feature Engineering이라 부릅니다.
이 방식에는 근본적 한계가 있습니다.
- Feature를 디자인한 사람의 경험과 지식 범위 안에서만 작동한다. 예를 들면, 목재 사다리만 본 사람이 설계한 사다리 인식기는 금속 사다리를 인식하지 못한다.
- 실험실 안에서는 잘 작동하지만, 세상 밖에 나오면 예외가 끝없이 발생한다.
- 핵심 인력이 이직하면 기술이 그대로 복제(Copy)되거나, 반대로 핵심 인력이 떠나면 경쟁력을 잃는다.
이 방식의 대표적 산물이 전문가 시스템(Expert System)입니다. IBM Watson이 이 계보의 정점에 있었으며, 의료 진단 등에 활용되었으나 기본적으로 내가 커버할 수 있는 범위 밖의 예외에 취약하다는 한계를 보였습니다. 인공지능의 첫 번째 겨울(AI Winter)이 온 이유가 바로 이것입니다.
Driven ny Data and Tasks

사람이 Feature를 디자인하는 대신, 어마어마한 데이터를 기계에 던져주고, 풀어야 할 문제(Task)만 지정한 뒤, 기계가 스스로 좋은 특징을 배우도록 하는 방식입니다. 뭔가 떠오르지 않나요?
Neural Network를 활용한 Feature Calculation이 이에 해당합니다.
이것이 요즘의 Machine Learning, 특히 Representation Learning 기반의 Machine Learning이죠.
이번에는 두 번째 패러다임, Neural Network 기반의 표현 학습을 주로 다뤄보겠습니다.
Representation Learning?
표현학습을 이해하기 위해 한 가지 퀴즈를 맞춰보죠.

여기에 사다리 그림이 하나 있습니다. 그런데 그림이 조금 어딘가 어색하네요. 중간에 구멍이 보입니다.
구멍을 메꿀수 있나요?
당연히 저희는 메꿀 수 있어요. 우리는 사다리를 알고 있기 때문이죠.

이 사다리를 생각하지 않았나요??
그렇다면 반대 방향을 생각해봅시다. 컴퓨터에게 10억 장의 사다리 이미지를 주고, 랜덤하게 구멍을 뚫은 뒤, 원본을 복원하도록 훈련시킵니다. 복원된 이미지와 원본을 비교하여 얼마나 잘 복원됐는지를 피드백합니다. 이 과정을 1년, 2년, 수십억 장에 대해 반보갛면, 어느 파트에 손상이 오더라도 전부 메꿀 수 있는 기계가 탄생합니다.
그렇다면 궁금한게 한 가지 생겨요.
이 기계는 사다리를 알고 있는건가?
100% 확신할 수는 없지만,
적어도 아무것도 모르는 친구보다는 이 세상에 대한 능력을 갖고 있다고 볼 수 있습니다.
현재 ChatGPT, Gemini 등 최첨단 AI는 모두 이 두 번째 과정 즉, 복원 능력이 곧 이해 능력임을 기반으로 합니다.
이 능력 위에 번역, 작문, 작곡 등의 능력을 하나씩 쌓아 올리는 것이 현재 AI의 구조입니다. 여기서 생성(Generation)이라는 개념이 등장합니다.
알고 있으면 복원(생성)할 수 있다.
Representation Learning의 정의
기계가 세상에 있는 사물과 현상의 특징을 스스로 파악하여, 의미 있는 숫자(벡터)로 바꿔내는 기술의 종합.
현상과 사물의 특징을 기계가 스스로 파악한다.

전통적으로 사과를 표현하려면
color = 'red', shape = 'round', leafs = 'yes'
등의 속성을 사람이 정의해야 했습니다.
Key - Value 형태, 엑셀에서 하던 방식, RDB의 Relational Database 방식, SQL Query Language 등 말이죠.
표현학습에서는 이런 Feature Engineering 없이, 사과를 입력하면 기계가 알아서
[10.7, 24.74, ...]
과 같은 숫자 벡터를 출력합니다.
No more handcrafted feature engineering
이것이 표현학습의 핵심 메시지입니다.

Distributed Representation
분산 표현
Deep Neural Network(DNN)가 기존 AI 방법론들에 비해 큰 의미가 있는 이유는, 실세계의 객체를 표현할 때 기호(Symbol)에 의존하지 않는다는 겁니다.

One - Hot Representation
고양이를 사전의 4번째 항목이라 하면
[0, 0, 0, 1, 0, ...]
처럼 표현합니다. 사전의 어휘가 10만 개라면 10만 차원의 벡터에서 딱 하나만 1입니다. 이를 Sparse Encoding(희소 인코딩) 이라고도 부릅니다. 정보가 한 곳에 몰려있는 형태죠.
Distributed Representation
같은 고양이를
[34.2, 93.2, 45.3, ...]
처럼 컴팩트한 실수 벡터로 표현합니다. 보통 100 - 4000차원 정도로, 10만 차원의 원핫에 비해 훨씬 작지만, 숫자들이 빽빽하게(Dense) 차 있습니다. 정보가 벡터 전체에 분산(Distributed)되어 있어요. 이를 Dense Representation이라고도 부릅니다. 요즘 용어로는 Embedding(임베딩)이라 합니다.
위 두 방식에는 장단점이 존재해요.
- One-Hot의 경우 해석 가능성(Interpretability)이 높아요. 시스템이 의사결정을 내렸을 때, 중간 결과를 보면 이 시스템이 고양이를 봤구나 라고 바로 알 수 있습니다. 몇천 년 간 인류가 써온 방식이에요. 출석부, 엑셀 등등 말이죠.
- Distributed 방식의 경우 인코딩은 쉽습니다. 하지만 숫자 벡터를 다시 고양이 라고 해석하기 어렵습니다. 유사한 개체끼리 벡터 공간에서 가까이 모이기 때문에 어떤 객체인지 정확히 특정하기 어려울 수 있습니다. 고양이 근처에 사자, 호랑이 등이 있는 경우죠. 이것이 인공신경망의 Black Box 문제의 근본 원인입니다.
표현학습과 인공신경망
어떻게 DNN은 사물의 특징을 스스로 파악할 수 있을까?
Latent Variable
이 개념은 Deep Neural Network의 핵심이자 현대 Machine Learning의 정수(Essence)입니다.
숫자에는 두 종류가 있어요.

관측 가능한 변수(Observable Variable, $x$)
실세계에 존재하고 직접 셀 수 있는 값입니다. e.g. 학생수, 개별 수학 점수 etc.
확률 $P(x)$를 부여할 수 있습니다.

잠재 변수(Latent Variable, $h$)
이 세상에 직접 존재하지 않는 가상의 값입니다.
간접적으로만 추정 가능하고, 무엇이든 될 수 있습니다. 반 전체 학생의 대기지수처럼, 여러 관측값을 조합해 만든 값입니다. Hidden Variable 이라고도 부르죠.
Latent Variable $h$가 취할 수 있는 전체 영역은 처음에는 무한대(∞)입니다. 의미 없는 랜덤 값에 불과하죠.
h의 의미 공간을 좁혀가는 도구 두 가지

첫 번째 도구: 구조적 연관성(Structural Association)
$x$와 $h$를 수학적으로 묶어줍니다. 결합확률 $P(x, h)$를 정의하여 x와 함께 잘 나타나는 h를 탐색합니다.

$$P(x, h) = P(x|h) * P(h)$$
$$ P(x) = \int_{h} P(x|h) \cdot p(h) \, dh \quad (\text{연속}) $$
$$ P(x) = \sum_{h} P(x|h) \cdot p(h) \quad (\text{이산}) $$
$x$와 $h$를묶으면 $h$는 더 이상 무한일 수 없어요. $x$가 관측되는 범위 안에서 $h$도 따라가야 합니다. 하지만 여전히 $h$는 $x$의 원인일 수도, 결과일 수도, 우연의 일치일 수도 있어요. 아직 갈 길이 멀죠.
여기에 또 다른 관측 가능한 변수 $y$를 추가하면, $h$는 $x$와 $y$ 둘 다 영향을 받기 때문에 의미 공간이 더 좁아집니다. 교집합 개년ㅁ이에요. $z, z_1, z_2, ...$ 더 많은 변수를 연결할수록 $h$의 범위는 계속 좁아집니다.
쇼핑몰 고객의 벡터를 알고 싶다면, 나이, 자녀 유무, 구매 내역 등 관측 가능한 데이터를 디자인하여 h에 연결하면 됩니다. 유사한 고객은 유사한 벡터 공간에 매핑되겠죠.
두 번째 도구: 대량의 데이터
까마귀 날자 배 떨어진다.
이게 한 두 번은 우연이지만, $x$와 $h$의 페어가 100개, 1000개, 10억 개, 100억 개까지 관측되면 우연이 아닌 패턴을 발견할 수 있어요. 데이터가 많을수록 h의 의미 공간이 점점 더 정확하게 좁혀져요.
Latent Variable의 의미 영역을 축소시키는 두 가지 도구
1. 대량의 데이터 - 많을수록 표현학습이 쉬워진다.
2. 구조적 연관성 - 잘 설계하면 좋은 표현을 얻어낼 수 있다.
이 두 가지가 현대 머신러닝, 특히 Representation Learning을 떠받드는 양대 축입니다.
현실적인 관점에서 의미를 찾자면 아래와 같이 정리해볼 수 있습니다.
- 데이터가 많이 필요하다는 건 대규모 파이프라인이 필수라는 것.
- 하루 방문자 100만 명인 사이트가 1만 명인 사이트보다 유리하다.
- 구조적 연관성을 잘 설계애햐 한다.
- 해당 업종(Business)을 잘 이해하는 사람이 AI 구조를 디자인할 때 더 좋은 결과를 얻는다.
하지만 최근 더 이상 가져다 쓸 만한 데이터가 없다, 데이터가 고갈되었다는 논의가 나오고 있습니다. 이유가 뭘까요?
수천 년간 쌓아놓은 과거 문헌만으로는 거대한 Neural Network의 모든 파라미터를 채울 수 없기 때문입니다.


'CS & AI > Welcome to AI' 카테고리의 다른 글
| 이제는 '대' 지피티 세상 (0) | 2026.04.18 |
|---|---|
| 인공신경망 (0) | 2026.04.17 |
| 에이전트의 시대 (0) | 2026.04.10 |
| 인공지능에 대한 접근 방식 / Approach to AI (0) | 2026.04.10 |
| AI 뉴비를 위한 이정표 (0) | 2026.03.31 |
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!