본 게시글은 학부 강의 'AI 데이터 표현과 모델링'을 기반으로 이해하고 학습한 내용을 정리하였습니다.
Artificial Neural Network
인공신경망
Artificial Neural Networks(ANN)은 동물의 뇌에 있는 생물학적 신경망(Biological Neural Networks)에서 느슨하게 영감을 받은 컴퓨팅 시스템입니다.
| Biological Neural Networks | 뇌의 (소규모) 근사: Small Scale Approximation of Brain |
| Real Numbers | 세상을 실수 벡터로 표현 Representation Learning |
| Non-linear Function | 어떤 함수든 근사 Function Approximation |
| Learning Weights | 데이터로부터 가중치를 학습 Parameter Learning |
Motivation of ANN
Brain Plasticity
뇌의 가소성
BrainPort
1960년대부터 연구된 기술로, 카메라가 촬영한 영상을 전기 자극 격자로 변환하여 혀 위에 올려놓으면, 3 - 4일 훈련 후 혀로 사물을 볼 수 있게 됩니다. 이것이 보여주는 것은 뇌의 가소성(Plasticity)입니다.
뇌를 해부학적으로 각 영역이 특정 기능(시각, 청각, 언어 등)에 매핑되어 있다고 알려져 있지만, 새로운 자극(데이터)를 주면 해당 영역의 뉴런이 적응합니다. 맛을 느끼는 파트도 시각 데이터를 넣어주면 보게 된다는 것은 지능이라는 것이 아닌 뇌 전체에 공통적으로 분포해 있음을 의미합니다.
그 공통된 기본 단위가 바로 Neuron입니다.
주변 신경으로부터 전기적 신호를 받아, 일정 임계점(Threshold)를 넘으면 다음 뉴런으로 Fire(발화)하는 구조다. 이것이 수조 개 동시에 운영되는 것이 우리 뇌의 동작입니다.
뇌에는 지능을 구현하는 능력이 있다.
그 능력의 기본 단위(뉴런)을 컴퓨터에서 구현하자
Perceptron(1950)
ANN
DNN(2010 재부상)
Perceptron
가장 단순한 ANN
한 농부가 사과의 날짜별 크기 데이터를 기록했다고 합시다.
날짜($x$)와 사과 크기($y$)의 관계를 선형 회귀(Linear Regression)로 모델링하면
$$ y = ax + b $$
$$ Size = 0.5 * day + 5 $$
이 선을 배운 후에 크기가 30이상이면 판다는 의사결정을 추가하면
- $y = ax + b$ 식은 입력 데이터를 변환하는 역할, 여기서는 day를 size로 변환합니다.
- 가중합을 시킨 형태는 $Y = WX + b$가 되겠죠.
- $y > 30$이면 팔자는 이 의사결정은 Activation Function(Step Function)이 됩니다.
이것이 곧 Neural Network의 기본 프레임워크 입니다.
https://neverthe1ess.tistory.com/269
[Coursera] Gradient Descent / Deep Learning Specialization
우리는 Cost Function $J(w, b)$를 최소화 하는 w, b를 찾는 것이 목표라고 했었죠. 하지만 여기서 의문이 하나 들었어요. 왜 굳이 Sigmoid인가? Threshold(임계값)로 자르면 안되나? 저는 이 궁금증이 생겼을
neverthe1ess.tistory.com
Perceptron의 알고리즘
가장 단순화된 형태로 입력 2개, 출력 1개인 모델이라 가정해볼께요.
- 각 입력에 가중치를 곱한다.
- 가중합을 구한다
$$Sum = W_0 * input_0 + W_1 * input_1$$
- Activation Function 적용
if (sum > 0) return 1; else return -1;
Bias의 필요성
만약 $x = 0, y = 0$이면 가중합이 항상 0이 됩니다. 하지만 우리는 +1 또는 -1을 출력해야 해요.
Bias를 추가하면
$$0 * W_x + 0 * W_y + 1 * W_{bias} = W_{bias}$$
$x = 0, y = 0$인 경우에도 의미 있는 출력을 낼 수 있습니다.
Perceptron의 학습(Training)
(최적의) W와 b를 찾는 것이 학습입니다.
ERROR = DESIRED OUTPUT - PREDICTED OUTPUT
NEW WEIGHT = WEIGHT + ERROR × INPUT × LEARNING RATE
기울기(W)와 Bias(b)를 계속 조정하면서, 두 클래스를 구분하는 선을 탐색하는 과정이라 볼 수 있어요.
Perceptron의 한계
- Perceptron이 할 수 있는 것
- 선형 분리 가능(Linearly Separable)한 문제.
- AND, OR 등
- Perceptron이 할 수 없는 것
- 선형 분리 불가능(Not Linearly Separable)한 문제.
- XOR 등
현실의 거의 대부분의 데이터는 Non-Linearly Separable이기 때문에 단일 Perceptron으로는 실세계 문제를 풀 수 없습니다.
XOR은 논리적으로 OR과 NOT AND의 조합입니다. 한 층에서 OR을 풀고, 다른 층에서 NOT AND를 풀어서 합치면 돼요.
그래서 Multi-Layer Perceptron(MLP)이 등장하죠.
Multilayer Perceptron(MLP)
구조 이해를 위해서 단일의 Hidden Layer로 구성된 MLP 구조를 봅시다.

Input Layer: 입력벡터 $x$
Hidden Layer: $h(x) = Φ(x) = s(b^{(1)} + W^{(1)}x)$
Activation Function $s$(e.g. $tanh$)를 적용
Output Layer: $o(x) = G(b^{(2)} + W^{(2)}h(x))
Scoring Function G(e.g. Softmax))를 적용
이를 함수로 표현하면 아래와 같아요.
$$f(x) = G(b^{(2)} + W^{(2)}(s(b^{(1)} + W^{(1)}x)))$$
여기서 D는 input vector $x$의 크기, $L$은 output vector $f(x)$의 크기입니다.
밑에서부터 순차적으로 계산하여 올라가는 과정을 Feed Foward Propagation이라 부릅니다. 학습 시에는 Back Propagation을 사용하지만, 이건 아래 링크에서 자세히 다루었으니 참고합시다.
https://neverthe1ess.tistory.com/275
[Coursera] Computation Graph / Deep Learning Specialization
Neural Network의 계산 두 단계Foward Propagation: Input에서 Ouput(Cost Function J)까지의 값을 계산Backward Propagation: Output에서 Input 방향으로 Derivative(Gradient)를 계산 우리는 지금 아래의 식을 계산하고 싶습니다
neverthe1ess.tistory.com
https://neverthe1ess.tistory.com/284
[Coursera] Gradient Descent in Logistic Regression / Deep Learning Specialization
앞서 배운 computation graph 개념을 Logistic Regression에 직접 적용해봅시다. Logistic Regression 요약feature가 2개라고 가정하면 Foward propagation 순방향$$z = w_1x_1 + w_2x_2 + b$$$$a = \sigma(z), 이는 y_hat 과 동일$$$$L(a,
neverthe1ess.tistory.com
Activation Function
선형함수를 아무리 많이 쌓아도 결과는 여전히 선형함수입니다. 이를 간단히 증명할 수 있어요.
$$y_1 = ax + b, y_2 = wy_1 + g = w(ax + b) + g = wax + (wb + g) $$
결국 또 다른 선형함수가 됩니다. 따라서 선형적인 패턴 외에는 아무것도 적용할 수 없어요. 뻔하디 뻔한 것만 할 수 있다는 거죠. 그래서 Non-linear Activation Function이 반드시 필요합니다.
주요 Activation Function 들을 알아봅시다.
Sigmoid(Logistic Function / Fermi Function)

$$ \sigma(x) = \frac{1}{1 + e^{-x}}$$
출력 범위: (0, 1) 이고 항상 양수
$tanh$(Hyperbolic Tangent)

$$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$$
출력 범위: (-1 , 1)이고 Backpropagation이 더 빠르다.
ReLU(Rectified Linear Unit)
$$f(x) = max(0, x)$$
입력이 음수면 0, 양수면 그대로 출력. 생물학적으로 더 그럴듯(Biologically Plausible)하다고 알려져 있습니다. 양의 영역에서 값이 상한 없이 올라갈 수 있어요(unbounded).
ReLU의 부드러운 근사가 Softplus 함수 입니다. 식은 아래를 참고하세요.
$$f(x) = log(1 + e^x)$$
비선형 함수를 쓰면 두 개의 선형함수에 ReLU를 각각 적용한 뒤 합치면, 결과는 더 이상 직선이 아닌 꺾인 형태가 됩니다. 이렇게 비선형 문제를 풀 수 있게 되는거죠.
3 Faces of ANN
ANN의 세 가지 얼굴
Face 1: Representation Learning
앞서 설명한 바와 같이, 잘 학습된 Neural Network는 유사한 데이터를 유사한 벡터 공간에, 다른 데이터를 다른 공간에 배치합니다. 이미지든 자연어든, 고차원 공간에서의 의미 있는 벡터 표현을 자동으로 학습합니다.
Face 2: Universal Integrateable Data Interface
범용 데이터 통합 인터페이스.
이미지, 음성, 텍스트, 이벤ㅌ, 테이블 데이터 etc.
기존에는 각각 별도의 포맷과 시스템으로 관리되었어요. 하지만 각 데이터를 Neural Network에 통과시키면 모두 벡터로 표현(Embedding)됩니다. 벡터는 더하고, 빼고, 붙이고, 비교할 수 있습니다. 이미지 베거와 그 이미지를 설명하는 텍스트의 벡터를 같은 공간에 배치할 수도 있습니다.
수천 년 만에 처음으로, 모든 데이터를 하나의 범용적이고 조합 가능한 인터페이스(벡터/임베딩)로 통합할 수 있게된 것이죠.
이전에는 고객의 이미지 정보, 텍스트 정보, 구매 이력 등을 따로따로 관리해야 했습니다. 하지만 전부 Embedding하여 종합적으로 관리하면 그 고객을 훨씬 정확하게 파악할 수 있습니다.
Face 3: Univeral Function Approximation
범용 함수 근사
함수(Function)의 정의
$x$라는 입력 도메인에서 $y$라는 출력 도메인으로의 매핑. 단, 하나의 입력이 여러 출력으로 가면 안된다는 것이 핵심.
즉, N:1 관계
만약 인간의 지적 기능을 복잡한 함수로 정의할 수 있다면, Neural Network가 그 함수를 근사(Approximation)할 수 있다면, 기계도 같은 지적 기능을 수행할 수 있다는 뜻이 됩니다.
실험적으로도, Step Function, 복잡한 2차원 함수 등 어떤 형태의 함수든 그 함수의 입출력 데이터를 충분히 주면 Neural Network가 동일한 형태를 학습할 수 있다는 것을 확인할 수 있어요. Hidden Node(가중치)가 많을수록 더 복잡한 함수도 카피할 수 있습니다.
ANN의 역사적 흐름
| 시기 | 사건 |
| 1950년대 | Perceptron 등장. 뇌의 뉴런을 수학적으로 구현 |
| 1980~90년대 | ANN 연구 활발. 그러나 계산량 감당 불가로 침체 |
| ~2010년 | 약 20년간 ANN 연구 정체기. 소수 연구자만 유지 |
| 2010년대~ | GPU(NVIDIA)의 등장. 모바일 / 클라우드 시대의 데이터 폭발 → DNN 부활 |
| 현재 | Transformer 등 거대 모델. 엣지 하나가 10조 ~ 20조 개. Foundation Model 경쟁 |
2010년도에 ANN이 부활한 이유가 두 가지 있어요.
데이터 문제가 해결됐습니다. 아이폰 (2009)으로 스마트폰 시대의 막이 올랐고 모든 사람이 정보를 생산하게 되었습니다. 그 결과 데이터가 폭발적으로 늘어났죠.
연산 문제가 해결됐습니다. GPU를 활용한 대규모 병렬 연산이 가능해졌어요. NVIDIA가 이 기회로 엄청난 성장을 했죠.
'CS & AI > Welcome to AI' 카테고리의 다른 글
| 이제는 컴퓨터도 하는 자기주도학습 (0) | 2026.04.25 |
|---|---|
| 이제는 '대' 지피티 세상 (0) | 2026.04.18 |
| 아날로그에서 디지털로 (0) | 2026.04.13 |
| 에이전트의 시대 (0) | 2026.04.10 |
| 인공지능에 대한 접근 방식 / Approach to AI (0) | 2026.04.10 |
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!