본 게시글은 학부 강의 'AI 데이터 표현과 모델링'을 기반으로 이해하고 학습한 내용을 정리하였습니다.
Computer Science와 AI 복수전공한 지 좀 지났지만 이제서야 개괄적인 내용을 다루는 수업을 듣는 것 같습니다.
어쩌면 이 수업을 더 일찍 들었더라면 훨씬 공학 공부를 해 나가는데 수월했을지도 모른다는 생각이 들었습니다.
Where are we?
AI, 정확히는 ChatGPT가 나와서 세상을 뒤집어 놓은지 6년 정도가 흘러가고 있는 것 같습니다.
현재 우리 문명이 어디에 서 있는지를 이해하기 위해 크게 두 가지에 대해 이야기 해보려 합니다.
Data Explosion
인류 문명의 급격한 변화
인류가 유인원에서 현생 인류로 발전하기까지 대략 100만 년이 걸렸습니다. 그런데 그 긴 시간 중 대부분은 거의 변화가 없었어요. 할아버지 세대와 그 할아버지 세대의 삶이 거의 똑같았다는 것이죠. 하지만 지금은 2 - 3 세대만 지나도 완전히 다른 세상이 되어버린 것 같습니다. 우리 할아버지, 할머니가 살던 시대와 우리가 사는 시대는 근본적으로 다릅니다. 어르신들의 지혜는 소중하지만, 그 지혜의 상당 부분이 현재 세대에 그대로 전수되기 어려운 이유가 여기에 있다고 봐야하지 않을까요?
컴퓨터 등장 이후의 데이터 증가
이 변화의 핵심 동력 중 하나가 컴퓨터일 겁니다.
1945년 최초의 컴퓨터가 등장한 이후, 컴퓨터의 역할은 단계적으로 확장되었습니다.
연산의 시대
처음에는 인간이 하던 복잡한 계산을 컴퓨터에 맡기기 시작했습니다.
저장의 시대
하드디스크, 테이프, SDD 등 저장장치가 발전하면서, 인간의 지식을 기계에 저장하기 시작했어요. 1990년대까지 이 흐름이 이어졌습니다.

과거에는 한국에서 지식의 상징은 두산 백과사전 이었다고 해요. 집에 두산 백과사전이 있으면 "그 집은 좀 사는 집"이라고 여겨질 정도였답니다. 영국의 브리태니커 백과사전(Britannica)도 마찬가지로, 수십 권에 달하는 방대한 책이었는데, 1990년대에 이 모든 내용이 CD 한 장에 담기기 시작했습니다.
인터넷과 클라우드의 시대
그 CD조차 인터넷 시대가 오면서 5년도 못 가 사라졌습니다.
생각해보니까 그렇네요. 저도 분명 CD 플레이어로 구운 CD를 넣어 노래를 듣던 때가 있었지만 생각보다 얼마 안가 MP3라는 고오급 기기를 사용했던 것 같아요.
위키 피디아(Wikipedia)나 구글 검색어 그 자리를 대체했습니다. 과거에는 특정 정보 문헌의 정보를 찾으려면 대학 도서관에 가야 했습니다. <라떼는> 제가 대학교 1학년 때만 하더라도 구글 검색도 어려워 선배들에게 받은 보고서 하나도 정말 귀했죠. 도서관 CD나 하드디스크에 정보가 있었기 때문에 도서관도 꽤나 애용했던 기억이 있습니다. 하지만 지금은 전 세계 누구나 어디서든 접근 가능한 시대, 즉 클라우드 시대가 도래했습니다.
모바일의 시대(1999 - 2000년경)
스마트폰의 등장으로 데이터 접근성이 폭발적으로 증가했습니다. 컴퓨터보다 스마트폰의 보급 속도가 더 빨랐습니다. 저의 갤럭시S2는 아직도 제 인생 GOAT 입니다.
데이터의 색깔이 달라졌다.

이 그래프를 볼까요?
데이터의 구성이 달라지고 있다는 걸 직관적으로 알아볼 수 있습니다.
- 파란색(Social Media): 사람이 직접 만드는 데이터. 전체에서 차지하는 비중이 생각보다 크지 않습니다.
- 빨간색(Enterprise Data): 넷플릭스 같은 기업이 생산하는 데이터
- 노란색(Sensors / IoT): 가장 가파르게 증가하는 데이터. 삼성 에어컨을 휴대폰으로 제어하는 것처럼, 기기들이 서로 통신하며 생산하는 데이터
브리태니커 시대에는 데이터의 생산자(producer)도 사람, 소비자(consumer)도 사람이었습니다. 하지만 클라우드 시대, IoT 시대에 접어들면서 기계가 생산하고 기계가 소비하는 데이터가 폭발적으로 늘어나고 있습니다. 우리가 알지 못하는 사이에 세상에는 엄청난 양의 데이터가 흘러다니고 있죠.

이 수치를 한 번 봐봅시다. 다소 충격적이기도 하네요.
대학원을 갈 계획인 저에게 조금 막막해지기도 합니다.
왼쪽 그래프를 보면
전체 학술 논문을 보여주고 있습니다. 2024년 연간 약 585만 편, 하루 약 16,027편 출판. 2000년 대비 4.8배 증가한 걸 볼 수 있습니다.
오른쪽 그래프를 봅시다.
AI 분야 논문 추이를 보면 2024년 연간 약 28만 5천편, 하루 약 781편 출판. 2010년 대비 15.7배 증가했습니다.
과거 브리태니커 시대에는 컴퓨터 과학이나 생물학 같은 분야에서 당대의 문제를 대부분 파악하고 있는 사람이 존재할 수 있었습니다. 하지만 인간의 구조는 100만 년 전이나 지금이나 같습니다. 24시간 중 약 8시간을 자고(?) 밥 먹고 쉬면 실제 일할 수 있는 시간은 8 - 10시간이라고 볼 수 있죠. 아무리 열심히 해도 사람이 1년에 읽을 수 있는 논문은 약 250편이 한계라는 겁니다. 그런데 쏟아져 나오는 논문의 양과 인간의 인지적 한계 사이의 격차가 점점 벌어지고 있어요.
이건 조금 심각하게 봐야할까요?
누군가 이미 개발한 것을 모르고 다시 만들 수도 있고(reinventing), 이미 발견된 것을 다시 발견할 수도 있습니다. 인류의 과학과 문명 대부분을 더 이상 개인이 소화할 수 없는 시대가 된 것 같아요.
인지 범위의 변화 / 과거 vs 현재

과거, 조선시대로 가볼까요?
마을에서 가장 현명한 사람이 누구였을까요?
그 마을의 우두머리였습니다. 왜 일까요?
그 동네에서 가장 오래 살았고, 가장 많은 경험을 했기 때문입니다. 의사결정의 근거는 그 사람이 걸어다닐 수 있는 물리적 거리, 읽은 책, 만난 사람의 관계 등 이 좁은 인지 범위 안에 있었어요. 특히 농경 사회에서는 경험(나이)이 매우 중요한 자산이었던 거죠.
현재는 어떤가요?
인간의 인지 범위는 여전히 물리적 한계에 묶여 있습니다. DNA는 100년 전 사람이나 지금 사람이나 같죠. 물론, 돌연변이 등의 미시적인 요소는 지금 생물학 게시글이 아니니 무시합시다. 예나 지금이나 시력도 같고, 수면 시간도 같습니다. 하지만 스마트폰이나 컴퓨터가 있으면, 아프리카의 작은 도시에서 일어나는 일도, 월스트리트의 주가도 실시간으로 확인할 수 있습니다. 우리가 살고 있는 세계의 범위와 우리의 인지 범위 사이에 거대한 회색 영역(Fig. 1.3 오른쪽 그림)이 생긴 겁니다.
우리는 이 회색 영역을 해결할 도구가 필요합니다. 그 도구 중 하나가 바로 인공지능(AI) 인거죠.
Representation Shift
표현의 변화
인류 문명의 역사 ≈ 기호(Symbol)의 진화 역사
과장을 좀 보태면 인류 문명의 진화는 기호(Symbol)와 정신(spirit)의 진화와 다를 바 없다고 볼 수 있습니다.
동굴 벽화(약 3 - 4만 년 전)를 한 번 떠올려 볼까요?
유럽에서 발견된 가장 오래된 벽화 중 하나인 코뿔소 그림. 이 벽화가 특별한 이유는 인간이 현실 세계를 기호(symbol)로 표현할 수 있다는 증거이기 때문입니다.

코끼리, 원숭이도 그림을 그릴 수 있습니다. 눈과 손이 있으니까요.
하지만 인간이 특별한 것은 일반화(generalization) 능력입니다. 수많은 코뿔소를 보고, 생김새가 다 다르지만, 그것들을 관통하는 핵심 특징을 추출해서 다른 사람도 "아, 코뿔소구나" 라고 알아볼 수 있게 표현하는 것이겠죠.
이것이 인간만의 능력이라고 볼 수 있습니다.
이 기호화가 시작되자, 벽화를 본 사람들은 "이 동네에 코뿔소가 살았구나", "코뿔소를 어떻게 사냥하지?", "코뿔소는 뭘 먹고 자라지?" 같은 정보를 기록하고 공유하기 시작했습니다.
상형문자에서 문자 체계로

코뿔소 그림 수준을 넘어서, 사람의 지식뿐 아니라 생각, 감정, 사회 구조까지 기록하고 전달할 수 있게 되었습니다. 같은 세대 사람들이나 다음 세대에게 지식을 전달하는 이 과정 자체가 정보의 축적(accumulation)을 만들어냈어요. 눈덩이가 굴러가듯, 축적된 정보는 다음 세대에 계속 쌓여갔습니다. 그 결과가 지금 논문이 사람의 인지 한계를 넘어설 정도로 쏟아지는 수준에 이른 것입니다.
악보와 음악
모차르트 시대의 작곡가들은 머릿속에 떠다니는 음악을 오선보(五線譜) 라는 기호 체계로 인코딩(Encoding) 했습니다. 이 기호 체계는 현대 연주자들도 공유합니다. 그래서 300년 전의 음악을 지금도 다시 재생(decoding)할 수 있죠.
누가 이것을 잘 인코딩하는가?
좋은 작곡가
누가 잘 디코딩하는가?
좋은 연주자
이런 구조라고 보면 될 것 같습니다.
현실 세계에서 떠다니는 정보를 인코딩(encoding)하고 디코딩(decoding)할 수 있는 시스템이 필요하고, 인코딩된 것은 축적, 관리되어 다음 세대로 전달됩니다.
수학과 과학
추상의 영역으로 가봅시다.
기호 체계가 고도로 발전하면, 현실에 직접 보이는 것(코뿔소, 사과, 음악)을 넘어 현실에는 존재하지 않는 것까지 다루게 됩니다. 수학이 대표젹이죠. 수식에는 현실에 "3" 이라는 숫자가 따로 있는 게 아니죠? 하지만 기호 체계 안에서 새로운 것을 발견하면, 그것이 실제로 현실에 존재하기도 합니다. 양자 문명의 본질이 이것이라 볼 수 있겠습니다.
세계를 담는 그릇(기호 체계)을 만들었는데 그 그릇 안에서 새로운 것을 발견했더니 그것이 실제로 존재했다는 겁니다.

어떤 사례가 떠오르지 않나요?
노벨상 수상으로 많은 분들이 아실 것 같습니다.
블랙홀
영원히 갈 수 없는 곳일지 모르지만, 수학과 물리학이라는 기호 체계 안에서 예측한 결과가 실제로 사진으로 확인되었죠
기호의 생산자와 소비자가 모두 인간이던 시대는 끝났다.
지금까지 기호 체계의 기본 전제는 기호를 만드는 사람도 인간, 그것을 소비하는 사람도 인간이라는 것입니다. 내가 논문을 쓰면, 누군가(인간)가 읽고 이해하겠죠.
하지만 앞서 설명하였듯, 인간은 더 이상 쏟아지는 데이터를 감당할 수 없습니다. 상황 파익이든 의사결정이든, 이 데이터를 어떤 방식으로든 활용할 수 있는 도구가 필요합니다. 그 도구로 배워나갈 것이 AI 인 겁니다.
'CS & AI > Welcome to AI' 카테고리의 다른 글
| 인공신경망 (0) | 2026.04.17 |
|---|---|
| 아날로그에서 디지털로 (0) | 2026.04.13 |
| 에이전트의 시대 (0) | 2026.04.10 |
| 인공지능에 대한 접근 방식 / Approach to AI (0) | 2026.04.10 |
| AI 뉴비를 위한 이정표 (0) | 2026.03.31 |
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!