프롬 스크래치?
과거 육상 경기나 스포츠에서 출발선이 따로 없을 때, 땅바닥에 ‘슥 긁어서(Scratch)’ 선을 만든 것에서 유래되었습니다. 즉, 아무런 도움이나 어드밴티지 없이 그 선(시작점)에서부터 공정하게 시작한다는 의미를 담고 있습니다.

프로그래밍 (Coding from Scratch)에서는 이미 만들어진 라이브러리, 프레임워크, 또는 템플릿을 사용하지 않고 순수하게 코드 한 줄 한 줄을 직접 짜는 것을 말합니다.

즉 이에 따라 오픈 AI의 GPT나 구글의 제미나이 같은 기존 모델을 가져와서 미세 조정(Fine-tuning)하는 것이 아니라, 모델의 구조(Architecture) 설계부터 데이터 수집, 사전 학습(Pre-training)까지 모든 과정을 자체적으로 수행하는 것을 말합니다.
‘프롬 스크래치’가 논란 이유?
최근 과학기술정보통신부가 추진하는 ‘독자 AI 파운데이션 모델’ 프로젝트에서 네이버클라우드가 자격 논란에 휩싸였습니다.
네이버의 최신 AI 모델이 중국 알리바바의 오픈소스 모델인 ‘큐원(Qwen)’의 인코더(Encoder)와 가중치(Weights)를 일부 사용했다는 의혹이 제기되었습니다.

네이버는 “전체 시스템의 효율성과 호환성을 위해 검증된 모듈(인코더)을 전략적으로 채택한 것이지, 기술력이 부족해서가 아니다. 이는 ‘거인의 어깨’ 위에서 우리만의 가치를 더하는 과정이다.”
다만 일부 과학자는 네이버의 설명을 아래와 같이 반박하기도 했습니다. “인코더와 가중치는 AI의 ‘두뇌’이자 ‘시신경’과 같은 핵심 부위입니다. 이를 해외 모델에 의존하면 진정한 기술 자립(소버린 AI)이라고 볼 수 없다.”
‘진정한 독자 개발’의 기준은 어디까지일까?
이번 논란은 “어디서부터 어디까지 직접 만들어야 ‘프롬 스크래치’인가?”라는 근본적인 질문을 던졌습니다. 기사에서는 이를 해결하기 위해 ‘AI 주권 7단계 등급 체계’ 제안을 소개하고 있습니다.
하위 단계: 단순히 해외 빅테크의 API를 호출해 쓰는 수준
중간 단계: 해외 모델의 구조를 참조하되 가중치는 100% 자체 학습하는 수준
상위 단계: 국가 안보와 인프라 자립도가 완전히 보장되는 완전한 독자 기술 수준
왜 ‘프롬 스크래치’가 중요할까?
정부와 기업이 힘들게 ‘처음부터’ 개발하려는 이유는 명확합니다.
프롬스크래치를 하지 않고 빌려 쓸 경우, 해외 기업이 갑자기 라이선스 비용을 올리거나 사용을 금지할 경우에 문제가 생깁니다.
또한 국방, 의료 등 국가의 중요한 데이터를 처리할 때 해외 모델을 거치지 않아야 안전하게 해외로 유출되지 않습니다.
마지막으로 우리말의 맥락이나 한국 특유의 문화를 가장 잘 이해하는 AI를 만들기 위함입니다.
사실 정말 외부 오픈 소스 사용을 최소화하고 직접 만드는 것이 중요할 것 같은데요. 최근 프로그래밍 개발에 많은 부분이 오픈 소스 사용을 하는 형태입니다.
기술력이 부족한 한국에서느 독자적인 AI 모델 설계자체가 쉽지 않은 상황인데,과연 어디까지 프롬 스크래치 할지 궁금하네요.