최근 AI 언어 모델 시장은 GPT, BERT, T5 등 다양한 모델로 가득 차 있습니다. 이제 새로운 경쟁자로 DeepSeek가 등장하며, 기존 모델들과의 차별화된 특징을 보여주고 있습니다. 이 글에서는 DeepSeek와 다른 주요 언어 모델을 비교해보고, 각 모델의 장단점을 살펴보겠습니다. 특히 중국에서 출시한 딥시크가 엄청난 이슈가 되고 있는데요.
DeepSeek 소개
DeepSeek는 최근 출시된 언어 모델로, 기존 모델들과는 다른 접근 방식을 채택하고 있습니다. 이 모델은 고속 처리와 높은 정확도를 강점으로 내세우며, 특히 실시간 응용 프로그램에 적합하도록 설계되었습니다. DeepSeek는 대규모 데이터셋을 기반으로 학습되었으며, 자연어 생성(NLG)과 이해(NLU) 모두에서 뛰어난 성능을 보여줍니다. 또한, 사용자 정의가 쉽고 다양한 산업 분야에 적용할 수 있는 유연성을 갖추고 있습니다. 무엇보다 가격대비 성능이 뛰어나다고 알려져 있습니다.
현재 수학 및 추론에서 GPT-4o와 Claude 3.5 Sonnet을 능가하는 성능을 보였으며,
코딩 및 창작 작업에서는 Claude 3.5 Sonnet이 약간 우위라고 합니다.
- 14.8조 고품질 데이터로 사전 훈련
- 훈련 비용은 $6m(87억원) 밖에 들지 않음. Nvidia h800s 클러스터(2048개 GPU)에서 약 278만 GPU 시간 소요
- 비교: Meta의 Llama 403B는 15조 토큰에서 약 3084만 GPU 시간 필요. 약 11배가 들었음
현재 사이트에서 무료로 가입이 가능하구요.
구글 계정을 연동해서 계정 생성이 됩니다.
DeepSeek vs GPT 시리즈: 생성 능력 비교
GPT 시리즈(예: GPT-3, GPT-4)는 자연어 생성 분야에서 독보적인 위치를 차지하고 있습니다. GPT 모델들은 방대한 데이터를 기반으로 학습되어 창의적인 텍스트 생성 능력이 뛰어납니다. 반면, DeepSeek는 실시간 처리 속도와 에너지 효율성에서 두각을 나타냅니다. GPT 모델은 대규모 리소스를 필요로 하는 반면, DeepSeek는 상대적으로 적은 컴퓨팅 자원으로도 높은 성능을 유지할 수 있습니다.
예를 들어, GPT 모델은 창의적인 글쓰기나 복잡한 질문 응답에 적합하지만, DeepSeek는 실시간 채팅봇이나 고속 데이터 처리와 같은 작업에서 더 나은 성능을 발휘합니다.
실제로 딥시크는 OpenAI o1시리즈랑 비교했을때 가격이 96.4%나 절감이 된다고 합니다. 미니버전보다도 5배 정도 저렴합니다.
이러한 가격 대비 성능이 뛰어나다고 하는데요. 성능도 성능이지만 현재 딥시크 모델 하나 만드는 전체 훈련 비용이 고작 500만달러(대충 70~75억원 정도)에 불과하다고 하는데요. 구글의 제미나이가 500억달러( 70조)에 달하는 프로젝트인데도 불구하고 성능이 밀린다고 합니다.
특히 미국이 중국에 AI 반도체 판매를 금지하여 성능이 떨어지는 AI반도체를 가지고 만들었다는 점도 엄청 고무적입니다.
Deepseek 사용후기
기본적으로 ChatGPT의 인터페이스와 동일하구요. 차이점은 하단에 DeepThink를 사용할것인지 search를 통해서 웹 검색에서 데이터를 가져올 것인지를 선택할 수 있습니다.
그리고 파일 업로드해서 분석하는 기능 역시 잘 동작합니다. 그리고 chatGPT보다 확실히 반응속도가 빠르다는 느낌이 들었습니다.
일반적으로 사용할 때 크게 불편함은 없는 정도이구요. 다만 기존에 ChatGPT로 사용하던 것보다 매끄럽지 못한 부분은 일부 있습니다. 하지만 이 부분 역시 많은 데이터가 누적되면 따라잡을 수 있을 부분이라고 생각되구요.
중국이 이정도 자체엔진을 만드는데, 한국에서는 자체 모델보다는 빌려 쓰는 형태로 AI산업이 발전하고 있는 것 같아 아쉽네요.