deepseek2 [논문 리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (DeepSeek-AI 2025) 논문명: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 저자: DeepSeek-AI출간지: SCIENCE CHINA Technological Sciences발간일: 22 Jan 2025I. IntroductionLLM의 발전을 언급하며, Post-training이 특히 모델의 성능 향상의 큰 기여를 한다고 한다. 한편, OpenAI의 o1 모델 시리즈는 추론 과정(CoT)의 길이를 늘려 추론 성능을 강화하는 기법을 최초로 도입하여 다양한 영역에서 성과를 보였으나, Test-Time Scalinig 문제는 여전히 해결되지 않는 연구 과제임을 이야기 한다.* Test-Time Scaling : 모델이 훈련 .. 2025. 2. 13. [논문 리뷰] Deepseek-V3 Technical Report (DeepSeek-AI 2024) 논문명: DeepSeek-V3 Technical Report 저자: DeepSeek-AI 출간지: SCIENCE CHINA Technological Sciences발간일: 27 Dec 2024 본 포스터는 DeepSeek-V3 리포트를 읽고 리뷰한 것이다. 아키텍처와 실험 결과 위주로 보기 쉽게 정리하는 것을 목표로 두었다. (내용이 너무 많아서) I. 모델 정보항목설명총 파라미터 수671B활성화 파라미터 수토큰 당 37B개 활성화아키텍처Multi-head Latent Attnetion(MLA) 및 DeepSeekMoE 유지(V2에서 검증 완료)새로운 전략보조 손실(auxilary loss) 없이 로드 밸런싱, 다중 토큰 예측(multi-token Prediction)학습 시간2.788M 시간 - H80.. 2025. 2. 6. 이전 1 다음