본문 바로가기

paper review3

[논문 리뷰 - Pruning] Rethinking the value of network pruning (2019) 논문명 : Rethinking the value of network pruning저자 : Zhuang Liu1∗ , Mingjie Sun2∗†, Tinghui Zhou1 , Gao Huang2 , Trevor Darrell1 1University of California, Berkeley 2Tsinghua University출간지/발간일 : ICLR 2019 본 논문은 프루닝을 다루는 논문이나, 새로운 관찰 결과를 제시한다. 최신 구조화 프루닝 알고리즘에서, 프루닝된 모델을 파인튜닝한 결과는 해당 모델을 무작위로 초기화한 가중치로 훈련한 결과와 비교해도 비슷하거나 오히려 성능이 낮다는 것이다. 이 말은 다음과 같은 것들을 시사한다.1. 효율적인 최종 모델을 얻기 위해 대규모의 과잉 파라미터화된 모델을 훈.. 2025. 2. 13.
[논문 리뷰 - GPT1] Improving Language Understanding by Generative Pre-Training (2018) 이번엔 OpenAI의 GPT1 논문을 리뷰해보고자 한다.NLP 분야의 중심인 transformer에 대한 기본적인 논문들을 모두 읽어 본 후, transformer를 기반으로 한 첫 model paper 리뷰이다. 본 논문 리뷰 이후, GPT1 모델을 이용하여 엣지 디바이스에서 딥러닝 연산의 수행을 프로파일링하여 분석하고자 한다. 따라서, 논문에 대해 확실하게 이해를 하고, 코드 리뷰까지 진행하고자 한다. Abstract NLP는 텍스트 추론, 질문 응답, 의미적 유사성 평가, 문서 분류와 같은 다양한 분야에서 쓰이고 있다. 특정 작업을 학습하기 위한 라벨링 데이터는 부족하지만 라벨링 되지 않은 텍스트 데이터는 풍부하다. 따라서 본 논문은 대규모의 라벨링 되지 않은 텍스트 말뭉치들을 생성적 사전 학습과 .. 2024. 9. 9.
[논문 리뷰] Sequence to Sequence Learning with Neural Networks(2014) I. Introduction# DNN의 우수성과 한계DNN은 speech, visual의 여러 분야에서 성능이 좋으며, modest number of step에서 parallel 하게 진행 가능, supervised backpropagation으로 훈련 가능하다는 큰 강점을 지니고 있다. 그러나, input과 target이 고정 차원의 벡터로 encoding 되는 문제에서만 적용이 가능하다는 큰 한계점을 갖고 있다.이는 많은 문제들이 사전에 알려지지 않은 시퀀스로 표현되기 때문에 큰 문제가 될 수 있다. (= 시퀀스를 갖는 환경에서는 적용 어려움) 따라서, 저자는 본 한계점을 극복하기 위하여 LSTM(Long Short Term Memory) 아키텍처를 통해 일반적인 sequence to sequence.. 2024. 8. 5.