- GPT의 개념적 본질에 관한 고찰, 그리고 AGI에 닿기까지
최근 ChatGPT, GPT-4, Claud, LLaMa 등의 LLM은 상당히 많은 관심을 받고 있다. 확실히 이들 LLM의 능력은 경이로운 수준이다. MS는 GPT-4가 AGI의 초기 형태라는 서베이 페이퍼도 냈으니 말이다. 나도 현재 GPT의 능력에는 매우 놀랍기는 하지만 솔직히 이 이상 얼마나 더 큰 잠재력을 가지고 있을까에 대해서는 다소 회의적인 입장이었다. 그래서 최근에 OpenAI에서 나온 o1, o3 시리즈가 수능 수학을 1등급 받았다는 걸 봤을 때는 엄청나게 놀랐다. 평소에 가져왔던 LLM의 능력의 원리와 본질적 한계, 그리고 그걸 넘어선 AGI 수준에 이르기까지 무엇이 필요한지, 한 번 가볍게 정리해 보고자 한다.
Read More
- Reflection on the Conceptual Essence of Language Models, the Path to AGI
Recently, large language models (LLMs) like ChatGPT, Claude, and LLaMA have been receiving significant attention. There’s no denying that the capabilities of these LLMs are astonishing. Microsoft even released a survey paper suggesting that GPT-4 could be an early form of Artificial General Intelligence (AGI). While I am amazed by GPT’s current abilities, I’ve been somewhat skeptical about how much more potential these models might hold. However, when I recently learned that OpenAI’s o1 and o3 models achieved the top grade in South Korea’s CSAT (College Scholastic Ability Test) math exam, I was absolutely stunned. It prompted me to reflect on the principles and inherent limitations of LLMs’ capabilities, and what might be required to surpass these boundaries and reach AGI-level intelligence. Here’s a brief summary of my thoughts.
Read More
- Research Vision
This is a short essay that summarizes your concerns about the future direction of research. (앞으로의 연구 방향에 관한 고민을 정리한 짧은 에세이입니다.)
Read More
- ∞-former: Infinite Memory Transformer 요약
∞-former: Infinite Memory Transformer 논문을 읽고 한국어로 요약했습니다.
Read More
- Memformer: A Memory-Augmented Transformer for Sequence Modeling 리뷰
Memformer: A Memory-Augmented Transformer for Sequence Modeling 논문을 요약하고 간단히 리뷰했습니다.
Read More
- Compressive Transformers for Long-Range Sequence Modelling 리뷰
Compressive Transformers for Long-Range Sequence Modelling 논문을 요약하고 간단히 리뷰했습니다.
Read More
- Sequential Recommendation with User Memory Networks 리뷰
Sequential Recommendation with User Memory Networks 논문을 요약하고 간단히 리뷰했습니다.
Read More
- Not all memories are created equal: Learning to forget by expiring 리뷰
Not all memories are created equal: Learning to forget by expiring 논문을 요약하고 간단히 리뷰했습니다.
Read More
- Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems 요약
Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems 논문을 요약해보았습니다.
Read More
- Decision Transformer: Reinforcement Learning via Sequence Modeling 요약
Decision Transformer: Reinforcement Learning via Sequence Modeling 논문을 요약해보았습니다.
Read More
- TorchServe 사용법과 후기
TorchServe의 간략한 사용법과 전반적인 사용후기를 정리하였습니다.
Read More
- DOING MORE WITH LESS: IMPROVING ROBUSTNESS USING GENERATED DATA 리뷰
DeepMind의 DOING MORE WITH LESS: IMPROVING ROBUSTNESS USING GENERATED DATA 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- Neural Turing Machines 리뷰
DeepMind의 Neural Turing Machines 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 리뷰
Facebook의 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- Conformer: Convolution-augmented Transformer for Speech Recognition 리뷰
Google의 Conformer: Convolution-augmented Transformer for Speech Recognition 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- Exploring Generalization in Deep Learning 리뷰
Exploring Generalization in Deep Learning 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- Sequence Transduction with Recurrent Neural Networks 리뷰
Sequence Transduction with Recurrent Neural Networks 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- Listen, Attend and Spell 리뷰
Listen, Attend and Spell 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- What Do Compressed Deep Neural Networks Forget? 리뷰
Google의 What Do Compressed Deep Neural Networks Forget? 논문을 리뷰하고 내용을 요약해보았습니다.
Read More
- Training with Quantization Noise for Extreme Model Compression 리뷰
Facebook AI Research의 Training with Quantization Noise for Extreme Model Compression 논문을 리뷰하고 내용을 요약해보았습니다.
Read More