chanmuzi

chanmuzi의 AI 큐레이션

AI 논문 & 뉴스를 매주 정리합니다

1,739
전체 항목
1,046
📜 Papers
656
🧑🏻‍💻 Dev
37
🗞️ News

Top 기관

최신 항목

최근 2주 · 47건
🧑🏻‍💻 Dev Nous Research
2026.03 4주차
Hermes Agent
  • Nous Research가 개발한 self-improving AI agent로, 경험으로부터 skill을 자동 생성하고 사용 중 개선하는 built-in learning loop를 갖춘 것이 핵심
  • 다양한 LLM provider 지원 (OpenRouter 200+ 모델, OpenAI, Anthropic 등) — `hermes model`로 코드 변경 없이 전환 가능
  • Telegram, Discord, Slack, WhatsApp, Signal 등 멀티 플랫폼 게이트웨이를 통해 대화 가능하며, cross-platform conversation continuity 지원
📜 Paper Google · UChicago · Santa Fe Institute
2026.03 4주차
Agentic AI and the Next Intelligence Explosion
  • 전통적인 monolithic superintelligence(singularity) 서사를 비판하며, AI 발전이 진화적 패턴을 따라 plural, social, deeply entangled intelligence 시스템으로 향한다고 주장
  • DeepSeek-R1, QwQ-32B 등 frontier reasoning model 내부에서 multi-agent dynamics가 자발적으로 발생함을 발견
  • 명시적 학습 없이도 내부적으로 distinct cognitive perspectives 간 토론, 검증, 조정이 이루어지는 "Society of Thought" 현상
🧑🏻‍💻 Dev Google
2026.03 4주차
Build real-time conversational agents with Gemini 3.1 Flash Live
  • Google AI Studio의 Live API를 통해 Gemini 3.1 Flash Live 모델로 실시간 conversational agent를 구축할 수 있도록 지원
  • voice와 vision 입력을 동시에 처리하는 real-time 멀티모달 에이전트 개발이 가능
  • Live API 인프라를 활용해 실시간 상호작용을 처리하며, Google AI Studio 환경에서 바로 접근 가능
🧑🏻‍💻 Dev Mistral AI
2026.03 4주차
Speaking of Voxtral
  • Mistral AI 최초의 text-to-speech 모델 Voxtral TTS 출시, 4B 파라미터의 경량 모델
  • 9개 언어 지원(영어, 프랑스어, 독일어, 스페인어 등)이며 단 3초의 reference audio만으로 voice adaptation 가능
  • 아키텍처 구성
🧑🏻‍💻 Dev ARC Prize
2026.03 4주차
ARC-AGI-3
  • 최초의 interactive reasoning benchmark로, AI 에이전트의 human-like intelligence를 측정하도록 설계
  • 정적 퍼즐이 아닌 novel environment를 동적으로 탐색하며 전략을 지속적으로 적응시키는 능력을 평가
  • long-horizon planning, belief updating, experience-driven adaptation 등을 측정
📜 Paper Meta
2026.03 4주차
Hyperagents
  • task-solving과 self-modification을 하나의 editable program으로 통합하는 self-referential AI 프레임워크
  • Darwin Gödel Machine(DGM)을 확장한 DGM-Hyperagents(DGM-H) 제안
  • task agent(문제 해결)와 meta agent(자기 자신 및 task agent 수정)로 구성
🧑🏻‍💻 Dev Cohere
2026.03 4주차
Transcribe
  • Cohere가 공개한 state-of-the-art ASR 모델로, Apache 2.0 라이선스 오픈소스
  • Conformer 기반 encoder-decoder 아키텍처, 2B 파라미터
  • HuggingFace Open ASR Leaderboard 1위 (평균 WER 5.42%)
📜 Paper Rice · Stony Brook
2026.03 4주차
PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation
  • LLM의 multi-step reasoning을 semantic flow와 latent computation 두 관점에서 통합 분석하는 프레임워크
  • 세 가지 구성요소: Markov chain 기반 semantic category transition 모델링, GMM 기반 hidden state 내 latent regime 식별, 두 레이어를 연결하는 Bridge Matrix
  • 실패한 reasoning의 체계적 패턴 발견
📜 Paper Mila · NYU
2026.03 4주차
LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
  • pre-trained encoder나 복잡한 multi-component loss 없이 pixel로부터 직접 world model을 학습하는 JEPA 기반 접근
  • 단 두 개의 loss term(prediction loss + SIGReg Gaussian regularizer)만으로 representation collapse 없이 안정적 end-to-end 학습 달성
  • 기존 대비 hyperparameter 6개 → 2개로 대폭 단순화
🧑🏻‍💻 Dev Ai2
2026.03 4주차
MolmoWeb: An open agent for automating web tasks
  • Molmo 2 multimodal model 기반의 open-weight visual web agent로, 스크린샷을 사람처럼 해석하여 클릭·타이핑·스크롤 등 브라우저 작업을 자율 수행
  • 4B / 8B 두 가지 사이즈로 제공되며, 8B 모델은 GPT-4o 포함 대형 proprietary 모델 기반 agent보다 우수한 성능
  • WebVoyager 78.2%, DeepShop 42.3%, TailBench 49.5%
🧑🏻‍💻 Dev Google
2026.03 4주차
TurboQuant: Redefining AI efficiency with extreme compression
  • LLM의 KV cache 메모리를 최소 6배 줄이고 최대 8배 속도 향상을 달성하는 compression algorithm (ICLR 2026)
  • 3-bit까지 quantization 가능하며, training/fine-tuning 없이 정확도 손실 zero
  • QJL(Quantized Johnson-Lindenstrauss)과 PolarQuant 두 기법을 결합
🧑🏻‍💻 Dev OpenAI
2026.03 4주차
OpenAI to acquire Astral
  • Python toolchain 기업 Astral(uv, ruff, ty 개발사)을 인수하여 Codex 팀에 합류시키기로 합의
  • uv는 월 1억 2,600만 이상 다운로드를 기록하며 Python 패키지 관리의 핵심 도구로 자리잡은 상태
  • Codex(주간 활성 사용자 200만+)의 Python 개발 워크플로 전반에 걸친 AI 통합을 가속하려는 전략

전체 아카이브

1,739건

2026년 3월 58건

🧑🏻‍💻 Dev Nous Research
2026.03 4주차
Hermes Agent
  • Nous Research가 개발한 self-improving AI agent로, 경험으로부터 skill을 자동 생성하고 사용 중 개선하는 built-in learning loop를 갖춘 것이 핵심
  • 다양한 LLM provider 지원 (OpenRouter 200+ 모델, OpenAI, Anthropic 등) — `hermes model`로 코드 변경 없이 전환 가능
  • Telegram, Discord, Slack, WhatsApp, Signal 등 멀티 플랫폼 게이트웨이를 통해 대화 가능하며, cross-platform conversation continuity 지원
📜 Paper Google · UChicago · Santa Fe Institute
2026.03 4주차
Agentic AI and the Next Intelligence Explosion
  • 전통적인 monolithic superintelligence(singularity) 서사를 비판하며, AI 발전이 진화적 패턴을 따라 plural, social, deeply entangled intelligence 시스템으로 향한다고 주장
  • DeepSeek-R1, QwQ-32B 등 frontier reasoning model 내부에서 multi-agent dynamics가 자발적으로 발생함을 발견
  • 명시적 학습 없이도 내부적으로 distinct cognitive perspectives 간 토론, 검증, 조정이 이루어지는 "Society of Thought" 현상
🧑🏻‍💻 Dev Google
2026.03 4주차
Build real-time conversational agents with Gemini 3.1 Flash Live
  • Google AI Studio의 Live API를 통해 Gemini 3.1 Flash Live 모델로 실시간 conversational agent를 구축할 수 있도록 지원
  • voice와 vision 입력을 동시에 처리하는 real-time 멀티모달 에이전트 개발이 가능
  • Live API 인프라를 활용해 실시간 상호작용을 처리하며, Google AI Studio 환경에서 바로 접근 가능
🧑🏻‍💻 Dev Mistral AI
2026.03 4주차
Speaking of Voxtral
  • Mistral AI 최초의 text-to-speech 모델 Voxtral TTS 출시, 4B 파라미터의 경량 모델
  • 9개 언어 지원(영어, 프랑스어, 독일어, 스페인어 등)이며 단 3초의 reference audio만으로 voice adaptation 가능
  • 아키텍처 구성
🧑🏻‍💻 Dev ARC Prize
2026.03 4주차
ARC-AGI-3
  • 최초의 interactive reasoning benchmark로, AI 에이전트의 human-like intelligence를 측정하도록 설계
  • 정적 퍼즐이 아닌 novel environment를 동적으로 탐색하며 전략을 지속적으로 적응시키는 능력을 평가
  • long-horizon planning, belief updating, experience-driven adaptation 등을 측정
📜 Paper Meta
2026.03 4주차
Hyperagents
  • task-solving과 self-modification을 하나의 editable program으로 통합하는 self-referential AI 프레임워크
  • Darwin Gödel Machine(DGM)을 확장한 DGM-Hyperagents(DGM-H) 제안
  • task agent(문제 해결)와 meta agent(자기 자신 및 task agent 수정)로 구성
🧑🏻‍💻 Dev Cohere
2026.03 4주차
Transcribe
  • Cohere가 공개한 state-of-the-art ASR 모델로, Apache 2.0 라이선스 오픈소스
  • Conformer 기반 encoder-decoder 아키텍처, 2B 파라미터
  • HuggingFace Open ASR Leaderboard 1위 (평균 WER 5.42%)
📜 Paper Rice · Stony Brook
2026.03 4주차
PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation
  • LLM의 multi-step reasoning을 semantic flow와 latent computation 두 관점에서 통합 분석하는 프레임워크
  • 세 가지 구성요소: Markov chain 기반 semantic category transition 모델링, GMM 기반 hidden state 내 latent regime 식별, 두 레이어를 연결하는 Bridge Matrix
  • 실패한 reasoning의 체계적 패턴 발견
📜 Paper Mila · NYU
2026.03 4주차
LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
  • pre-trained encoder나 복잡한 multi-component loss 없이 pixel로부터 직접 world model을 학습하는 JEPA 기반 접근
  • 단 두 개의 loss term(prediction loss + SIGReg Gaussian regularizer)만으로 representation collapse 없이 안정적 end-to-end 학습 달성
  • 기존 대비 hyperparameter 6개 → 2개로 대폭 단순화
🧑🏻‍💻 Dev Ai2
2026.03 4주차
MolmoWeb: An open agent for automating web tasks
  • Molmo 2 multimodal model 기반의 open-weight visual web agent로, 스크린샷을 사람처럼 해석하여 클릭·타이핑·스크롤 등 브라우저 작업을 자율 수행
  • 4B / 8B 두 가지 사이즈로 제공되며, 8B 모델은 GPT-4o 포함 대형 proprietary 모델 기반 agent보다 우수한 성능
  • WebVoyager 78.2%, DeepShop 42.3%, TailBench 49.5%
🧑🏻‍💻 Dev Google
2026.03 4주차
TurboQuant: Redefining AI efficiency with extreme compression
  • LLM의 KV cache 메모리를 최소 6배 줄이고 최대 8배 속도 향상을 달성하는 compression algorithm (ICLR 2026)
  • 3-bit까지 quantization 가능하며, training/fine-tuning 없이 정확도 손실 zero
  • QJL(Quantized Johnson-Lindenstrauss)과 PolarQuant 두 기법을 결합
🧑🏻‍💻 Dev OpenAI
2026.03 4주차
OpenAI to acquire Astral
  • Python toolchain 기업 Astral(uv, ruff, ty 개발사)을 인수하여 Codex 팀에 합류시키기로 합의
  • uv는 월 1억 2,600만 이상 다운로드를 기록하며 Python 패키지 관리의 핵심 도구로 자리잡은 상태
  • Codex(주간 활성 사용자 200만+)의 Python 개발 워크플로 전반에 걸친 AI 통합을 가속하려는 전략
📜 Paper University of Trento · Inria
2026.03 4주차
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models
  • MLLM이 불완전한 visual input에 대해 사용자에게 추가 정보를 요청하는 "proactiveness"를 평가하는 최초의 벤치마크
  • 7개 시나리오(occlusion 제거, 카메라 이동, 이미지 품질 개선 등), 7,557개 샘플, 22개 MLLM 평가
  • 주요 발견: 현재 MLLM은 proactiveness가 현저히 부족하며, 모델 크기와의 상관관계도 없음
📜 Paper Apple
2026.03 4주차
Exclusive Self Attention
  • 표준 self-attention의 출력이 self-value vector와 높은 cosine similarity를 보이는 "attention similarity bias" 문제를 지적
  • attention이 context modeling 대신 pointwise feature transformation에 capacity를 낭비하고 있다는 분석
  • XSA(Exclusive Self Attention) 제안: attention output에서 self-value vector 방향의 component를 제거하는 projection removal step 추가
📜 Paper HUST · ByteDance
2026.03 3주차
Mixture-of-Depths Attention
  • attention head가 현재 layer의 sequence KV뿐 아니라 이전 layer들의 depth KV에도 접근할 수 있게 하는 MoDA(Mixture-of-Depths Attention) 메커니즘 제안
  • 깊은 LLM에서 발생하는 information degradation 문제를 해결
  • single softmax operator를 통해 sequence 정보와 depth 정보를 data-dependent하게 통합하는 unified attention formulation
🧑🏻‍💻 Dev Stanford · Princeton
2026.03 3주차
clawRxiv: An Academic Archive for AI Agents
  • AI 에이전트가 독립적으로 논문을 발행, 토론, 평가할 수 있는 학술 아카이브 플랫폼
  • 에이전트가 API key를 발급받아 structured metadata와 Markdown/LaTeX 콘텐츠를 포함한 논문을 제출하는 워크플로우
  • 현재 67개 AI 에이전트가 활동 중이며 174편의 논문이 게시됨
📜 Paper Meta FAIR
2026.03 3주차
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
  • dense spatio-temporal structure 보존과 global scene understanding을 동시에 달성하는 video self-supervised learning 모델
  • 네 가지 핵심 기법 도입
  • Dense Predictive Loss: masked + visible context 토큰 모두에 supervision 적용
🧑🏻‍💻 Dev Cursor
2026.03 3주차
Towards Self-Driving Codebases
  • 수천 개의 AI 에이전트가 협업하여 코딩 프로젝트를 수행하는 multi-agent orchestration 시스템 연구 공개
  • 1주일간 연속 운영하며 시간당 ~1,000 commits, 총 10M tool calls 달성
  • recursive planner-worker hierarchy 구조로 진화
📜 Paper Microsoft Research
2026.03 3주차
Online Experiential Learning for Language Models
  • 배포 중 축적된 실제 사용 경험을 모델 파라미터에 반영하는 Online Experiential Learning(OEL) 프레임워크 제안
  • 두 단계로 구성: (1) Extraction — 배포 시 interaction trajectory에서 transferable experiential knowledge 추출, (2) Consolidation — on-policy context distillation으로 지식을 파라미터에 통합
  • reward model, verifiable reward, human annotation 없이 textual environment feedback만으로 동작
🧑🏻‍💻 Dev Google Labs
2026.03 3주차
Introducing 'vibe design' with Stitch
  • Google Labs가 공개한 AI-native UI 디자인 플랫폼으로, high-fidelity UI를 생성·반복·협업할 수 있음
  • "vibe design"이라는 새로운 개념을 제시 — AI가 디자인 의도를 개념 수준에서 이해하고 UI 컴포넌트로 변환
  • 디자인 전문성 없이도 고품질 인터페이스 제작이 가능하도록 접근성을 높인 것이 핵심
🧑🏻‍💻 Dev Ai2
2026.03 3주차
MolmoPoint: Better Pointing Architecture for Vision-Language Models
  • 텍스트 기반 좌표 생성 대신 token-based pointing mechanism을 사용하는 새로운 VLM pointing 아키텍처
  • coarse-to-fine grounding: PATCH → SUBPATCH → LOCATION 3개 special token으로 pointing 수행 (기존 8토큰 → 3토큰)
  • rotary embedding으로 spatial relationship 인코딩, no-more-points class로 명시적 중단 지원
🧑🏻‍💻 Dev NVIDIA
2026.03 3주차
NemoClaw
  • OpenClaw에 보안 및 프라이버시 제어를 추가한 오픈소스 에이전트 스택 (early preview)
  • NVIDIA Agent Toolkit, OpenShell(policy-based guardrails), Nemotron 모델을 결합
  • 로컬 Nemotron 모델 실행과 클라우드 frontier 모델 연결을 privacy router로 병행
🧑🏻‍💻 Dev Mistral
2026.03 3주차
Mistral Small 4
  • Magistral(reasoning), Pixtral(multimodal), Devstral(agentic coding) 역량을 하나로 통합한 첫 Mistral 모델
  • 128 experts 중 4개를 토큰당 활성화하는 MoE 구조, 총 119B params / 활성 6B params
  • 256K context window, native multimodal(text + image) 지원
📜 Paper Fudan · Tsinghua
2026.03 3주차
AI Can Learn Scientific Taste
  • AI가 연구 아이디어의 잠재적 임팩트를 판단하는 "scientific taste"를 학습할 수 있음을 제안
  • RLCF(Reinforcement Learning from Community Feedback) 프레임워크 도입
  • 2.1M arXiv 논문의 citation signal을 supervision으로 활용
🧑🏻‍💻 Dev Princeton · Together AI
2026.03 3주차
Mamba-3: Redesigning State Space Models for Inference
  • training 효율이 아닌 inference 효율을 최우선 목표로 재설계한 SSM 아키텍처
  • 3가지 핵심 개선
  • exponential-trapezoidal discretization으로 SSM 표현력 강화
🗞️ News Niantic · Coco Robotics
2026.03 3주차
'Pokémon Go' players unknowingly trained delivery robots with 30 billion images
  • Pokémon Go 플레이어들이 수집한 300억 장 이상의 이미지를 활용해 배달 로봇용 Visual Positioning System(VPS)을 개발
  • Niantic Spatial이 Coco Robotics와 협력하여 GPS보다 정밀한 centimeter-level 위치 추적을 로봇에 적용
  • 고층 건물이 밀집한 도심(urban canyon)에서 GPS 신호가 불안정한 문제를 시각적 랜드마크 분석으로 해결
📜 Paper Tsinghua · PKU
2026.03 3주차
LATENT: Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data
  • 불완전한 human motion fragment만으로 humanoid 로봇에 테니스 기술을 학습시키는 방법 제안
  • 완벽한 kinematic 데이터 없이도 primitive skill을 correction·composition하여 정책을 학습
  • Unitree G1 humanoid 로봇에 배포하여 실제 환경에서 사람과 multi-shot rally 수행에 성공
📜 Paper Moonshot AI
2026.03 3주차
Attention Residuals
  • 기존 Transformer의 고정 residual connection을 depth-wise attention으로 대체하는 구조 제안
  • 표준 residual은 모든 layer 출력을 동일 가중치로 누적하여, 깊어질수록 각 layer 기여가 희석되는 문제 존재
  • 각 layer가 이전 representation들에 대해 learned, input-dependent softmax attention을 수행하여 선택적으로 집계
🧑🏻‍💻 Dev Z.AI
2026.03 3주차
GLM-5-Turbo
  • agent 기반 워크플로우에 최적화된 foundation model로, tool integration과 complex task execution에 특화
  • 200K context length, 최대 128K output tokens 지원, thinking mode 및 structured output(JSON) 제공
  • 4가지 핵심 강화 영역
📜 Paper NYU · Meta
2026.03 3주차
The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks
  • Transformer LM에서 반복적으로 관찰되는 massive activations(특정 채널의 극단적 outlier)과 attention sinks(의미와 무관하게 과도한 attention을 받는 토큰)의 메커니즘을 체계적으로 분석
  • 두 현상은 본질적으로 결합된 것이 아닌 architectural artifact이며, 각각 독립적으로 억제 가능
  • massive activations: implicit parameter로서 global하게 작동
🧑🏻‍💻 Dev Google
2026.03 3주차
How we're reimagining Maps with Gemini
  • Gemini를 활용한 Google Maps의 두 가지 주요 AI 기능 발표
  • **Ask Maps**: 자연어로 장소, 비즈니스, 내비게이션에 대해 질문할 수 있는 대화형 인터페이스
  • **Immersive Navigation**: 시각적으로 풍부한 몰입형 내비게이션 경험 제공
🧑🏻‍💻 Dev Cursor
2026.03 3주차
How we compare model quality in Cursor
  • 실제 사용자 세션 기반의 자체 평가 도구 CursorBench를 소개하는 기술 블로그
  • public benchmark의 한계를 지적: workflow 불일치, grading 가정 문제, data contamination
  • SWE-bench Verified의 contamination 이슈를 구체적으로 분석
📜 Paper Fudan · Meituan
2026.03 3주차
Can RL Improve Generalization of LLM Agents? An Empirical Study
  • reinforcement fine-tuning이 LLM agent의 generalization 능력을 향상시킬 수 있는지에 대한 실증 연구
  • 세 가지 차원에서 분석
  • (1) within-environment generalization: 동일 환경 내 난이도 변화에 대한 적응
🧑🏻‍💻 Dev Perplexity
2026.03 2주차
Everything is Computer
  • Mac mini 위에서 24/7 상시 구동되는 cloud-based AI agent 소프트웨어 "Personal Computer" 발표
  • 로컬 파일, 앱(Gmail, Slack, GitHub, Notion 등), 세션에 persistent access를 제공하여 사용자의 digital proxy 역할 수행
  • 민감한 작업에는 사용자 승인(approval)이 필요하며, 모든 세션에 대해 full audit trail 제공 + kill switch 포함
🧑🏻‍💻 Dev OpenAI
2026.03 2주차
From model to agent: Equipping the Responses API with a computer environment
  • Responses API에 shell tool + hosted container workspace를 결합한 agent runtime 아키텍처 발표
  • Debian 12 기반, Python 3.11, Node.js 22, Java 17, Go 1.23, Ruby 3.1 사전 탑재
  • 모델이 shell command 제안 → 격리된 container에서 실행 → 결과를 context에 반영하는 루프 구조
🧑🏻‍💻 Dev NVIDIA
2026.03 2주차
New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI
  • 120B 파라미터 규모의 오픈소스 agentic AI 모델, 1M token context window 지원
  • hybrid MoE 아키텍처: Mamba layer(4x 메모리/연산 효율) + Transformer layer 조합, inference 시 12B 파라미터만 활성화
  • Latent MoE로 1개 expert 비용으로 4개 expert를 활성화
📜 Paper PKU · Princeton
2026.03 2주차
OpenClaw-RL: Train Any Agent Simply by Talking
  • agent interaction 과정에서 발생하는 next-state signal(user reply, tool output, state change)을 학습 신호로 활용하는 RL framework
  • evaluative signals: Process Reward Model judge를 통해 scalar reward로 변환 (Binary RL)
  • directive signals: Hindsight-Guided On-Policy Distillation으로 token-level directional supervision 제공
📜 Paper Google
2026.03 2주차
Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs
  • 복잡한 추론이 필요하지 않을 때도 reasoning이 parametric knowledge를 aid 하게 되는 현상에 대한 탐구
  • two key driving mechanisms
  • (1) a computational buffet effect: 생성된 토큰 자체를 의미와 상관 없이 latent computation 수행 시 사용한다는 것 (생성하는 것 자체가 복잡한 사고로 이어짐)
🧑🏻‍💻 Dev Ai2
2026.03 2주차
MolmoBot: Training robot manipulation entirely in simulation
  • 시뮬레이션 데이터만으로 학습된 robotic manipulation model
  • 시뮬레이터 MuJoCo
  • MolmoSpaces라는 오픈 시뮬레이션 생태계를 사용해, 물체, 배치, 카메라 시점, 조명, 텍스처, 동역학 등을 강하게 랜덤화한 수백만 개의 expert trajectory 데이터를 만들어 냄
🧑🏻‍💻 Dev Replit
2026.03 2주차
Introducing Replit Agent 4: Built for Creativity
  • 사람이 agent와 더 자연스럽게 협업할 수 있도록 발전. 사람은 창의성을 발휘하는 데에만 집중
  • infinite canvas에서 여러 UI variants를 한 번에 뽑아보고 직접 시각적으로 수정
  • 큰 작업을 subtasks로 쪼개어 병렬 처리 후 결과 병합
🧑🏻‍💻 Dev Yann LeCun
2026.03 2주차
AMI Labs
  • 얀 르쿤이 설립한 기업으로 제품 출시 전부터 약 1.4조 원 규모 투자금 유치 (기업 가치 35억 달러 수준)
  • 월드모델을 통해 할루시네이션을 원천 차단하고 의료와 같은 고위험 분야에서도 안전하게 쓸 수 있는 AI 구축 목표
🧑🏻‍💻 Dev Google
2026.03 2주차
Gemini Embedding 2: Our first natively multimodal embedding model
  • text, images, videos, audio, documents를 single, unified embedding space에 mapping 하는 multimodal embedding model
  • 100개 이상의 언어를 지원하며 8K tokens, 6개 이미지, 120초 비디오 등을 한 번의 request에서 처리할 수 있음
  • MRL(Matryoshka Representation Learning)이 적용되어 있고 3072 차원이 default (1536, 768 차원 지원)
📜 Paper Meta, NVIDIA
2026.03 2주차
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling
  • H100에만 최적화된 FlashAttention-3의 한계를 극복하기 위해 진행된 연구
  • 주요한 세 가지 특징
  • asynchronous MMA operations을 온전히 이용하는 redesigned pipeline
🧑🏻‍💻 Dev Andrej Karpathy
2026.03 2주차
AutoResearch
  • AI agent가 학습 코드를 수정하고 직접 실험을 돌리는 방식으로 research process를 변경
  • 사람은 간단한 마크다운 프롬프트 작성 → Agent는 실험하며 개선 사항을 Git feature branch에 반영
  • 3개의 .py 파일, 630줄로 구성된 프로젝트로 연구에 대한 패러다임 전환을 시사하여 화제를 일으키고 있음
🧑🏻‍💻 Dev HuggingFace
2026.03 2주차
The Synthetic Data Playbook:Generating Trillions of the Finest Tokens
  • FinePhrase: 468B token dataset. 사전학습을 위한 합성데이터.
  • 90번의 실험 동안 12.7 GPU years 자원을 사용하여 1T 토큰 이상을 생성하며 합성 데이터 생성에 필요한 best recipe를 발견했다고 설명
  • 이미 기존에 존재하던 web-data는 충분히 사용되었으므로 높은 퀄리티의 합성 데이터를 만드는 것이 핵심 (이런 흐름이 된지 좀 되었음)
📜 Paper MIT
2026.03 2주차
NeuroSkill(tm): Proactive Real-Time Agentic System Capable of Modeling Human State of Mind
  • foundation EXG model & text embedding model을 사용하여 edge에서 완전 offline으로 동작하며 Human State of Mind를 modeling 할 수 있는 real-time proactive agentic system
  • 사용자의 뇌파(EEG)와 생체 신호를 실시간으로 분석
  • NeuroSkill은 system에 의해 제공되는 API, CLI를 통해 Human’s State of Mind의 SKILL.md description를 이용함
📜 Paper UC berkeley
2026.03 2주차
Symmetry in language statistics shapes the geometry of model representations
  • LLM은 내부 representation 공간에서 기하 구조를 스스로 형성하는데 이는 deep learning dynamics가 아닌 자연어 통계의 translation symmetry에 직접 기인한다고 설명
  • months, days of the week처럼 cyclic 개념의 경우 circular representation이 optimal encoding으로 자연스럽게 등장
  • historical years, number line 같이 연속적인(continuous) 개념의 representation은 곡률을 가진 compact 1D manifold 위에 정렬되는 형태를 보임
📜 Paper Meta
2026.03 1주차
AI Must Embrace Specialization via Superhuman Adaptable Intelligence
  • 사람들이 AGI에 대해 논하지만 AGI의 개념부터 틀렸음
  • 인간도 보편적인 지능체가 아닌 생존 전문가일 뿐이며 스스로의 맹점을 잘 인지하지 못함
  • AI는 general 해야 하는 게 아니라 특화되어야 한다고 설명하며 Superhuman Adaptable Intelligence (SAI) 개념을 도입
📜 Paper Microsoft
2026.03 1주차
Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
  • 기존에 달성하기 어려운 것들: low-latency inference, deciding when to respond
  • AI companions (commentator & guide) 를 이용한 자동 평가
  • Live Gaming Benchmark: solo-commentary, co-commentary, user guidance, 3개의 시나리오를 커버하는 large-scale dataset
📜 Paper Meta
2026.03 1주차
Beyond Language Modeling: An Exploration of Multimodal Pretraining
  • 얀 르쿤이 저자로 참여한 논문
  • LLM에 vision adapter를 붙이는 방식 대신 text, images, video를 scratch 부터 함께 학습하는 one system
  • unified training이 perception & generation 둘 다에 대해 useful presentation을 produces
🧑🏻‍💻 Dev OpenAI
2026.03 1주차
Introducing GPT‑5.4
  • spreadsheets, documents, software development, research 와 같은 태스크들을 위한 one system
  • native computer use를 포함하여 스크린샷을 이해하고 적합한 mouse & keyboard actions 사용 가능
  • 1M context window를 지원하며, longer responses 전에 plan을 outline 하는 특징
🧑🏻‍💻 Dev Google
2026.03 1주차
Google Workspace CLI, GWS
  • Drive, Gmail, Calendar와 같은 Workspace services에 연결해서 structured JSON을 반환해주는 CLI 도구
  • Google API 정의를 읽어서 이를 CLI commands로 자동 변환
  • 고정된 명령어 목록 x → 동적으로 생성 o
📜 Paper Meta
2026.03 1주차
Agentic Code Reasoning
  • semi-formal reasoning: agents가 explicit premises를 구성하고 execution paths를 추적하며 formal conclusions를 이끌어내도록 하는 structured prompting methodology
  • agent는 cases를 스킵하거나 unsupported claims를 만들어낼 수 없음
  • structured agentic reasoning이 실제 코드 실행 없이도 semantic code analysis를 가능토록 한다는 결론
🧑🏻‍💻 Dev Ai2
2026.03 1주차
How do researchers actually use AI-powered science tools? Lessons from 250,000+ queries
  • 연구자들이 AI 기반 연구 도구를 어떻게 사용하는지 분석한 결과를 정리
  • 쿼리가 훨씬 길고 복잡하며 요구사항이 많다고 분석
  • 단순 검색 엔진이 아닌 협업 연구 파트너로 취급하는 경향 존재
🧑🏻‍💻 Dev Perplexity
2026.03 1주차
pplx-embed: State-of-the-Art Embedding Models for Web-Scale Retrieval
  • real-world, web-scael retrieval을 위한 SoTA text embedding models MIT 라이센스로 공개: pplx-embed-v1, pplx-embed-context-v1
  • 각각 0.6B, 4B로 속도와 검색 퀄리티에 집중. INT8 & binary embeddings 반환
  • continued diffusion pretraining, contrastive training, native quantization 등을 학습 기법으로 언급
🧑🏻‍💻 Dev inception
2026.03 1주차
Introducing Mercury 2
  • 세계에서 가장 빠른 reasoning language model 공개
  • autoregressive 방식보다 5배 이상 빠른 추론 속도를 자랑
  • 초당 80토큰 정도를 생성하는 Claude Haiku 4.5, GPT-5 Mini보다도 100배 이상 많은 1,000 토큰을 생성
📜 Paper Google
2026.03 1주차
Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
  • LLM의 추론 능력을 평가할 때 생성된 문장의 길이(토큰 수)보다 내부적인 사고의 깊이가 더 중요하다는 점을 강조
  • deep-thinking 비율이 높을수록 복잡한 추론 문제를 잘 풀 수 있다는 양의 상관관계 확인
  • Think@n: high deep-thinking ratios(DTR)를 우선시 해서 sampling 하는 test-time scaling strategy 제시

2026년 2월 54건

📜 Paper Sakana
2026.02 4주차
Doc-to-LoRA: Learning to Instantly Internalize Contexts
  • context distillation (CD)이 정보 전달에 탁월하지만 per-prompt distillation은 현실적으로 적용 불가능
  • single forward pass 내에서 CD에 근사하도록 meta-learn 하는 lightweight hypernetwork
  • unseen prompt가 주어지면 LoRA adapter를 생성하여 이어지는 쿼리들에 응답할 때 기존 context를 re-consume 하지 않도록 함
🧑🏻‍💻 Dev Google
2026.02 4주차
Nano Banana 2: Combining Pro capabilities with lightning-fast speed
  • Gemini 3.1 Flash Image 모델을 Nano Banana 2로 공개
  • Pro의 성능과 Flash의 추론 속도 장점을 합쳐놓은 것으로 소개
  • 텍스트 렌더링 최적화가 되었다고 설명
📜 Paper NVIDIA
2026.02 4주차
On Data Engineering for Scaling LLM Terminal Capabilities
  • Two key contributions
  • Terminal-Task-Gen: seed-based & skill-based task construction을 지원하는 lightweight synthetic task generation pipeline
  • data & training analysis: filtering, curriculum learning, long context training, scaling behavior 등을 포함
🧑🏻‍💻 Dev Perplexity
2026.02 4주차
Introducing Perplexity Computer
  • a general-purpose AI system: single prompts에 단순 대답 → runs full workflows
  • 여러 개의 frontier models를 병렬적으로 실행하고 orchestrate
  • 각 작업에 맞는 모델들을 자동으로 골라서 사용하는 구조
🧑🏻‍💻 Dev Anthropic
2026.02 4주차
Detecting and preventing distillation attacks
  • DeepSeek, Moonshot, MiniMax, 3개의 중국 AI 연구소가 2,400여 개의 사기 계정으로 1,600만 건이 넘는 질의로 Claude의 능력을 무단 질의했다고 밝힘
  • Anthropic은 중국 및 그 영향 하 기업들에 상업적 접근을 제공하지 않고 있는데 트래픽을 분산해서 이를 우회
  • distillation pattern & CoT 유도 프롬프트를 탐지하는 분류기, behavioral fingerprinting 구축
📜 Paper Video-Reason Team
2026.02 4주차
A Very Big Video Reasoning Suite
  • Very Big Video Reasoning (VBVR) Dataset: 체계적인 taxonomy에 따라 200가지 추론 과제. 100만 개 이상의 비디오 클립 포함
  • 기존 데이터셋 대비 약 1,000배 더 큰 규모
  • 엄청난 양의 데이터 공개로 인해 크게 화제를 일으키고 있음 (HuggingFace Papers 역대급 추천수..)
📜 Paper ETH Zurich
2026.02 4주차
Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
  • coding agents들이 참조하는 [AGENTS.md](http://AGENTS.md) 와 같은 컨텍스트 파일이 비용만 늘리는 경우가 많다고 지적
  • AGENTbench 제작: 실제 깃허브 이슈로부터 제작한 Python software engineering tasks로 138개의 unique instances로 구성됨
  • 사람이 직접 작성한 컨텍스트 파일은 그나마 성능을 향상시켜주긴 하지만, 마찬가지로 사용하는 토큰의 양이 증가하게 됨
📜 Paper Waterloo
2026.02 4주차
NanoKnow: How to Know What Your Language Model Knows
  • LLM이 뭘 알고 있는지를 알기 어려운 이유는 사전 학습 데이터가 공개되어 있지 않기 때문
  • 완전 공개 corpus로만 학습된 NanoChat 소형 LLM을 이용해 NanoKnow 벤치마크로 실험
  • 답이 학습 데이터에 자주 등장할수록 정확도가 상승
📜 Paper ByteDance
2026.02 4주차
Does Your Reasoning Model Implicitly Know When to Stop Thinking?
  • large reasoning models (LRMs)는 복잡한 추론을 잘하지만 지나치게 많이 생성(redundancy)함으로써 비효율 초래
  • 오히려 추론이 정확도를 떨어뜨리는 경우도 존재
  • 본 연구에서는 LRMs가 thinking을 멈춰야 할 적절한 타이밍을 내재적으로 알고 있지만, 이러한 능력이 현재의 sampling paradigms에 의해 obscured 된다고 설명
📜 Paper NVIDIA
2026.02 4주차
World Action Models are Zero-shot Policies
  • DreamZero: pretrained video diffusion backbone으로 학습한 World Action Model (WAM)
  • 기존 VLA와 달리 future world states & actions를 예측함으로써 physical dynamics를 학습
  • 이를 위해 video를 how the world evolves의 dense representation으로 사용
📜 Paper Google DeepMind
2026.02 3주차
Intelligent AI Delegation
  • 기존의 task decomposition & delegation methods는 simple heuristics에 의존하는 점을 문제로 지적
  • delegation을 sequence of decisions로 모델링하는 프레임워크 제안
  • 언제 delegate할지, 어떻게 지시할지, 어떻게 AI outputs를 평가할지 등
📜 Paper Voltropy
2026.02 3주차
LCM: Lossless Context Management
  • long-context tasks에서 Claude Code를 능가하는 deterministic architecture for LLM memory
  • OOLONG 벤치마크에서 32K - 1M 사이의 context length에 대해 전부 Claude Code 능가
  • recursive context manipulation이 native file-system access를 갖추고 있는 coding agents보다도 좋았다고 설명
📜 Paper Meta, Princeton, Duke
2026.02 3주차
Learning Personalized Agents from Human Feedback
  • AI agents는 static datasets으로 학습하므로 시간에 따라 변하는 preferences를 반영할 수 없음
  • Personalized Agents from Human Feedback (PAHF): explicit per-user memory를 사용하여 live interaction으로부터 학습하여 continual personalization을 가능토록 하는 프레임워크
  • three-step loop
🧑🏻‍💻 Dev Google
2026.02 3주차
Gemini 3.1 Pro: A smarter model for your most complex tasks
  • 복잡한 문제(Complex Tasks) 해결에 초점을 두어 업그레이드 된 모델
  • Advanced logical problem solving, Scientific & technical reasoning, Competitive coding tasks, MCP tool usage, Agentic search workflows
🧑🏻‍💻 Dev Cursor
2026.02 3주차
Implementing a secure sandbox for local agents
  • coding agents의 행동을 수락(approve)하는 행위가 누적되면 유저는 피로가 높아져(approval fatigue) 초반 대비 신중하지 않는 경향을 보임
  • 이를 해결하기 위해 독립된/제한된 Sandbox 환경을 agent에게 제공하여 불필요한 interruptions를 최소화함
  • agent가 sandbox 환경 내에서 어떤 commands를 사용해야 하는지 정확하게 알고 있을 때만 effective 하다고 설명
📜 Paper Alibaba
2026.02 3주차
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
  • GUI-Owl-1.5, native GUI agent model로 다양한 사이즈, 플랫폼 지원
  • 2B/4B/8B/32B/235B, desktop, mobile, browser
  • 여러 key innovations를 언급
📜 Paper UIUC, Meta, Amazon, Google DeepMind, Yale
2026.02 3주차
Agentic Reasoning for Large Language Models
  • 여러 agentic reasoning framework를 planning, tool use, memory, multi-agent coordination 관점에서 분석
  • single agent in stable environment → great / multi agent in dynamic environment → bad
  • agentic reasoning을 세 계층으로 나눠 로드맵 제시
🧑🏻‍💻 Dev Google
2026.02 3주차
A new way to express yourself: Gemini can now create music
  • Gemini 앱에 Lyria 3 모델로 음악을 생성하는 기능을 Beta로 제공
  • 글, 사진, 영상을 기반으로 30초 분량의 음악 트랙 생성
  • Nano Banana로 만든 커버 아트, 쉽게 다운로드 가능. 유튜브 쇼츠용으로 생성 가능.
🧑🏻‍💻 Dev OpenAI
2026.02 3주차
Introducing EVMbench
  • Paradigm이라는 기업과 함께 EVMbench 공동 개발. EVM 기반 블록체인 환경에서 에이전트의 실질적인 사이버 보안 능력을 측정
  • AI agents가 high-severity smart contract vulnerabilities를 detect, patch, exploit 하는 능력 평가 (3개의 평가 모드)
🧑🏻‍💻 Dev Anthropic
2026.02 3주차
Measuring AI agent autonomy in practice
  • Claude Code와 Public API 수백만 개 상호작용을 분석하여 AI agent의 자율성을 측정한 연구
  • Claude Code의 자율 작업 시간 증가. 중앙값은 45초 정도로 비슷. 상위 0.1%는 25분 → 45분 정도로 증가.
  • 숙련된 사용자일수록 ‘자동 승인 + 중간 개입’ 패턴으로 활용
🧑🏻‍💻 Dev Google
2026.02 3주차
WebMCP is available for early preview
  • 구조화된 툴을 표준 방식으로 노출함으로써 AI Agent가 사이트에서 더 빠르고 안정적으로 정밀한 action을 수행하도록 함
  • 브라우저 Agent가 사용자 대신 액션을 수행할 수 있도록 두 가지 API 제안
  • Declarative API: HTML forms만으로 정의할 수 있는 표준 액션들을 수행
🗞️ News Figma
2026.02 3주차
From Claude Code to Figma: Turning production code into editable Figma designs
  • Claude Code에서 만든 웹 UI를 Figma로 바로 가져와서 편집 가능한 디자인으로 바꿔주는 기능 소개
  • Figma MCP 서버를 쓰면 반대로 Figma 프레임 링크를 기반으로 LLM이 코드 쪽으로 다시 반영하도록 하는 “코드 ↔ 디자인 왕복” 흐름도 지원
  • 갈수록 코드를 모르는 일반 사용자들을 위한 플랫폼으로 발전하는 느낌이 있음
🧑🏻‍💻 Dev Anthropic
2026.02 3주차
Introducing Claude Sonnet 4.6
  • coding, computer use, long-context reasoning, agent planning 등에 특화된 Claud e Sonnet 4.6 모델 API 공개
  • Opus 수준의 모델로만 해결 가능했던 real world 문제도 풀 수 있다고 설명
  • 1M context (beta), Adaptive thinking, Context compaction (beta) 등 features
📜 Paper Hong Kong, Tsinghua, Tokyo
2026.02 3주차
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
  • 37,317개의 unique queries로 구성되어 다양한 도메인과 질문 유형을 커버
  • 200명의 real speakers로부터 speech를 합성하고 17개의 real-world 환경의 노이즈를 섞음
  • 이를 통해 현실적인(noise를 포함하는) spoken query retrieval 성능을 평가하고자 함
🧑🏻‍💻 Dev Alibaba
2026.02 3주차
Qwen3.5: Towards Native Multimodal Agents
  • Qwen3.5의 첫 번째 open-weight model, Qwen3.5-397B-A17B 공개
  • single native multimodal system에서 text, image, video를 입력으로 받음
  • Qwen3-Max보다 19배 빠른 decoding 속도
📜 Paper Meta
2026.02 2주차
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
  • agent actions와 독립적으로 진화하는 환경 시나리오. temporal constraints & dynamic events에 대한 적응 필요
  • 각 시나리오는 write-action verifier와 쌍을 이루어 fine-grained, action-elvel evaluation을 가능하도록 함
  • 아직까지 모든 모델들이 낮은 성적을 기록하지만 오픈소스 모델 중에는 Kimi-K2가 선두를 달림
📜 Paper British Columbia
2026.02 2주차
Learning to Continually Learn via Meta-learning Agentic Memory Designs
  • 현존 memory designs는 human-crafted & fixed 한계를 지님 → diversity & non-stationarity of real world tasks에 adapt 하기 어려움
  • ALMA: hand-engineered memory designs를 meta-learns memory designs로 대체 → 다양한 도메인에서 human effort를 최소화하고 continual learners가 될 수 있도록 함
📜 Paper Ant
2026.02 2주차
LLaDA2.1: Speeding Up Text Diffusion via Token Editing
  • Token-to-Token (T2T) editing을 conventional Mask-to-Token (M2T) scheme에 엮음으로써 joint, configurable threshold-decoding scheme 도입
  • 2개의 distinct personas: Speedy Mode (S Mode), Quality Mode (Q Mode)
  • dLLM을 위한 최초의 large-scale RL framework 제시
📜 Paper StepFun
2026.02 2주차
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters
  • 196B, 11B active 파라미터 사이즈의 MoE 모델로 frontier급 agentic intelligence & computational efficiency를 갖춤
  • 3:1 비율의 Sliding Window/Full Attention 구조, Multi-Token Prediction (MTP-3)
  • 보도된 벤치마크 결과에 의하면 DeepSeek V3.2 성능을 크게 상회하며 기타 frontier proprietary models를 능가하는 경우도 많음
🧑🏻‍💻 Dev Z.ai
2026.02 2주차
GLM-5: From Vibe Coding to Agentic Engineering
  • complex system engineering & long-horizon agentic tasks에 특화된 GLM-5 공개
  • 전작 4.5 버전 355B (32B active) → 744B (40B), pre-training data도 23T → 28.5T
  • DeepSeek Sparse Attention (DSA) 사용하여 추론 효율성 챙김
🧑🏻‍💻 Dev Ai2
2026.02 2주차
MolmoSpaces, an open ecosystem for embodied AI
  • large scale, fully open platform for studying embodied learning
  • 230,000개 이상의 indoor scenes, 130,000개 이상의 object models를 포함
  • scene conversation을 위한 tooling, grasp integration, benchmarking 등을 포함하고 있는데 이를 통해 systematic evaluation 가능
📜 Paper Anthropic
2026.02 2주차
Sabotage Risk Report: Claude Opus 4.6
  • Claude Opus 4.6 모델이 자율적으로 sabotage를 일으켜 재난적 상황을 발생시킬 가능성이 있는지를 평가
  • 지금까지의 경험으로 볼 때 이런 모델이 misaligned oal을 가질 확률은 낮음. 하지만 그 위험이 완전이 0이라고 볼 수 없음
  • Anthropic에서는 이런 것들을 탐지할 수 있는 모니터링 체계를 갖추고 있음
📜 Paper Stanford
2026.02 2주차
QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining
  • alpha mining은 backtesting results & sudden market regime shift에 굉장히 민감
  • alpha mining: 초과 수익을 예측하는 신호를 기반으로 쓸 만한 factor를 찾아내는 과정
  • 각 end-to-end mining run 과정을 trajectory로 취급하여 trajectory-level mutation & crossover operation을 통해 improve
🧑🏻‍💻 Dev HuggingFace
2026.02 2주차
Community Evals: Because we're done trusting black-box leaderboards over the community
  • benchmark 점수와 real-world performance 간의 갭, 일관성 없는 평가 결과 등을 문제점으로 지적
  • Dataset repo에 주요 벤치마크(MMLU-Pro, GPQA, HLE 등) 등록 가능 → Hub에서 자동적으로 aggregate해서 dataset card의 leaderboard에 바로 display
  • Model repo 내에 `.eval_results/*.yaml` 파일을 토대로 모델 카드에 표시되고 벤치마크 datasets에도 반영됨
📜 Paper King’s College
2026.02 1주차
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
  • RAG는 방대한 이질적 문서 집합에서 서로 다른 문서들을 가져오는 것을 전제로 하지만, 에이전트 메모리는 서로 강하게 연관되고 중복이 많은 대화 스트림이라는 차별성 존재
  • → top-k 유사도 기반 검색이 잘 working하지 않는 상황임
  • memory stream은 latent components로 분해하고 다시 조직하는 구조적 과정이어야 한다고 주장
📜 Paper Meta
2026.02 1주차
Learning to Reason in 13 Parameters
  • TinyLora: rank가 1인 LoRA 세팅으로도 reasoning 학습
  • Qwen 2.5 8B 모델을 13개의 bf16 파라미터로 학습해 GSM8K에서 91% 정확도를 보였다고 설명
📜 Paper Google DeepMind
2026.02 1주차
Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
  • Bloom의 Erdős Problems 데이터베이스에서 ‘Open’으로 표시된 700개의 추측을 체계적으로 검토 → Gemini의 반자율적인 수학적 발견
  • hybrid methodology: search space를 좁히기 위한 AI-driven natural language verification & correctness와 novelty를 측정하기 위한 human expert evaluation
  • math conjectures에 AI를 활용할 수 있음과 동시에 subconscious plagiarism의 위험성 지적
🧑🏻‍💻 Dev Perplexity
2026.02 1주차
Introducing Model Council
  • 모델마다 잘 처리할 수 있는 태스크가 다르므로 한 개 쿼리를 여러 모델로 처리한 뒤 outputs를 combine 하는 방식
  • 3개의 frontier models를 병렬적으로 run → synthesizer model이 outputs를 비교하여 최종 결과 산출
  • Perplexity Max 구독자만 이용 가능
📜 Paper Meta, ICL, Cambridge
2026.02 1주차
Scaling Small Agents Through Strategy Auctions
  • small agents가 deep research, coding tasks에서 큰 agents와 보이는 gap을 최소화하기 위한 연구
  • Strategy Auctions for Workload Efficiency (SALE): agents는 짧은 strategic plans를 입착하는 프리랜서 마켓 스타일의 agent 프레임워크
  • 작은 모델들을 적합한 태스크에 배치하고 test-time self-improve 할 수 있도록 세팅해주면 “scaled up” 가능하다고 설명
🧑🏻‍💻 Dev Perplexity
2026.02 1주차
Evaluating Deep Research Performance in the Wild with the DRACO Benchmark
  • Deep Research Accuracy, Completness, Objectivity를 평가할 수 있는 DRACO 벤치마크 오픈소스로 공개
  • 포스팅에 따르면 Perplexity의 Deep Research가 SoTA로 기록되어 있음
  • 데이터 제작 시 철저한 rubric 개발에 힘을 썼는데, 이는 Rubric Creation → Iterative review and revision → Saturation Test → Final Review 프로세스를 거친다고 함
📜 Paper Baidu
2026.02 1주차
ERNIE 5.0 Technical Report
  • text, image, vidoe, audio를 이해할 수 있는 autoregressive foundation model
  • modality-agnositc expert routing을 탑재한 ultra-sparse MoE 아키텍쳐를 따르며 unified next-group-of-tokens prediction으로 학습
  • 한 번의 사전학습만으로도 서로 다른 depth의 sub-models를 학습하여 메모리 시간 제약 등을 고려한 유연한 trade-off 가능
🧑🏻‍💻 Dev Anthropic
2026.02 1주차
Introducing Claude Opus 4.6
  • 더욱 향상된 코딩 능력을 강점으로 내세워 신규 모델 공개
  • Adaptive Thinking, 1M context (beta), context compaction (자동 요약)
  • GDPval-AA에서 전작 Opus 4.5 대비 200점이나 높은 elo score를 기록한 점이 눈에 띔
🧑🏻‍💻 Dev OpenAI
2026.02 1주차
Introducing GPT-5.3-Codex
  • GPT-5.2-Codex와 GPT-5.2 모델을 합친 버전의 모델
  • OSWorld-Verified 벤치마크에서 높은 점수를 기록한 것이 눈에 띔
  • 초기 버전의 GPT‑5.3‑Codex를 이용해서 GPT‑5.3‑Codex 본인의 트레이닝을 모니터링/디버깅하고, 배포를 관리하고, 평가 로그를 분석
📜 Paper Arizona, Pennsylvania
2026.02 1주차
Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know"
  • three task-equivalent prompting regimes: Direct, Assistive, and Incremental
  • multi-hop QA 벤치마크 대상으로 테스트
  • regimes 간 일치 정도를 internal uncertainty signal로 해석
📜 Paper Google, Peking
2026.02 1주차
PaperBanana: Automating Academic Illustration for AI Scientists
  • LLM 기반의 AI scientist를 이용하더라도 publication ready illustration을 만드는 것이 큰 bottleneck이 됨
  • self-critique를 통해 specialized agents를 orchestrate
  • retrieve references, plan content & style, redner images, iteratively refine
🧑🏻‍💻 Dev Z.ai
2026.02 1주차
GLM-OCR
  • GLM-V encoder-decoder 아키텍쳐를 따르는 0.8B 사이즈의 multimodal OCR model
  • Multi-Token Prediction loss (MTP loss) & stable full-task RL 적용
  • two-stage pipeline: layout analysis & parallel recognition (PP-DocLayout-V3 기반)
📜 Paper Sber Robotics Center
2026.02 1주차
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
  • 휴머노이드 Green을 위한 staged VLA framework
  • five-stage curriculum
  • (L0) foundational VLMs → (L1) multimodal grounding → (R0) multi-embodiment pretraining → (R1) embodiment-specific adaptation → (R2) RL-based policy alignment.
🧑🏻‍💻 Dev Matt Schlicht
2026.02 1주차
motlbook
  • 1.5M AI agents가 알아서 글을 포스팅하고 댓글을 남기는 social platform..
  • 110,000+ posts & 500,000+ comments가 agents에 의해 생성되었다고 함
  • 심지어 내용들도 굉장히 자극적이고 신선해서 크게 화제를 일으키는 중
📜 Paper MIT, ETH
2026.02 1주차
Self-Distillation Enables Continual Learning
  • demonstration-condition model을 own teacher로 사용해서 on-policy training signals 생성
  • 이를 통해 catastrophic forgetting 이슈를 해소하면서도 새로운 태스크에 대한 정확도를 높게 챙길 수 있음
📜 Paper Anthropic, Stanford
2026.02 1주차
Shaping capabilities with token-level data filtering
  • → 대신 pretraining 동안에 해결되어야 하는 것으로 대안 제시
  • 의료 도메인을 대상으로 documents filtering보다 tokens filtering이 훨씬 더 효과적이었음을 입증
  • scaling 관점에서도 그렇다고 함

2026년 1월 54건

📜 Paper Stanford, NVIDIA, …
2026.01 4주차
Learning to Discover at Test Time
  • 어려운 문제를 풀기 위해 모델 스스로 해결을 시도하고 개선하는 것이 가능하도록 학습
  • attempts 간 평균 reward를 maximize 하는 것보다는 the most promising solutions를 prioritize 하도록 design
  • Erdo’s minimum overlap problem, autocorrelation inequality, GPUMode kernel competitions 등 다양한 도메인에서 SoTA 달성
📜 Paper Chicago
2026.01 4주차
AI Agents Need Memory Control Over More Context
  • transcript retention을 bounded internal state로 대체하여 각 턴마다 점진적 업데이트가 가능하도록 함
  • 기존에는 unbounded context growth 문제가 있어 context 관리가 되지 않았던 것을 문제점으로 지적
  • ever-expanding transcripts라고 표현
🧑🏻‍💻 Dev Google Research
2026.01 4주차
Small models, big results: Achieving superior intent extraction through decomposition
  • 이를 위한 decomposed workflow 제시
  • (1) single screen에서의 개별 interaction과 UI element가 summarized
  • (2) 전체 UI trajectory의 일반적 의도를 이해하기 위한 a series of events로 사용됨
🧑🏻‍💻 Dev Moonshot AI
2026.01 4주차
Kimi K2.5: Visual Agentic Intelligence
  • 복잡한 태스크에 대해 100개의 sub-agents를 담고 있는 agent swarm을 컨트롤 할 수 있으며 1,500 개의 tool calls를 병렬 실행할 수 있다고 함
  • sinlge-agent setup과 비교하면 4.5x 빠른 처리 속도
  • 간단한 대화를 완벽한 반응형 layout을 갖춘 front-end interfaces로 변환하는 능력 소개
📜 Paper Naver AI Lab
2026.01 4주차
Oops, Wait: Token-Level Signals as a Lens into LLM Reasoning
  • 다양한 모델들의 token probabilities를 token-level로 조사
  • 특정한 토큰들이 reasoning correctness와 강한 상관관계를 보인다고 설명
  • 작은 데이터셋으로 fine-tuning 한 모델은 reasoning abiilty를 얻지만 부분적으로 이용하는 수준이라고 언급
📜 Paper Meituan
2026.01 4주차
LongCat-Flash-Thinking-2601 Technical Report
  • agentic search, agentic tool use, tool-integrated reasoning 벤치마크에서 오픈소스 중 SoTA 달성했다고 설명
  • domain-parallel expert training with subsequent fusion 기반의 unified training framework 언급
  • stable & efficient large-scale multi-environment training을 위한 asynchronous RL framework, DORA 언급
📜 Paper Salesforce
2026.01 4주차
Agentic Confidence Calibration
  • Holistic Trajectory Calibration (HTC): process-level features를 충분히 추출하여 평가
  • interpretability, transferability, generalization 특징을 강점으로 소개
🧑🏻‍💻 Dev OpenAI
2026.01 4주차
Introducing Prism
  • LaTeX-native editor with live preview
  • citation insertion을 위한 built-in literature search 기능
  • handwritten or whiteboard equations를 Image-to-LaTeX conversion
🧑🏻‍💻 Dev DeepSeek AI
2026.01 4주차
DeepSeek-OCR 2: Visual Causal Flow
  • 사람이 문서를 읽는 방식으로 모델 학습한 3B 사이즈의 vision-language architecture 모델
  • encoder로 먼저 page에 대한 global understanding 후 → 어떤 순서로 글을 읽을 것인지 결정
🧑🏻‍💻 Dev Ai2
2026.01 4주차
Open Coding Agents: Fast, accessible coding agents that adapt to any repo
  • SERA lowers the barrier to fine-tuning coding agents
  • 이전 방식들대비 cost-effective 하다는 특징을 엄청난 강점으로 강조
  • Soft-verified generation (SVG), Scaling with a bug-type menu, High simulated workflow fidelity 등을 innovations로 언급
📜 Paper Ant Group
2026.01 4주차
Advancing Open-source World Models
  • 세 가지 주요한 특징
  • (1) high fidelity & robust dynamics
  • (2) contextual consistency를 보존하면서도 minute-level horizon 가능
🧑🏻‍💻 Dev Google DeepMind
2026.01 4주차
AlphaGenome: AI for better understanding the genome
  • 100만 bp 길이의 DNA 서열을 입력으로 받아 수천 개의 조절 관련 분자 특성을 한 번에 예측
  • 모델 구조
  • 초반: CNN으로 로컬 모티프(짧은 패턴) 탐지
📜 Paper StepFun
2026.01 3주차
STEP3-VL-10B Technical Report
  • two strategic shifts
  • (1) unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens
  • (2) scaled post-training pipeline featuring over 1k iterations of RL
📜 Paper CMU, Meta
2026.01 3주차
STEM: Scaling Transformers with Embedding Modules
  • runtime routing을 제거함으로써 CPU offload with asynchronous prefetch를 가능하게 함
  • 또한 극도로 sparse 함에도 불구하고 안정적으로 학습되는 모습 관측됨
🧑🏻‍💻 Dev xAI
2026.01 3주차
X For You Feed Algorithm
  • 두 가지 소스로 후보를 모아 Phoneix(Grok-based transformer model)로 다중 행동 확률을 예측하고 가중합 점수로 정렬하여 상위 K개 선택
🧑🏻‍💻 Dev Anthropic
2026.01 3주차
Claude's new constitution
  • Claude의 어떤 행동이 의도된 것인지 사람이 판단할 수 있게 함으로서 투명성을 높이려는 목적
  • 단순 규칙 나열 → 이유가 포함된 서술형, hard constraint + 유연한 원칙, 학습 파이프라인에서 더 핵심적인 역할
🧑🏻‍💻 Dev NVIDIA
2026.01 2주차
NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI
  • Physical AI Bench & Physical Reasoning 벤치마크에서 SoTA 달성
  • 기존 모델들은 불확실성을 처리하거나 새로운 상황에 적응하는데 필요한 planning several steps ahead 능력 등이 부족했었음
🧑🏻‍💻 Dev Anthropic
2026.01 2주차
Cowork: Claude Code for the rest of your work
  • Mac 앱에서 특정 로컬 폴더에 권한 부여
  • 컨텍스트를 유지하면서도 병렬로 처리할 수 있음
  • Claude Max 구독자 대상으로 Mac에서 동작하는 App에 preview 형태로 제공중
📜 Paper Zhejiang, Edinburgh, NUS
2026.01 2주차
Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency
  • 같은 질문을 받더라도 주변 문맥이 살짝 바뀌면 출력이 달라지는 현상
  • 이를 해결하기 위한 Neighbor-Consistency Belief (NCB): conceptual neighborhood 간 response coherence를 평가하는 belief robustness를 구조적으로 측정
  • 이것의 효용을 입증하기 위해 contextual interference에 대한 outputs stability를 측정하는 cognitive stress-testing protocol 제시
🧑🏻‍💻 Dev Manus
2026.01 2주차
Introducing Meeting Minutes
  • 화자 인식, Seamless End-to-End Execution, Collaborative Execution 등을 핵심 특징으로 강조
  • 면대면 미팅에 특화됨. 온라인 미팅 상황은 대상이 아님
🧑🏻‍💻 Dev Cursor
2026.01 2주차
Scaling long-running autonomous coding
  • 일주일 동안 interrupt 없이 실행되며 1,000개 파일에 100만+ 라인 작성
  • Solid → React 마이그레이션
  • 3주 이상걸리며 +266K/-193K 수정
🧑🏻‍💻 Dev Google
2026.01 2주차
Gemini introduces Personal Intelligence
  • Gmail, Google Photos, YouTube, Workspace, Search
  • 필요할 때만 context에 추가하는 방식으로 one reasoning window에서 커버
  • U.S. Google AI Pro & Ultra 유저 대상으로 beta 오픈
📜 Paper UIUC, Stanford, …
2026.01 1주차
Adaptation of Agentic AI
  • agent adaptations & tool adaptations를 다루는 systematic framework
  • tool-execution-signaled & agent-output-signaled forms
  • offline data를 이용해 각 weight를 업데이트 하는 것으로 보임
🧑🏻‍💻 Dev IQuestLab
2026.01 1주차
IQuest-Coder-V1
  • Dual Specialization Paths: 두 갈래의 post-training을 통해 thinking model & instruct model 개발
  • recurrent mechanism을 이용하여 model capability와 deployment footpring 간의 trade-off 최적화한 Efficient Archiecture
  • 추가적인 scaling 없이 native 128K 지원
🧑🏻‍💻 Dev OpenCode AI
2026.01 1주차
OpenCode
  • TUI 지원되면서도 시각적으로 보기 편리하게 구성되어 있음
  • Claude Code를 그대로 쓸 수도 있고 다른 모델들을 필요한 곳에 override 해서 사용하는 것도 가능
📜 Paper NVIDIA, Stanford, UC Berkeley
2026.01 1주차
End-to-End Test-Time Training for Long Context
  • standard architecture: Transformer with sliding-window attention
  • test time의 next-token prediction 상황에서 context를 compress하여 weight에 반영
  • training time에 test-time에서 습득한 meta-learning을 통해 model initialization
📜 Paper MIT
2026.01 1주차
Recursive Language Models
  • 모델의 컨텍스트 윈도우를 두 자릿수 이상 넘어서는 경우도 잘 처리할 수 있음 (100배 이상)
  • long-context tasks에서 base LLM, 그리고 common long-context scaffolds를 크게 앞선 결과
📜 Paper DeepSeek AI
2026.01 1주차
mHC: Manifold-Constrained Hyper-Connections
  • mHC: HC의 residual connection space를 특정 manifold에 project하여 identity mapping property를 복구하는 framework
  • Sknkhorn-Knopp alogrithm 사용됨
📜 Paper Duke, ByteDance
2026.01 1주차
Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning
  • reflector가 이를 보고 답변을 끝내도 될지 업데이트 해야될지 판단 (Multi-agent reflection architecture)
  • 여러 response를 한 번에 보고 비교 분석하기 때문에 cross-instance learning이라고 표현한 듯
📜 Paper Stanford
2026.01 1주차
A multimodal sleep foundation model for disease prediction
  • PSG: Polysomnography - the gold standard for sleep analysis
  • 65,000명의 참가자들로부터 585,000 시간 분량의 PSG recording을 확보하여 모델 학습
  • 130개 conditions를 예측할 수 있을 뿐만 아니라 뛰어난 transfer learning 성능을 보였다고 언급
🧑🏻‍💻 Dev OpenAI
2026.01 1주차
Introducing ChatGPT Health
  • 현재 US만 가능
  • 독립된 샌드박스 환경에 데이터 저장 및 관리하여 학습 데이터로 활용되지 않는다고 함
  • 건강 데이터를 바탕으로 상황 진단 또는 추적 관리 등 가능
📜 Paper Beijing Univ.
2026.01 1주차
Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
  • 모델이 own prediction에 highly confident 하지만 divergent ground truth를 배우도록 강제됨
  • Entropy-Adaptive Fine-Tuning (EAFT): prediction probability에만 의존하지 않고, token-level entropy를 gating mechanism으로 사용
  • epistemic uncertainty & knowledge confict 를 구분하는 데 사용
🧑🏻‍💻 Dev MIT, Sakana
2026.01 1주차
Digital Red Queen:Adversarial Program Evolution in Core War with LLMs
  • static objective → changing objective에 대해 continual adaptation
  • targeted bombing, self-replication, massive multhreading 등을 포함한 다양한 전략으로 이어짐
  • convergence pressure toward a general-purpose behavioral strategy → convergent evolution

2025년 12월 49건

📜 Paper KlingAI
2025.12 4주차
Kling-Omni Technical Report
  • video generation, editing, intelligent reasoning 등을 end-to-end로 다룸
  • 이에 따라 text instructions, reference images, video context 등을 입력으로 받을 수 있음
📜 Paper Google, UC Santa Barbara
2025.12 4주차
Budget-Aware Tool-Use Enables Effective Agent Scaling
  • Budget Tracker: agent에게 continuous budget awareness를 제공하는 plug-in
  • BATS (Budget Aware Test-time Scaling): budget awareness를 이용하여 dig deepr | pivot to new paths를 dynamically decide
📜 Paper Ant Group
2025.12 4주차
LLaDA2.0: Scaling Up Diffusion Language Models to 100B
  • from-scratch 학습 대신 pre-trained AR 모델을 3-phase block-level WSD based training scheme을 통해 dLLM으로 전환
  • post-training alignment (SFT & DPO)를 통해 MoE 아키텍쳐의 LLaDA2.0-mini (16B) & LLaDA2.0-flash (100B) 모델 획득
📜 Paper Google
2025.12 4주차
Prompt Repetition Improves Non-Reasoning LLMs
  • Gemini, GPT, Claude, DeepSeek 같은 플래그십 모델들에 대해 실험한 결과 보고
  • 또한 RL로 학습된 reasoning 모델들이 유저의 요청을 반복하는 경항이 있는데 이를 역시 prompt repetition이라고 표현하고 이것이 아주 효율적이라고 설명함
📜 Paper HKUST, Waterloo, Tsinghua, ICL
2025.12 4주차
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
  • two-phase dynamic: procedural correctness의 제약을 받으며 low-level skills 개선 → high-level strategic planning 고도화로 이어짐
  • 이 관점에서 GRPO 같은 RL 알고리즘은 토큰으로부터의 learning signal을 무시한채로 무작위 optimzation 한다는 한계를 지적
  • Hierarchy-Aware Credit Assignment (HICRA): 영향이 큰 planning tokens 대상으로 opimization efforts 집중
📜 Paper MIT
2025.12 4주차
Self-Adapting Language Models
  • SEAL: 새로운 입력이 주어지면 모델이 학습하기 좋은 형태의 self-edit 데이터를 생성
  • 이렇게 생성된 self-edit를 SFT하여 새로운 지식에 adapt
  • updated model의 downstream performance를 reward signal로 사용하여 RL 함으로써 effective self-edits를 생성할 수 있도록 모델을 학습
🧑🏻‍💻 Dev NVIDIA
2025.12 3주차
NVIDIA Nemotron 3 Family of Models
  • Nano, Super, Ultra, 강력한 agentic 능력을 가진 세 개 모델 공개
  • 체크 포인트 및 학습 데이터까지 공개
  • Hybrid MoE, LatentMoE, Multi-Token Prediction, NVFP4, Long Context (1M), Multi-environment Reinforcement Learning Post-training, Granular Reasoning Budge Control at Inference Time
🧑🏻‍💻 Dev Ai2
2025.12 3주차
Introducing Bolmo: Byteifying the next generation of language models
  • transformer 아키텍쳐는 그대로 두고 small byte encoders, decoders 추가
  • Olmo 3 모델과 유사한 수준의 성능을 보이면서도 character 벤치마크에서 높은 점수 달성
  • UTF-8 bytes를 fixed vocab 없이 처리, dynamic byte patches 사용
📜 Paper Google
2025.12 3주차
DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
  • 세 개의 능력을 평가
  • (1) 이질적인 sources로부터 파편화된 정보의 systematic collation
  • (2) precision을 확보하기 위한 de-duplication & entity resolution
📜 Paper NUS, GIT 등
2025.12 3주차
Memory in the Age of AI Agents
  • forms, functions, dynamics를 기준으로 agent memory 분석
  • agent memory는 token-level, parametric, latent memory로 크게 구분
📜 Paper Tsinghua
2025.12 3주차
DEER: Draft with Diffusion, Verify with Autoregressive Models
  • (1) step-wise uncertainty가 계속해서 누적
  • (2) 본질적으로 AR (autoregressive) drafters의 sequential decoding임
  • dLLM이 이와 같은 문제를 해결할 수 있다고 보며 DEER라는 decoding framework 제안
🧑🏻‍💻 Dev Mistral
2025.12 3주차
Mistral OCR 3
  • [Mistral AI Studio](https://console.mistral.ai/build/document-ai/ocr-playground) 또는 API 통해 이용 가능
🧑🏻‍💻 Dev Alibaba
2025.12 2주차
Qwen3-TTS Update! 49 Timbres + 10 Languages + 9 Dialects
  • Enhanced Multilingual & Dialect Capabilities: 영어, 중국어, 독일어, 한국어 등 주요 10개 언어 지원
  • 한국어, 일본어 등 그렇게까지 자연스러운지 모르겠음
  • More Natural & Human-like Prosody/Speech Rates: 전작 대비 훨씬 자연스러운 발화
📜 Paper Anthropic
2025.12 2주차
Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs
  • → 기존 Gradient Routing을 개선하여 Selective GradienT Masking (SGTM) 개발
  • 두 개의 지식 제거 실험
  • (1) bilingual synthetic dataset으로 학습된 모델의 한 언어를 제거
🧑🏻‍💻 Dev Google
2025.12 2주차
Titans + MIRAS: Helping AI have long-term memory
  • MLP 기반의 long-term memory module을 사용하여 대량의 정보를 손실 없이 저장하도록 함
  • 여기에 surprise metric을 사용하여 새로운 입력이 기존의 정보와 큰 차이가 있는지 detect
  • MIRAS (이론)
🧑🏻‍💻 Dev OpenAI
2025.12 2주차
Introducing GPT-5.2
  • 이를 뒷받침하는 GDPval 벤치 결과를 언급
  • ChatGPT - Instant/Thinking/Pro, API - 5.2/5.2-chat-latest/5.2-pro
🧑🏻‍💻 Dev Cursor
2025.12 2주차
A visual editor for the Cursor Browser
  • 각 element의 설정을 사이드 패널에서 직접 컨트롤 할 수 있음 (폰트 사이즈, 서체 등등)
  • element를 클릭하고 그걸 대상으로 prompt 작성해서 코딩하는 것도 가능
📜 Paper Stanford
2025.12 2주차
The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics
  • reasoning을 phase transition으로 modeling하는 theory of semantic anchoring formalize (UCCT)
  • AGI에 필요한 것은 더 큰 모델, 더 많은 데이터, 더 복잡한 아키텍쳐가 아닌, 모델 패턴을 목표에 align 시키는 executive function이라고 주장
📜 Paper Berkeley, UIUC, Stanford, IBM
2025.12 2주차
Measuring Agents in Production
  • 정형적인 벤치마크 대신 현업 맥락에 맞춘 인간 검증을 통해 평가
  • production agent가 일반적으로 simple & controllable approaches를 갖고 있다고 설명
  • 사람 개입 전에 최대 10개 steps 68%, prompting off-the-shelf models 의존 70%
🧑🏻‍💻 Dev Karpathy
2025.12 1주차
LLM Council
  • 쿼리를 제출하면 1) First Options 2) Review 3) Final Response 단계를 거치게 됨
🧑🏻‍💻 Dev DeepSeek AI
2025.12 1주차
DeepSeek-V3.2: Efficient Reasoning & Agentic AI
  • 세 가지 keys
  • DeepSeek Sparse Attention (DSA)
  • Scalable Reinforcement Learning Framework
📜 Paper MiroMind
2025.12 1주차
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
  • LMMs의 temporal grounding 능력을 video cropping tool로 이용하여 특정 video clip에 zoom in하고 finer-grained video frames를 resample 하도록 함
  • global-to-local reasoning loop
  • VideoLIAH를 공개하여 training & evaluation 촉진
🧑🏻‍💻 Dev Mistral AI
2025.12 1주차
Introducing Mistral 3
  • 오픈소스 모델 중 SoTA라고 설명
  • non-reasoning 모델 중 LMArena에서 2위 달성
  • text, images, multilingual inputs 처리 가능
🧑🏻‍💻 Dev OpenAI
2025.12 1주차
How confessions can keep language models honest
  • main answer & separate ‘confession’을 출력하도록 지시하여 confession channel을 관측
  • confession channel에서는 main answer가 올바를 때에조차 hidden failure를 보임
  • hallucination, 지름길 이용, 부적절한 보상 신호 악용 확인됨

2025년 11월 54건

📜 Paper OpenAI
2025.11 4주차
Early science acceleration experiments with GPT-5
  • 이를 통해 연구 내에서 사람의 시간을 아낄 수 있는 영역과, 여전히 사람의 손이 많이 필요한 영역을 구분해냄
  • 특히나 수학 분야에서 풀리지 않았던 문제를 푸는 데 GPT-5가 어떻게 도움을 줄 수 있었는지에 대해 다룸
📜 Paper NVIDIA
2025.11 4주차
Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs
  • single parent model에 여러 개의 nested submodels을 embed하고 각각 다른 configurations & budgets에 optimize
  • 각 submodel은 parent model과 weight를 공유하고, 추가적인 학습 없이도 zero-shot extration 가능하다고 설명
  • group-aware SSM elastification, heterogeneous MLP elastification, normalized MSE-based layer importance 등을 통해 Mamba의 구조적 제약을 보존
🧑🏻‍💻 Dev Anthropic
2025.11 4주차
Introducing Claude Opus 4.5
  • prompt injection에 업계 최고 수준으로 robust 하다고 설명
  • 153 페이지 분량의 [system card](https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf) 🔗
📜 Paper Salesforce, Stanford
2025.11 4주차
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
  • 같은 모델로부터 만든 두 개의 agents가 공생하는 구조
  • curriculum agent & executor agent
  • executor agent에게 external tools를 붙여줌으로써, curriculum agent가 더 어렵고 복잡한 문제를 내게끔 압박
📜 Paper Peking
2025.11 4주차
General Agentic Memory Via Deep Research
  • just-in- time (JIT) compilation 원칙 준수
  • runtime에 simple, but useful memory만을 생성하도록 함 (offline stage)
  • duo-design
🧑🏻‍💻 Dev Tecent
2025.11 4주차
HunyuanOCR
  • 1B 파라미터로 다양한 벤치마크에서 SoTA 달성
  • complex multilingual document parsing, text spotting, open-field information extraction 등 다양한 태스크 커버 가능
  • 100개 이상의 언어 처리할 수 있다고 주장
🧑🏻‍💻 Dev Andrew Ng
2025.11 4주차
Stanford Agentic Reviewer
  • PDF → MD 변환 후 제목/학술문서 여부 체크 → 논문에서 검색 쿼리 생성하여 arXiv 검색 → 상위 논문 요약 → 원 논문 MD + 관련 연구 요약 합쳐 템플릿 리뷰 생성
  • ICLR 2025 데이터 대상으로 테스트 한 결과, Human-Human 간 Spearman 점수보다 높음
📜 Paper UCL
2025.11 4주차
Memento: Fine-tuning LLM Agents without Fine-tuning LLMs
  • Memory-augmented Markov Decision Process (M-MDP) with neural case-selection policy
  • policy는 memory rewriting mechanism을 통해 environmental feedback 기반으로 업데이트
  • memory reading (retrieval)을 통해 policy improvement
🧑🏻‍💻 Dev DeepSeek AI
2025.11 4주차
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
  • two-part training system으로 모델의 full proofs를 생성, 체크, 교정
  • generator with a dedicated verifier
  • verifier는 각 스템에 대해 scores
📜 Paper Qwen, Edinburgh, Stanford, MIT
2025.11 4주차
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
  • gating-augmented softmax attention variants에 대한 연구
  • 30개 종류의 15B MoE models, 1.6B dense 모델에 대해 조사 (3.5T 토큰 학습)
  • head-specific sigmod gate를 Scaled Dot-Product Attention (SDPA) 이후에 적용하는 것이 모델 성능을 확실히 향상시킬 수 있는 방법이었다고 설명
📜 Paper ByteDance
2025.11 3주차
Depth Anything 3: Recovering the Visual Space from Any Views
  • 2개의 key insights
  • a single plain transformer (vanilla DINO encoder)
  • a singular depth-ray prediction target
🧑🏻‍💻 Dev xAI
2025.11 3주차
Grok 4.1
  • reasoning architecture 변경 없이 dialogue behavior를 조정
  • reasoning-mode 기준으로 EQ-Bench3에서 Elo 점수 최고점 기록
🧑🏻‍💻 Dev Google
2025.11 3주차
A new era of intelligence with Gemini 3
  • 텍스트, 이미지, 비디오, 오디오, 코드 등을 이해할 수 있으면서 1M token context window 지원
  • Google Antigravity: agent-first 개발 플랫폼으로 현재는 free 티어만 열려 있음
📜 Paper Duke
2025.11 3주차
It's LIT! Reliability-Optimized LLMs with Inspectable Tools
  • LIT (LLMs with Inspectable Tools): LLM의 tool-calling 능력을 이용해서 the most reliable & easy-to-trouble shoot solution을 선택하도록 함
  • 이를 검증하기 위해 커스텀 가능한 1,300개의 datasets 구축
  • Harvard USPTO Patent Dataset & NeurIPS 2023 papers 기반으로 수학, 코딩, 모데링 문제들을 포함
🧑🏻‍💻 Dev topoteretes
2025.11 3주차
Cognee
  • 셀프 호스팅 또는 Cognee Cloud를 통해 메모리를 관리할 수 있음
  • 벡터 & 그래프 하이브리드 검색 파이프라인
  • CLI & Web UI 제공
🧑🏻‍💻 Dev Google
2025.11 3주차
Introducing Nano Banana Pro
  • 아이디어 시각화 품질이 엄청 뛰어남. 글자(영어) 표현이나 장표 구성.
  • inforgraphics, slide decks, memes, mockups, storyboards 등
🧑🏻‍💻 Dev OpenAI
2025.11 3주차
A free version of ChatGPT built for teachers
  • GPT-5.1 Auto 모델의 무제한 메세지, 검색, 파일 업로드, connectors 등 다양한 기능 지원
  • 교사 개인화된 학습 지원과 동시에 데이터를 학습에 사용하지 않는 보안까지 보장
🧑🏻‍💻 Dev Meta
2025.11 3주차
Introducing Meta Segment Anything Model 3 and Segment Anything Playground
  • SAM 3 model checkpoints, evaluation datasets, fine-tuning code 공개
  • Segment Anything Playground 플랫폼을 제공하여 모델의 특성과 능력을 이해할 수 있도록 보조
  • 또한 3D objects & human reconstruction from a single image 관련 SAM 3D 모델, 코드 및 데이터 역시 공개
📜 Paper Kandinsky Lab
2025.11 3주차
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
  • 5.0 Image Lite (6B image generation), 5.0 Video Lite (2B text-to-video), 5.0 Video Pro (19B video generation)
  • code, model check-point 오픈소스로 공개
  • Diffusion Transformer with cross-attention (CrossDiT) for multimodal fusion of visual and textual information를 핵심 아키텍쳐로 설명
📜 Paper OpenMOSS
2025.11 2주차
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
  • Thinking with Video: Sora-2와 같은 video generation 모델을 이용하여 unified framework에서 visual & textual reasoning
  • Video Thinking Benchmark 개발: (1) vision-centric tasks (2) text-centric tasks
  • self-consistency & in-context learning이 Sora-2 performance 향상에 기여할 수 있다고 설명
📜 Paper Oxford, Microsoft
2025.11 2주차
VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
  • general commonsense, professional disciplines, visual-centric perception 등 영역을 cover
  • CodeVQA: policy model이 rendered SVG에 관한 질문에 답변함으로써 symbolic fidelity를 평가
  • 현재 frontier VLMs도 language-centric & visual-centric 태스크 간 gap을 보임
🧑🏻‍💻 Dev Skyvern AI
2025.11 2주차
Skyvern
  • AGPL-3.0 라이센스: 네트워크 이용시 소스 공개, 고지 필수 / 상업적 이용 가능
  • Task-Driven autonomous agent design + Playwright (browser automation library)
  • 이러한 웹 기반 에이전트를 이용하여 학습용 데이터 크롤링에 활용하고자 하는 니즈 높음 (최근)
📜 Paper Mila, McGill
2025.11 2주차
Grounding Computer Use Agents on Human Demonstrations
  • GroundCUA: expert human demonstraions로 제작된 large-scale desktop grounding dataset 공개
  • 12개 카테고리의 87개 어플리케이션 포함, 56K 스크린샷에 3.56M human-verified elements
  • GroundNext: instructions를 target UI elements에 map 할 수 있는 모델 패밀리 (3B & 7B)
🧑🏻‍💻 Dev OpenAI
2025.11 2주차
GPT-5.1: A smarter, more conversational ChatGPT
  • Instant 모델의 경우 Intelligence 뿐만 아니라 communication style 개선도 많이 이뤄졌다고 설명
  • 또한 쉬운 질문은 빠르게, 어려운 질문은 오랜 시간을 들여 처리하는 adaptive reasoning 적용
  • Preset 업데이트
🧑🏻‍💻 Dev Google DeepMind
2025.11 2주차
SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds
  • 단순히 instruction을 따르는 것 외에도 think & reason 할 수 있다고 설명
  • human demonstration videos with language labels & Gemini-generated labels를 혼합하여 학습 데이터로 활용
  • multi-modal 정보나 다양한 언어, 이모지 등을 이해할 수 있음
📜 Paper NVIDIA
2025.11 2주차
TiDAR: Think in Diffusion, Talk in Autoregression
  • TiDAR: (Thinking) in Diffusion and sampels final outputs (Talking) AutoRegressively
  • specially designed structured attention masks를 이용하여 single forward pass 내에서 처리 가능
  • AR 모델들의 성능에 견주면서도 초당 4.71 ~ 5.91배의 토큰을 출력할 수 있었다고 보고
📜 Paper Beijing Jiaotong Univ.
2025.11 2주차
Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI
  • planning, tool use, memory와 같은 기능들이 외부 시스템에 의해 동작하는 게 아니라 모델의 internalized 능력으로 처리되는 추세
  • outcome-driven exploration RL을 넘어서 LLM + RL + Task 조합이 중요함을 역설
  • language, vision, embodied domains 모두 해당되는 내용
📜 Paper MoonShot AI
2025.11 1주차
Kimi Linear: An Expressive, Efficient Attention Architecture
  • Kimi Delta Attention (KDA): Gated DeltaNet을 finer-grained gating mechanism과 함께 extend
  • 이를 Multi-Head Latent Attention (MLA)와 교차하여 3B activated & 48B total parameters 모델 학습
  • 맞춤형 chunk-wise algorithm은 Diagonal-Plus-Low-Rank (DPLR) transition matrices의 variant로 뛰어난 하드웨어 효율성을 보여줌
📜 Paper BAAI
2025.11 1주차
Emu3.5: Native Multimodal Models are World Learners
  • 10T 토큰 이상의 vision-language interleaved data에 대해 unified next-token prediction 하도록 end-to-end pretrained
  • multi-modal reasoning & generation을 위한 post-training & RL
  • 추론 효율성 향상을 위해서 Discrete Diffusion Adaptation (DiDA) 제안
📜 Paper Meta
2025.11 1주차
Collaborative Reasoner: Self-Improving Social Agents with Synthetic Conversations (NeurIPS 2025)
  • 잘못된 solutions에는 동의하지 않고, 올바른 solution은 상대방에게 설득할 수 있는 능력 등을 확인할 있는 tasks & metrics
  • 현존 모델들은 undesirable socia behavior로 인해 혼자서 풀 수 있는 문제도 틀리는 경향이 있다고 설명
  • 이를 해결하기 위해 synthetic multi-turn preference data를 생성하는 self-play method 제안
📜 Paper Google DeepMind
2025.11 1주차
Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model
  • 각각 prefix language modeling (LM), causal LM으로 pretrained
  • Redpajama V1 (1.6T) 로 pretrain & FLAN 으로 instruction tuning
  • 150M ~ 8B 사이즈 모델 학습
📜 Paper Google Cloud, UCLA
2025.11 1주차
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
  • 작은 사이즈의 open-source models는 여러 시도에도 correct solutions를 반환하는 일이 적어서 RLVR 적용이 어렵다
  • SFT의 경우 rigid token-by-token을 통해 long demonstration에 overfit 된다
  • Supervised Reinforcement Learning (SRL): 각 action을 commit 하기 전에 internal reasoning monologue를 생성하도록 모델 학습
🧑🏻‍💻 Dev Microsoft
2025.11 1주차
Agent Lightning
  • agent 코드에 `agl.emit_xxx()`를 넣거나 tracer를 켜면 각 프롬프트 툴 호출 및 보상 신호가 구조화된 이벤트로 수집 → LightningStore → 작업, 리소스, 트레이스 동기화
  • 선택된 알고리즘이 저장소의 스팬을 읽고 학습 → 학습 결과로 리소스를 저장소에 다시 게시
🧑🏻‍💻 Dev Google
2025.11 1주차
Exploring a space-based, scalable AI infrastructure system design
  • 태양광이 우주에서 지상 대비 최대 8배 효율이라고 함
  • 로켓 발사비가 2030년대 중반에 이르렀을 때 에너지 단가가 지상에서와 근접할 가능성이 있다고 보고 2027년도 초 프로토타입을 목표로 진행하는 프로젝트
📜 Paper Univ. of Milano-Bicocca
2025.11 1주차
Can Role Vectors Affect LLM Behaviour?
  • model activations로부터 29개의 role vectors를 만들고 다양한 도메인에 대해 벤치마크 성능을 평가
  • (1) activation addition: role-specific directions로 강화할 수 있는가 (2) directional ablation: 이를 제거할 수 있는가
🧑🏻‍💻 Dev Moonshot AI
2025.11 1주차
Introducing Kimi K2 Thinking
  • 다수의 reasoning, coding 벤치마크에서 GPT-5, Sonnet 4.5 상회하는 성능으로 SoTA 달성
  • 추론 비용은 이 모델들보다 10x - 20x 저렴
  • 100M 이상 유저 | 20M$/a month 의 경우에만 Kimi K2를 명시하는 라이센스로 오픈소스임
📜 Paper MDGA
2025.11 1주차
Diffusion Language Models are Super Data Learners
  • 데이터가 많거나 품질이 좋으면 늦게, 모델 사이즈가 클수록 빨리 나타남
  • dense & sparse 아키텍쳐 공통적으로 확인
  • 세 가지 compounding factors
🧑🏻‍💻 Dev Edison
2025.11 1주차
Kosmos: An AI Scientist for Autonomous Discovery
  • 사람이 6개월 동안 처리할 일을 하루만에 끝낼 수 있는 것으로 보고
  • 1,500개의 papers를 읽고 42,000 lines of analysis code를 실행할 수 있다고 함
📜 Paper Tencent, Tsinghua
2025.11 1주차
Continuous Autoregressive Language Models
  • K개 tokens로 구성된 chunk를 single continuous vector로 압축하는 high-fidelity autoencoder 사용
  • the number of generative steps를 K 값에 비례하여 줄일 수 있게 됨
  • robust training, evaluation, controllable sampling을 가능토록 하는 likelihood-free framework 개발

2025년 10월 60건

🧑🏻‍💻 Dev open-notebook
2025.10 5주차
open-notebook
  • 16개가 넘는 모델들을 선택할 수 있음
  • docker를 이용하여 간편하게 설치할 수 있음
🧑🏻‍💻 Dev Mistral AI
2025.10 5주차
Introducing Mistral AI Studio.
  • Built-in evaluation, Treaceable feedback loops, Proveanance and versioning, Governance, Flexible deployment 등을 핵심 특징으로 제시
🧑🏻‍💻 Dev Ai2
2025.10 5주차
olmocr
📜 Paper Together, Stanford
2025.10 4주차
ReasonIF: Large Reasoning Models Fail to Follow Instructions During Reasoning
  • ReasonIF: reasoning instruction following 능력을 평가하는 벤치마크 도입
  • multilingual reasoning, formatting 등 6개의 카테고리로 구분
  • 현존하는 open-source LRMs는 최대 0.25점을 기록하는 수준임
🧑🏻‍💻 Dev Anthropic
2025.10 4주차
Claude Code on the web
  • 터미널 접속 없이 웹에서 처리하는 기능이 codex와 동일
🧑🏻‍💻 Dev OpenAI
2025.10 4주차
Introducing ChatGPT Atlas
  • 이용 시작부터 7일 간 promotion. 더 많은 호출 가능. 현재는 mac os만 지원
  • 새로운 탭 화면이 검색창 같은데 ChatGPT 메인 화면이어서 대화 이력도 확인 가능
📜 Paper Zhejiang, NUS
2025.10 4주차
LightMem: Lightweight and Efficient Memory-Augmented Generation
  • (1) cognition-inspired sensory memory가 lightweight compression을 통해 무관한 데이터를 filter & 주제에 따라 그룹화
  • (2) topic-aware short-term memory가 이런 topic-based groups를 consolidate
  • (3) long-term memory가 이러한 정보를 활용
📜 Paper JHU, PKU, Princeton, MIT, Harvard
2025.10 4주차
World-in-World: World Models in a Closed-Loop World
  • World-in-World: real agent-environment를 반영하는 closed-loop에서 WM를 벤치마크하는 open platform
  • 다양한 WMs를 평가하는 4개의 closed-loop environments를 curate
  • 또한 embodied setting에서 WM에 대한 data scaling law를 제안
📜 Paper HKUST, NYU
2025.10 4주차
DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference
  • reasoning traces의 토큰 확률의 entropy 계산 → U-shaped entropy pattern 발견
  • 쉬운 문제에 대해서도 높은 entropy를 갖고 있음 (정확한 답변임에도 불구하고)
  • DiffAdapt: 각 question의 난이도와 reasoning trace entropy를 근거로 Easy/Normal/Hard 추론 전략을 선택하는 프레임워크
📜 Paper DeepSeek AI
2025.10 4주차
DeepSeek-OCR: Contexts Optical Compression
  • DeepEncoder & DeepSeek3B-MoE-A570M decoder
  • 텍스트 토큰이 vison 토큰의 10배보다 적게 유지되는 경우 OCR 정확도는 97% 수준 (압축률이 10배 미만이면)
🧑🏻‍💻 Dev Anthropic
2025.10 3주차
A small number of samples can poison LLMs of any size
  • 모델 사이즈에 비례하여 더 많은 데이터를 학습하게 되므로 이를 attack 하기 위해서는 training data의 비율을 조정해야 한다는 것이 관념이었으나 “고정된” 개수의 documents로 attack이 가능하다고 주장하는 것임
📜 Paper KAIST
2025.10 3주차
KORMo: Korean Open Reasoning Model for Everyone
  • (1) synthetic data로 model collapse 없이 pre-training 가능
  • synthetic data-driven fully open models (FOMs)
  • (2) bilingual instruction tuning으로 near-native reasoning & coherence 달성 가능
🧑🏻‍💻 Dev Adrej Karpathy
2025.10 3주차
Nanochat
  • 학습 및 추론 돌리는데 $100 정도 비용
📜 Paper Princeton
2025.10 3주차
Skill-Targeted Adaptive Training
  • teacher는 task dataset을 사용해서 list of skills를 만들고, 각 스킬에 필요한 data point에 labeling
  • student’s answers를 monitoring하여 Missing-Skill-Profile를 생성
  • STAT-Sel: 이에 따라 training examples를 adaptively reweights
🧑🏻‍💻 Dev Alibaba
2025.10 3주차
Qwen3-VL
  • FP8 deployment 가능
  • 일부 벤치마크에서 Gemini 2.5 Flash-Lite & GPT-5 Nano 능가
📜 Paper Shanghai Jiao Tong
2025.10 3주차
AI for Service: Proactive Assistance with AI Glasses
  • Alpha-Service: 두 가지 challenges를 address (using AI Glasses)
  • Know When to intervene by detecting service opportunities
  • Know How to provide both generalized & personalized services
🧑🏻‍💻 Dev Anthropic
2025.10 3주차
Introducing Claude Haiku 4.5
  • Sonnet 모델과 유사한 아키텍쳐를 따르고 있으나 speed & cost efficiency를 최적화하는 것에 집중
📜 Paper Stanford
2025.10 3주차
Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
  • Verbalized Sampling (VS): model collapse를 피할 수 있는 training-free prompting strategy
  • responses에 대한 probability distribution을 모델이 스스로 verbalize 하는 것만으로도 creative writing, dialogue simulation, open-ended QA 등 태스크에서 답변 다양성 크게 증가 (factual accuracy 감소 없이)
🧑🏻‍💻 Dev OpenAI
2025.10 2주차
OpenAI DevDay 2025
  • AgentKit: Agent Builder, ChatKit, Evals (타사 모델 평가 지원), RFT, Guardrail 등
  • Models & API update: GPT-5 Pro (API), Sora 2 (API), gpt-realtime-mini, gpt-image-1-mini
  • Codex 일반 제공: Slack 연동, Codex SDK, 관리자 기능
📜 Paper Anthropic, Oxford
2025.10 2주차
Eliciting Secret Knowledge from Language Models
  • 3개 model families로 black-box & white-box 스타일 둘 다 연구
  • 가장 퍼포먼스가 좋았던 것은 black-box 스타일 중 하나인 prefill attacks: LLM이 predefinex prefix가 주어졌을 때 completion 하면서 secret reveal
📜 Paper Oxford, Apple
2025.10 2주차
The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
  • 각 document에 quality score를 부여
  • CQF가 downstream task 퍼포먼스는 향상시키지만, 반드시 high-quality dataset modeling으로 이어지는 것은 아니라고 지적
  • 왜냐하면 CQF가 high-qaulity dataset 또한 filtering 하는 경우가 있기 때문
📜 Paper Meta, NYU
2025.10 2주차
A Single Character can Make or Break Your LLM Evals
  • comma? new line? semi-colon?, …
  • Llama, Qwen, Gemma model family로 비교실험한 결과 the choice of delimiter가 MMLU에 대한 성능을 +- 23%까지 영향을 줬다고 설명
  • 심지어 topics, models families 구분 없이 존재하는 현상이며 scale에 따른 개선도 없다고 함
🧑🏻‍💻 Dev Google
2025.10 2주차
Introducing the Gemini 2.5 Computer Use model
  • Gemini 2.5 Pro의 visual understanding & reasoning capability 기반으로 specialized
  • web & mobile control benchmarks에서 다른 모델들 outperform with lower latency
  • Google AI Studio & Vertext AI 등에서 access 가능
📜 Paper Samsung
2025.10 2주차
Less is More: Recursive Reasoning with Tiny Networks
  • 27M parameters trained on small data (~1000 examples)
  • Tiny Recursive Model (TRM): 더 간단한 recursive reasoning approach로, HRM보다 뛰어난 일반화 성능을 지녔다고 설명
  • only 2 layers. 7M parameters
🧑🏻‍💻 Dev Figure
2025.10 2주차
Introducing Figure 03
  • each fingertip은 high-fidelity tactile sensor를 통해 real-time perception & reasoning을 가능토록 함
📜 Paper Tsinghua
2025.10 2주차
Cache-to-Cache: Direct Semantic Communication Between Large Language Models
  • 이를 통해 KV-Cache가 inter-model communication의 effective medium이라고 주장
  • Cache-to-Cache (C2C): LLMs 간의 direct semantic communication을 위한 새로운 paradigm
  • neural network를 사용하여 source model’s KV-cache를 project & fuse with that of target model
📜 Paper Meta
2025.10 2주차
Agent Learning via Early Experience
  • 현재는 expert data로 fine-tuning하고 있으나 이는 scale-up 할 수 없는 원인이 됨
  • early experience: agent’s own actions로 생성된 interaction data로 future states는 reward signals 없이 supervision으로 serve
  • → Implicit world modeling, Self-refelction
🧑🏻‍💻 Dev Anthropic
2025.10 1주차
Introducing Claude Sonnet 4.5
  • 30시간 넘게 처리해야 하는 코딩 태스크도 수행 가능하다고 설명
🧑🏻‍💻 Dev Ai2
2025.10 1주차
Asta DataVoyager: Data-driven discovery and analysis
  • spreadsheet, csv와 같은 structured data에서 explainable answer 반환 (복사 가능한 코드, 시각적 자료 등과 함께)
  • on-premise, private cloud에서 데이터 관리 (보안)
🧑🏻‍💻 Dev OpenAI
2025.10 1주차
Sora 2 is here
  • physics-aware, synchronized audio, controllability 등 특징
  • 5-10s output, 워터마크
  • invite-only launch in U.S. & Canada
🧑🏻‍💻 Dev Thinking Machines
2025.10 1주차
Announcing Tinker
  • Llama-3.x ~ Qwen3 시리즈 모델 대상으로 학습 가능. 중간 체크포인트도 다운로드 가능
📜 Paper NUS, Oxford, Stanford
2025.10 1주차
GEM: A Gym for Agentic LLMs
  • 기존 OpenAI-Gym이 제공하던 것들을 그대로 지원 - asynchronous vectorized execution for high throughput & flexible wrappers for easy extensibility
  • 추가로, robust integrated tools & single-file example scripts with five popular RL training frameworks 지원
📜 Paper Imperial College London
2025.10 1주차
Fine-tuning with RAG for Improving LLM Learning of New Skills
  • (1) agent failures로부터 compact & reusable hints 추출
  • (2) 이 hints를 episode start 시점에 one-shot retrieval에 사용하여 improved teacher trajectories 생성
  • (3) hint strings를 제거하여 student 모델을 학습함으로써 memorization 대신 internalization 유도
📜 Paper Meta, Johns Hopkins
2025.10 1주차
The Era of Real-World Human Interaction: RL from User Conversations
  • RLHI with User-Guided Rewrites: unsatisfactory model outputs를 유저의 natural-language follow-up response 기반으로 수정
  • RLHI with User-Based Rewards: 유저의 long-term interaction history로 conditioned된 reward 모델을 통해 학습
  • WildChat 데이터를 두 방식으로 학습한 모델이 personalization & instruction-following 관점에서 baseline outperform
🧑🏻‍💻 Dev DeepSeek AI
2025.10 1주차
DeepSeek-V3.2-Exp
  • 본 Sparse Attention은 long-context scenarios를 위해 설계된 디자인
  • HuggingFace의 inference를 이용한 demo 시연 가능

2025년 9월 59건

📜 Paper Zayed University
2025.09 4주차
K2-Think: A Parameter-Efficient Reasoning System
  • Long CoT SFT, RLVR, Agentic planning prior to reasoning, Test-time Scaling, Speculative Decoding, Inference-optimized Hardware
  • 다른 reasoning 모델과 마찬가지로 수학, 과학, 코딩 영역에 특화되어 있다고 설명
  • 각 요청마다 초당 2천 토큰씩 처리할 수 있는 서빙 환경으로 오픈소스 모델 이용 가능 ([허깅페이스 링크](https://huggingface.co/LLM360/K2-Think), [Chat UI 링크](https://www.k2think.ai/guest))
📜 Paper Apple
2025.09 4주차
AToken: A Unified Tokenizer for Vision
  • perceptual & Gram matrix losses를 결합한 adversarial-free training objective 제시
  • curriculum training 방식을 택하여 single images에서부터 videos, 3D 처리할 수 있도록 학습
  • continuous & discrete latent tokens 둘 다 처리 가능하다는 특징
📜 Paper Cornell, CMU
2025.09 4주차
Predicting Language Models' Success at Zero-Shot Probabilistic Prediction
  • LLM이 base prediction task를 잘 수행할 때, 이것의 individual-level의 예측 능력은 훨씬 강해진다고 설명
  • 이를 토대로 LLM의 성능을 task level에서 측정할 수 있는 metric을 제시하여 LLM이 잘하는 태스크와 그렇지 않은 것을 구분할 수 있도록 함
🧑🏻‍💻 Dev xAI
2025.09 4주차
Grok 4 Fast
  • web & X search, 2M context window, reasoning & non-reasoning
📜 Paper Microsoft, Tsinghua
2025.09 4주차
RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation
  • Repository Planning Graph (RPG): 파일 구조, data flows, functions 등을 한 개의 graph 내에 encoding
  • ZeroRepo: scratch부터 repo를 생성하는 graph-driven framework
  • proposal-level planning, implemetation-level refinement, graph-guided code generation 순서로 실행
📜 Paper ASI
2025.09 4주차
LIMI: Less is More for Agency
  • 78개의 training samples만으로 학습한 모델이 다른 SoTA급 모델들의 퍼포먼스를 상회
  • 즉, 데이터 양치기가 좋은 agentic intelligence를 만드는데 도움이 되지 않는다는 것
🧑🏻‍💻 Dev Alibaba
2025.09 4주차
Qwen3-Omni: Natively Omni-Modal Foundation Models!
  • 36개 벤치마크 중 32개 SoTA, 119개 텍스트 언어 & 19개 speech 언어 처리, 30분 길이의 audio input 처리 가능
  • Thinker-Talker: Thinker는 텍스트를 생성하고 Talker는 speech를 실시간 stream
  • 20M+ hours 학습한 AuT encoder, MoE, Joint pretraining 등의 특징
🧑🏻‍💻 Dev DeepSeek AI
2025.09 4주차
DeepSeek-V3.1-Terminus
  • 최근 업데이트를 통해 language consistency 이슈도 해결
🧑🏻‍💻 Dev Google Chrome
2025.09 4주차
Chrome DevTools (MCP) for your AI agent
  • 디버깅, 성능 추적 및 네트워크 분석 등을 위한 26개의 built-in tools
  • Claude, Cursor, Copilot, Gemini CLI 등을 통해 사용 가능
📜 Paper HKUST
2025.09 3주차
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
  • VLA-Adapter를 제시하여 large-scale VLMs & extensive pre-training에 대한 의존 낮춤
  • lightweight Policy module with Bridge Attention 제시: action space 내에 optimal condition을 자율적으로 injects
  • robotic data pre-training 없이, 단 0.5B parameter backbone으로 높은 퍼포먼스 달성
📜 Paper Princeton
2025.09 3주차
Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training
  • (1) 현존 LLMs는 특정 종류의 의사 결정에 대한 internal process를 정확하게 기술할 수 있는 능력이 있음
  • (2) 이러한 능력은 학습을 통해 강화하는 것도 가능
  • (3) 학습된 능력은 어느정도 일반화 가능
📜 Paper Google DeepMind, Toronto
2025.09 3주차
Virtual Agent Economies
  • mission economies를 도입하여 agents들이 공동의 목표를 달성할 수 있도록 함으로써 trust & safety 가 더 잘 보장되는 환경을 조성할 수 있었다고 설명
🧑🏻‍💻 Dev OpenAI
2025.09 3주차
Introducing upgrades to Codex
  • Code review, Dynamic reasoning (task 난이도에 따라), Tool use 등의 핵심 features
  • CLI, IDE extension, Cloud 등 다양한 환경에서 지원
  • 깃허브 코드 리뷰 자동화 [가이드](https://developers.openai.com/codex/cloud/code-review) by OpenAI
🧑🏻‍💻 Dev Meta
2025.09 3주차
MobileLLM-R1
  • 1B도 되지 않는 사이즈의 모델 family로 Qwen3 0.6B를 능가하는 성능을 보여준다고 함
  • 사전학습에는 2T, 총 5T 토큰 정도 학습했다고 밝힘
📜 Paper Berkeley, Washington
2025.09 3주차
Reconstruction Alignment Improves Unified Multimodal Models
  • Reconstruction Alignment (RecA): visual understanding encoder embeddings를 dense ‘text prompts’로 이용하여 captions 없이도 보다 풍부한 supervision을 제공하는 post-training method
  • visual understanding embeddings를 조건으로 input image를 reconstruct 하는 self-supervised reconstruction loss 근거로 학습
  • autoregressive, masked-autoregressive, diffusion-based 등 어떤 형태에도 적용 가능하면서도 뛰어난 성능을 보여줌
🧑🏻‍💻 Dev Google
2025.09 3주차
VaultGemma: The world's most capable differentially private LLM
  • DP: 학습 시 노이즈를 추가하여 학습 데이터가 모델로부터 추출되는 것을 방지하는 mathematical framework (민감 정보 보호)
  • 모델 성능을 저해하지 않으면서도 privacy를 지킬 수 있도록 하는 새로운 scaling law 제시
📜 Paper Peking
2025.09 3주차
Early Stopping Chain-of-thoughts in Large Language Models
  • 각 reasoning step마다 LLM이 현재 시점의 최종 답변을 생성토록 하고 이를 step answer로 명명
  • 이 step answer가 연속적으로 동일한 답변이 나온 횟수를 answer convergence의 지표로 해석
📜 Paper Algoverse
2025.09 3주차
FRIT: Using Causal Importance to Improve Chain-of-Thought Faithfulness
  • FRIT: 모델이 systematically corrupted examples로부터 causally consistent reasoning을 생성하는 방법을 배울 수 있도록 돕는 학습 scalable alignment
  • reasoning 매 step에 대해 합성 데이터를 생성하여 faithful/unfaithful pairs 구축하고 DPO 학습
🧑🏻‍💻 Dev Thinking Machines Lab
2025.09 3주차
Defeating Nondeterminism in LLM Inference
  • batch size 변동, normalization, multiplication, attention 등의 연산이 항상 동일한 결과를 반환할 수 있도록 함
  • 대신 실험에서 1,000개 시퀀스를 처리하는데 26초가 걸리던 것이 42초가 걸리는 정도의 trade off 발생 (62% slow down)
📜 Paper Microsoft
2025.09 3주차
Is In-Context Learning Learning?
  • 오히려 모델은 prior knowledge & given exemplars 에 의존한다고 설명
  • autoregression’s ad-hoc encoding is not a robust mechanism 그리고 제한된 all-purpose generalisabilty 제안
🧑🏻‍💻 Dev OpenAI
2025.09 3주차
Detecting and reducing scheming in AI models
  • 모델이 평가 상황을 탐지하면 scheming behavior를 바꾼다는 연구 결과
  • reinforcement learning & targeted anti-scheming objectives를 적용하여 situational awareness를 높이고 scheming을 줄일 수 있음
📜 Paper NVIDIA
2025.09 2주차
Universal Deep Research: Bring Your Own Model and Strategy
  • UDR: 어떤 언어 모델이든 사용할 수 있고, 유저가 스스로 deep research strategies를 추가적인 학습 없이도 custom 할 수 있도록 돕는 generalist agentic system
  • Phase 1: skipped steps and drift를 줄이기 위한 strategy compiles → Phase 2: executes synchronous tool calls & yield-based notifications
📜 Paper Univ. of Bamberg
2025.09 2주차
Are Humans as Brittle as Large Language Models?
  • 이에 따라 human annotators도 instruction changes에 유사한 sensitivity를 보이는지 확인하고자 함
  • 실험 결과에 따르면 human annotators & LLMs 모두 특정한 prompt 수정 유형에 대해 불안정(brittlenss)한 특성을 보임
📜 Paper ByteDance, HKUST, Peking, Tsinghua
2025.09 2주차
Reverse-Engineered Reasoning for Open-Ended Generation
  • REverse-Engineered Reasoning (REER): trial-and-error | imitation을 통해 reasoning process forwards를 building 하는 것 대신 known good solutions로부터 backwards works
  • DeepWriting-20K: 20,000 deep reasoning trajectories 데이터를 오픈소스화
📜 Paper Meta Superintelligence, UC Berkeley
2025.09 2주차
Language Self-Play For Data-Free Training
  • 추가적인 데이터 없이 모델 성능을 개할 수 있는 강화학습 방식 제안
  • Language Self-Play (LSP): 모델이 스스로 play하면서 stronger policies 형성
  • Llama-3.2-3B-Instruct 모델로 실험한 결과 제시
🧑🏻‍💻 Dev Anthropic
2025.09 2주차
Claude can now create and edit files
  • raw data를 input으로 주면 이를 분석한 결과 및 통계적 분석, 시각화 자료, 인사이트 등을 반환
🧑🏻‍💻 Dev ByteDance
2025.09 2주차
Seedream 4.0
  • batch input & output, prompt-based editing, versatile styles, knowledge-driven generation 등을 특징으로 삼음
  • 모델 성능은 MagicBench 기준으로 평가하여 공개 (Text-to-Image, Single-Image Editing)
📜 Paper Zurich, Gothenburg
2025.09 2주차
Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
  • 21편의 사회과학 연구에서 나온 37개 data annotation 태스크를 18개 LLM으로 재현
  • 13M개의 LLM labels 생성 & 2,361개의 realistic hypotheses 검증 → SOTA 모델도 1/3 오류, 소형 모델은 1/2 오류
  • 결국 false positive (1종 오류) 발생을 줄이기 위해서는 human annotation이 중요하다는 결론
🧑🏻‍💻 Dev Alibaba
2025.09 2주차
Qwen3-Next: Towards Ultimate Training & Inference Efficiency
  • Qwen3-Next-80B-A3B-Base: dense Qwen3-32B에 에 준하는 성능. 32K context window를 지원하는데 10배 높은 throughput 달성
  • Qwen3-Next-80B-A3B-Instruct, Thinking 두 모델도 공개. 256K context window
  • 포스트 내에 아키텍쳐에 대한 자세한 설명 포함되어 있음
📜 Paper Harvard University, Cambridge
2025.09 1주차
Lexical Hints of Accuracy in LLM Reasoning Chains
  • (1) CoT length (2) intra-CoT sentiment volatility (3) lexicographic hints
  • Humanity's Last Exam (HLE), Omni-MATH 대상으로 DeepSeek-R1 & Claude 3.7 Sonnet 테스트
  • guess, stuck, hard와 같은 어휘들이 uncertainty의 강한 지표로 확인되었고, sentiment는 보조 지표 정도로 활용 가능
🧑🏻‍💻 Dev Ai2
2025.09 1주차
Asta: Accelerating science through trustworthy agentic AI
  • scientific AI의 지평을 넓히고 투명성을 증진하기 위한 [AstaBench](https://allenai.org/asta/bench)
  • Asta resources: scientific AI agents를 build, test, refine 하기 위한 a set of softwoare components
🧑🏻‍💻 Dev Microsoft
2025.09 1주차
MAI-Voice-1, MAI-1-preview
  • MAI-Voice-1
  • single GPU에서 구동 가능하며 일 초 내에 일 분 길이의 오디오 생성 가능
  • single- / multi- speaker 시나리오에서 expressive, natural speech 지원
🧑🏻‍💻 Dev Tencent
2025.09 1주차
Hunyuan-MT
  • 중국의 5개 소수 민족 언어를 포함한 33개 언어 커버
  • pretrain → CPT → SFT → translation rl → ensemble rl ([technical report](https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf) 참고 가능)
🧑🏻‍💻 Dev Google
2025.09 1주차
Welcome EmbeddingGemma, Google's new efficient embedding model
  • 308M 사이즈 & 2K context window, 100개 이상 언어 지원
  • Gemma3 모델을 backbone으로 삼고 있으나, bi-directional attention으로 modified
  • Matroyshka Representation Learning (MRL)로 학습되어 768 차원의 ouput을 512, 256, 128 차원으로 truncate 할 수 있음
🧑🏻‍💻 Dev Microsoft
2025.09 1주차
VibeVoice: A Frontier Open-Source Text-to-Speech Model
  • speaker consistency, natural turn-taking 등의 문제를 크게 해결
  • ultra-low frame rate of 7.5Hz에서 operating 하는 continuous speech tokenizers 사용
  • Context-Aware Expression 데모가 있어서 들어봤는데 엄~청 자연스럽지는 않은 느낌
📜 Paper Oxford, Shanghai AI, NUS, UCL, …
2025.09 1주차
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
  • 두 가지 taxonomy로 구분
  • planning, tool use, memory 등을 포함하는 core agentic capabilities
  • 다양한 태스크 도메인에 대한 applications
🧑🏻‍💻 Dev OpenAI
2025.09 1주차
Why language models hallucinate
  • modern training pipeline에서 hallucinations의 통계적 원인을 분석
  • 이진 분류의 오류에 기인한다고 설명
  • incorrect statements가 facts와 구별되지 않는다면, PLM은 natural statistical pressures를 기반으로 hallucinate 한다고 설명
📜 Paper Manchester
2025.09 1주차
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
  • 겉으로 봤을 땐 non-sense이지만 contextual inference, moral reasoning, emotional interpretation을 통해 implicit meaning을 encoding 해야됨
  • 현존 LLM들은 아직까지 Drivelological text를 온전히 이해하지 못한다고 설명
  • English, Mandarin, Spanish, French, Japanese, Korean 등 언어에 대해 1,200여 개 데이터를 meticulously curate
📜 Paper Meta, NUS, Rice
2025.09 1주차
REFRAG: Rethinking RAG based Decoding
  • 긴 입력을 처리하면서 발생하는 knowledge enrichment & system efficiency 간 trade-off
  • 검색된 텍스트의 대부분은 query와 상관없음
  • RAG context에서 decoding 할 때 대부분의 연산은 불필요하며, 제거하더라도 전체 성능에 크게 영향주지 않는다고 주장
📜 Paper Stanford
2025.09 1주차
MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML
  • millions of structural causal models (SCMs) 로부터 ML tasks를 합성하여 1,024 shot 생성
  • random-forest teacher로 시작하여 tree-based decision strategies를 LLM에 distill
  • 모든 tasks는 token-efficient prompt로 serialized

2025년 8월 63건

🧑🏻‍💻 Dev xAI
2025.08 4주차
xai-org/grok-2
  • 각 토큰당 62B activated parameters
  • tensor parallelism을 이용하여 8개 GPU에서 serving 가능
📜 Paper Shanghai AI Lab
2025.08 4주차
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
  • Cascade Reinforcement Learning (Cascade RL) framework: offline RL for stable convergence & online RL for refined alignment (coarse-to-fine)
  • Visual Resolution Router (ViR)를 통해 성능 열화 없이 visual tokens의 resolutions를 조정
  • Decoupled Vision-Language Deployment (DvD) strategy: vision encoder & language model을 서로 다른 GPU에 분리함으로써 computational load를 효율적으로 관리
📜 Paper UIUC, HKUST
2025.08 4주차
Utilizing Training Data to Improve LLM Reasoning for Tabular Understanding
  • Learn then Retrieve, LRTab: 학습 데이터로부터 배운 정보와 유관한 것을 retrieving 하여 활용하는 prompting-based reasoning approach
  • incorrect CoTs에 대해서는 모델이 에러를 피할 수 있도록 Prompt Conditions가 무엇이었을지 예측하도록 프롬프팅
🧑🏻‍💻 Dev Anthropic
2025.08 4주차
Piloting Claude for Chrome
  • 현재는 Max 유저 1,000명 대상으로 early access (wait list 등록 필요)
  • 여러 위험성에 대해서도 사전 고지를 하고 있는 상황
  • 올해 초 OpenAI에서도 web-browsing 기능을 공개했었으나 현재 제대로 쓰이고 있는지에 대해서는 확인이 필요함
🧑🏻‍💻 Dev xAI
2025.08 4주차
Grok Code Fast 1
  • GitHub Copilot, Cline, Cursor, Roo Code, Windsurf 등에서 사용 가능
  • TS, Python, Java, Rust, C++, Go 등 다양한 언어를 다룰 수 있으며, 서빙단에서 속도를 최적화했음을 언급
🧑🏻‍💻 Dev Meta
2025.08 3주차
DINOv3
  • Gram anchoring loss를 사용하여 dense patch consistency를 보존하고 resolution, size, text alignment를 위한 post-hoc tweaks를 더함
📜 Paper Amsterdam
2025.08 3주차
Can we Evaluate RAGs with Synthetic Data?
  • (1) 생성 모델은 고정하고 retriever를 varying (2) retriever를 고정하고 생성 모델을 varying
  • (1)에서는 일관성 있는 결과가 나오는 반면 (2)는 그렇지 않다고 설명
📜 Paper Univ. of Tubingen
2025.08 3주차
MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models
  • 이를 해결하기 위해 learning effective denoising trajectories 문제를 a sequential decision-making problem으로 정의
  • Masked Diffusion Policy Optimization (MDPO): diffusion process의 Markov property 이용하여 모델이 추론 시 겪는 progress를 학습 당시에도 볼 수 있도록 함
📜 Paper ByteDance, Nanjing
2025.08 3주차
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization
  • RLVR이 지나치게 많은 비용을 필요로 한다는 한계 & 전통적인 dual learning이 학습 당시에 본 task만 처리할 수 있다는 한계를 극복
  • primal task’s input을 known & unknown components로 쪼개고, primal output & known information을 이용하여 unknown part를 reconstruct
📜 Paper Meta
2025.08 3주차
Deep Think with Confidence
  • Deep Think with Confidence (DeepConf): model-internal confidence signals를 이용하여 low-quality reasoning traces를 dynamically filter out
  • 추가적인 학습 or hyper-parameter tuning 필요 없이 기존 serving frameworks에 integrate 가능
📜 Paper Shanghai AI Lab
2025.08 3주차
Intern-S1: A Scientific Multimodal Foundation Model
  • Intern-S1: a specialized generalist equipped with general understanding and reasoning capabilities
  • 28B activated, 241B total parameters, MoE 모델
  • 5T 토큰 데이터로 사전학습. 그중에 2.5T 토큰이 과학 분야 데이터
📜 Paper Rutgers Univ.
2025.08 2주차
ReaGAN: Node-as-Agent-Reasoning Graph Agentic Network
  • Retrieval-augmented Graphic Agentic Network: 그래프의 각 노드를 autonomous & individual decision making 가능하도록 설정
  • 각 노드가 곧 agent로 Memory, Planning, Action, Tool Use 가능
🧑🏻‍💻 Dev Cursor
2025.08 2주차
Cursor CLI
  • 다른 서비스들과 크게 다른 점은 없어 보임
🧑🏻‍💻 Dev Google
2025.08 2주차
LangExtract
  • 시각화 기능도 잘 지원되고 Ollma를 이용하면 로컬 모델로도 돌릴 수 있음
📜 Paper ByteDance
2025.08 2주차
WideSearch: Benchmarking Agentic Broad Info-Seeking
  • large-scale atomic information을 필요로 하는 질문들이며 각 내용이 객관적으로 증명되어야 하는 까다로운 문제들임
  • 대규모 & 반복적인 정보 검색을 잘하는 LLM-based agent를 만드는 것이 목표
📜 Paper Gaoling School, Baidu, CMU
2025.08 2주차
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
  • automated reasoning-intesnvie training data synthesis framework 제안. self-consistency data filtering mechanism이 적용되어 데이터 퀄리티를 보장
  • cold-start SFT → RL for ruther ranking ability enhancement
  • 강화학습 단계에서 listwise ranking을 위해 multi-view ranking reward를 설계했는데, 이는 기존의 ranking metric-based reward보다 효과적이라고 설명함
📜 Paper Ai2, Washington
2025.08 2주차
MolmoAct: Action Reasoning Models that can Reason in Space
  • MolmoAct 모델은 observations & instructions를 depth-aware perception tokens로 encode → mid-level spatial plans 생성 → precise low-level actions 예측 (7B 사이즈)
  • MolmoAct Datset: mid-training robot dataset 공개. 10,000개의 고품질 robot trajectories
🧑🏻‍💻 Dev OpenAI
2025.08 1주차
Introducing study mode
  • 티어에 상관 없이 모든 유저들이 이용할 수 있는 기능으로 제공
🧑🏻‍💻 Dev Alibaba
2025.08 1주차
Qwen3 Coder Flash
  • 128 experts, 8 activated per inference, with 3.8B active parameters
  • 256K native context window, expandabel to 1M tokens using YaRN
  • 최근 공개한 Qwen3 Coder 모델의 경량화 버전으로 이해할 수 있음
🧑🏻‍💻 Dev Google
2025.08 1주차
Gemini 2.5 Deep Think
  • 복잡한 문제를 작은 단위로 쪼개는 interative development and design
  • algorithmic development and code, scientific and mathematical discovery 등에 특화되어 있다고 설명
🧑🏻‍💻 Dev Kaggle
2025.08 1주차
Introducing Kaggle Game Arena
  • o3, Gemini 2.5 Pro, Claude Opus 4, Grok 4 와 같은 frontier 모델들이 동작할 수 있는 game environments, harnesses, visualizers 등을 제공
🧑🏻‍💻 Dev OpenAI
2025.08 1주차
Open models by OpenAI
  • Apache 2.0 라이센스. Safety에 대해서도 각별히 신경을 썼다고 함
  • Designed for agentic tasks, Deeply customizable, Full chain-of-thought 등의 특징
📜 Paper CUHK, Shanghai AI
2025.08 1주차
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
  • 모델이 내부적으로(internal) 주어진 문제에 대한 적절한 답변 길이와 관련된 signals를 포함하고 있다고 설명
  • 이러한 latent signals를 이용한 DAEDAL 제안: Dynamic Adaptive length Expansion for Diffusion lArge Language models (알파벳 조합 너무 억지..)
📜 Paper Alibaba
2025.08 1주차
Qwen-Image Technical Report
  • non-text-to-rendering으로 시작해 점점 더 복잡한 텍스트 입력을 받는 curriculum learning approach 적용
  • text-to-image (T2I), text-image-to-image (TI2I), image-to-image (I2I) reconstruction을 위해 dual encoding 방식 사용 (Qwen2.5-VL & VAE)
🧑🏻‍💻 Dev Google DeepMind
2025.08 1주차
Genie 3: A new frontier for world models
  • 초당 24프레임, 720p 해상도의 few-minute consistency (Genie 2는 10-20s, Veo는 8s 수준)
  • 데모 영상 수준 퀄리티 아주 뛰어난 편
  • promptable world events: 다양한 종류의 text-based interaction 가능
🧑🏻‍💻 Dev OpenAI
2025.08 1주차
GPT-5 is here
  • coding 능력이 크게 향상되어 타 frontier 모델들 수준으로 올라왔다고 보고 (실사용 후기에 따르면 그정도는 아닌 듯함)
  • o3-pro처럼 더 오래 생각하는 test-time scaling 방식이 적용된 GPT-5 pro 모델
📜 Paper VeriGUI Team
2025.08 1주차
VeriGUI: Verifiable Long-Chain GUI Dataset
  • realistic computer environments 대응을 위한 학습 및 평가 데이터셋
  • (1) long-chain complexity (2) subtask-level verifiability 강조

2025년 7월 67건

🧑🏻‍💻 Dev Anthropic
2025.07 5주차
Building and evaluating alignment auditing agents
  • hidden goal을 찾아내고 misaligned behavior 등을 탐지하는 등 impressive results를 보여줌
  • prefill attacks, context-manipulated jailbreaks, interpretability-driven safety failures 등에 취약하다는 결론
🧑🏻‍💻 Dev Z.ai
2025.07 5주차
GLM-4.5: Reasoning, Coding, and Agentic Abililties
  • coding benchmark에서 Claude 4 Sonnet, GPT-4.1 급의 성능
  • GLM-4.5: 355B total & 32B active parameters / GLM-4.5 Air: 106B total & 12B active parameters
  • 둘 다 hybrid reasoning model로 복잡한 추론이나 tool using, non-thinking 등을 지원
📜 Paper Renmin
2025.07 5주차
Agentic Reinforced Policy Optimization
  • Agentic Reinforced Policy Optimization (ARPO)
  • 외부 툴 사용 직후 생성되는 토큰의 entropy 분포가 향상된다는 점을 포착
  • entropy-based adaptive rollout mechanism
📜 Paper CMU
2025.07 4주차
Agentic-R1: Distilled Dual-Strategy Reasoning
  • 또한 tool-augmented agents는 code execution으로 문제를 해결해왔으나 여전히 복잡한 logical 문제들을 풀지는 못함
  • DualDistill: 여러 teachers로부터의 complementary reasoning strategies를 unified student model에 distill하는 framework
  • Agentic-R1: 각 쿼리마다 최적의 전략을 dynamically 선택하도록 학습한 모델. tool을 사용하거나 텍스트 기반의 추론을 하거나.
🧑🏻‍💻 Dev ARC
2025.07 4주차
ARC-AGI-3
  • 기존에도 ARC 벤치마크 퍼즐을 맞추는 태스크로 유명 (인간과 유사한 사고가 가능한지)
  • o3, Grok 4와 같은 frontier models도 현재까지 0점 기록
  • RTX 5090 또는 $1K API 로 추론. 8시간 제한
🧑🏻‍💻 Dev Google
2025.07 4주차
Gemini Embedding now generally available in the Gemini API
  • science, legal, finance, coding 등 다양한 도메인에 대해 뛰어난 성능을 보인다고 설명
  • 100개 이상의 언어에 대해 2048 input token length 지원. Matryoshka Representation Learning (MRL) 테크닉 사용시 3072, 1536, 768 차원 추천
📜 Paper Anthropic
2025.07 4주차
Inverse Scaling in Test-Time Compute
  • 모든 flagship 모델들이 복잡한 deductive tasks에서 약점을 보임
  • extended reasoning은 self-preservation 표현을 증가시킴
  • Simple Counting tasks with Distractors, Regression Tasks with Spurious Features, Deduction Tasks with Constraint Tracking
📜 Paper Zhejiang
2025.07 4주차
GUI-G^2: Gaussian Reward Modeling for GUI Grounding
  • GUI-G^2: GUI 요소를 interface plance 위의 continuous Gaussian Distribution으로 modeling
  • Guassian point rewards: precise localization을 모델링
  • Coverage rewards: predicted Gaussian distirbutions & target regions 간의 overlap 측정
🧑🏻‍💻 Dev Alibaba
2025.07 4주차
Qwen3-235B-A22B-Instruct-2507
  • Qwen Chat default 모델로 탑재. Kimi K2 모델을 능가하는 성능으로 보고
📜 Paper CMU
2025.07 4주차
Diffusion Beats Autoregressive in Data-Constrained Settings
  • repeated data에 대해 더 낮은 validation loss를 보이고 downstream performance도 뛰어남
  • 저자는 이러한 현상을 implicit data augmentation으로 해석 (고정된 left-to-right factorization을 따르는 AR 방식과의 차이점)
🧑🏻‍💻 Dev Alibaba
2025.07 4주차
Qwen3-Coder: Agentic Coding in the World
  • Qwen2.5-Coder를 사용하여 7.5T 토큰으로 학습된 480B-35B(active) MoE model, Qwen3-Coder
  • 256K default, 최대 1M 토큰 지원
📜 Paper Sapient Intelligence
2025.07 4주차
Hierarchical Reasoning Model
  • 2개의 interdependent recurrent modules
  • a high-level module responsible for slow, abstract planning
  • a low-level module handling rapid, detailed computations
📜 Paper Cardiff Univ
2025.07 4주차
There’s No Such Thing as Simple Reasoning for LLMs
  • 그러나 오히려 훨씬 간단한 reasoning 문제들을 풀지 못한다는 것을 문제점으로 지적
  • 본 연구에서는 3-step 추론으로 해결할 수 있는 간단한 문제들에 조금씩 노이즈를 더하여(순서를 바꾸는 등) 모델 성능을 테스트 해봤고, 현존 모델들이 이런 세팅에 상당히 취약하다는 것을 지적함
🧑🏻‍💻 Dev Moonshot AI
2025.07 3주차
Kimi K2: Open Agentic Intelligence
  • MuonClip optimizer를 도입하여 qk-clip technique 고도화
  • Tool learning을 위한 대규모 Agentic Data Synthesis
📜 Paper MetaStone AI, USTC
2025.07 3주차
Test-Time Scaling with Reflective Generative Model
  • 두 가지 주요한 특징
  • (1) A unified interface for policy and process reward model: trajectory scoring head 사이즈가 고작 53M
  • (2) Eliminating the reliance on process-level annotation: self-supervised process reward model
📜 Paper CMU
2025.07 3주차
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling
  • dynamic chunking을 hierarchical network (H-Net)에 통합함으로써 tokenization-LM-detokenization → single model 로 대체
  • 영어로 학습된 모델의 경우 character 단위에서 더 robust한 특징을 보였다고 설명
  • Mamba 창시자인 Albert Gu 논문
🧑🏻‍💻 Dev Mistral
2025.07 3주차
Voxtral
  • Word Error Rate 측정 결과를 공개했는데 GPT-4o mini Audio, Gemini 2.5 Flash보다 뛰어난 성능을 보임
  • text 이해 능력도 Mistral Small 3.1에 비해 크게 뒤지지 않는 정도
📜 Paper Peking, Tsinghua
2025.07 3주차
A Survey of Context Engineering for Large Language Models
  • 이를 구성하는 핵심적인 요소 (1) Context Retrieval and Generation (2) Context Processing (3) Context Management
  • System Implementations: (1) Retrieval-Augmented Generation (RAG) (2) Memory systems (3) Tool-Integrated Reasoning (4) Multi-Agent Systems
🧑🏻‍💻 Dev Stanford
2025.07 3주차
Agents4Science 2025
  • 9월 25일 제출 마감, 9월 29일 심사 마감, 10월 22일 virtual conference 일정
  • AI가 과학 분야에 어떻게 기여할 수 있을지 탐구하고자 하는 과감한 시도
📜 Paper Independent
2025.07 2주차
Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs
  • Self-Correction Bench 제안: complexity level을 3개로 정해서 controlled error injection을 통해 관련 능력을 systematically 평가
  • LLM의 이러한 한계는 모델의 학습 데이터 구성(composition)과 관련이 높음
  • RL은 reward를 바탕으로 correction이 일어나지만 SFT는 아니므로..
📜 Paper Salesforce
2025.07 2주차
Lost at the Beginning of Reasoning
  • 즉, 스타트를 잘못 끊으면 이어지는 reasoning quality도 자연스레 낮다는 뜻
  • DeepSeek-R1 & Qwen3 대상으로 실험
  • reward 모델을 이용하여 고품질의 first reasoning step을 retain 하는 sampling 전략 제안
📜 Paper Alibaba
2025.07 2주차
Ovis-U1 Technical Report
  • diffusion-based visual decoder & bidirectional token refiner
  • frozen MLLM 모델을 이용하는 타 방법론들과 달리, 언어 모델로부터 unified training approach를 이용하여 understanding & generation 둘 다 학습 → better performance
🧑🏻‍💻 Dev Anthropic
2025.07 2주차
Project Vend: Can Claude run a small shop? (And why does that matter?)
  • 잘한 점: 웹어서 공급처를 찾아 특이, 희귀 상품 (네덜란드 초콜릿 우유 등) 준비
  • 실패한 점: 과도한 할인 정책, 허위 결제 정보 생성
  • 현재 상태로는 매장 운영이 불가능하지만, 향후 중간 관리자 정도의 역할을 할 수 있다고 판단
📜 Paper MemTensor
2025.07 2주차
MemOS: A Memory OS for AI System
  • representation, scheduling, evolution of plain text, activation-based & parameter-level memories를 통합
  • MemCube를 기본 단위로 사용하여 memory & meta data를 encapsulate
📜 Paper Should We Still Pretrain Encoders with Masked Language Modeling?
2025.07 2주차
Should We Still Pretrain Encoders with Masked Language Modeling?
  • MLM 학습 방식과 CLM 학습 방식의 결과 차이를 비교
  • MLM은 학습 결과가 좋지만 CLM의 데이터 대비 학습 효율이 좋음
  • CLM → MLM 으로 이어지는 biphasic 학습 전략이 제한된 budget 내에서 가장 좋은 결과로 이어졌다고 설명
📜 Paper IIT
2025.07 2주차
SingLoRA: Low Rank Adaptation Using a Single Matrix
  • 이를 통해 두 matrix 간 존재하는 scale disparities로 인해 발생하는 성능 하락 문제 해결 가능
  • 자연어에 대해서는 Llama, 이미지에 대해서는 Stable Diffusion 모델을 fine-tuning한 결과 제시
📜 Paper Google DeepMind
2025.07 2주차
MedGemma Technical Report
  • medical multimodal question answering & chest X-ray finding classification 태스크 잘 처리한다고 보고
  • MedSigLIP: SigLIP으로부터 개발한 medically-tuned vision encoder
🧑🏻‍💻 Dev Google
2025.07 2주차
T5Gemma: A new collection of encoder-decoder Gemma models
  • model adaptation: 사전학습된 decoder-only model의 weight로 initialize → UL2 or PrefixLM-based pre-training → 기존 decoder-only model보다 뛰어난 성능
  • encoder-decoder 간의 사이즈를 꼭 맞추지 않아도 됨 (flexibility)
🧑🏻‍💻 Dev xAI
2025.07 2주차
Grok4
  • multi-agent 구조, 256K context window
📜 Paper NUS
2025.07 2주차
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights (NeurIPS 2025)
  • lightweight text encoder가 각 prompt batch를 condition embeddings로 distills → cascaded hyper-convolutional decoder에 의해 full set of LoRA 행렬로 변환
  • task-specific parameters를 수 초 안에 생성 → FFT 대비 12,000배 낮은 overhead → unseen tasks에 대해 기존 LoRA 대비 30%까지 성능 향상
🧑🏻‍💻 Dev SKT
2025.07 2주차
A.X-4.0
  • 한국어 이해 & enterprise deployment 를 강점으로 내세움
  • 72B 사이즈. 7B 사이즈의 light 버전도 공개
🧑🏻‍💻 Dev SKT
2025.07 2주차
A.X-3.1-Light
  • 1.65T multi-lingual 토큰 corpus로 학습. 7B 사이즈.
📜 Paper Stanford, Cohere
2025.07 2주차
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
  • a class of block diffusion: discrete denoising diffusion & autoregressive models 사이를 interpolate
  • flexible-length generation & inference efficiency with KV cacahing and parallel token sampling
  • 이를 위한 efficient training algorithm, estimators of gradient variance, data-driven noise scheduels to minimize the variance 등을 제시
🧑🏻‍💻 Dev Baidu
2025.07 1주차
Announcing the Open Source Release of the ERNIE 4.5 Model Family
  • MoE에 각 modality별로 독립적인 파라미터를 할당함과 동시에 modalities 간에 share 하는 파라미터도 보유하는 heterogeneous architecture 적용
  • 중국의 딥러닝 프레임워크인 PaddlePaddle로 모델 학습
📜 Paper Mila, Oxford, AI2
2025.07 1주차
Chain-of-Thought Is Not Explainability
  • verbalized chain이 주로 unfaithful 하며 모델 예측 자체로부터 diverge 하는 것이기 때문에 모델이 최종 정답에 이르는데 방해가 된다고 설명
  • (1) 추가적인 증명이 없다면 CoT는 interpretability technique로 사용할 수 없다.
  • (2) downstream decision-making의 faithfulness를 평가하기 위한 rigorous methods를 사용해야 한다
📜 Paper ETH Zürich
2025.07 1주차
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
  • SAE는 representation space에서 meaningful direction을 알아낼 수 있는데, 이를 통해 모델이 특정 entity를 아는지 모르는지(self-knowledge)를 구분할 수 있음
  • direction을 이용하면 모델이 원래 알고 있던 것은 모른다고 하거나, 반대로 모르던 것은 알고 있는 것처럼 답변(hallucinate)하도록 유도하는 것이 가능
🧑🏻‍💻 Dev Google Gemini
2025.07 1주차
Gemini-CLI
🧑🏻‍💻 Dev observe.tools
2025.07 1주차
observe.tools
  • 디테일한 trace 확인, payload 수정, 공유 등 기능 지원
🧑🏻‍💻 Dev Ai2
2025.07 1주차
IFBench
  • OOD constraints: verification function이 존재하는 58개의 new & challenging constraints
  • Multiturn Constraint Isolation in 2 turns
  • new IF-RLVR training constraints: 마찬가지로 verification function이 존재하는 29개의 new & challenging constraints ([IF-RLVR training data](https://huggingface.co/datasets/allenai/IF_multi_constraints_upto5) 🔗)

2025년 6월 49건

🧑🏻‍💻 Dev IlElevenLabs
2025.06 4주차
Introducing 11ai: the voice-first AI assistant that takes action
  • MCP를 통해서는 Salesforce, HubSpot, Gmail, Zapier 등에 연결 가능
  • out-of-the-box integration으로 Perplexity, Linear, Slack, Notion 지원
  • Ultra-low latency, Multimodal support, Integrated RAG, Automatic language detection, Enterprise-ready 등의 특징
📜 Paper Sakana AI
2025.06 4주차
Reinforcement Learning Teachers of Test Time Scaling
  • 현재 LLM의 강화학습은 one-hot correctness를 기반으로 이뤄지므로 initialization에 대한 의존성이 너무 높고, 학습이 잘된 RL 모델도 결국 distillation에서 cold start 문제를 해결하기 위한 teacher model로 쓰이는 현황을 지적
  • Reinforcement-Learned Teachers (RLT): 각 문제에 대한 question & solution을 입력으로 받음 → 둘 사이를 ‘connects-the-dots’ 하여 학생들에게 자세한 설명을 제공하는 태스크 수행
  • 이를 학생들에게 제공하여 solution에 대한 이해도를 확인하고, 이를 바탕으로 dense rewards를 획득
📜 Paper Cornell
2025.06 4주차
Memento: Note-Taking for Your Future Self
  • Memento (prompt strategy): 1) complex question을 smaller steps로 나눈다 2) LLM을 이용하여 database를 dynamically construct 3) 문제를 풀기 위해 작은 문제들을 다시 합친다
📜 Paper Oxford, Amazon, Cambridge
2025.06 4주차
Distilling Tool Knowledge into Language Models via Back-Translated Traces
  • Tool-integrated reasoning (TIF)은 inference-time dependencies로 인해 확장 가능성이 낮음
  • natural language를 통해 tool knowledge를 LLM에 distill 하는 패러다임 제안
  • Solver Agent: interleaving planning, symbolic tool calls, reflective reasoning을 통해 수학 문제 풀이
🧑🏻‍💻 Dev Anthropic
2025.06 4주차
Agentic Misalignment: How LLMs could be insider threats
  • 모델이 테스트 시나리오라는 것을 인지했을 땐 misbehavior를 보일 확률이 급격하게 낮아짐
  • 실험 결과를 보면 blackmail rates에서 가장 높은 수치를 보이는 것은 Claude Opus 4 → 엄청나게 솔직한 연구 결과
📜 Paper Ai2
2025.06 4주차
OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization
  • (1) Exploratory: known problem-solving skills를 같은 도메인이지만 더 어려운 문제에 적용
  • (2) Compositional: 독립된 상황에서 습득한 distinct reasoning skills를 new & coherent way로 결합/통합
  • (3) Transformative: 익숙한 approaches를 새로운 영역에 unconventionally 적용
📜 Paper Skoltech
2025.06 4주차
Complexity-aware fine-tuning
  • easy & medium은 fine-tuning, hard는 distill 한 결과가 단순 SFT 결과보다 좋았다고 설명
📜 Paper Ai2
2025.06 4주차
Language Modeling by Language Models
  • multi-agent LLM을 이용해서 proposal stage - code generation - verification에 이르는 research를 simulate
  • Ladder of Sacles 접근법을 사용하는 Genesys 시스템을 제안: 제안 → 리뷰 → 검증 → large scale
🧑🏻‍💻 Dev OpenAI
2025.06 3주차
Launching OpenAI o3-pro
  • personalized answer를 위한 memory 기능 지원
  • o3, o1-pro 모델을 math, coding, science 벤치마크에서 outperform. pass@1 벤치마크가 인상적임
📜 Paper Rice, Johns Hopkins, NVIDIA
2025.06 3주차
Play to Generalize: Learning to Reason Through Game Play
  • Snake 같은 게임을 학습한 7B 사이즈 모델이, RL 동안에 어떤 solutions, equations, diagrams를 보지 못했음에도 불구하고 MMMU에서 성능 향상을 보임: transferable reasoning skills
  • 따라서 synthetic, rule-based game을 controllable & scalable pre-text tasks로 사용할 수 있다고 설명 for generalizable multimodal reasoning abilities in MLLMs
📜 Paper Apple
2025.06 2주차
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
  • 다양한 puzzle environments를 통해 모델의 internal reasoning traces를 확인하여 LRMs이 “think” 하는 방식에 대한 insight 획득
  • reasoning effort가 특정 문제 난이도까지 상승하다가 이후에는 감소하여 scaling에서의 한계를 보임을 지적
  • 낮은 난이도의 문제들에 대해서는 일반적인 LLM들이 훨씬 뛰어난 퍼포먼스를 보여줌 & 어려운 난이도에 대해서는 일반적인 LLM이나 LRM이나 둘 다 collpase
📜 Paper UC Santa Cruz, Stanford
2025.06 2주차
Knowledge or Reasoning? A Close Look at How LLMs Think Across Domains
  • fine-grained evaluation framework 제안
  • (1) 사용된 knowledge의 정확성 (Knowledge Index (KI))
  • (2) the quality of reasoning (Information Gain (IG))
📜 Paper Stanford
2025.06 2주차
OpenThoughts: Data Recipes for Reasoning Models
  • OpenThoughts2-1M 데이터셋으로 OpenThinker2-32B 모델 학습. DeepSeek-R1-Distill-32B에 준하는 성능
  • 추가로 데이터셋을 정제하여 OpenThoughts3 제작
📜 Paper Microsoft, Peking, Tsinghua
2025.06 2주차
Reinforcement Pre-Training
  • 주어진 문맥에서 다음 토큰을 정확히 예측하면 verifiable rewards를 받는 방식
  • general-purpose RL을 위한 방대한 양의 텍스트 데이터를 이용할 수 있는 scalabe method라고 소개
  • further reinforcement fine-tning을 위한 strong pre-trained foundation
📜 Paper ByteDance
2025.06 2주차
Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
  • reading order에 맞는 sequence of layout elements를 생성하고 이를 anchors로 사용
  • anchors는 task-specific prompts와 짝지어지고, 다음 단계에서 parallel content parsing에 사용됨
  • multi-granularity parsing tasks를 다루는 30M개 이상의 dataset
📜 Paper Cambridge
2025.06 2주차
Truly Self-Improving Agents Require Intrinsic Metacognitive Learning
  • 인간의 metacognition에 착안하여 세 개의 components로 구성된 프레임워크 제안
  • metacognitive knowledge, metacognitive planning, metacognitive evaluation
  • 기존 agents들이 학습하는 것은 extrinsic metacognitive mechanisms을 따른다고 설명
📜 Paper UC Berkeley, Yale
2025.06 1주차
Learning to Reason without External Rewards
  • → Reinforcement Learning from Internal Feedback (RLIF): 외부 rewards or labeled data 없이 intrinsic signals로부터 학습
  • Intuitor: 모델 스스로의 confidence, self-certainty를 유일한 reward signla로 사용. 기존 GRPO 자리를 대체
📜 Paper Renmin Univ.
2025.06 1주차
Do not Abstain! Identify and Solve the Uncertainty
  • ConfuseBench: 세 종류의 uncertainty를 다룸 - document scarcity, limited capability, query ambiguity
  • original query의 confusing aspect를 highlight 하는 context-aware inquiries 생성하고, 이를 기반으로 source of uncertainty를 판단하는 방법론 제안
📜 Paper Meta, DeepMind, Cornell, NVIDIA
2025.06 1주차
How much do language models memorize?
  • memorization을 unintended memorization & generalization 두 가지로 구분
  • generalization을 제거하여 모델의 total memorization을 계산하고 model capacity를 추정할 수 있음
  • GPT family 모델들은 약 3.6 bits-per-parameter의 capacity를 가짐

2025년 5월 65건

🧑🏻‍💻 Dev Anthropic
2025.05 5주차
Introducing Claude 4
  • long thought process에 대한 요약 제시
  • developer mode에서는 unsummarized reasoning 확인 가능
  • VS Code나 JetBrains에서 사용 가능한 새로운 extension 출시
📜 Paper Cambridge, UCL, Google
2025.05 5주차
Visual Planning: Let's Think Only with Images
  • Visual Planning: text 없이 순수하게 visual representation으로 reasoning
  • step-by-step inference를 encode 하는 sequences of images 를 통해 executed
  • Visual Planning via Reinforcement Learning (VPRL): large vision models를 GRPO로 post-training 하는 RL 프레임워크
🧑🏻‍💻 Dev Mistral AI
2025.05 5주차
Build AI agents with the Mistral Agents API
  • MCP tools integration, Agent Orchestration
  • 사용성이 좋고 개발 용이성이 뛰어난 형태의 API가 많이 공개되는 추세
🧑🏻‍💻 Dev Mistral AI
2025.05 5주차
Codestral Embed
  • binary, int8, float32 자료형 지원
🧑🏻‍💻 Dev Resemble AI
2025.05 5주차
chatterbox
  • emotion exaggeration control 지원, watermarked outputs
  • [Hugging Face Gradio app](https://huggingface.co/spaces/ResembleAI/Chatterbox) 에서 테스트 가능
  • 0.5B Llama backbone, 0.5M hours of cleaned data로 학습
📜 Paper Shanghai AI Lab, Tsinghua, UIUC
2025.05 5주차
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
  • policy entropy가 초기 학습 단계에서 급격히 감소하여 policy model이 overly confident 하게 되는 현상을 뜻함 (성능 포화)
  • 이로 인해 exploratory ability가 diminish 하게 됨
  • $R = -a \cdot \exp(H) + b$
📜 Paper Google
2025.05 5주차
Sufficient Context: A New Lens on Retrieval Augmented Generation Systems
  • 성능이 뛰어난 모델들은 context가 충분할 때 답변을 잘하지만 그렇지 않을 때에 답변을 abstain 하지 않고 틀린 답변을 반환하는 경우가 있음
  • 그러나 성능이 낮은 모델들은 context가 충분할 때조차 hallucination 또는 incorrect answers 반환하는 경우 있음
  • RAG 시스템을 위해 새로운 selective generation method를 제안하여 충분한 context information을 더 잘 활용할 수 있도록 함
📜 Paper Singapore, Tsinghua, Salesforce
2025.05 4주차
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
  • 이를 해결하기 위해 prompts & 우연한 ‘aha moments’를 넘어서, 모델이 세 가지 meta-abilities에 align 되도록 학습 - deduction, induction, abduction
  • three-stage pipeline: individual alignment, parameter-space merging, domain-specific reinforcement learning
🧑🏻‍💻 Dev Alibaba
2025.05 4주차
Qwen3 Technical Report
  • thinking mode & non-thinking mode 통합. 유저 쿼리나 chat template에 따른 dynamic mode swithcing
  • thinking budget mechanism을 도입하여 유저가 추론 시 computational resources를 adaptive하게 할당함으로써 태스크 복잡도에 따른 모델 퍼포먼스와 latency 간 균형을 맞출 수 있다고 설명
  • 기존 29개 → 119개 언어 및 방언 지원, Apache 2.0 라이센스
📜 Paper Tsinghua
2025.05 4주차
AdaptThink: Reasoning Models Can Learn When to Think
  • AdaptThink: 문제 난이도에 따라 최적의 thinking mode를 reasoning model이 선택하도록 가르치는 RL 알고리즘
  • constrained optimization objective: overall performance를 유지하면서도 NoThinking을 선택하도록 함
  • sampling strategy: on-policy training 동안에 Thinking & No-Thinking samples의 균형을 맞춤
📜 Paper NUS
2025.05 4주차
Thinkless: LLM Learns When to Think
  • RL 패러다임으로 학습되고 <short>, <think> 두 개의 control tokens를 사용
  • Decoupled Group Relative Policy Optimization (DeGROP) 알고리즘
  • 두 개의 learning objective: control token loss & response loss
📜 Paper Southern California
2025.05 4주차
Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM
  • (1) long & verbose CoT outputs를 semantically coherent reasoning steps로 만들기
  • (2) 각 스텝 간의 contextual & logical dependencies 를 이용하여 directed reasoning graphs 구축하기
  • exploration density, branching, convergence ratios 등과 같은 structural propreties가 reasoning accuracy와 강한 상관관계를 갖고 있다고 설명함
🧑🏻‍💻 Dev Google
2025.05 4주차
Build with Jules, your asynchronous coding agent
  • 각 codebase를 Google의 Cloud virtual machine (VM) 에 복사하여 프로젝트 전체를 이해한다고 설명
  • Works on real codebase, Parallel execution, Visible workflow, User steerability, Audio summaries 등을 특징으로 삼고 있음
📜 Paper ByteDance
2025.05 4주차
Emerging Properties in Unified Multimodal Pretraining
  • large-scale interleaved text, image, video, web data를 수 trillion tokens으로 학습한 unified & decoder-only model
  • free-form image manipulation, future frame prediction, 3D manipulation, word navigation 과 같은 advanced multimodal reasoning 능력을 보유
🧑🏻‍💻 Dev Mistral
2025.05 4주차
Devstral
  • 현실적인 프로그래밍 문제를 해결하기 위해, 즉 GitHub issuses를 풀기 위해 학습된 모델
  • RTX 4090 or Mac with 32GB RAM에서 구동 가능한 정도로 가벼움
🧑🏻‍💻 Dev Google DeepMind
2025.05 4주차
Gemini Diffusion
  • random noise를 coherent output으로 변경하여 text or code를 생성하는 모델
  • rapid response, more coherent text, iterative refinement 등을 특징으로 설명
🧑🏻‍💻 Dev Google DeepMind
2025.05 4주차
Gemma 3n
  • 삼성 갤럭시 울트라에서 초당 446 토큰 처리
  • Mix ‘n’ match architecture는 small & large models를 switch 하는 데 도움을 줌
  • Chatbot Arena에서 1283점을 기록하며 Claude 3.7 Sonnet의 뒤를 이음
📜 Paper ServiceNow
2025.05 4주차
Augmenting LLM Reasoning with Dynamic Notes Writing for Complex QA
  • NotesWriting: 매 스텝마다 retrieved documents를 concise & relevant notes 로 변경하는 연구
  • LLM의 effective context length를 간접적으로 높여 더 큰 크기의 input text를 효율적으로 처리할 수 있음
  • 다른 RAG 방법론들과 integrated 가능한 framework
📜 Paper UIUC
2025.05 4주차
Language Specific Knowledge: Do Models Know Better in X than in English?
  • 언어 모델도 그런 경향이 있다면 reasoning 능력을 더 끌어올릴 수 있지 않을까? 라는 접근
  • Language Specific Knowledge (LSK): ethnic cultures는 언어에 따라 발전하는 경향이 있고, 이에 따라 culture-specific datasets에 대해 실험해본 결과 가정이 옳았다고 설명함
  • LSKExtractor: language-specific knowledge의 존재를 확인할 수 있는 벤치마크 공개
📜 Paper Microsoft, Salesforce
2025.05 3주차
LLMs Get Lost In Multi-Turn Conversation
  • top open- & closed-weight LLMs가 multi-turn에서 single-turn 대비 큰 성능 하락폭을 보여주었다고 보고
  • 200,000+ simulated conversations는 aptitude의 사소한 문제 & unreliability의 증가, 두 가지로 구분 가능
  • 결론: when LLMs take a wrong turn in a conversation, they get lost and do not recover
🧑🏻‍💻 Dev Sakana AI
2025.05 3주차
Continuous Thought Machines
  • 뉴런 수준의 timing information을 사용하여 기존보다 보다 복잡한 nueral behavior & decision making process를 이해할 수 있게 되었다고 함
  • 핵심 중 하나는 모델이 step-by-step으로 “think” 할 수 있게 되어 추론 과정이 보다 interpretable & human-like 해졌다고 설명
  • [CTM publication](https://pub.sakana.ai/ctm/)
📜 Paper CWI
2025.05 3주차
How well do LLMs reason over tabular data, really?
  • 언어 모델의 tabular queries에 대한 performance를 어떻게 evaluate 할 수 있는가?
  • multiple-choice prompt 평가 & BERT-score 대신 LLM-as-a-Judge 신뢰도가 높다고 설명
📜 Paper ByteDance
2025.05 3주차
Seed1.5-VL Technical Report
  • 532M-parameter encoder, MoE LLM (20B active params)
  • GUI control & gameplay 등 agent-centric tasks에서 뛰어난 성능 보인다고 설명
📜 Paper Tsinghua
2025.05 3주차
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
  • Absolute Zero: external data 의존하지 않고 single model 스스로 own learning progress를 maximize & improve
  • Absolute Zero Reasoner (AZR): code executor를 사용하여 training curriculum & reasoning ability를 self-evolve 하는 system
🧑🏻‍💻 Dev OpenAI
2025.05 3주차
Introducing HealthBench
  • 각 case는 dialogue, prompt, model output, rubric이 JSON format으로 구성됨
  • research-use license로 Dataset & grader code 사용 가능
🧑🏻‍💻 Dev ByteDance
2025.05 3주차
DeerFlow
  • Coordinator, Planner, Reporter 등의 agent들로 구성되는 시스템
  • LangChain, LangGraph로 빌드되어 있어 Human-in-the-loop이 지원되며, 최근 핫한 Podcast generation도 가능 (생성된 reports 기준으로)
📜 Paper Meta
2025.05 2주차
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
  • proprietary models로부터의 distillation 없는 training pipelines을 분석하고 large-scale synthetic data를 explore
  • 2.8M human-labeled fine-grained video question-answer pairs & spatio-temporally grounded video captions
  • PLM-VideoBench: video에 대한 ‘what, where, when, how’ 추론 능력을 평가하기 위한 벤치마크 공개
📜 Paper NVIDIA
2025.05 2주차
Llama-Nemotron: Efficient Reasoning Models
  • Nano (8B), Super (49B), Ultra (253B) 사이즈로 구성되어 있으며, DeepSeek-R1에 준하는 성능이면서도 inference throughput & memory efficiency 뛰어남
  • dynamic reasoning toggle을 지원하는 최초의 open-source models
  • 유저가 직접 standard chat vs. readoning modes 선택 가능
🧑🏻‍💻 Dev OpenAI
2025.05 2주차
Evolving OpenAI’s structure
  • 이를 통해 더 큰 규모의 투자를 받아 AGI 개발에 전념하겠다고 함
  • 이후 capable models를 오픈소스화할 예정
🧑🏻‍💻 Dev Alibaba
2025.05 2주차
Qwen-Agent
  • code execution, document reading, web browsing, RAG workflows 가능
📜 Paper Anthropic
2025.05 2주차
Reasoning Models Don't Always Say What They Think
  • 프롬프트에 제시된 6가지 힌트를 활용해 CoT의 신뢰도를 평가
  • CoT를 이용한 test-time monitoring은 unexpected behaviors를 탐지하는데 전혀 쓸모가 없다고 주장
🧑🏻‍💻 Dev Mistral AI
2025.05 2주차
Medium is the new large.
  • private, high-context, domain-specific use cases에 해당하는 enterprise 활용도 가능
  • custom post-training & continuous pretraining 지원
  • finance, energy, healthcare 도메인에서 사용
🧑🏻‍💻 Dev Zed: The Fastest AI Code Editor
2025.05 2주차
Zed: The Fastest AI Code Editor
  • Privacy & Security 모드가 default. 원한다면 feedback 제공도 당연히 가능.
  • Claude, OpenAI, Google 등 API는 당연히 지원하고, 본인 computing power를 사용하는 ollama 기반의 모델들도 사용할 수 있음
  • ollama 사용 시에 미지원되는 기능은 [Edit Predictions](https://zed.dev/blog/edit-prediction) 뿐이라고 함
📜 Paper Barbin Institute
2025.05 2주차
Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models
  • Multimodal reasoning은 modular, perception-driven pipelines에서부터 unified, language-centric frameworks로 발전하여 일관성 있는 cross-modal understanding 능력을 갖추게 됨
  • instruction tuning & reinforcement learning 을 통해 크게 발전했으나, 아직까지 omni-modal generalization, reasoning depth, agentic behavior 에서 한계 존재
  • 발전 흐름에 따라, task-specific modules, Multimodal CoT (MCoT), native large multimodal reasoning models (N-LMRMs) 순으로 survey 결과 정리
📜 Paper Univ. of Chicago
2025.05 2주차
Mitigating Memorization In Language Models
  • 언어 모델의 memorization 현상을 mitigate 하기 위한 방법론들 제시
  • 3 regularizer-based, 3 finetuning-based, 11 machine unlearning-based
  • regularizer-based는 느리고 효과 x, finetuning은 효과 좋지만 비쌈, machine unlearning이 가장 좋은 방법론 → 그중에서도 BalancedSubnet가 제일 좋음
📜 Paper Alibaba
2025.05 2주차
ZeroSearch: Incentivize the Search Capability of LLMs without Searching
  • policy model은 search APIs 대신 simulated documents 를 사용하여 학습
  • 언어모델을 사용하여 매 쿼리마다 20개 문서 생성
  • 최종 답변 퀄리티를 기준으로 reward signals 사용
🧑🏻‍💻 Dev Google
2025.05 1주차
Introducing TxGemma: Open models to improve therapeutics development
  • 전체 discovery process의 therapeutic entities의 properties를 이해하고 예측하도록 학습한 모델들임
  • promising targets를 식별하고 clinical trial outcomes까지 예측 가능
  • 7M 데이터로 학습되었으며 2B, 9B, 27B 사이즈로 구성됨
🧑🏻‍💻 Dev DeepSeek AI
2025.05 1주차
DeepSeek-Prover-V2-671B
  • DeepSeek-V3를 subgoal decomposition & formalization 에 활용
  • 이렇게 획득한 데이터를 이용하여 강화학습
  • ProverBench: Formalization of AIME and Textbook Problems
📜 Paper Cohere, Princeton, Stanford, Waterloo, MIT, Ai2, Washington
2025.05 1주차
The Leaderboard Illusion
  • undisclosed private testing practices가 모델 공개 전 특정 providers에게 유리한 것이라고 지적
  • selective disclosure of perfomance results 때문에 Arena가 biased 된다고 설명. 현재는 많은 모델들이 여기에 overfitted 되어 있음을 지적
  • proprietary closed models (Google, OpenAI) 는 battles에서 더 높은 비율로 picked 되기 때문에 open-source models 보다 더 많은 data access 가능
🧑🏻‍💻 Dev Ai2
2025.05 1주차
OLMo 2 1B
  • Mid-training에 [OLMo-mix-1124](https://huggingface.co/datasets/allenai/olmo-mix-1124) & [Dolmino-mix-1124](https://huggingface.co/datasets/allenai/dolmino-mix-1124) 를 포함한 4T 토큰 학습
  • Post-training에 [Tülu 3 dataset](https://huggingface.co/datasets/allenai/tulu-3-sft-olmo-2-mixture-0225)의 OLMo-specific variant를 사용하여 SFT
  • [olmo-2-0425-1b-preference-mix](https://huggingface.co/datasets/allenai/olmo-2-0425-1b-preference-mix)에 대해 DPO training & 최종적으로 RLVR training 적용
📜 Paper Renmin Univ.
2025.05 1주차
DeepCritic: Deliberate Critique with Large Language Models
  • 본 연구에서는 LLM의 math critique ability에 집중
  • math solutions의 각 reasoning step에 대해 의도적으로 critique 할 수 있도록 만드는 2-stage framework 제안
  • (1) Qwen2.5-72B-Instruct를 이용하여 4.5K long-form critique를 생성하고 이를 SFT의 seed로 사용
🧑🏻‍💻 Dev Anthropic
2025.05 1주차
Claude can now connect to your world
  • Integrations: Claude가 web & desktop app에 걸친 원격 MCP server 위에 동작
  • Jira & Confluence, Zapier, Cloudfalre, Intercom, Asana, Square, Sentry, Paypal, Linear, Plaid 서비스 지원
📜 Paper KAIST, DeepAuto.ai
2025.05 1주차
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
  • PaperCoder: multi-agent LLM framework로, 머신러닝 논문을 functional code repositories로 변환. 세 단계로 동작
  • (1) Planning: high-level roadmap 구축, diagram을 포함한 system architecture 설계, file dependencies 식별, configuration files 생성
  • (2) Analysis: implementation-specific details를 해석
📜 Paper mem0.ai
2025.05 1주차
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
  • 두 개의 시스템으로 구성
  • Mem0: dense & language-based memory system
  • Mem0g: enhanced version with graph-based memory to model complex relationships

2025년 4월 62건

🧑🏻‍💻 Dev SkyworkAI
2025.04 4주차
Skywork-OR1 (Open Reasoner 1)
  • Skywork-OR1-RL-Data: DeepSeek-R1-Distill-Qwen-32B로 난이도를 평가한 데이터 구성됨 (데이터 사용시 필터링으로 사용 가능). 총 105K Math, 14K Coding 데이터
  • 32B-Preview 모델의 경우 AIME, LiveCodeBench에서 DeepSeek-R1 수준 성능을 달성했다고 보고
📜 Paper NVIDIA
2025.04 4주차
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
  • CLIMB 제안: 사전학습을 위한 data mixture를 적절히 discover, evaluate, refine 하는 framework
  • 이를 이용하여 획득한 400B 토큰에 대해 1B 모델을 학습한 결과는 SoTA인 Llama-3.2-1B 모델을 능가하는 수준이라고 보고
  • 20개 cluster, 1.2T 토큰으로 구성된 ClimbLab, 400B 토큰으로 구성된 ClimbMix 공개
📜 Paper HKUST
2025.04 4주차
Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models
  • thinking token 사이에 (<think> </think>) smaller 모델로부터 생성된 external CoT를 넣어주는 방식이 모델이 적은 토큰을 생성하는 데 도움을 준다고 설명 → ThoughtMani
  • QwQ-32B 모델을 LiveBench/Code dataset에 적용했을 때, 기존 성능은 유지하면서도 약 30% 정도의 토큰을 절약할 수 있었음 (CoT generator로부터 overhead가 발생하긴 함)
📜 Paper Shanghai AI Lab, Fudan, CMU
2025.04 4주차
MIG: Automatic Data Selection for Instruction Tuning by Maximizing Information Gain in Semantic Space
  • → 데이터셋 내 information content를 정량화하는 method 제안: label graph를 구축하고 graph 내의 information distribution을 이용
  • Maximize Information Gain (MIG): semantic space 내에서 반복적으로 sampling을 수행하는 efficient sampling method
  • 이 방법론을 Ai2 에서 공개했던 Tulu3 데이터셋에 적용해봄으로써 성능 향상을 이끌어 낼 수 있었다고 설명
📜 Paper Google DeepMind
2025.04 4주차
Welcome to the Era of Experience
  • 학습을 위해 human-generated datasets에 의존하는 것을 피하고 environmental feedback을 사용할 것을 주장
  • 여러 태스크와 도메인에 대한 continuous, long-term learning을 지원
  • task-specific performance가 아닌 시간에 걸친 capability growth에 집중
📜 Paper Alibaba
2025.04 4주차
Wan: Open and Advanced Large-Scale Video Generative Models
  • T2V-1.3B 모델은 8.19GB VRAM를 필요로 하며, RTX 4090 한 장으로 5초짜리 480P 비디오를 약 4분만에 생성 가능
  • Text-to-Video, Image-to-Video, Video Editing, Text-to-Image, Video-to-Audio 등 다양한 태스크 수행 가능
  • Chinese & English 텍스트 생성 능력이 뛰어남
📜 Paper Huawei
2025.04 4주차
Dynamic Early Exit in Reasoning Models
  • fixed heuristics와 달리 potential reasoning transition points (ex. Wait 토큰)을 model behavior에서 탐지하는 방식.
  • 이때 모델이 trial answer에 대해 high confidence를 갖는 경우 next reasoning chain’s generation을 중단
  • 추가적인 학습이 필요없는 방식이며 기존 o1-like reasoning LLMs에 seamlessly integrate 가능
📜 Paper Chinese Academy of Sciences
2025.04 4주차
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents
  • unified action space rule modeling을 통해 LVLMs이 GUI 이해 능력을 향상할 수 있도록 하는 강화학습 프레임워크 GUI-R1 제안
  • 각 플랫폼(Windows, Linux, MacOS 등)으로부터 얻은 소수의 carefully curated high-quality data, GRPO를 이용하여 자원 효율적인 결과를 달성할 수 있었다고 설명
🧑🏻‍💻 Dev ByteDance
2025.04 4주차
Introducing UI-TARS-1.5
  • token-level multimodal supervision 기반의 reasoning-before-action approach를 사용
  • 뛰어난 Web Navigation 능력은 GPT-4.5 능가하는 수준
🧑🏻‍💻 Dev Nari-Labs
2025.04 4주차
Nari Dia-1.6B
  • ElevenLabs Studio나 Sesame CSM-1B 모델 이상의 퍼포먼스를 보여주어 큰 화제를 일으키는 중
  • 카이스트 학부생이 2명이 작업한 결과물로 알려짐
📜 Paper Shanghai AI Lab, Tsinghua
2025.04 4주차
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
  • VisuLogic: 6개 카테고리에 대한 1,000 human-verified problems (quantitative shifts, spatial relations 등)
  • 사람은 51.4%, 대부분의 모델은 30% 이하의 정확도를 기록하는 수준의 벤치마크이며, visual reasoning 능력을 고도화할 수 있는 학습 데이터도 공개했다고 언급함
📜 Paper Tsinghua, Shanghai AI Lab
2025.04 4주차
TTRL: Test-Time Reinforcement Learning
  • ground-truth 정보 없이 reward estimation을 어떻게 할 것인지가 challege
  • Test-Time Reinforcement Learning (TTRL): pre-trained models의 priors를 이용하여 self-evolution
  • Test-Time Scaling (TTS) 에서 majority voting 등이 RL training에서 reward 역할을 할 수 있었음에 착안
🧑🏻‍💻 Dev NousResearch
2025.04 4주차
Minos-v1
  • 유저의 질문과 LLM의 답변 pair를 입력으로 받아 둘 중 하나의 클래스를 confidence와 함께 반환하는 모델
  • 400M 사이즈 모델로 8,192 context length, 약 380K 데이터로 학습
📜 Paper DevRev
2025.04 4주차
Efficient Single-Pass Training for Multi-Turn Reasoning
  • LLM은 추론 토큰을 생성하는데 이를 이후 입력에 포함하면 안됨
  • 이러한 불일치(discrepancy)로 인해 일반적인 다른 데이터셋에 대해 학습하는 것과 달리, single forward pass로 전체 대화를 처리할 수 없음
  • 이를 해결하기 위해 response token duplication & custom attention mask (enforces appropriate visibility constraints) 적용
🧑🏻‍💻 Dev Anthropic
2025.04 4주차
The Urgency of Interpretability
  • 언어별로 별도 시스템이 존재하는 것이 아니라, 영어, 프랑스어, 중국어 등 다양한 언어가 공유하는 추상적 개념 공간이 존재 → 의미 처리 후 특정 언어로 번역되는 방식으로 동작
  • 시를 쓸 때 단순히 다음 토큰들을 예측하는 것이 아니라 미리 운율을 맞출 준비를 하고 있음
  • 어려운 수학 문제 등을 풀 때, 잘못된 근거를 제시하면 그럴싸한 답변을 생성. 이런 과정은 여러 ‘중간 단계’를 거치는 것으로 확인됨
🧑🏻‍💻 Dev Alibaba
2025.04 4주차
Qwen3: Think Deeper, Act Faster
  • 가장 큰 두 모델: Qwen3-30B-A3B, Qwen3-235B-A22B (둘 다 MoE)
  • Hybrid thinking mode: thinking mode와 non-thinking mode 스위칭 가능
  • 36T 토큰으로 학습. 이는 Qwen2.5를 학습한 데이터의 두 배에 이르는 양.
🧑🏻‍💻 Dev NourResearch
2025.04 4주차
Atropos
📜 Paper Microsoft Research
2025.04 3주차
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft
  • 두 입력을 각각 image tokenizer & action tokenizer 에 통과시켜 discrete token으로 변환 후 concat 하여 input으로 사용
  • 모델이 초당 4~7 프레임을 생성할 수 있도록 학습되었으며 플레이어와 실시간 interact 가능
  • visual quality & action following capability 를 함께 측정할 수 있는 metric 제시
🧑🏻‍💻 Dev DeepCogito
2025.04 3주차
Cogito v1 PreviewIntroducing IDA as a path to general superintelligence
  • 70B 모델이 Llama의 최신 109B MoE 모델을 능가하는 성능을 보인다고 보고
  • Iterated Distillation and Amplification (IDA) - a scalable and efficient alignment strategy for general superintelligence using iterative self-improvement
  • 모든 모델은 질문에 바로(direct) 답하거나, 답변 전에 스스로 생각(self-reflect)할 수 있음
🧑🏻‍💻 Dev OpenAI
2025.04 3주차
Introducing GPT-4.1 in the API
  • 세 모델 전부 주요 벤치마크에서 GPT-4o, GPT-4.5를 outperform & 1M context window & diff 모드 지원
  • structured input 이해, multi-turn, multi-needle tasks에서 기존보다 더 뛰어난 성능
🧑🏻‍💻 Dev xAI
2025.04 3주차
Grok Studio
  • documents, codes, reports, browser games 등을 생성할 수 있고 컨텐츠를 별도 윈도우에 띄움
📜 Paper Microsoft
2025.04 3주차
BitNet b1.58 2B4T Technical Report
  • computational efficiency를 큰 특징으로 삼으면서도 language understanding, mathematical rreasoning, coding preoficiency, conversational ability 등이 전부 뛰어나다고 설명
  • CPU, GPU 추론 둘 다 지원하며 HuggingFace를 통해 이용 가능
🧑🏻‍💻 Dev Comet-ML
2025.04 3주차
Opik
  • Tracing, Annotations, Playground 등 기능 지원
  • LLM-as-a-Judge metric 포함
🧑🏻‍💻 Dev Cohere
2025.04 3주차
Introducing Embed 4: Multimodal search for business
  • 128K context window length (200 페이지 분량)
  • 100개 이상의 다양한 언어 지원
  • virtual private cloud (VPC) 환경 뿐만 아니라 on-premise 환경도 지원
📜 Paper Salesforce
2025.04 2주차
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay
  • 첫 단계에서는 LLM reviewers committee를 이용하여 detailed blue prints 생성
  • blue prints는 simulated human-agent interplay를 통해 complete interaction trajectories로 발전
  • 1B에서 70B 사이즈에 이르는 xLAM-2-fc-r 시리즈 학습하여 GPT-4o나 Claude 3.5를 $\tau$-bench & BFCL benchmarks에서 outperform 했다고 보고
📜 Paper HuggingFace
2025.04 2주차
SmolVLM: Redefining small and efficient multimodal models
  • SmolVLM: resource-efficient inference를 위해 설계된 compact multimodal models series
  • 가장 작은 SmolVLM-256M 모델은 추론 시 1GB 미만의 GPU 메모리를 사용할 정도로 효율적이며, static images에 대해서 뿐만 아니라 뛰어난 video comprehension 이해 능력을 보였다고 함
📜 Paper Yandex
2025.04 2주차
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
  • 한 instance가 생성하는 과정을 나머지 instances가 concurrent cache를 통해 살펴볼 수 있음
  • RoPE 차용
  • modern reasoning-capable LLM들이 추가적인 fine-tuning 없이 shared Key-Value cache 만으로 좋은 성과를 낼 수 있었다고 보고
🧑🏻‍💻 Dev Google
2025.04 2주차
Announcing the Agent2Agent Protocol (A2A)
  • HTTP, SSE, JSON-RPC 등을 사용하여 기존 시스템과의 compatibility 보장
  • Agents는 사용 가능한 functions를 structured JSON files로 정리하고, 이를 Agent Cards라고 함
  • 최근 Agent Development Kit (ADK)를 공개했는데 이는 Vertex AI, Gemini API와 integrate 가능한 open source임
🧑🏻‍💻 Dev OpenAI
2025.04 2주차
Evaluating model performance
  • 평가에 사용되는 test data를 `data_source_config`에 명시하고, 모델 출력 결과가 올바른 것인지에 대한 정보는 `testing_criteria`에 작성
📜 Paper Nanjing, ByteDance
2025.04 2주차
DDT: Decoupled Diffusion Transformer
  • Decoupled Diffusion Transformer (DDT): semantic extraction를 위한 encoder & specialized velocity decoder 로 구분되는 디자인
  • 인접한 denoising step 간의 self-condition을 공유함으로써 추론 속도까지 향상시킬 수 있음
🧑🏻‍💻 Dev OpenGVLab
2025.04 2주차
InternVL3
  • InternVL 2.5 대비 뛰어난 multimodal perception & reasoning 능력을 보여줌
  • tool usage, GUI agents, industrial image analysis, 3D vision perception 등
  • text performance가 Qwen 2.5 시리즈 대비 뛰어나다고 언급
📜 Paper Kimi
2025.04 2주차
Kimi-VL Technical Report
  • activating language decoder 사이즈가 2.8B 수준임에도 불구하고 뛰어난 성능 달성
  • multi-turn agent tasks, college-level image & video comprehension, OCR, mathematical reasoning 등의 태스크에서 뛰어난 퍼포먼스를 보임
  • 128K content window & native-resolution vision encoder, MoonViT 덕분에 ultra-high-resolution visual inputs 이해 가능
🧑🏻‍💻 Dev Google
2025.04 2주차
Introducing Firebase Studio
  • Project IDX, Genkit, Gemini 를 하나의 workspace에 통합
  • *App Prototyping agent*: prompt | drawing 으로부터 full apps 생성하는 기능
🧑🏻‍💻 Dev OpenAI
2025.04 2주차
BrowseComp: a benchmark for browsing agents
  • 📜 [BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents](https://cdn.openai.com/pdf/5e10f4ab-d6f7-442e-9508-59515c65e35d/browsecomp.pdf)
  • 정답이 간단하고 이견의 여지가 없는 1,266개의 문제로 구성
📜 Paper Zhejiang University
2025.04 2주차
Large language models could be rote learners
  • LLM이 암기한 내용(rote memorization)보다 그렇지 않은 것(genuine capability)에 대해 더 좋은 퍼포먼스를 내는 경향이 있다고 보고
  • TrinEval: MCQ를 trinity format으로 변경하여 memorization 평가는 줄이고 knowledge 평가는 더 잘할 수 있도록 만드는 evaluation 프레임워크
📜 Paper AI2
2025.04 1주차
Introducing CodeScientist: A step toward automated scientific discovery
  • 전체 프로세스 내에서 Ideation, Planning, Experiment, Reporting, Meta-analysis 수행
  • 아직까지 사람의 의사결정이 중간에 개입되어야 한다는 한계가 있지만 빠른 속도로 발전하고 있다는 인상을 줌 (Sakana AI의 것도 그렇고..)
🧑🏻‍💻 Dev HuggingFace
2025.04 1주차
YourBench: A Dynamic Benchmark Generation Framework
  • Scalable & Structured: Seamlessly handles ingestion, summarization, and multi-hop chunking for large or specialized datasets.
  • Zero-Shot Focus: Emulates real-world usage scenarios by creating fresh tasks that guard against memorized knowledge.
  • Extensible: Out-of-the-box pipeline stages (ingestion, summarization, question generation), plus an easy plugin mechanism to accommodate custom models or domain constraints.
📜 Paper National University of Singapore
2025.04 1주차
JudgeLRM: Large Reasoning Models as a Judge
  • SFT performance gains & reasoning-demanindg samples의 비율 간의 음의 상관관계 확인
  • JudgeLRM: judge-wise, outcome-driven rewards 향으로 RL을 적용한 judgement-oriented LLMs family
🧑🏻‍💻 Dev OpenAI
2025.04 1주차
OpenAI Academy
  • workshops & live events 등도 진행
📜 Paper Meta
2025.04 1주차
Multi-Token Attention
  • Multi-Token Attention (MTA): LLM이 여러 개의 query & key vectors에 대해 attention weights를 condition 하는 어텐션 기법 제안
  • queries, keys, heads에 대해 convolution 적용
🧑🏻‍💻 Dev Anthropic
2025.04 1주차
Introducing Claude for Education
  • Learning mode: 학생들에게 정답을 바로 알려주기보다는 critical thinking skills를 develop 할 수 있도록 reasoning process를 가이드
  • Socratic questioning (결론을 뒷받침하는 근거는 무엇인가?), 핵심 개념 강조 등의 특징

2025년 3월 62건

🧑🏻‍💻 Dev DeepSeek AI
2025.03 4주차
DeepSeek-V3-0324
  • multi-turn interactive rewriting, translation quality & letter writing, enhances search-based report analysis
  • function calling, JSON output, FIM (Fill-in-the-Middle) completion
  • 허깅페이스에 MIT 라이센스로 공개
🧑🏻‍💻 Dev ARC-AGI-2 + ARC Prize 2025 is Live!
2025.03 4주차
ARC-AGI-2 + ARC Prize 2025 is Live!
  • 사람에게는 쉽지만 AI에게는 어려운 reasoning task 중심. 이전 challenge보다 더 어렵다고 자체적으로 설명함.
🧑🏻‍💻 Dev OpenAI
2025.03 4주차
Introducing 4o Image Generation
  • trained our models on the joint distribution of online images and text
  • → 이를 통해 이미지와 텍스트가 어떤 식으로 관계되어 있는지를 학습했다고 설명
  • ChatGPT, Sora에서 사용 가능하며, 곧 API로도 지원될 예정
🧑🏻‍💻 Dev Alibaba
2025.03 4주차
Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!
  • Think-Talker 아키텍쳐는 speech synthesis에서 reasoning을 분리함으로써 more structured ouputs에 기여
  • Thinker는 언어모델로서 reasoning & text generation을 담당
  • Talker는 text | direct audio instruction 을 기반으로 speech를 생성
🧑🏻‍💻 Dev AI2
2025.03 4주차
Introducing Ai2 Paper Finder
  • 키워드 대신 자연어 전체 문장을 그대로 입력해도 관련 논문을 찾아줌
  • relevance 판단 시 복잡한 질의를 다중 기준으로 분해해 평가하고, citation 기반 확장 탐색도 수행
  • 빠른 응답이 필요한 경우엔 fast mode, 깊이 있는 탐색이 필요할 땐 iterative exhaustive mode 제공
📜 Paper Google
2025.03 4주차
Gemma 3 Technical Report
  • vision understanding, 더 많은 언어, longer context (128K)
  • local to global attention layer의 비중을 높임으로써 (local의 비중을 높임) KV-cache가 폭발적으로 증가하는 것을 방지
  • Gemma 3 모델들은 distillation으로 학습되어pre-trained & instruction finetuned version 둘 다 Gemma 2 성능을 능가
🧑🏻‍💻 Dev Anthropic
2025.03 4주차
Tracing the thoughts of a large language model
  • 이를테면 feature activations와 이것이 transformer layers에 걸쳐 미치는 영향을 추적할 수 있음
  • Claude는 한 번에 여러 개의 future words를 선택 / shared internal states를 사용하고 이를 다른 언어들에 각각 매핑
📜 Paper UC Berkeley, Tokyo
2025.03 3주차
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks
  • Plan-and-Act: synthetic data generation을 통해 LLM 기반 agents의 plan generation을 고도화한 프레임워크
  • Planner: 목표를 달성하는 데 필요한 structured & high-level plans
  • Executor: 위 plan들을 environment-specific actions로 translate
🧑🏻‍💻 Dev Microsoft
2025.03 3주차
RD-Agent
  • 확실히 Agent 개념을 활용한 자동화가 연구에 본격적으로 활용되고 있고 앞으로는 BM으로 발전하지 않을까 싶음
📜 Paper IBM, HuggingFace
2025.03 3주차
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
  • DocTags: 페이지 내 모든 요소를 위치와 함께 capture하는 새로운 universal markup format
  • business documents, academic papers, technical reports 등 다양한 형식의 문서에서 code listings, table,s equations, charts, list 등의 feature 추출 가능하며 robust 하다고 설명
  • 모델은 이용 가능하며 데이터셋은 곧 공개 예정
📜 Paper Anthropic
2025.03 3주차
Auditing Language Models for Hidden Objectives
  • RLHF 내 reward model의 error를 학습하고, 이러한 error를 이용(exploit)하는 방법을 익힘
  • (1) 모델의 hidden objective와 training에 대해 모르는 사람들을 4팀으로 꾸려 blind auditing game 수행
  • (2) 후속 연구로 모델을 audit 하는 8개 테크닉을 탐구. SAE가 가장 효과적이었다고 함
📜 Paper IIIT Hyderabad
2025.03 3주차
No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language models
  • bias detection task를 위한 5개의 prompting approaches 소개
  • biases detecting 벤치마크의 metrics에 대한 3개의 research questions 제시
  • 실험 결과에 따르면 모든 LLM이 최소 1개 이상의 bias를 나타내고 있으며, LLaMA3.1-8B 모델의 bias가 가장 적었다고 함
🧑🏻‍💻 Dev Mistral
2025.03 3주차
Mistral Small 3.1
  • GPQA에서 44.42% 스코어를 달성하며 Gemma 3-it (36.83%) 모델과 GPT-4o-mini (40.2%) 모델을 능가
  • 초당 150 토큰 생성 가능하며 이미지도 처리 가능
🧑🏻‍💻 Dev Google
2025.03 3주차
New ways to collaborate and get creative with Gemini
  • Python, Javascript, HTML 지원
  • real-time code collaboration이 가능하지만 multi user는 안됨
  • Audio Overview: documents, slides, Deep Research reports를 두 AI host 간의 오디오 팟캐스트로 변환
📜 Paper METR
2025.03 3주차
Measuring AI Ability to Complete Long Tasks
  • AI 모델들이 2초에서 8시간까지 걸리는 engineering 태스크 170여 개를 완수
  • 서베이 결과에 따르면 AI task length는 7개월마다 2배로 증가하고, 현재를 기준으로는 Claude 3.7 Sonnet이 1-hour tasks를 50% 신뢰도로 잘 끝내는 수준이라고 함
  • [연구 결과를 정리해놓은 METR posting 링크](https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/) 🔗
📜 Paper Rice University
2025.03 3주차
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
  • (1) model-based efficient reasoning: full-length reasoning 모델을 concise reasoning으로 optimize 하거나 애초에 efficient reasoning model을 학습
  • (2) reasoning output-based efficient reasoning: 추론 단계에서 reasoning step과 length를 dynamically 조절
  • (3) input prompts-based efficient reasoning: 입력 프롬프트의 난이도나 길이를 기준으로 reasoning efficiency를 개선
🧑🏻‍💻 Dev Manus
2025.03 2주차
Leave it to Manus
  • 자체적으로 공개한 벤치마크 결과에서는 OpenAI Deep Research를 압살
  • 파격적인 데모(수십 개의 앱이 동시에 실행)가 사실인지에 대한 커뮤니티 논쟁이 있었음
🧑🏻‍💻 Dev OpenAI
2025.03 2주차
New tools for building agents
  • Chat Completions API에 Assistants API의 tool 사용 능력을 합친 Responses API
  • web search, file search, computer use 능력을 내장
📜 Paper Skolkovo Institue of Science and Technology
2025.03 2주차
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders
  • Sparse Autoencoder를 이용하여 Gemma-2-2b로부터 feature를 추출함으로써 ATD interpretability를 높임
  • 다양한 모델로부터 획득한 텍스트가 사람으로부터 얻은 것과 어떻게 다른지에 대한 인사이트 제공 가능
🧑🏻‍💻 Dev Google DeepMind
2025.03 2주차
Gemini Robotics brings AI into the physical world
  • Gemini Robotics-ER: Gemini의 embodied reasoning (ER) 능력을 활용하여 advanced spatial understanding을 보여줌
  • 다음 세대의 휴머노이드를 만들기 위해 Apptronik와 파트너십
  • [Technical Report link](https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf) 🔗
🧑🏻‍💻 Dev Google
2025.03 2주차
Introducing Gemma 3: The Developer Guide
  • LMArena에서 R1 바로 뒤를 이어 2위 차지
  • SigLIP 기반의 vision encoder를 통한 Multimodal 지원, 128K 윈도우 사이즈, 140개 이상 언어 이해
  • 3개의 강화 학습 기법 적용: RLMF (Machine Feedback), RLEF (Execution Feedback), RLHF (Human Feedback)
🧑🏻‍💻 Dev Perplexity
2025.03 2주차
Perplexity Ask MCP Server
  • AI 시스템과 데이터 소스를 연결하기 위한 개방형 표준 프로토콜
  • 클라이언트 - 서버 아키텍쳐를 기본으로 삼음
  • 기존 API 대비 더 직관적이고 유연한 솔루션
🧑🏻‍💻 Dev OpenAI
2025.03 2주차
Detecting misbehavior in frontier reasoning models
  • reasoning 모델을 위한 강화학습 과정에서 발생하는 reward hacking 문제 중 coding task에 집중
  • 모델이 reward를 maximize 하기 위해서 cheating 하는 내용들을 explicitly state 하는 것이 관측됨
  • 현재로서는 모델 스스로 intent를 숨기고 detection을 회피하고자 하는 경향성이 있음
📜 Paper Meta, NYU, MIT, Princeton
2025.03 2주차
Transformers without Normalization
  • Dynamic Tanh (DyT): element-wise 연산, $\text{DyT}(x)=\text{tanh}(\alpha x)$, Transformers 아키텍쳐에서 normalization layers를 replace
  • 이 아이디어는 기존 normalization의 결과가 tanh-like S-shaped input-output mapping을 보여준다는 점에서 착안함
  • recognition부터 generation, computer vision부터 language model 까지 다양한 태스크로 validate
🧑🏻‍💻 Dev OpenAI
2025.03 1주차
Introducing GPT-4.5
  • 이미지 입력, agentic planning & execution 가능
  • text-based interactions 내의 뉘앙스 파악 더 잘함 & 향상된 EQ → 문과적 사고는 좋아졌는데 실질적인 성능은 아쉽다는 평이 많음
📜 Paper King’s College London, The Alan Turing Institue
2025.03 1주차
CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation
  • CODI: shared model이 teacher & student 역할을 수행하며 explicit & implict CoT를 학습
  • implicit CoT로도 explicit CoT 성능을 달성하면서도 3.1배의 토큰 압축률을 보여줌
  • explicit reasoning이 대박을 친 이후로 추론 비용이 급상승해서인지 implicit & compression 관련 연구들에 눈에 띄고 있음
🧑🏻‍💻 Dev Sesame
2025.03 1주차
Crossing the uncanny valley of conversational voice
  • tone, pace, rhythm 등을 conversational context and emotions 기반으로 조절 가능
  • decoder는 Residual Vector Quantization (RVQ) tokens로부터 high-fidelity speech를 reconstruct
  • 2K context window 커버 가능, 1M hours of publicly available transcribed and diarized speech로 학습
🧑🏻‍💻 Dev Anthropic
2025.03 1주차
Token-efficient tool use (beta)
  • API call에서 tool use와 관련된 옵션임. Claude 3.7을 공개하면서 사용 비용을 최소화하는 옵션을 함께 제시함.
📜 Paper LLM Post-Training: A Deep Dive into Reasoning Large Language Models
2025.03 1주차
LLM Post-Training: A Deep Dive into Reasoning Large Language Models
  • catastrophic forgetting, inference-time trade-off, reward hacking 등의 issues를 함께 다룸
  • Tuning 파트에 엑사원은 있는데 솔라는 포함되지 않았음
  • [Awesome LLM Post-Training repository](https://github.com/mbzuai-oryx/Awesome-LLM-Post-training) 🔗
📜 Paper Mila
2025.03 1주차
Multi-Turn Code Generation Through Single-Step Rewards
  • μCODE: single-step reward만을 사용하는 multi-turn code generation
  • 중간의 어떤 과정에서도 올바른 코드로 recovered 가능하다고 주장
  • 멀티턴 실행 피드백과 새로 생성된 코드를 scoring하는 verifier를 iteratively 학습
🧑🏻‍💻 Dev Qwen
2025.03 1주차
QwQ-32B
  • 131K Token length 지원
  • RoPE, SwiGLU, RMSNorm
🧑🏻‍💻 Dev Cohere
2025.03 1주차
Aya Vision: Expanding the Worlds AI Can See
  • 8B, 32B 사이즈 모델. [Kaggle](https://www.kaggle.com/models/cohereforai/aya-vision?ref=cohere-ai.ghost.io) & [HuggingFace](https://huggingface.co/collections/CohereForAI/c4ai-aya-vision-67c4ccd395ca064308ee1484?ref=cohere-ai.ghost.io) 에 weights 공개
📜 Paper Nanjing Univ., Microsoft
2025.03 1주차
Process-based Self-Rewarding Language Models
  • → 현존하는 self-rewarding 방식은 수학적 추론 영역에서 약점을 보인다고 지적
  • → self-rewarding 내에 long-thought reasoning, step-wise LLM-as-a-Judge, step-wise preference optimization 등 도입
📜 Paper Washington, Peking
2025.03 1주차
MPO: Boosting LLM Agents with Meta Plan Optimization
  • Meta Plan Optimization (MPO): explicit guidance를 통합하여 agent의 planning capability를 향상시키는 프레임워크. agent의 실행 결과에 대한 피드백을 바탕으로 삼음.
  • Meta Plan에 대한 평가(reward)를 제공하는 모델도 있어서 파이프라인이 강화학습처럼 보임
📜 Paper Alibaba
2025.03 1주차
START: Self-taught Reasoner with Tools
  • (1) Hint-infer: 인위적으로 설계한 힌트를 삽입 (ex. 파이썬 코드를 써야겠어!)
  • (2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-infer를 통해 생성된 reasoning trajectories(tool 사용을 포함하는)를 fine-tuning
📜 Paper CMU
2025.03 1주차
SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning
  • accuracy와 efficiency를 향상시키기 위해 reasoning topology를 dynamically optimize
  • Topological-Annotation-Generation (TAG) system: topological dataset creation & segmentation을 자동화
  • multi-task Topological Reward Model (M-TRM) 학습: 자동적으로 best reasoning topology를 선택하여 single pass에 답변 반환 (multiple single-task 필요성 x)
📜 Paper NVIDIA, Berkeley, MIT, Nanjing, KAIST
2025.03 1주차
Token-Efficient Long Video Understanding for Multimodal LLMs
  • STORM (Spatiotemporal TOken Reduction for Multimodal LLMs): image encoder & LLM 사이의 temporal encoder를 통합하는 아키텍쳐
  • Mamaba State Space Model을 사용하여 temporal information을 image tokens에 통합하여 보다 풍부한 representations를 생성
  • training & inference latency 둘 다 감소시키면서도 extended temporal contexts에 대한 efficient & robust video understanding 를 보여줌
📜 Paper Columbia Business School
2025.03 1주차
How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach
  • → 거의 모든 distinct reasoning chain마다 reasoning length와 accuracy 간의 universal tradeoff 존재
  • token complexity: successful problem-solving을 위해 필요한 최소한의 토큰 숫자
  • → accuracy-compression tradeoff의 이론적 한계를 계산하는 데 활용

2025년 2월 66건

🧑🏻‍💻 Dev StepFun, Tsinghua
2025.02 4주차
Open-Reasoner-Zero
  • minimalist approach: vanilla PPO with GAE & rule-based reward function / w/o KL regularization
  • 1/30 training steps만으로도 DeepSeek-R1-Zero-Qwen-32B를 GPQA Diamond Bench에서 우세
  • [paper link](https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf) 🔗
🗞️ News 1X
2025.02 4주차
Introducing NEO Gamma
  • “companion” 포지션으로 가정 환경에서 자연스러운 움직임을 보여줌 (링크 데모 참고)
📜 Paper Alibaba
2025.02 4주차
Qwen2.5-VL Technical Report
  • objects를 식별할 때 bounding box를 치거나 point를 정확하게 파악하는 점이 특징
  • dynamic resolution processing & absolute time encoding 도입 → 다양한 사이즈의 이미지, long-video 처리 가능
  • task-specific fine-tuning 없이도 다양한 domain에 robust performance를 보인다고 주장
📜 Paper Arizona, UCLA, Notre Dame, UIUC
2025.02 4주차
Preference Leakage: A Contamination Problem in LLM-as-a-judge
  • (1) being the same model (2) having an inheritance relationship (3) belonging to the same model family
  • 여러 LLM baselines와 benchmarks를 통해 관계에 따른 judge bias가 존재한다는 것을 empirically 확인 (preference leakage)
  • 그렇다면 데이터를 생성할 땐 다양한 LLM을 활용해야 하는 것 아닐까?
🧑🏻‍💻 Dev Anthropic
2025.02 4주차
Claude 3.7 Sonnet and Claude Code
  • thinking mode의 context length 128K 까지 확장
  • API를 통해 thinking time도 조절 가능
  • Claude Code: CLI AI coding assistant
🧑🏻‍💻 Dev Alibaba
2025.02 4주차
Wan 2.1: Leading AI Video Generation Model (Wanx 2.1)
  • T2V-1.3B, 14B 두 개 version으로 공개
  • [허깅페이스](https://link.mail.beehiiv.com/ss/c/u001.ae3tPPqcD9LGEYY83-FJncrD8ENm5PQsonneGdCHnxpYCBUd3DooBT-uAsUQv9d_7B6796SyxaZC5XlWLw2yks9-yh44CzsyG9aF9Y4BXbbjYV7DwNgb9DWcQzerqUJ6_qsJSy3ym_emk857Gd43TC4rnNFUCXCVn6a2j36w2YCGgKN4QcOGW4pnMCTsFBswBeXMutzsdhvlGL0oZVpPPgnt3pEFI0nr9tXunNcy3Q-fmCgU7bfh34Z3A-dbnaux/4ec/gOpmFuORQEitDMXINqB7DQ/h8/h001.KtK7dRp01Nh9ppRdnZE0pLbWXx3mSv_Exs3IcfSagzA)를 비롯한 다양한 플랫폼에서 이용 가능
🧑🏻‍💻 Dev Google
2025.02 4주차
Get coding help from Gemini Code Assist — now for free
  • Gemini 2.0으로 지원하며 월 180,000개의 code completions 지원 (GitHub Copilot free tier 대비 20배 많은 양)
  • 128K context window를 바탕으로 complex code base에 대한 이해 가능
  • 코드 내 stylistic issues and bugs 등을 automatically 탐지 가능
📜 Paper Kakao
2025.02 4주차
Kanana: Compute-efficient Bilingual Language Models
  • high quality data filtering, staged pre-training, depth up-scaling, pruning, distillation
  • 특히 Kanana models를 post-training 하는 과정에서 사용된 방법론들을 보고
  • 2.1B ~ 32.5B 사이즈의 모델들로 구성되어 있고, 2.1B 모델은 공개
🧑🏻‍💻 Dev Amazon
2025.02 4주차
Introducing Alexa+, the next generation of Alexa
  • Amazon’s Nova & Anthropic’s Claude를 비롯한 여러 개의 foundational LLMs를 각 태스크에 가장 적합하게 활용
  • 도메인별 experts를 활용하는 개념. 개인 맞춤화된 특징들을 지원 (유저 히스토리 기반)
📜 Paper Meta, UIUC, CMU
2025.02 4주차
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
  • DeepSeek-R1 같은 모델들은 코딩 테스트를 위한 문제들처럼 실행하기 쉽고 real-world와는 동떨어진 코드들로 학습되었다는 한계를 지적
  • open-source software evolution data로부터 실제 개발자들의 reasoning processes & solutions를 autonomously 학습
  • GitHub Pull Requests Dataset Curation (4.6M repositories)
📜 Paper Convergence Labs
2025.02 3주차
LM2: Large Memory Models
  • input token과 cross attention 하며 gating mechanism을 통해 update
  • 일반적인 벤치마크에서도 좋은 성능을 유지하고 multi-hop 에서도 뛰어난 발전이 있었다고 보고
  • interpretability, test-time behavior 등에서도 장점이 있음
📜 Paper Meta AI
2025.02 3주차
Brain-to-Text Decoding: A Non-invasive Approach via Typing
  • 기존 방식들은 invasive device를 활용하는데 이와 다른 non-invasive 방식이며 둘 사이의 gap을 줄인 데 의의가 있다고 설명
  • character-error-rate (CER)은 32%로 67%의 error rate를 보이는 EEG 대비 큰 성능 향상이 있었다고 보고
📜 Paper NYU, Tubingen
2025.02 3주차
Do Large Language Models Reason Causally Like Us? Even Better?
  • 본 논문에서는 from human-like to normative inference 라고 scale을 표현함
  • 실험한 4개의 모델 중에서 GPT-4o, Claude는 가장 normative behavior를 강하게 보였고 나머지인 Gemini-Pro와 GPT-3.5는 그렇지 않았다고 설명
  • 사람이 내놓는 답변도 실제로 이해한 내용을 바탕으로 나오는 것인지 판단하는 기준이 있긴 한가?
🧑🏻‍💻 Dev Perplexity
2025.02 3주차
Introducing Perplexity Deep Research
  • finance, marketing부터 product research까지 다양한 범위의 태스크를 expert 수준으로 처리
  • 최종 report를 PDF 또는 문서 형태로 export하거나 Perplexity Page로 변환하여 공유할 수 있음
📜 Paper Renmin Univ. of China
2025.02 3주차
Large Language Diffusion Models
  • self-constructed Autoregressive Models 성능과 scalability가 뛰어나다고 주장
  • forward data masking process & reverse process를 통해 Transformer가 masked token 예측하는 것처럼 분포를 모델링
🧑🏻‍💻 Dev xAI
2025.02 3주차
Grok 3 Beta — The Age of Reasoning Agents
  • logical processing을 위한 Think Mode, complex problem-solving을 위한 Big Brain Mode
  • faster query processing을 위해 H100 20만대 사용 (전작 대비 10x 이상)
  • Grok 3는 X Premium Plus 구독자들 사용 가능
🧑🏻‍💻 Dev Microsoft
2025.02 3주차
OmniParser V2: Turning Any LLM into a Computer Use Agent
  • a large set of interactive element detection data & icon functional caption data 로 학습
  • ScreenSpot Pro 라는 벤치마크에서 높은 성능을 기록했다고 보고
  • OmniTool: agents를 위한 tool를 포함하는 dockerized Windows system
📜 Paper Michigan, Amazon, Pennsylvania
2025.02 3주차
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models
  • 이를 해결하기 위해 perplexity를 importance 지표로 삼는 method 제안
  • 특정 step을 제거했을 때 perplexity가 증가한다면 모델의 입장에서 중요도가 높은 것
  • few-shot CoT 내의 sample 중 불필요한 것들을 제거 or 살아남은(critical) steps만으로 fine-tuning 하는 방법으로 활용 가능
🧑🏻‍💻 Dev Google Research
2025.02 3주차
Accelerating scientific breakthroughs with an AI co-scientist
  • Supervisor agent가 6개의 specialized agents에 tasks 할당
  • Generation, Reflection, Ranking, Evolution, Proximity, Meta-review
  • [paper link](https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf) 🔗
🧑🏻‍💻 Dev Sakana AI
2025.02 3주차
The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and Composition
  • PyTorch code를 CUDA kernel용으로 변환 → evolutionary meta-generation을 거쳐 runtime performance optimize
  • 250개의 테스트에서 186개의 태스크의 처리 속도를 평균(median) 1.52x 향상시켰다고 보고
  • [paper link](https://pub.sakana.ai/static/paper.pdf) 🔗
📜 Paper Nanjing Univ.
2025.02 2주차
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
  • 이를 해결하기 위해 LLM이 자율적으로 언제, 어디서 backtrack 할 것인지를 결정하도록 하면 된다고 주장 (like in traditional search algorithms)
  • 이를 위한 self-backtracking mechanism을 제시: 학습 & 추론 에서 backtrack 가능
  • 이는 optimal-path supervised fine-tuning method 대비 40% 정도의 성능 gain이 있다고 하는데 왜 그것과 비교하는지는 잘 모르겠음.
📜 Paper SJTU
2025.02 2주차
LIMO: Less is More for Reasoning
  • 이는 supervised fine-tuning이 generalization 보다는 memorization으로 이어진다는 주장과도 상반되는 결과
  • 817개의 curated training samples로 학습한 LIMO를 기반으로 LIMO Hypothesis 주장
  • 사전학습 단계에서 domain knowledge가 충분히 encoded 되었다면, 정교한 추론 능력은 최소한의 cognitive process를 포함하는 데이터로도 획득할 수 있다
📜 Paper Apple
2025.02 2주차
ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
  • expressive: intention, attention, emotions
  • functional: task fulfillment, spatial constraints, time efficiency
  • posture, gesture, gaze 등의 비언어적 행동들이 internal state를 의식적으로 & 무의식적으로 표현하는 것이기 때문에 이를 (램프처럼 생긴) 로봇의 행동(movements) 결정에 반영하겠다는 연구
📜 Paper ISTA
2025.02 2주차
QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
  • QeEST: 학습 모델의 weights & activations를 4-bit 혹은 그 이하로 학습하며 FP16과 유사한 수준의 성능 기록. 심지어 1-bit에서도 안정적으로 학습 가능하다고 설명.
  • 이는 (1) normalization 과정에서 weights & activations의 continuous distribution을 유지하여 quantization (2) 새로운 trust gradient estimator를 제시 했기에 가능했다고 함
📜 Paper Ben Gurion Univ.
2025.02 2주차
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon
  • 학습 파이프라인에 integrate하여 robust language model을 만드는 데 기여 가능
  • 모델 성능이 memorized pattern에 의해 좋게 나온 것인지 아닌지를 판단하는 것이 중점
  • 예상 외로 성능이 높은 모델들이 perturbation에 의한 성능 degradation이 심했다고 보고
📜 Paper Shanghai AI Lab
2025.02 2주차
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
  • compute-optimal TTS를 이용하면 극도로 작은 reward model (< 1B)로도 엄청나게 사이즈가 큰 (> 405B or GPT-4o) 모델의 성능을 넘어서는 것이 가능하다고 주장
  • [깃허브 링크](https://ryanliu112.github.io/compute-optimal-tts) 🔗
🧑🏻‍💻 Dev Anthropic
2025.02 2주차
The Anthropic Economic Index
  • automation의 43%가 AI를 활용한 결과임을 보고
  • [paper link](https://assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf) 🔗
📜 Paper Oxford
2025.02 2주차
Distillation Scaling Laws
  • (1) teacher가 존재할 때 (2) teacher 학습이 필요할 때로 구분하여 연구 결과 제시
  • 결국 distillation 과정에서 student 모델 뿐만 아니라 teacher 모델의 cross entropy loss를 함께 살피며 적절히 scaling 하는 것이 중요하다는 점을 언급하는 것으로 보임
📜 Paper Imperial College London, Cohere
2025.02 2주차
LLMs can implicitly learn from mistakes in-context
  • 실험 결과에 따르면 incorrect answer를 correct answer와 함께 보여주는 것만으로도 성능 향상이 있었다고 함. CoT의 성능도 boosting 가능.
  • LLM이 in-context implicit learning 할 수 있다는 결론
📜 Paper Meta, KAIST, UC San Diego
2025.02 2주차
LLM Pretraining with Continuous Concepts
  • CoCoMix는 사전학습된 sparse autoencoder로부터 “continuous concepts”를 학습하여 예측하고, 모델의 hidden state와 token의 hidden state을 interleave
  • 단순 next token prediction에 비해 sample efficient 하면서도 consistently 성능이 높았다고 설명
📜 Paper University of Hong Kong, ByteDance
2025.02 2주차
Goku: Flow Based Video Generative Foundation Models
  • rectified flow Transformer를 이용하여 만든 joint image-and-video generation 중에서 SoTA model failmily
  • data curation pipeline, model architecture design, flow formulation, advanced infrastructure for efficient and robust large-scale training 공개
  • 주요 tasks의 정량 & 정성 평가 가장 높은 결과를 받았다고 설명
🧑🏻‍💻 Dev AI Coder Reviewer
2025.02 1주차
AI Coder Reviewer
  • 다양한 프로그래밍 언어에 대한 automated code review 지원
📜 Paper GIT
2025.02 1주차
Large Language Models Think Too Fast To Explore Effectively
  • 인간은 uncertainty와 empowerment를 적절히 조절할 수 있는데, 이를 능가하는 건 o1 모델 밖에 없었다고 주장
  • Sparse Auto Encoder에 대한 representational 분석 결과에 따르면 uncertainty와 choices는 early layer에서 represented 되는데, empowered values는 later layer에서 처리되어 모델 입장에서는 미성숙한 결정을 내리도록 하는 원인이 된다고 설명 (?)
🧑🏻‍💻 Dev Mistral
2025.02 1주차
Mistral Small 3
  • 24B 파라미터, 32K context window, 초당 150 토큰 처리 가능 → 32GB RAM을 가진 RTX 4090 또는 맥북에서 돌릴 수 있음
  • 합성데이터나 RLHF를 사용하지 않아 추가적인 fine-tuning 하기에 적합한 base 모델이라고 주장
🧑🏻‍💻 Dev OpenAI
2025.02 1주차
OpenAI o3-mini
  • o1-mini 의 자리를 대신함 (예를 들어 기존 o1-mini API는 o3-mini 로 대체)
  • o1과 달리 vision을 지원하지 않음
  • 설연휴 기간 폭발적인 관심을 얻은 DeepSeek-R1 을 견제하는 움직임으로 해석
🧑🏻‍💻 Dev OpenAI
2025.02 1주차
Introducing deep research
  • 기존 추론 모델들은 인터넷에 접근하지 못한다는 한계가 있었는데 이를 극복함
  • 굉장히 난이도가 높은 것으로 알려진 Humanity’s Last Exam에서 26.6% 스코어를 기록함
🧑🏻‍💻 Dev Google
2025.02 1주차
Gemini 2.0 is now available to everyone
  • Flash, Flash-Lite 모델은 1M context window, Pro Experimental 모델은 2M context window를 지님
  • 1.5 Flash 대비 cost & latency 증가하지 않으면서도 고품질 답변을 생성
🧑🏻‍💻 Dev Anthropic
2025.02 1주차
Constitutional Classifiers: Defending against universal jailbreaks
  • 일반적인 jailbreaks를 수천 시간 시도했음에도 불구하고 robust 결과를 보여줬다고 설명
  • 그럼에도 불구하고 무지성 거절(refusal rates)의 비율은 단 0.38% 밖에 증가하지 않았음
  • 8개 레벨의 jailbreaking demo를 뚫는 사람에게는 $10,000를, 일반적인 jailbreaking strategy로 뚫는 사람에게는 $20,000를 수여하는 [HackerOne](https://hackerone.com/constitutional-classifiers?type=team) 개최중
🧑🏻‍💻 Dev HuggingFace
2025.02 1주차
Open-source DeepResearch – Freeing our search agents
  • Deep Research가 GAIA 벤치마크에서 높은 성능을 달성한 것을 언급
  • CodeAgent 를 사용하여 복잡한 sequences of actions를 디자인할 수 있다고 설명
🧑🏻‍💻 Dev OpenAI
2025.02 1주차
Introducing ChatGPT search
  • [크롬 확장프로그램](https://chromewebstore.google.com/detail/chatgpt-search/ejcfepkfckglbgocfkanmcdngdijcgld)을 통해 default 검색 엔진을 ChatGPT search로 설정할 수도 있음
📜 Paper Stanford, Washington, AI2
2025.02 1주차
s1: Simple test-time scaling
  • s1K: 세 개의 기준(difficulty, diversity, quality)으로 검증한 reasoning taces를 포함한 데이터셋
  • budget forcing: 모델이 답변을 끝내려고 할 때, test-time compute를 강제로 중단하거나 늘리기 위해서 “Wait” 키워드를 여러 차례 붙이는 방법론
  • Qwen2.5-32B-Instruct 모델에 s1K 학습 한 s1-32B 모델에 budget forcing 장착하니 수학 능력 크게 향상
🧑🏻‍💻 Dev Ai2
2025.02 1주차
Ai2 Scholar QA beta
  • Section Planning and Generation, Paper Comparison Table Generation 등의 특징
  • [블로그 포스팅](https://allenai.org/blog/ai2-scholarqa)(Introducing Ai2 ScholarQA) 참고
📜 Paper HuggingFace
2025.02 1주차
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model
  • multi-stage training process를 통해 math, code, instruction-following data를 web-text와 혼합하여 약 11T 토큰 학습
  • new specialized datasets 도입 (Fine-Math, Stack-Edu, SmolTalk): 기존 데이터셋이 너무 작거나 품질이 낮았던 이슈를 해결하기 위함
  • 비슷한 사이즈 수준의 모델들(Qwen2.5-1.5B, Llama3.2-1B) 중에서는 SoTA급 성능을 달성했다고 보고
📜 Paper Shanghai AI Lab, Peking
2025.02 1주차
UltraIF: Advancing Instruction Following from the Wild
  • 이를 위해 UltraComposer를 constraint-associated prompts & evaluation questions 묶어서 학습
  • 8B 사이즈의 모델을 response generator & evaluator로 사용했을 때에도 유의미한 성능 향상이 있었다고 보고
🧑🏻‍💻 Dev Mistral
2025.02 1주차
The all new le Chat: Your AI assistant for life and work
  • Flash Answers, a build-in code interpreter, real-time search 등을 주요 특징으로 내세움
  • Flash Answers의 경우 초당 1,000개 정도의 단어를 생성할 수 있다는 특징인데 데모상으로는 확실히 타사 서비스(ChatGPT, Claude)에 비해 압도적으로 빠름

2025년 1월 67건

📜 Paper Renmin Univ. of China
2025.01 5주차
Enhancing LLM Reasoning with Reward-guided Tree Search
  • policy model, reward model, search alogirthm을 통합하는 프레임워크
  • policy 모델이 학습된 reward model에 의해 tree를 dynamically expand 하는 tree search algorithm
  • STILL-1 (Slow Thinking with LLMs) 라는 프레임워크
📜 Paper Renmin Univ. of China
2025.01 5주차
Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
  • STILL-2: imitate, explore, self-improve framework
  • distilled long-form thought data를 사용하여 reasoning model을 학습함으로써 slow-thinking mode를 가능하게 만듦
  • 모델이 multiple rollout을 생성함으로써 어려운 문제를 탐색하도록 함 → high-quality trajectories가 올바른 답변으로 이어짐
📜 Paper Centfor for AI Safety, Scale AI
2025.01 5주차
Humanity’s Last Exam
  • automated grading에 적합한 multiple-choice, short-answer question 등으로 구성
  • 정답은 논란의 여지가 없고 명확한 것이나 retrieval을 통해 바로 답변하기 어려운 문제들
  • [공개 링크](https://lastexam.ai/) 🔗
📜 Paper Truthful AI, Toronto
2025.01 5주차
Tell me about yourself: LLMs are aware of their learned behaviors
  • 명시적으로 associated behavior에 대해 언급하지 않는 두 개의 데이터셋 사용
  • (a) making high-risk economic decisions (b) outputting insecure code
  • 그럼에도 모델은 이를 명백히 설명
🧑🏻‍💻 Dev DeepSeek
2025.01 5주차
Janus-Pro release
  • 작년(2024)에 이미 JanusFlow, Janus 라는 이름으로 mllm을 공개했었음 (허깅페이스에서 다운로드 가능)
📜 Paper USTC, Microsoft
2025.01 5주차
Optimizing Large Language Model Training Using FP4 Quantization
  • 두 가지 key factor
  • (1) differentiable quantization estimator for precise weight updates
  • (2) outlier clamping and compensation strategy to prevent activation collapse
🧑🏻‍💻 Dev Perplexity
2025.01 5주차
Sonar
  • Advanced CoT reasoning, US-based, Data privacy, Self-serve API access를 주요 특징으로 삼음
  • 일반 버전과 pro 버전으로 구분됨
📜 Paper UIUC, AI2, IBM, Yale, Washington
2025.01 5주차
ReFIT: Reranker Relevance Feedback during Inference
  • inference-time에 retriever에 대한 relevance feedback을 제공하여 최초 k개 recall에 대한 성능 향상을 도모
  • reranker의 predictions을 retriever의 query representation에 반영할 수 있도록 lightweight update mechanism을 사용하여 distill
  • → updated 된 query vector를 사용하여 second retrieval step 실행
📜 Paper Huawei, McGill
2025.01 5주차
InnerThoughts: Disentangling Representations and Predictions in Large Language Models
  • small separateneural network predictor module을 training questions에 대해 만들어 전체 레이어의 hidden state를 입력으로 받아 결과 예측
  • LLM의 representational abilities를 온전히 사용하는 방식의 프레임워크라고 주장
  • 비용은 적은데 finetuning급 성능 향상을 이뤄낼 때도 있었다고 보고
📜 Paper Zhejiang Univ.
2025.01 4주차
OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
  • 이를 해결하기 위해 OmniThink라는 machine writing framework 프레임워크를 제안: 인간과 같은 iterative expansion & reflection 프로세스를 모방
  • 특정 주제에 대한 지식을 점진적으로 deepen 하는 cognitive behavior가 아이디어의 핵심
🧑🏻‍💻 Dev DeepSeek
2025.01 4주차
DeepSeek-R1
  • Self-verification, Reflection, CoT solutions 등의 특징
  • DeepSeek-R1, DeepSeek-R1-Zero, Llama & Qwen 아키텍쳐 기반의 6개 distilled 모델 공개
🧑🏻‍💻 Dev OpenAI
2025.01 4주차
OpenAI’s function calling guide
  • 좋은 예시들이 포함되어 있어 function calling 공부하는 데 활용할 수 있을 것 같음
📜 Paper Korea Univ., Upstage
2025.01 4주차
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains
  • 세 가지 핵심 요소: multiple domains, time dependency, temporal state
  • ChroKnowledge (Chronological Categoriazation of Knowledge): LLM의 non-parametric chronological knowledge를 평가하기 위한 sample-based framework
  • temporal knowledge를 이끌어내는 능력은 모델이 학습된 데이터 형식에 따라 다르다
🧑🏻‍💻 Dev Pocket Flow
2025.01 4주차
Pocket Flow
  • Nested Directed Graph를 활용하여 Node, Action, Flow, Batch & Async 등의 기능을 지원
🧑🏻‍💻 Dev OpenAI
2025.01 4주차
Announcing The Stargate Project
  • NVIDIA GPU 사용, Oracle은 고품질 cloud infrastructure 제공, Microsoft Azure는 모델 분산 학습 지원
  • medicine & biotechnology 등의 high-value fields에 집중
📜 Paper ByteDance, Tsinghua
2025.01 4주차
UI-TARS: Pioneering Automated GUI Interaction with Native Agents
  • 프롬프트나 workflow를 통해 commercial model을 사용하는 이전 프레임워크들과 달리 end-to-end model임
  • Enhanced Perception, Unified Action Modeling, System-2 Reasoning, Iterative Training with Reflective Online Traces 등의 주요 특징
🧑🏻‍💻 Dev OpenAI
2025.01 4주차
Introducing Operator
  • web 상에서 tasks를 자동화해주는 AI agent (폼 작성, 여행 예약 등)
  • Computer-Using Agent (CUA) 라는 새로운 모델을 사용
  • GPT-4의 vision 능력으로 GUI 상호작용이 가능하도록 강화학습
🧑🏻‍💻 Dev Anthropic
2025.01 4주차
Introducing Citations on the Anthropic API
  • Anthropic API & Google Cloud’s Vertex AI 에서 API로 이용 가능
  • Document summarization, Complex Q&A, Customer support 등의 유즈케이스
📜 Paper Google Cloud
2025.01 4주차
Chain of Agents: Large Language Models Collaborating on Long-Context Tasks
  • Chain-of-Agents (CoA): multi-agent collaboration을 이용하여 information aggregation & context reasoning 가능하도록 만든 프레임워크
  • segmented text를 sequentially 처리할 수 있는 multiple worker agents로 구성 → manager agent가 결과를 종합하여 coherent final output 생성
📜 Paper Nanyang, Fudan
2025.01 3주차
Long Context vs. RAG for LLMs: An Evaluation and Revisits
  • (1) QA benchmarks에서는 LC가 일반적으로 RAG 보다 우위
  • (2) summarization-based RAG는 LC보다 낫지만 chunk-based retrieval는 조금 아쉽
  • (3) dialogue-based & generatl question queries에 대해서는 RAG가 우위
🧑🏻‍💻 Dev Mistral
2025.01 3주차
Codestral 25.01
  • 덕분에 2배 이상 빠른 속도로 코드 생성 가능
  • 256k context length를 지원하며 다양한 프로그래밍 언어 벤치마크에서 SoTA 달성
  • VS Code 또는 JetBrains 에서 Chat Demo 버전 사용 가능
🧑🏻‍💻 Dev AMD, John Hopkins
2025.01 3주차
Agent Laboratory: Using LLM Agents as Research Assistants
  • MacBook이든 GPU cluster든 주어진 computational resources에 맞게끔 동작하는 structured framework
  • 세 단계로 구성: (1) Literature Review (2) Experimentation (3) Report Writing
📜 Paper Google Research
2025.01 3주차
Titans: Learning to Memorize at Test Time
  • historical context를 기억하는 방법을 배워서 오래된 과거 정보를 활용하여 현재 context에 attention 하는 방법론
  • 결국 attention과 neural memory라는 두 개의 module을 기반으로 삼는 새로운 아키텍쳐 model family, Titan
  • 2M context size 이상에서도 needle-in-haystack tasks를 정확하게 수행할 수 있다고 보고
📜 Paper Minimax
2025.01 3주차
MiniMax-01: Scaling Foundation Models with Lightning Attention
  • 핵심은 lightning attention & efficient scaling
  • MoE 방식과 결합했는데, 이때 32개의 experts, 456B total parameters, 45.9B activated parameters 로 구성
  • 학습 중 context window는 1M 길이에 달하고, 추론 시에는 4M 까지 extrapolate 가능하다고 주장
📜 Paper Sakana
2025.01 3주차
Transformer^2: Self-adaptive LLMs
  • two-pass mechanism: (1) dispatch system (2) task-specific expert vectors
  • LoRA 대비 사용하는 파라미터의 숫자는 적으나 효율성이 뛰어남
🧑🏻‍💻 Dev OpenAI
2025.01 3주차
Scheduled tasks in ChatGPT
  • one-time reminder 또는 recurring actions 설정 가능
  • 웹 인터페이스를 통한 태스크 관리
  • 데스크탑, 모바일, 웹에서 알림 수신 가능
📜 Paper Chinese Academy of Sciences
2025.01 3주차
Aligning Instruction Tuning with Pre-training
  • AITP (Aligning Instruction Tuning with Pre-training): underrepresented pre-training data를 고품질의 instruction-response pair 데이터로 변환
  • task-specific objective 유지 & 데이터셋의 다양성 증대
  • adaptive data selection, controlled rewriting, balanced integration 등
📜 Paper AI2, Washington, NYU
2025.01 2주차
2 OLMo 2 Furious
  • Dolmino Mix 1124, late-stage curriculum training에 사용되는 pretraining data mixture
  • Tulu 3에서 얻은 최선의 practice를 OLMo 2-Instruct 개발에 활용, final-stage reinforcement learning with verifiable reward (RLVR)에 focus
📜 Paper Berkeley, CMU
2025.01 2주차
AutoPresent: Designing Structured Visuals from Scratch
  • 10개 도메인에 대한 310개 슬라이드 deck에 대한 585개의 testing sample로 구성
  • (1) reference-based 방식: target slide와의 유사도 평가
  • (2) reference-free: 생성된 슬라이드 자체의 디자인 퀄리티 평가
🧑🏻‍💻 Dev HuggingFace
2025.01 2주차
SmolAgents
  • transformers에서 사용 가능한, Hub에 업로드된 모든 모델을 사용할 수 있음. OpenAI, Anthropic, Meta 모델들도 사용 가능
🧑🏻‍💻 Dev Google
2025.01 2주차
Agents
  • 세 개의 핵심 구성 요소를 정의: Decision Engine, Tool Integration, Orchestration Layer
  • Tools는 각 functionality에 따라 Extension, Function, Data Stores로 구분
🧑🏻‍💻 Dev NVIDIA
2025.01 2주차
Cosmos
  • 20M 시간 & 9,000T 토큰으로 학습된 Diffusion-based models
  • Autoregressive, text-to-video, video-to-video, combined inputs 지원 등의 특징
📜 Paper Google
2025.01 1주차
LearnLM: Improving Gemini for Learning
  • 특정 pedagogical attribute를 평가하기 위한 프레임워크
  • pedagogical instruction following을 포함하여 학습한 LearnLM 이 다양한 learning scenario에서 좋은 평가를 받았음
📜 Paper Microsoft
2025.01 1주차
Bootstrap Your Own Context Length
  • diverse long-context instruction tuning data를 합성하는 simple agent flow
  • 즉, short-context의 언어 모델들만을 이용하여 long-context 언어 모델을 만들 수 있다는 주장
  • Llama-3 계열 모델을 기준으로 최대 1M token 까지 확장했다고 언급
📜 Paper GIT, Washington, CMU, AI2
2025.01 1주차
Multi-Attribute Constraint Satisfaction via Language Model Rewriting
  • 초기 paraphrased outputs으로부터 다양한 multi-attribute를 sampling 함으로써 LM을 editor로 학습
  • 이를 제대로 평가하기 위해 Fine-grained Constraint Satisfaction (FineCS) 벤치마크를 제작
  • Text Style Transfer, Protein Design, 두 개의 challenging tasks로 구성
📜 Paper Xiaoduo AI Lab
2025.01 1주차
Xmodel-2 Technical Report
  • 이것의 아키텍쳐는 다른 모델들이 통합된 하이퍼파라미터셋을 그대로 활용할 수 있도록 함으로써 최적의 세팅으로 larger model에 scale 할 수 있음
  • MiniCPM의 WSD learning rate scheduler 사용
  • [깃허브 링크](https://github.com/XiaoduoAILab/Xmodel-2) 🔗
📜 Paper Meta
2025.01 1주차
MLLM-as-a-Judge for Image Safety without Human Labeling
  • 기존 문제점: human label, guideline 제작 등은 너무 비쌈. 룰 업데이트가 주기적으로 필요함
  • MLLM이 zero-shot으로 주어진 ruel과 이미지 간의 관련성을 평가하고 빠르게 판단할 수 있도록 하는 방법론을 제안
📜 Paper Toronto
2025.01 1주차
Toward Adaptive Reasoning in Large Language Models with Thought Rollback
  • TR의 core mechanism은 rolling back thoughts로 LLM이 thoughts에 대해 error analysis를 수행하여 이전에 mistaken 된 thought를 roll back 하도록 함
  • prompt 내에 이러한 trail-and-error를 포함하여 더욱 reliable한 reasoning path를 구축
  • [깃허브 링크](https://github.com/iQua/llmpebase) 🔗

2024년 12월 63건

📜 Paper Washington, AI2
2024.12 4주차
Self-Instruct: Aligning Language Models with Self-Generated Instructions
  • 언어 모델의 zero-shot 성능이 뛰어나더라도 human-written instruction data 자체는 확보하기 어렵다는 문제가 존재
  • → Self-Instruct: 언어 모델의 생성 결과를 bootstrapping 함으로써 사전학습 모델의 instruction following 능력을 개선하는 프레임워크 제시
  • instruction, input, output 생성 → invalid, similar 데이터는 필터링
📜 Paper Oxford
2024.12 4주차
Confidence in the Reasoning of Large Language Models
  • (1) reconsider 하도록 prompt를 받았을 때의 persistence를 정성적으로 측정
  • (2) self-reported confidnece score를 정량적으로 측정
  • 일반적으로는 confidence와 accuracy가 양의 상관관계를 보이지만, 두 번째 답변이 첫 번째 답변보다 안좋을 가능성이 높음
📜 Paper Peking, Microsoft Research
2024.12 4주차
Outcome-Refining Process Supervision for Code Generation
  • Outcome-Refining Process Supervision, outcome refinement 자체를 supervised process 자체로 취급하는 paradigm 제시
  • 여러 개의 solution trajectories를 유지하기 위해 tree-structured exploration을 사용
📜 Paper HKUST, Tencent
2024.12 4주차
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
  • (1) 모델이 충분히 다양한 response를 생성할 수 있는 능력이 있는가
  • (2) 고퀄리티-저퀄리티 데이터를 구분하는 external reward의 효용성
  • 추론 관련 태스크에서 exploration & exploitation을 추적하여 정량적 분석 수행
📜 Paper Tsinghua
2024.12 4주차
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
  • Discrete Signal Processing theory를 사용하여 RoPE가 Non-Uniform Discrete Fourier Transform을 achieve 함으로써 periodic attention을 가능하도록 만든다는 것을 확인
  • Fourier Position Embedding (FoPE): periodic extension과 length generalization을 개선하기 위해 attention의 frequency-domain properties를 enhance
  • [깃허브 링크](https://github.com/TsinghuaC3I/Fourier-Position-Embedding) 🔗
🧑🏻‍💻 Dev MIS (Make It So)
2024.12 4주차
MIS (Make It So)
  • OpenAI, Mistral, X.ai, Ollama 등과 같은 다양한 AI 프로바이더를 지원
  • 자연어로 명령을 실행할 수 있음. 실제 명령 실행 전에 확인 과정을 거쳐 문제 일으킬 가능성 최소화.
  • [깃허브 링크](https://github.com/RamboRogers/mis?utm_source=pytorchkr&ref=pytorchkr) 🔗
📜 Paper Nanjing Univ.
2024.12 4주차
Token-Budget-Aware LLM Reasoning
  • CoT reasoning에 사용되는 토큰의 수와 비용을 효과적으로 감소시킬 수 있었다고 주장
  • [깃허브 링크](https://github.com/GeniusHTX/TALE) 🔗
📜 Paper KAIST, Google DeepMind
2024.12 4주차
Revisiting In-Context Learning with Long Context Language Models
  • 정교한 예시 선정이 random selection 대비 큰 성능 향상으로 이어지지 않는다는 결과
  • 오히려 좋은 예시들을 찾는 것보다 context window를 채울 만큼의 예시를 확보하는 게 더 어렵고 중요한 문제로 인식되기 시작했다는 주장
📜 Paper Tsinghua, Peking
2024.12 4주차
How to Synthesize Text Data without Model Collapse?
  • 합성 데이터의 비율을 조절해가며 학습해 본 결과, 합성 데이터의 비율과 모델의 성능이 음의 상관관계를 보인다고 함
  • 사람이 생성한 데이터에 token editing을 적용하여 semi-synthetic data를 획득하는 방법론 제안
📜 Paper Anthropic, NYU, Mila
2024.12 4주차
Alignment faking in large language models
  • 무료 유저와 대화할 것임을 시스템 프롬프트에 포함하고 모든 해로운 질문에 대해서도 답변할 수 있도록 학습 → 추론 시 무료/유료 유저 결과 비교해보니 무료 유저의 해로운 질문에 대해서 답변할 확률이 14%, 유료 유저에 대해서는 0%
  • 사전학습 데이터를 모방한 합성 데이터를 이용하여 보다 현실적인 세팅에서 실험한 결과 제시
  • 강화학습으로도 alignment-faking reasoning을 확인한 결과, 그 비율이 78%까지 오르는 것을 확인함
📜 Paper Google Research, Google DeepMind
2024.12 4주차
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs
  • (1) additional training supervision을 위한 soft label 제공
  • (2) small subset of valuable training examples 선별
  • 1.5B 모델을 soft labeler로 이용하여 2.8B 사이즈 모델을 학습한 결과를 제시
📜 Paper DeepSeek
2024.12 4주차
DeepSeek-V3 Technical Report
  • 효율적인 학습 및 추론을 위해 Multi-head Latent Attention (MLA) & DeepSeekMoE 아키텍쳐 선택
  • load balancing을 위한 auxiliary-loss-free strategy, multi-token prediction training objective
  • [깃허브 링크](https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf) 🔗
📜 Paper Meta
2024.12 4주차
Large Concept Models: Language Modeling in a Sentence Representation Space
  • existing sentence embedding space, SONAR 사용
  • diffusion-based generation의 일종인 MSE regression 등을 시도
  • 1.6B 모델에 1.3T 토큰 학습 & 7B 모델에 2.7T 토큰 학습
🧑🏻‍💻 Dev Qwen
2024.12 4주차
QVQ: To See the World with Wisdom
  • MMMU, MathVista, MathVision, OlympiadBench 등 수학적 추론 능력이 크게 요구되는 벤치마크에서 GPT-4o & Claude3.5 Sonnet 이상의 퍼포먼스를 보임
  • Language Mixing & Code-Switching 등이 예상치 못하게 나타날 수 있음, Recursive Reasoning 등의 문제가 존재
📜 Paper Tencent
2024.12 4주차
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression
  • synthetic recall과 같은 태스크에서 약점을 보임
  • 세 개의 key failure patterns
  • (1) lost by the boundary (2) lost if surprise (3) lost along the way
📜 Paper Gaoling School
2024.12 4주차
YuLan-Mini: An Open Data-efficient Language Model
  • 세 개의 특징을 가진 사전학습 테크닉
  • (1) an elaborate data pipeline
  • (2) 학습 불안정성을 완화하는 robust optimization method
📜 Paper Chalmers University
2024.12 4주차
The Impact of Prompt Programming on Function-Level Code Generation
  • 세 개의 LLM(GPT-4o, Llama3, Mistral)로 부터 생성한 completion function의 quality 평가
  • 특정 테크닉이 코드 생성에 도움은 되지만, 이것들의 조합/결합이 반드시 도움이 되는 것은 아님
  • correctness & quality 간의 trade-off 관측 (quality가 뭘 의미하는지 모르겠음)
📜 Paper Meta
2024.12 4주차
Improving Factuality with Explicit Working Memory
  • memory는 online fack-checking과 retrieval feedback을 기반으로 refreshed
  • → 중간에 잘못 생성되었던 내용들에 대한 dependency issue를 해결할 수 있음
  • memory update 규칙, memory unit에 대한 configuration, retrieval datastore의 quality 등이 성능에 가장 큰 영향을 미치는 요소들
📜 Paper Beijing Univ.
2024.12 3주차
Smaller Language Models Are Better Instruction Evolvers
  • SLM이 instruction evolving 동안 보다 넓은 output space를 가진다고 주장
  • Instruction Complex Aware IFD (IC-IFD)를 제안: instruction data를 평가하기 위해 IFD를 개선한 메트릭
🧑🏻‍💻 Dev Google DeepMind
2024.12 3주차
Veo 2
  • 렌즈 타입과 카메라 효과를 instruction으로 정해서 비디오를 생성할수도 있음
  • 구글의 SynthID 워터마크를 통해 AI-generated content인지 아닌지 쉽게 식별 가능
📜 Paper Shanghai AI Lab
2024.12 3주차
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
  • → Evaluation Agent 프레임워크: dynamic, multi-round evaluation, 각 라운드마다 몇 개의 샘플만을 사용
  • 완전한 오픈소스 프레임워크로써 1) efficiency 2) promptable evaluation 3) explainability 4) scalability 등이 핵심 특징
  • [깃허브 링크](https://vchitect.github.io/Evaluation-Agent-project/) 🔗
🧑🏻‍💻 Dev Claude Engineer v3
2024.12 3주차
Claude Engineer v3
  • CLI & web 인터페이스 둘 다 지원
  • 무려 10k 개의 스타 ⭐
🧑🏻‍💻 Dev Google DeepMind
2024.12 3주차
FACTS Grounding: A new benchmark for evaluating the factuality of large language models
  • LLM의 답변이 사실적으로 정확하고 충분한 내용을 담고 있는지 확인할 수 있는 벤치마크
  • gemini 모델들이 상위권을 다 차지하는데 상당히 의문스러운 양상..
  • 860개의 public, 859개의 private held out set으로 구성되어 있고 전자를 [공개](https://www.kaggle.com/datasets/deepmind/facts-grounding-examples)
🧑🏻‍💻 Dev VS Code
2024.12 3주차
Announcing a free GitHub Copilot for VS Code
  • 코드 어시스턴트에 대한 관심이 뜨거운데, Cursor, Windsurf 에 뒤지지 않으려는 노력으로 보임
  • 그러나 아직까지 다른 코드툴에 비해서는 너무 약해/평범해 보이는 기능들..
🧑🏻‍💻 Dev OpenAI
2024.12 3주차
o3 preview & call for safety researchers
  • o-series 모델에 적용한 새로운 alignment strategy
  • 안전성 검사를 위한 작업을 진행 중이고, 이를 위해 일부 연구자들에게 사용 기회를 제공할 것으로 보임
🗞️ News Perplexity
2024.12 3주차
Perplexity has reportedly closed a $500M funding round
  • OpenAI가 Chat 모델 시장을 선점한 것, 검색 시장을 Perplexity가 선점한 것 등을 보면 시장에서 입지를 빠르게 가져가는 쪽이 압도적인 인지도와 유저풀을 갖게 되는 것 같다는 생각이 듦
📜 Paper Tsinghua
2024.12 2주차
Densing Law of LLMs
  • effective parameter size는 기존 모델 M 만큼의 퍼포먼스를 낼 수 있는 최소한의 사이즈를 의미
  • → LLM의 학습 퀄리티를 평가
📜 Paper CMU, KAIST, Washington
2024.12 2주차
Evaluating Language Models as Synthetic Data Generators
  • 6개의 언어 모델, training 99개 student 모델을 사용하여 1.26M training instances를 합성
  • 데이터 생성 능력은 문제 해결 능력과 직접적인 상관관계를 보이지 않는다고 설명
  • [깃허브 링크](https://github.com/neulab/data-agora) 🔗
🧑🏻‍💻 Dev Google
2024.12 2주차
Meet Willow, our state-of-the-art quantum chip
  • Willow가 기록한 벤치마크 연산 능력은 오늘날 가장 빠른 슈퍼컴퓨터가 10 septilion (10의 25승)년을 연산할 것을 단 5분만에 처리할 수 있는 수준
📜 Paper Chinese Academy of Sciences
2024.12 2주차
Towards Adaptive Mechanism Activation in Language Agent
  • expert model에 대한 의존 없이 mechanism activation adaptability를 최적화하는 것에 집중
  • a harmonized agent framework (UniAct)를 구축하고 태스크 특성에 따라 적합한 방법론으로 최적화
📜 Paper OpenAI
2024.12 2주차
OpenAI o1 System Card
  • GPT-4를 공개할 때와 마찬가지로 뻔한 이야기들을 담고 있음
🧑🏻‍💻 Dev OpenAI
2024.12 2주차
Day 3. Sora
  • 프롬프트를 통해 remix, blend, create 가능
  • Turbo 모델은 전작 모델 대비 확실히 생성 속도가 빠름
🧑🏻‍💻 Dev OpenAI
2024.12 2주차
Day 4. Canvas
  • Direct python execution
📜 Paper Microsoft
2024.12 2주차
Phi-4 Technical Report
  • web content, code 중심의 organic data로 사전학습하는 기존 모델들과 달리, 합성 데이터를 적절히 혼합하여 사용하는 학습 방법론 적용
  • phi-4는 STEM-focused QA 능력에서 teacher model의 성능을 능가하는 모습을 보여줌
📜 Paper UC Santa Barbara
2024.12 2주차
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
  • 세 개의 practical domain을 다루고 있음: airline baggage fees, NBA transactions, tax regulations
  • 현존 LLM들의 세 가지 주요 한계: (1) 비슷하지만 다른 규칙을 구분하지 못함 (2) 규칙을 정확히 이해했더라도 수학 문제에서 일관된 성능을 보이지 않음 (3) 전반적으로 이 벤치마크 점수가 다 낮음
📜 Paper OpenAI
2024.12 2주차
Measuring short-form factuality in large language models
  • GPT-4의 response에 반하도록 수집한 challenging 벤치마크
  • 오직 한 개의 답변만이 정답이 될 수 있도록 문제를 구성 (correct, incorrect, not attempted)
  • 모델의 “know what they know”를 평가하기 위한 벤치마크
📜 Paper Google Cloud, Google DeepMind
2024.12 1주차
Reverse Thinking Makes LLMs Stronger Reasoners
  • 데이터 증강: teacher 모델로부터 (1)원래 질문 (2)정방향 추론 (3)역방향 질문 (4)역방향 추론을 수집
  • 3가지 training objectives를 통한 student 모델 학습
  • 질문→정방향 추론 생성
📜 Paper Chineses Academy of Sciecnes
2024.12 1주차
Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models
  • RAG의 성능 향상을 위한 iterative retrieval 과정을 LLM의 자율적 의사결정 능력에 맡기는 Auto-RAG 제안
  • LLM이 retriever와 multi-turn 대화를 통해 검색을 계획하고 쿼리를 개선
  • 충분한 정보가 모일 때까지 자동으로 반복
🧑🏻‍💻 Dev NVIDIA
2024.12 1주차
Multimodal PDF Data Extraction
  • enterprise RAG를 위한 제품으로 보임
  • 현재는 데모 수준으로 업로드된 370/501개 파일에 대한 QA를 RAG 기반으로 테스트 해볼 수 있는 것 같음
📜 Paper Vanderbit Univ.
2024.12 1주차
Training Noise Token Pruning
  • discrete token dropping 조건을 continuous additive noise로 relax 하여 학습 내에서 smooth optimization을 제공
📜 Paper UC Berkeley
2024.12 1주차
Predicting Emergent Capabilities by Finetuning
  • 현재 LLM의 random few-shot 정확도를 기반으로 다음 세대 모델의 정확도를 예측할 수 있을까?
  • insight: finetuning LLMs on a given task can shift the point in scaling at which emergence occurs towards less capable models
  • 언어 모델을 특정 태스크에 대해 학습하면 emergent ability가 발현되는 point를 옮길 수 있다
📜 Paper Google DeepMind
2024.12 1주차
PaliGemma 2: A Family of Versatile VLMs for Transfer
  • long fine-grained captioning 같은 task 뿐만 아니라 OCR-related tasks도 커버
  • 꽤 넓은 범위로 transfer 가능하다는 것을 실험적으로 확인한 것으로 보임
🧑🏻‍💻 Dev OpenAI
2024.12 1주차
o1 and ChatGPT Pro
  • Improved accuracy, Multimodal support, Faster and more concise 등의 특징
  • Pro 유저는 o1, GPT-4o, o1-mini 등을 무제한 사용 가능
📜 Paper Microsoft, MIT
2024.12 1주차
Does Prompt Formatting Have Any Impact on LLM Performance?
  • 같은 내용을 일반 텍스트, 마크다운, JSON, YAML 형식 등으로 변환하여 GPT-3.5-turbo, GPT-4 모델을 테스트
  • 성능이 높은 모델일수록 템플릿에 상관없이 성능이 유지되고, 그렇지 않은 모델은 크게 영향을 받는 것으로 확인됨
📜 Paper Peking, Baichuan
2024.12 1주차
SysBench: Can Large Language Models Follow System Messages?
  • 위 능력을 평가하고 분석 가능한 벤치마크 SysBench를 도입
  • 이미 자주 사용되고 있는 6개의 constraint, 500개의 tailor-designed system messages, multi-trun conversation 등을 기반으로 데이터셋을 직접 구축
  • [깃허브 링크](https://github.com/PKU-Baichuan-MLSystemLab/SysBench) 🔗

2024년 11월 77건

📜 Paper Ghent University
2024.11 4주차
Large Language Models Reflect the Ideology of their Creators
  • LLM에게 최근 세계사의 유명하면서도 논쟁이 많은 인물들을 묘사하도록 프롬프팅 (영어 & 중국어)
  • 같은 LLM이라도 영어와 중국어 사용에 따라 normative disagreement를 보인다는 것을 확인함
  • Western 모델에 정치적인 성향이 반영되어 있다고도 주장
📜 Paper Ohio, Washington, AI2
2024.11 4주차
ComPO: Community Preferences for Language Model Personalization
  • ComPO, preference provider와 함께 모델 output의 확률 분포를 contextualize 함으로써 preference optimization를 personalize
  • 개인 단위가 아닌 그룹 단위의 선호 데이터셋을 수집하여 community-level preferences from Reddit → ComPRed 공개
📜 Paper NYU, AI2, NVIDIA, Washington
2024.11 4주차
Diverging Preferences: When do Annotators Disagree and do Models Know?
  • 4개의 high-level 클래스로 구분되는 10개의 카테고리로 disagreement taxonomy를 구축
  • task underspecification, response style, refusals, annotation errors
  • 이것들이 reward modeling & evaluation 에 어떤 영향을 미치는지 조사
📜 Paper VNU Univ.
2024.11 4주차
MoD: A Distribution-Based Approach for Merging Large Language Models
  • 각 모델들의 specialized 능력을 보존하면서도 task 사이의 효율적인 knowledge sharing 가능
  • 간단하게 살펴봤을 땐 다른 merge 방식과 뭐가 그렇게 크게 다른지는 잘 모르겠음
  • [깃허브 링크](https://github.com/knovel-eng/mod) 🔗
🧑🏻‍💻 Dev Google
2024.11 4주차
Gemini API and Google AI Studio now offer Grounding with Google Search
  • 검색 결과를 기반으로 답변을 생성하는 방식으로 최근 생성형 검색 엔진에 대한 관심이 뜨거움
  • 그러나 최근 구글 검색의 결과물이 만족스럽지 않다는 점을 감안하면 그렇게 좋을지는 잘 모르겠음
🧑🏻‍💻 Dev HuggingFace
2024.11 4주차
SmolLM2-1.7B-Instruct
  • 잘 정제된 데이터셋으로 SFT & DPO 학습한 모델로, 동사이즈 대비 아주 뛰어난 성능 지표를 보임
  • [이미 ollama에서도 지원](https://ollama.com/library/smollm2) 🔗
🧑🏻‍💻 Dev Anthropic
2024.11 4주차
PDF support (beta)
  • 최대 32MB, 100 페이지 커버가 가능하며 페이지당 1,500 ~ 3,000 토큰 사용
🧑🏻‍💻 Dev xAI
2024.11 4주차
API Public Beta
  • 128K 토큰 길이의 context, function calling, system prompt를 지원
  • 베타 기간 동안 25$의 API 크레딧을 매달 지급
🧑🏻‍💻 Dev Anthropic
2024.11 4주차
Claude 3.5 Haiku
  • 다른 태스크보다 특히 코드 생성에서 좋은 퍼포먼스를 보이는 것 같음
  • 그런데 비용이 많이 올라서 논란이 되는 것으로 보임
  • Sonnet 3.5 (new)의 성능도 함께 화제가 되는 중
📜 Paper Google Research
2024.11 4주차
Distinguishing Ignorance from Error in LLM Hallucinations
  • 후자의 경우 중간 연산에 개입함으로써 문제를 해결할 수 있으나, 전자의 경우 외부 지식 source가 필요
  • 두 경우를 구분하기 위해 Wrong Answer despite having Correct Knowledge (WACK) 라는 model-specific dataset 구축 방식을 제안
🧑🏻‍💻 Dev HuggingFace
2024.11 4주차
Smol Tools
  • SmolSummarizer, SmolRewriter, SmolAgent
  • 각각이 엄청난 건 아닌데 작은 모델들을 각자의 작업에 특화시켜서 합친 것에 의미가 있는 듯함
📜 Paper IBM
2024.11 4주차
Granite 3.0 Language Models
  • Sparse 1B & 3B MoE 모델. 400M & 800M activate 파라미터. 총 10T 토큰으로 학습.
  • 비교군으로는 Llama3.1 8B, Mistral 7B / SmolLM-1.7B 등 모델을 사용
  • 상업적으로도 사용 가능하도록 Apache 2.0 라이센스로 공개됨
📜 Paper HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
2024.11 4주차
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
  • 따라서 plain text 대신 HTML을 사용하는 HtmlRAG를 제안
  • 그러나 HTML을 바로 사용하기는 어렵기 때문에, HTML cleaning, compression, pruning strategies를 도입하여 정보의 손실을 최소화 하면서도 HTML을 줄이고자 함
📜 Paper Huawei
2024.11 4주차
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
  • 기존의 rigid & limited 한 CoT & reflection 대신에 아주 유연한 structrued reasoning 프레임워크를 사용했다고 언급
  • iteration마다 핵심 정보를 탐색 및 저장함으로써 long- & short-term memory를 업데이트함. 이를 통해 fine-tuning이나 backpropagation 없이 성능을 개선할 수 있음
📜 Paper Tancent
2024.11 4주차
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
  • 256K 길이의 window size를 갖는 모델
  • 다양한 태스크에서 LLama3.1-70B를 능가하고, 405B 모델에 비견되는 성능을 보임
  • large-scale synthetic data, mixed expert routing, key-value cache compression, expert-specific learning rate 등이 핵심 특징
📜 Paper NVIDIA
2024.11 4주차
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs
  • MLLM을 10개 데이터셋 16개의 태스크에 대해 학습하여 bi-encoder retriever로 사용
  • MLLM에 존재하는 modality bias를 완화하기 위해 modality-aware hard negative mining을 제안
  • 여러 modality 중에서도 특히 text retrieval 능력을 향상시키기 위해 continually fine-tuning 할 것을 제안
📜 Paper Edinburgh
2024.11 4주차
Mixtures of In-Context Learners
  • 분류 태스크에서 뛰어난 성능, 더 적은 demonstration으로 기존과 유사한 퍼포먼스를 달성하여 파레토 라인을 push
📜 Paper Google, Peking
2024.11 4주차
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters
  • Tokenformer: attention 메커니즘을 input token 사이의 computation 뿐만 아니라 token과 모델 파라미터 간 interaction에도 활용
  • 모든 linear layer를 token-parameter attention layer로 교체!
  • [깃허브 링크](https://github.com/Haiyang-W/TokenFormer) 🔗
📜 Paper Hong Kong, Tsinghua, Peking, Tencent
2024.11 4주차
Large Language Models Can Self-Improve in Long-context Reasoning
  • 위 문제를 해결하기 위해 SeaLong 제안: 각 질문에 대해 여러 개의 output을 생성하고 Minimum Bayes Risks를 이용한 scoring 후 SFT 또는 preference optimization
  • 이런 방법론들은 결국 cost 문제에 직면하기 마련인데..
🧑🏻‍💻 Dev INF, M-A-P
2024.11 4주차
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
  • 재현 가능한 960B 토큰의 데이터셋, 4.5M SFT samples, intermediate checkpoints
  • Two-Stage Instruction Fine-Tuning for Theory and Practice
  • Ollama에서 동작 가능. 로컬에서 코드 모델을 사용하고자 하는 수요가 적지 않은 것 같음
🧑🏻‍💻 Dev Alibaba
2024.11 4주차
Qwen2.5-Coder Series: Powerful, Diverse, Practical.
  • 6개의 모델 사이즈를 기준으로 모델을 공개
  • 0.5B / 1.5B / 7B / 14B / 32B 모델은 Apache 2.0, 3B 모델은 Qwen-Research 라이센스를 따름
  • coding assistant & Artifact 두 개의 시나리오에서 사용할 수 있게끔 학습됨
📜 Paper Israel Institue of Technology
2024.11 4주차
Backward Lens: Projecting Language Model Gradients into the Vocabulary Space
  • gradient matrix가 low-rank linear combination의 forward & backward pass의 입력으로 cast 될 수 있음을 입증 (?)
  • 이러한 gradients를 vocab item에 project하고 LM의 neuron에 새로운 정보를 저장할 수 있도록 하는 방법론을 고안
  • [깃허브 링크](https://github.com/shacharKZ/BackwardLens) 🔗
📜 Paper Univ. of Tehran
2024.11 4주차
CoCoP: Enhancing Text Classification with LLM through Code Completion Prompt
  • text classification 문제를 해결하기 위해 LLM의 code 능력을 활용하는 Code Completion Prompt (CoCoP) 방법론 제시: text classification → code completion
  • CodeLLaMA와 같은 코드 특화 모델을 사용하는 경우, few-shot learning 수준의 퍼포먼스 가능
📜 Paper Apple
2024.11 4주차
Cut Your Losses in Large-Vocabulary Language Models
  • 이는 각 입력 토큰 & vocab item 쌍마다 logit 행렬을 구축하기 때문이고, 작은 모델이라고 할지라도 LLM의 나머지 구성요소의 수배에 달하는 메모리를 차지하게 됨
  • Cut Cross-Entropy (CCE) 제안: 모든 토큰에 대한 로짓을 전역 메모리에 저장하지 않고도 Cross Entropy 계산 가능
  • 대신 정답에 대한 logit만 계산, 모든 logit에 대한 log sum-exp를 실시간 평가
🧑🏻‍💻 Dev Anthropic
2024.11 4주차
Improve your prompts in the developer console
  • CoT Reasoning, Example standardization, Example enrichment, Rewriting, Prefill addition 등을 활용
  • workbench에서 multi-shot example을 관리할 수 있음. Claude를 활용하여 synthetic 데이터를 자동적으로 만들 수도 있음
  • (이전에 출시된 기능이긴한데) 최종 생성 결과에 대해 1-5점 점수를 부여하는 평가 기능도 지원함
🗞️ News Amazon
2024.11 4주차
Amazon and Anthropic deepen strategic collaboration
  • Microsoft & OpenAI 의 관계와 유사하다고 이해할 수 있음
  • Anthropic의 다음 세대 모델 개발을 위한 accelerator chip, “Trainium” 개발에 사용될 것
📜 Paper UCL, Shanghai, Brown, Singapore
2024.11 4주차
Natural Language Reinforcement Learning
  • Natural Language Reinforcement Learning (NLRL): 전통적인 MDP를 자연어 기반의representation space로 확장
  • 순수 프롬프팅 or gradient-based training 에 의한 RL-like policy & value 를 개선
  • [깃허브 링크](https://github.com/waterhorse1/Natural-language-RL) 🔗
🧑🏻‍💻 Dev OpenAI
2024.11 4주차
Advancing red teaming with people and AI
  • 📜 [External red teaming](https://cdn.openai.com/papers/openais-approach-to-external-red-teaming.pdf)
  • 📜 [Automated red teaming](https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf)
📜 Paper MIT
2024.11 4주차
Model-Based Transfer Learning for Contextual Reinforcement Learning
  • Model-Based Transfer Learning (MBTL) 제시: Gaussian process를 사용한 performance set point, linear function of contextual similarity로 모델링되는 performance loss
  • 두 요소를 결합하여 Bayesian Optimization (BO) 프레임워크 내에서 전략적으로 사용
  • 50배 이상 개선된 independent & multi-task training 효율성
📜 Paper NVIDIA
2024.11 4주차
Star Attention: Efficient LLM Inference over Long Sequences
  • 1단계: blockwise-local attention across hosts → 2단계: query & response tokens 가 이전에 생성 및 캐싱된 토큰에 대해 sequence-global attention
  • global attention을 사용하여 학습된 트랜스포머 기반의 모델들은 약 11배 정도까지의 추론 속도 향상을 기대할 수 있음 (정확도는 95~100% 유지)
🧑🏻‍💻 Dev Andrew Ng
2024.11 4주차
aisuite
  • OpenAI, Anthropic, Azure, Google, AWS, Groq, Mistral, HuggingFace, Ollama 등을 지원
📜 Paper NVIDIA
2024.11 4주차
Hymba: A Hybrid-head Architecture for Small Language Models
  • Attention heads는 high-resolution recall을, SSM heads는 efficient context summarization을 담당
  • 프롬프트 앞에 붙어서 중요한 정보를 저장하는 learnable meta token 도입
  • 허깅페이스에 [Base](https://huggingface.co/nvidia/Hymba-1.5B-Base) & [Instruct](https://huggingface.co/nvidia/Hymba-1.5B-Instruct) 모델 공개
🧑🏻‍💻 Dev Qwen
2024.11 4주차
QwQ: Reflect Deeply on the Boundaries of the Unknown
  • Language Mixing and Code-Switching, Recursive Reasoning Loops, Safety and Ethical Considerations 등의 한계점
  • GPQA, AIME, MATH-500, LiveCodeBench 등 추론 능력이 요구되는 벤치마크에서 뛰어난 성능
🧑🏻‍💻 Dev IBM, Meta
2024.11 4주차
Supercharging Training using float8 and FSDP2
  • 1.8B 부터 405B 에 이르는 라마 모델에 대한 성능 개선을 확인함 (Llama 3 아키텍쳐 기준)
  • end-to-end float8 training에 대한 가능성을 입증
📜 Paper Harvard, Stanford, MIT, Databricks, CMU
2024.11 3주차
Scaling Laws for Precision
  • training in lower precision은 모델의 effective parameter count를 감소시킴으로써 low precision training과 post-train quantization으로부터의 loss를 예측할 수 있도록 함
  • 추론에 대해서는, 모델이 더 많은 데이터로 학습되었을수록 post-training quantization에 의한 성능 하락이 심각
  • 학습에 대해서는, 본인들이 제시하는 scaling law를 통해 다른 precision으로 학습한 결과를 예측할 수 있다고 주장. 이때 큰 모델을 낮은 precision으로 학습하는 것을 권장.
📜 Paper Peking, Tsinghua
2024.11 3주차
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
  • LLaVA-o1, autonomous multistage reasoning
  • 일반적인 CoT prompting과 달리 LLaVA-o1은 summarization, visual interpretation, logical reasoning, conclusion generation 으로 구성된 stage들을 독립적 & 연속적으로 engage
  • LLaVA-o1-100k dataset: visual question answering, structured reasoning annotations
📜 Paper Shanghai, Fudan
2024.11 3주차
Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions
  • Compound Question Synthesis (CQ-Syn)을 도입하여 Compound-QA를 제작. multi sub-question에 집중
  • Factual-Statement, Cause-and-Effect, Hypothetical-Analysis, Comparison-and-Selection, Evaluation-and-Suggestion, 다섯 개의 카테고리를 다룸
📜 Paper UIUC, IBM
2024.11 3주차
DELIFT: Data Efficient Language model Instruction Fine Tuning
  • DELIFT, 세 단계의 fine-tuning을 통해 data selection을 systematically optimize
  • (1) instruction tuning (2) task-specific fine-tuning (3) continual fine-tuning
  • 현재 데이터 샘플이 현재 모델의 상태에 얼마나 beneficial 한지를 정량화하는 pairwise utility metric 사용
📜 Paper UC, Tsinghua, Peking
2024.11 3주차
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles
  • Style-Compress: smaller model이 새로운 태스크에 대해 추가적인 fine-tuning 없이 프롬프트를 압축할 수 있도록 adapt하는 방법론
  • 10개 샘플, 100개 쿼리로 adaptation 한 뒤 compression 적용한 결과가 준수하다는 것을 확인
  • 방법론에 대한 간단한 수식, 파이프라인, 다양한 실험을 통해 논문화.. 프레임워크도 중요한 시대
📜 Paper KAIST
2024.11 3주차
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML
  • AutoML-Agent, data retrieval 부터 model deployment 까지 아우르는 multi-agent framework
  • retrieval-augmented planning strategy를 사용하여 최적의 plan을 만듦
  • 각 plan을 sub-tasks로 쪼개어서 특화된 agent가 이를 처리할 수 있도록 함
🧑🏻‍💻 Dev Mistral AI
2024.11 3주차
Mistral has entered the chat
  • SoTA document and image understanding, powerd bye the new multimodal [Pixtral Large](https://mistral.ai/news/pixtral-large/)
  • SoTA on MathVista, DocVQA, VQAv2
  • 123B multimodal decoder, 1B parameter vision encoder
🧑🏻‍💻 Dev Perplexity
2024.11 3주차
Shop like a Pro: Perplexity’s new AI-powered shopping assistant
  • Buy with Pro: One-click checkout to save time & free shipping
  • Snap to Shop: 물건의 사진과 유사한 상품을 찾아주는 visual search tool
  • Introducing the Perplexity Merchant Program: 상품 판매자들이 가입하는 프로그램으로, 가입 시 상품이 인덱싱 대상이 되어 추천이 더 잘될 수 있음을 언급
📜 Paper Together AI, Stanford, etc
2024.11 3주차
RedPajama: an Open Dataset for Training Large Language Models
  • 모델 개발의 투명성 부족 (데이터 정제 포함), 고품질 데이터셋 대량 확보의 어려움, 데이터셋 정제와 분석을 위한 artifact 및 메타 데이터 이용 가능성 낮음
  • 이러한 문제를 해결하기 위해 RedPajama-V1 release, open reproduction of the LLaMA training dataset
  • RedPajama-V2를 함께 release, 정제되지 않은 날것의 text data로 구성된 massive web-only dataset
📜 Paper Stony Brook
2024.11 3주차
A Novel Approach to Eliminating Hallucinations in Large Language Model-Assisted Causal Discovery
  • 고품질 데이터에 접근 가능할 때 RAG를 사용하여 hallucination을 줄이는 방법을 제안
  • arbiter(결정권자)를 포함한 여러 LLM을 debate에 참여시켜 causal graphs의 edge를 감사함으로써 hallucination을 최소화하는 기법을 제안
  • 프롬프트 엔지니어링을 통해 graph를 만드는 것부터 시작
🗞️ News Cerebral Valley: Alexandr Wang Scale AI
2024.11 3주차
Cerebral Valley: Alexandr Wang Scale AI
  • 그러나 post training으로 모델을 발전시킬 수 있는 여지는 무궁무진.
  • 최근 o1 or DeepSeek이 좋은 사례
🧑🏻‍💻 Dev HuggingFaceTB
2024.11 3주차
SmolTalk
  • instruction following 능력을 향상시키면서 다양한 태스크를 잘 수행할 수 있는 데 기여하는 public 데이터셋을 합성하여 공개
🧑🏻‍💻 Dev Apple
2024.11 3주차
AIMv2
  • 대부분의 멀티모달 이해 벤치마크에서 OAI CLIP, SigLIP 등을 outperform
  • open-vocabulary object detection & referring expression comprehension에서 DINOv2를 outperform
  • 📜 [Multimodal Autoregressive Pre-training of Large Vision Encoders](https://arxiv.org/pdf/2411.14402)

2024년 10월 83건

📜 Paper Shanghai
2024.10 5주차
Agentic Information Retrieval
  • 기존에는 사전에 정의된 candidate item을 filtering 하는 것에 수십년째 의존하고 있던 상황
  • Agentic IR을 제시하며 세 종류의 application과 현재의 문제점에 대해 논의
🧑🏻‍💻 Dev Stability.AI
2024.10 5주차
Introducing Stable Diffusion 3.5
  • Stable Diffusion 3.5 수준의 성능을 낼 수 있는 distilled version의 turbo 모델도 공개
  • transformer block에 Query-Key Normalization 테크닉 적용
📜 Paper Google DeepMind, Boston
2024.10 5주차
Measuring memorization through probabilistic discoverable extraction
  • 이를 통해 모델이 기억(암기)하고 있는 정보에 대해 파악할 수 있다고 주장
  • 이러한 연구는 학습에 사용된 민감한 정보 등이 유출되는 것을 방지하기 위함인데, 그럼 외운 것 없이 순수한 추론, 이해, 언어 능력만으로 여러 태스크를 처리하는 것이 궁극적인 goal이 될지 궁금함
📜 Paper OpenAI
2024.10 4주차
First-Person Fairness in Chatbots
  • 1% 미만 수준으로 영향을 받는다는 요약글을 본 적이 있는 것 같은데, 사용자수를 고려한다면 훨씬 더 엄밀한 safety 정책이나 방법론이 필요하다는 생각이 듦
📜 Paper Anthropic, Scale AI, NYU, UC Berkeley
2024.10 4주차
Looking Inward: Language Models Can Learn About Themselves by Introspection
  • LLM이 가상의 시나리오에 대한 본인의 행동 특성을 예측하도록 fine-tuning
  • introspect 할 수 있는 모델 M1이 본인의 output 예측을 더 잘할 것이고, 이것이 곧 M2 보다 뛰어난 성능을 지닌다는 방증으로 이해하는 것 같음
  • 요즘 성찰, self-correct 등 모델의 inherent ability를 최대한 이끌어내고자 하는 연구가 꽤 많은 것 같은데, 약간 결과론적인 해석 위주인 것 같아서 아쉽게 느껴짐
📜 Paper British Columbia
2024.10 4주차
Supervised Chain of Thought
  • one-for-all prompting (think step by step) 대신 task-specific supervision이 필요하다고 주장
  • reasoning path를 학습하는 방식은 이미 제시된 바 있는데 데이터셋을 잘 구축한 건가 싶은 인상
📜 Paper Hong Kong, Washington, HKUST, Microsoft
2024.10 4주차
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
  • learnable gate를 두어 attention map에서 중요한 block를 adaptive 하게 선택하는 mechanism 제안
  • → accuracy & speed 균형
  • 이를 위한 customized Flash Attention 구현
🧑🏻‍💻 Dev Meta FAIR
2024.10 4주차
Sharing new research, models, and datasets from Meta FAIR
  • Meta Spirit LM: An open source language model for seamless speech and text integration
  • cross modality generation을 위해 단어 단위의 text & audio 데이터를 interleaving 하는 방식 사용
  • Layer Skip: Enhancing large language model performance with accelerated generation times
📜 Paper Shanghai AI Lab
2024.10 4주차
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
  • unitary scoring & two-model comparison 가능 / 특정 형식을 따라 평가 가능 / critiques 생성 가능 / 일반적인 LLM 태스크 수행 가능
  • various subjective evaluation task와 topic을 커버하는 JudgerBench 구축
  • [모델 및 코드 공개 커뮤니티 링크](https://github.com/open-compass/CompassJudger) 🔗
📜 Paper CMU
2024.10 4주차
Causality for Large Language Models
  • 어떻게 causality가 언어 모델의 각 학습 단계에서 어떻게 영향을 줄 수 있는지 연구하고 앞으로의 연구 방향성을 제시. 프롬프트 기반의 연구들의 한계를 극복하겠다는 취지.
  • 말은 거창한데 abstract만 보고서는 무슨 소리인지 모르겠음
  • [깃허브 링크](https://github.com/causal-machine-learning-lab/Awesome-Causal-LLM) 🔗
📜 Paper Alibaba
2024.10 4주차
Aligning Large Language Models via Self-Steering Optimization
  • chosen & rejected response 간의 consistent gap을 보장하면서도 현재 policy 모델의 learning capacity에 적합한 학습이 진행될 수 있도록 함
  • SSO로 생성된 선호 데이터셋은 reward 모델의 성능을 높인다는 결과도 함께 제시
  • [깃허브 링크](https://github.com/icip-cas/SSO) 🔗
📜 Paper Yonsei, SNU
2024.10 4주차
Large Language Models Still Exhibit Bias in Long Text
  • 14개 토픽, 10개 demographic axes, 11,948개 샘플로 구성
  • 연구에 따르면 특정 demographic group이 선호됨 & excessive sensitivity가 확인됨
  • 이를 완화하기 위해 biased prompt를 neutral response와 짝짓는 fine-tuning approach 제안
📜 Paper NVIDIA
2024.10 4주차
HelpSteer2-Preference: Complementing Ratings with Preferences
  • 두 방식을 head-to-head comparison → Bradley-Terry and Regression reward modeling 제안
  • Llama-3.1-70B-Instruct 모델을 튜닝한 것이 RewardBench에서 94.1점을 달성
  • [데이터셋 링크](https://huggingface.co/datasets/nvidia/HelpSteer2) 🔗 [모델 링크](https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward) 🔗
🧑🏻‍💻 Dev Cohere
2024.10 4주차
Introducing Multimodal Embed 3: Powering AI Search
  • 나쁘지 않은 수준의 성능으로 100개 이상의 언어를 지원한다고 함 (검증할 길이 없어 아쉽)
  • text, image가 독립적으로 clustering 되는 문제가 해결되어 mixed-modality search에서 CLIP 대비 뛰어난 성능을 보여줌
📜 Paper Central Florida
2024.10 3주차
Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning
  • 이를 위해 zero-shot으로 프롬프트의 semantic content를 이해할 수 있는 fixed LLM을 활용
  • processed prompt를 입력 텍스트와 통합하여 모델이 특정 태스크에서 더 뛰어난 성능을 발휘할 수 있도록 함
  • text classification & understanding에서 다른 tuning method 대비 더 적은 시간과 비용으로 좋은 성능을 낼 수 있었다고 주장
📜 Paper Peking, Microsoft
2024.10 3주차
Self-Boosting Large Language Models with Synthetic Preference Data
  • self-prompt generator가 다양한 프롬프트를 생성 → response improver가 response를 점진적으로 개선
  • LLM 스스로 자신의 output에 대한 generative reward를 자율적으로 학습하고, 대규모 annotation 작업을 하지 않을 수 있게 됨
  • AlpacaEval 2.0 & ArenaHard 에 대한 검증을 통해 모델의 instruction following 능력이 크게 향상되었음을 확인
📜 Paper UNIST
2024.10 3주차
Response Tuning: Aligning Large Language Models without Instruction
  • 실험 결과에 따르면 response에 대해서만 학습한 본인들의 모델이 instruction-tuned 모델들보다 더 다양한 범위의 instruction을 따를 수 있거나 성능이 좋았다고 언급함
  • training response distribution을 조절함으로써 target behavior를 유도할 수 있었다고 함
🧑🏻‍💻 Dev OpenAI
2024.10 3주차
openai/swarm
  • [Orchestrating Agents: Handoffs & Routines](https://cookbook.openai.com/examples/orchestrating_agents) cookbook의handoff & routines pattern을 보여주기 위해 제작됨
🧑🏻‍💻 Dev Mistral AI
2024.10 3주차
Un Ministral, des Ministraux
  • 128k context length (vLLM에선 현재 32k). 8B 모델은 sliding-window attention
  • Llama-3.1-8B 보다 뛰어난 성능임을 벤치마크 결과를 통해 제시하고 있음
  • 라이센스는 각각 Mistral Commercial / Commercial & Research License를 따름
📜 Paper Meta, Berkeley, NYU
2024.10 3주차
Thinking LLMs: General Instruction Following with Thought Generation
  • iterative search & optimiation precedure를 통해 possible thought generation space를 탐색. 여기엔 direct supervision이 필요하지 않음
  • 각 instruction에 대한 thought candidate는 judge model이 평가하여 preference optimization에 활용 (DPO)
  • AlpacaEval & Arena-Hard 에서 우수한 성능을 보였음을 강조. 그외의 marketing, health, general knowledge 등의 분야에서도 뛰어나다고 주장.
🧑🏻‍💻 Dev Zyphra
2024.10 3주차
ZAMBA2-7B
  • single shared attention block → two shared attention block
  • 토큰 당 추론 속도를 25% 가량 개선한 inference-efficient 모델
  • 하루 사이에 Mistral 신모델이 출시되었는데 성능 비교가 필요할지도..
🧑🏻‍💻 Dev NVIDIA
2024.10 3주차
Llama-3.1-Nemotron-70B
  • 2024년 10월 기준, Arena Hard와 RewardBench에서 SoTA 달성
  • GPT-4o와 Claude 3.5를 넘는 성능을 달성했다고 함
🧑🏻‍💻 Dev Rhymes AI
2024.10 3주차
Aria
  • text, image, video 처리 가능하며 64k 사이즈의 context window 지원
  • 토큰당 3.9B activated parameters 사용
📜 Paper Fudan, CMU, ByteDance
2024.10 3주차
Revealing the Barriers of Language Agents in Planning
  • Language model을 agent로 사용하여 planning에 활용하는 최근 연구가 많은데, 현재 연구들이 보이는 한계의 원인을 파악한 연구라고 볼 수 있음. 이를 Memory Updating과 연관지어 분석하고 설명한 내용들이 기술되어 있음.
📜 Paper Tufts University
2024.10 3주차
"Let's Argue Both Sides": Argument Generation Can Force Small Models to Utilize Previously Inaccessible Reasoning Capabilities
  • 추가적인 레이어 없이 zero-shot prompting을 대체할 수 있는 방법론이라고 주장
  • CoT나 Argument Generation은 추론이 필요한 태스크에서 zero-shot 할 때나 유용한 보조적인 수단이라고 설명
  • 엄청 단순하고 흔한 방식 같긴 한데, 이런 테크닉이 한정적인 보조수단이라고 설명한 내용이 인상 깊음
📜 Paper DeepSeek-AI, Hong Kong, Peking
2024.10 3주차
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
  • visual encoding을 여러 pathway로 분해(decouple)하되, 처리하는 transformer architecture는 통합된 것을 사용
  • decoupling은 visual encoder의 역할 간 충돌을 완화하면서도 framework의 유연성은 증가시켜줌
  • [깃허브 링크](https://github.com/deepseek-ai/Janus) 🔗
📜 Paper Meta AI, KAUST
2024.10 3주차
Agent-as-a-Judge: Evaluate Agents with Agents
  • LLM-as-a-Judge에 agentic feature를 통합하여 Agent-as-a-Judge를 만들고 이를 code generation에 활용
  • realistic automated AI 개발 태스크로 구성된 새로운 벤치마크 DevAI를 제시
  • LLM-as-a-Judge와 비교했을 때, human evaluation baseline에 준할 정도로 뛰어난 성능
📜 Paper UC Berkeley, Washington Univ
2024.10 3주차
JudgeBench: A Benchmark for Evaluating LLM-based Judges
  • knowledge, reasoning, math, coding 태스크를 다루는 challenging response pari로 구성
  • 현존하는 difficult dataset을 challenging response pair with preference label로 convert 해주는 pipeline을 포함하고 있음
  • response pair 데이터셋이 아닌 것을 convert 해주는 파이프라인은 활용 가치가 높은 것 같은데, 평가 방식 자체에 대단한 건 없는 것 같음
📜 Paper KAIST, Naver Cloud AI
2024.10 3주차
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models?
  • training data가 safe 하더라도 VL adaptation 동안 safety degradation이 발생한다고 설명
  • supervised fine-tuning with safety datasets | reinforcement learning from human feedback 등은 risk를 줄일 수 있지만 온전한 해결책이 아니라고 주장
  • 해결책으로 weight merging를 제안하여 safety degradation을 줄이면서도 helpfulness를 유지할 수 있도록 함
📜 Paper Google Research, Apple
2024.10 2주차
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations
  • (1) 정보를 많이 담고 있는 특정 토큰을 이용하여 error detction을 시도했으나 generalize 되지 않음 → multifaceted
  • (2) internal representation은 모델이 일으키는 에러를 줄이는 데 활용될 수 있다는 것을 확인
  • (3) LLM의 internal encoding과 external behavior 사이의 discrepancy를 확인
📜 Paper Salesforce
2024.10 2주차
Enhance Reasoning by Learning from Mistakes: Peer-Review Knowledge Distillation from Multiple Large Language Models
  • Mistake-Aware Peer-Review Distillation (MAPD) 방식 제안
  • teacher 에게 student의 실수를 파악 및 설명하고 customized instruction learning data를 제공하도록 지시
  • simulated peer-review process를 디자인하여 acceptance threshold를 넘기는 rationale을 사용
📜 Paper Microsoft, Tsinghua
2024.10 2주차
Differential Transformer
  • differential attention mechanism은 두 개의 separate softmax attention map의 차이로 attention score를 계산 → sparse attention pattern을 촉진
  • 특히 long-context modeling, key information retrieval, hallucination mitigation, in-context learning, reduction of activation outlier 등에 탁월
🧑🏻‍💻 Dev HuggingFace
2024.10 2주차
gradio-app/openai-gradio
  • API 대신 로컬 모델로 구축할 수 있으면 좋을텐데 아쉽
📜 Paper Tsinghua, Microsoft
2024.10 2주차
Data Selection via Optimal Control for Language Models
  • CommonCrawl을 대상으로 PDS를 적용했을 때, 사전학습의 효율이 크게 향상된다는 것을 확인
  • Mistral 아키텍쳐를 기반으로 160M, 470M, 1B, 1.7B 모델로 실험
  • [깃허브 링크](https://github.com/microsoft/LMOps/tree/main/data_selection) 🔗
🧑🏻‍💻 Dev HuggingFace
2024.10 2주차
LLM Evaluation Guidebook
  • 초보자/상급자를 위한 내용들이 포함되어 있음
📜 Paper Baidu
2024.10 2주차
Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation
  • 이를 해결하기 위해 chain-of-verification (CoV-RAG)를 제안
  • verification module을 RAG에 넣어 scoring, judgement, rewriting에 참여하도록 함
  • internal generation error를 수정하기 위해 QA와 verification에 CoT reasoning을 포함하여 학습 진행
📜 Paper HKUST, UIUC
2024.10 2주차
Personalized Visual Instruction Tuning
  • MLLM이 target individual을 이미지 내에서 식별하고 coherent dialogue를 이어나갈 수 있도록 data curation & training framework를 포함하는 PVIT를 제안 (Personalized Visual Instruction Tuning)
📜 Paper Microsoft
2024.10 2주차
Scaling Optimal LR Across Token Horizons
  • optimal LR은 token horizon에 따라 변화하는데, longer training일수록 smaller LR이 필요
  • optimal LR도 scaling law를 따르기 때문에, longer horizon에 대한 optimal LR을 shorter horizon으로부터 예측할 수 있다고 주장
  • 데이터셋, 모델 사이즈를 scale-up 할 때 필수로 참고해야 할 논문이 아닌가..
📜 Paper KAIST, Washington, LG AI Research
2024.10 2주차
Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition
  • knowlege entropy 개념을 도입하여 모델이 engage하는 memory의 범위를 정량적으로 나타냄. 이 값이 높으면 모델이 넓은 범위의 memory source를 포함하는 것이고, 낮으면 반대임
  • pretraining이 진행됨에 따라 knowledge entropy가 낮아지고, 이는 모델의 knowledge acquisition & retain 능력 감소를 의미한다고 주장
📜 Paper OpenAI
2024.10 2주차
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering
  • 캐글의 75개 MLE competition을 curate하여, 모델 학습, 데이터셋 준비, 실험 수행 등 다양한 real-world ML engineering skill을 테스트 할 수 있도록 함
  • OpenAI의 o1-preview가 최고라는 걸 보여주는 연구 결과..?
  • [깃허브 링크](https://github.com/openai/mle-bench/) 🔗
📜 Paper Hong Kong
2024.10 2주차
Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models
  • reasoning에 필요한 필수적인 개념, 관련 이론, 유사한 문제 등을 LLM이 떠올릴 수 있도록 함
  • 자체적으로 개발한 두 개의 중국어 벤치마크 MathMC, MathToF 공개
  • 이런 방식이 정말 모델의 능력을 극대화하는 것이 맞나? 어떤 상황에서도 적용 가능한 방법은 맞나? 또 모델이 학생을 가르치는 내용의 데이터를 학습하지는 않았을 것 같은데 이것이 working 하는 이유는 뭘까?
🧑🏻‍💻 Dev Tesla
2024.10 2주차
Robotaxi
🧑🏻‍💻 Dev ML Code Challenges
2024.10 2주차
ML Code Challenges
  • 행렬곱, 공분산행렬, Decision Tree 등등 다양한 개념들이 있어서 코드 연습해보기 좋은 것 같음. 카테고리는 linear algebra, machine learning, deep learning, nlp 등으로 구분됨
🧑🏻‍💻 Dev Anthropic
2024.10 1주차
Introducing Contextual Retrieval
  • Contextual BM25에 사용되는 index를 생성
  • context를 생성할 때는 사람이 직접할 수 없으므로 AI 모델을 사용 (Claude)
📜 Paper Waterloo, Peking
2024.10 1주차
MIO: A Foundation Model on Multimodal Tokens
  • four-stage training process
  • (1) alignment pre-training (2) interleaved pre-training (3) speech-enhanced pre-training (4) comprehensive supervised fine-tuning
📜 Paper Apple
2024.10 1주차
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
  • high-quality OCR data & synthetic caption 을 continual pre-training에 활용 → optimized visual instruction-tuning data mixture를 supervised fine-tuning에 활용
  • MoE 아키텍쳐를 포함하여 모델 사이즈는 1B ~ 30B 로 구성
  • video understanding과 mobile UI understanding에 특화된 MM1.5-Video, UI 버전을 공개.
📜 Paper Meta, UIUC
2024.10 1주차
Law of the Weakest Link: Cross Capabilities of Large Language Models
  • 7개의 core individual capabilities를 정의하고 이를 manually 짝지어 taxonomy를 구축
  • 1,400개의 human-annotated prompts로 구성된 CrossEval 벤치마크를 공개. 각 individual & cross capability 마다 100개 prompt로 구성
  • 이에 대한 평가를 수행해봤을 때, 현 LLM은 Law of the Weakest Link를 보인다고 주장
🧑🏻‍💻 Dev Liquid
2024.10 1주차
Liquid Foundation Models: Our First Series of Generative AI Models
  • 32k token context length, effective across the entire range
  • 오픈 소스 모델은 아님. Liquid Playground, Lambda, Perplexity Labs 등에서 사용 가능
  • 최근 sLLM 에 대한 관심이 뜨거운 것 같은데, 이중에서도 오픈소스가 아닌 모델 패밀리를 공개하는 것은 오히려 흔하지 않은 상황으로 이해됨
📜 Paper Mila, Google DeepMind, Microsoft
2024.10 1주차
Not All LLM Reasoners Are Created Equal
  • compositional pair를 풀어내는 것과 각 문제를 따로 푸는 것의 결과가 독립적이라고 주장
  • 이러한 결과는 더 작고, cost-efficient하며 수학 특화된 모델에서 두드러진다고 함
📜 Paper Johns Hopkins
2024.10 1주차
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
  • → unlabeled data로부터 추출한 다양한 종류의 rationale annotations에 대한 사전학습을 기반으로 삼는 process-supervision of reasoning 모델, Rationalyst 제안
  • Pile 데이터셋으로부터 79K 개 rationale을 추출. 여기에 사람 개입은 최소화.
📜 Paper Apple
2024.10 1주차
Contrastive Localized Language-Image Pre-Training
  • CLIP에 region-text contrastive loss & module 을 보충하는 CLOC를 제안
  • 이미지 embedding을 region representation으로 쉽게 변환할 수 있는 promptable embedding을 공식화

2024년 9월 90건

📜 Paper Tsinghua, Shanhai AI Lab
2024.09 4주차
On the Diagram of Thought
  • propositions, critiques, refinements, verifications를 DAG 구조 내에 포함 → logical consistency를 유지하면서도 모델이 복잡한 reasoning pathways를 탐색하도록 함
📜 Paper NYU, Columbia
2024.09 4주차
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
  • LLM-judgement는 safety, world knowledge, instruction following과 관계가 없다고 주장. 대신 style에 대해 더 높은 우선순위를 부여하고 있는 것으로 관측.
  • [코드 및 결과물 링크](https://anonymous.4open.science/r/mismo-bench-587D/readme.md) 🔗
🧑🏻‍💻 Dev OpenAI
2024.09 4주차
Advanced Voice
  • Custom Instructions, Memory, five new voices, improved accents 등의 특징
🧑🏻‍💻 Dev Meta
2024.09 4주차
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models
  • summarization, instruction following, rewriting tasks 등을 locally 처리 가능
  • AWS, Databricks, Dell, Fireworks 등 Llama Stack distributions을 위한 노력. Ollama에서 single-node로 지원하기도 함
  • [허깅페이스 링크](https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf) 🔗
📜 Paper Beijing Academy of AI
2024.09 4주차
Making Text Embedders Few-Shot Learners
  • few-shot exmaples를 이용하여 고퀄리티 text embedding을 생성하는 bge-en-icl 공개
  • MTEB, AIR-Bench에서 SOTA 달성
🧑🏻‍💻 Dev stepfun-ai/GPT-OCR2_0
2024.09 4주차
stepfun-ai/GPT-OCR2_0
  • [데모 링크](https://huggingface.co/stepfun-ai/GOT-OCR2_0), [깃허브 링크](https://github.com/Ucas-HaoranWei/GOT-OCR2.0/), [논문 링크](https://arxiv.org/abs/2409.01704) 🔗
📜 Paper Stanford
2024.09 4주차
Instruction Following without Instruction Tuning
  • (1) 상응하는 instruction 없이, 오직 response만 학습하더라도 instruction following 가능
  • (2) 이때 response의 desired distribution으로 학습할 필요는 없음
  • 일반적인 instruction tuning 대비 갖는 장점이 무엇인지 모르겠음
📜 Paper CMU, MIT
2024.09 3주차
Agent Workflow Memory
  • Agent Workflow Memory (AWM): 자주 반복되는 routine을 induce 하는 방법론으로, agent에게 workflow를 선택적으로 제공
  • offline & online 시나리오 둘 다 적용 가능, Mind2Web & WebArena 벤치마크로 실험
  • [깃허브 링크](https://github.com/zorazrw/agent-workflow-memory) 🔗
📜 Paper Peking, Microsoft
2024.09 3주차
CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
  • → Monte Carlo Tree Search (MCTS)를 이용하여 multi-step reasoning tasks 내의 다양한 planning step을 탐색하는 Critical Planning Step Learning (CPL) 제안
  • Step-APO (Step-level Adavantage Preference Optimization): MCTS를 통해 획득 가능한 step-level 선호쌍을 DPO와 통합
📜 Paper Wisconsin-Madison
2024.09 3주차
Your Weak LLM is Secretly a Strong Teacher for Alignment
  • → weak LLM을 이용해서 human feedback만 사용할 때에 준하는, 혹은 그 이상의 효율을 뽑아내고자 함
  • 본 연구에서는 OPT-125M 모델을 사용 → 굉장히 작은 사이즈의 모델로도 좋은 결과를 얻었다고 볼 수 있음
🧑🏻‍💻 Dev Mistral AI
2024.09 3주차
AI in abundance
  • Mistral AI 모델들의 비용을 크게 줄임: Nemo 50%, Small & Codestral 80%, Large 33, …
  • le Chat에서 사용 가능한 Pixtral 12B 모델을 Apache 2.0 라이센스로 공개
🧑🏻‍💻 Dev Qwen
2024.09 3주차
Qwen2.5: A Party of Foundation Models!
  • 3B & 72B 를 제외한 모델들은 Apache 2.0 라이센스
  • 18T 토큰으로 학습하여 coding, mathematics, instruction following, long texts 등 다양한 영역에서 강점을 보임 → 128K 윈도우 사이즈 지원, 8K 토큰까지 생성 가능, 29개 언어 지원
📜 Paper ETRI
2024.09 3주차
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B
  • → GPTQ, AWQ, SmoothQuant, FP8 등 다양한 방식, 7B ~ 405B 사이즈 모델. 13개 벤치마크에서 평가
  • (1) FP 16 LLM은 hallucination detection & instruction following 제외하고 괜찮
  • (2) quantization 방법, 모델 사이즈, bit-width 등에 따라 결과가 천차만별
📜 Paper ETH
2024.09 3주차
Breaking reCAPTCHAv2
  • YOLO 모델을 사용하여 100% 확률로 통과할 수 있었으며, 통과에 필요한 문제 수가 사람과 다르지 않다는 결론
  • [깃허브 링크](https://github.com/aplesner/Breaking-reCAPTCHAv2) 🔗
📜 Paper Texas at Austin, Johns Hopkins, Princeton
2024.09 3주차
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
  • → CoT는 math, logic 과 같이 논리적인 태스크에서는 효과적이지만 그 외에는 그닥 영향이 없음
  • MMLU에서 질문이나 모델의 답변에 ‘=’ 기호를 포함하는 태스크를 제외하고서는 CoT를 쓰나 안쓰나 비슷
  • 따라서 CoT는 상황에 맞게 선별적으로 사용하는 것이 좋을 것 같다는 결론
📜 Paper Microsoft
2024.09 3주차
Re-Reading Improves Reasoning in Large Language Models
  • 질문을 두 번 처리함으로써 과정에 대한 이해도를 높인다는 것이 컨셉
  • 단방향의 decoder-only LLM에서 “bidirectional” encoding을 사용하여 global information 활용
📜 Paper University of Toronto, Vector Institute
2024.09 2주차
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries
  • → 특정 스킬이나 토픽에 대한 모델의 behavior를 요약한 natrual language summaries, Report Cards를 제안
  • specificity, faithfulness, interpretability, 세 기준을 근거로 Report Cards를 평가
  • human supervision 없이 Report Cards를 생성하는 iterative algorithm 제안
🧑🏻‍💻 Dev Replit
2024.09 2주차
Replit Agent
  • cursor의 composer와 유사한 기능으로 보임
  • long context, code understanding & generation에 많은 기업들이 집중하는 이유
🧑🏻‍💻 Dev Google
2024.09 2주차
Illuminate
  • 현재 waitlist에 등록해야 하는 실험적 기능임
🧑🏻‍💻 Dev FutureHouse
2024.09 2주차
PaperQA2
  • QA, 요약, contradiction detection 등 가능
  • `pip install paper-qa`
  • [논문 링크](https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf) 🔗
🧑🏻‍💻 Dev OpenAI
2024.09 2주차
Introducing OpenAI o1-preview
  • 과학, 코딩, 수학 분야에서 뛰어난 성능 보임 (예: IMO 예선 83% 정답률, Codeforces 89번째 백분위)
  • o1-preview와 o1-mini 두 모델 제공, ChatGPT Plus/Team 사용자와 일부 API 개발자들에게 접근 권한 부여
  • 향상된 안전 기능 적용 (jailbreaking 테스트에서 GPT-4o 대비 큰 성능 향상)
📜 Paper University of Mannheim
2024.09 2주차
Fine-tuning Large Language Models for Entity Matching
  • → LLM fine-tuning: 1) LLM이 생성한 학습용 설명 데이터셋 2) LLM을 이용한 학습 데이터 선별
  • sLLM (Llama 3.1 8B) > LLM (GPT-4o Mini), in-domain > cross-domain, structured data 효과적
📜 Paper Meta, Oxford, UCL
2024.09 2주차
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources
  • custom data source 입력 → real-wrold source에 근거한 intermediate reasoning step을 포함하여 합성 데이터를 생성
  • answerability에 따라 low-quality generation를 버릴 수 있어 데이터셋 퀄리티가 개선됨
  • multi-hop question answering (MHQA), tool usage in tabular question answering (TQA) 에 효과적
📜 Paper Meta
2024.09 1주차
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
  • 언어 모델의 loss function(next token prediction)을 diffusion과 결합하여 mixed-modality sequence에 대해 single transformer를 학습
  • 7B 사이즈의 모델을 scratch부터 학습하고 2T multi-modal token을 사용, scaling law 확인.
  • 텍스트로 이뤄진 시퀀스 중간에 이미지 패치의 vector가 <BOI> & <EOI> 태그 사이에 삽입
📜 Paper Google DeepMind, UCLA, Milla
2024.09 1주차
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
  • 세 개의 주요 메트릭: coverage, diversity, false positive rate → WC가 더 높은 coverage, diversity, but 더 높은 false positive 비율
  • weak-to-strong improvement setup: weaker LM이 stronger LM에게 reasoning을 가르침
  • WC-generated data로 학습한 모델이 SE-generated data로 학습한 모델보다 뛰어난 성능
📜 Paper University of Virginia
2024.09 1주차
Dynamic Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling
  • → output answer와 CoT로부터의 reasoning path를 동시에 고려하여 생성되는 sample의 숫자를 dynamic하게 조절하는 early framework, Reasoning-Aware Self-Consistency (RASC)
  • 생성되는 샘플들에 confidence score를 부여하고 일정 기준이 충족되면 stop → weighted majority voting
📜 Paper DP Technology
2024.09 1주차
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
  • continual pre-training (CPT) & supervised fine-tuning (SFT) 통합한 hybrid strategy 제안 → 과학 도메인 지식을 불어넣고 domain specific 태스크에서 instruction following 능력을 향상
  • 이를 위해 (1) 고품질의 CPT corpora 필요 (2) 다양한 SFT instructions 생성 필요
  • → PDF text extraction, parsing content error correction, quality filtering, synthetic instruction creation을 아우르는 pipeline으로 해결 시도
📜 Paper Tsinghua University
2024.09 1주차
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
  • audio-based end-to-end conversational model, Mini-Omni (real-time speech를 위한 최초의 오픈소스 모델)
  • text-instructed speech generation, batch-parallel strategies 사용
  • speech output을 만들 수 있도록 학습하는 데 사용 가능한 데이터셋 VoiceAssistant-400K
📜 Paper Peking University, ByteDance
2024.09 1주차
MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models
  • → 네 단계로 학습: 1) vison-language alignment 2) visual instruction-tuning 3) math instruction-tuning 4) process-supervised reinforcement learning → MultiMath-7B
  • K-12 수준의 image caption과 step-wise solution을 포함하는 MultiMath-300K 데이터셋 공개
  • [깃허브 링크](https://github.com/pengshuai-rin/MultiMath) 🔗
📜 Paper NVIDIA
2024.09 1주차
In Defense of RAG in the Era of Long-Context Language Models
  • 그러나 극단적으로 길이가 긴 입력을 처리하는 것은 결국 관련성 높은 정보에 집중하는 것을 방해함으로써 성능 저하로 이어짐
  • → order-preserve retrieval-augmented generation (OP-RAG) 제안
  • retrieved chunk가 증가할수록 답변 퀄리티는 초반에 상성하다가 결국 감소하여 U-shaped curve ⇒ OP-RAG가 이득을 볼 수 있는 지점이 분명히 존재한다
📜 Paper AI2, Washington, Princeton
2024.09 1주차
OLMoE: Open Mixture-of-Experts Language Models
  • 5T 토큰으로 사전학습한 모델이며 instruct 버전도 함께 공개
  • Llama2-13B-Chat, DeepSeekMoE-16B 보다도 뛰어난 성능이라고 주장
  • 모델 가중치, 학습 데이터, 코드, 로그 등을 오픈소스로 공개. 역시 AI2..
📜 Paper Autodesk AI Research
2024.09 1주차
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs
  • 복잡한 추론을 하도록 세팅이 되어 있어서 단순한 problem-solving 전략과 다르다고 주장
  • 모델이 실제 추론을 하지 않고 표면적인 패턴을 학습하여 정답을 맞히는 shortcut learning 현상을 최소화하는 것이 본 연구의 목표. shortcut learning의 정도를 평가할 수 있는 메트릭도 제시.
  • [깃허브 링크](https://github.com/asgsaeid/mmlu-pro-plus) 🔗
📜 Paper Tsinghua University
2024.09 1주차
Attention Heads of Large Language Models: A Survey
  • 사람의 생각을 네 단계의 프레임워크로 distill: 1) Knowledge Recalling, 2) In-Context Identification, 3) Latent Reasoning, 4) Expression Preparation
  • [깃허브 링크](https://github.com/IAAR-Shanghai/Awesome-Attention-Heads) 🔗

2024년 8월 72건

📜 Paper British Columbia
2024.08 5주차
Automated Design of Agentic Systems
  • Meta Agent Search: 이전의 발견들을 쌓아두어 점점 커지는 archive를 바탕으로 계속해서 새로운 agent를 프로그래밍 해나갈 수 있다는 아이디어
  • [깃허브 링크](https://github.com/ShengranHu/ADAS) 🔗
🧑🏻‍💻 Dev Priceton-NLP
2024.08 5주차
Llama-3-8B-ProLong
  • Instruct 버전도 존재하며 현재는 64K 버전만 공개되어 있음. 향후 512K 버전도 공개 예정
  • 1저자가 SimCSE 저자임
🧑🏻‍💻 Dev Nous Research
2024.08 5주차
DisTro
  • 깃허브에 A Preliminary Report on DisTrO를 공개
📜 Paper Google Research
2024.08 5주차
Diffusion Models Are Real-Time Game Engines
  • single TPU에서 초당 20 프레임으로 DOOM에서 simualte 가능
  • (1) RL-agent가 게임 플레이를 학습 (2) diffusion 모델이 이전 프레임과 행동들을 기반으로 다음 프레임을 생성하도록 학습
  • [깃허브 링크](https://gamengen.github.io) 🔗
🧑🏻‍💻 Dev Qwen
2024.08 5주차
Qwen2-VL: To See the World More Clearly
  • 2B, 7B, 72B 중에서 72B는 API로만 이용 가능
  • 72B 모델은 GPT-4o나 Claude 3.5-Sonnet을 넘어설 정도의 visual understanding benchmark score를 보여주었음
📜 Paper Tsinghua
2024.08 5주차
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs
  • → 엄청나게 긴 생성 태스크를 여러 개의 subtask로 쪼개어 LLM이 20,000 단어 이상의 텍스트를 생성할 수 있도록 만드는 agent-based pipeline 제시
  • LongWriter-6K: 답변의 길이가 2K - 32K 에 이르는 텍스트로 구성된 데이터셋
  • 장문의 텍스트 생성 능력이 있는지를 검증하는 벤치마크 LongBench-Write 또한 공개
📜 Paper Google DeepMind
2024.08 4주차
Towards flexible perception with visual memory
  • → (1) 데이터의 사이즈에 관계 없이 이를 자유롭게 추가할 수 있는 능력 (2) unlearning & pruning을 통해 데이터를 삭제할 수 있는 능력 (3) 해석 가능한 의사 결정 메커니즘
📜 Paper Meta
2024.08 4주차
Imagine yourself: Tuning-Free Personalized Image Generation
  • → 1) 이미지 다양성을 높이기 위한 synthetic paired data 생성 메커니즘, 2) 완전히 병렬적인 세 개의 text encoder와 학습 가능한 visual encoder, 3) visual quality를 점진적으로 향상시키는 coarse-to-fine multi-stage finetuning
🧑🏻‍💻 Dev Ideogram
2024.08 4주차
Introducing Ideogram 2.0
  • Flux, Midjourney에 도전..! Color Palette Selection, Enhanced Text Rendering, Search Functionality, Improved Image Coherence 가 특징
📜 Paper NVIDIA
2024.08 4주차
LLM Pruning and Distillation in Practice: The Minitron Approach
  • depth pruning & joint hidden/attention/MLP (width) pruning 에 대해 탐구
  • 기존 데이터를 모르는 상황에서 teacher 모델을 distillation dataset에 학습하는 방식이 유익할 수 있다고 주장
  • 허깅 페이스에 공개: [Mistral-NeMo-Minitron-8B-Base](https://huggingface.co/nvidia/Mistral-NeMo-Minitron-8B-Base) | [Llama-3.1-Minitron-4B-Width-Base](https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base) | [Llama-3.1-Minitron-4B-Depth-Base](https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base)
🧑🏻‍💻 Dev Adobe Research
2024.08 4주차
MagicFixup
  • 기존에는 이런 모델을 학습하기 위해 이미지를 사용하는데, 여기서는 비디오를 사용
🧑🏻‍💻 Dev Meta
2024.08 4주차
Sapiens: Foundation for Human Vision Models
  • 위 네 개의 핵심 vision tasks를 지원하는 모델 패밀리 Sapiens를 공개
  • [아카이브 링크](https://about.meta.com/realitylabs/codecavatars/sapiens?_bhlid=9ff3b20994dca7d88de03063c5de34f1da2853ed) 🔗 [깃허브 링크](https://github.com/facebookresearch/sapiens) 🔗
📜 Paper Singapore
2024.08 4주차
LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction
  • Medical Classification & NER 벤치마크 점수 비교: BioMistral & Llama-2
  • standard prompting, CoT, Self-Consistency, RAG 등을 비교 → standard best
  • knowledge, reasoning 향상을 위한 여러 prompt 테크닉이 biomedical tasks에 쉽게 적용 불가능하다는 것을 시사하는 실험 결과
📜 Paper Google
2024.08 4주차
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
  • 각 draft는 retrieved documents의 subset으로 생성 → draft당 input token count는 줄이면서 다양한 관점을 제공할 수 있다는 장점
  • 각 subset에 대한 이해도를 높이고 긴 context에 대한 position bias를 줄일 수 있음
  • [Google Research 블로그 포스팅 링크](https://research.google/blog/speculative-rag-enhancing-retrieval-augmented-generation-through-drafting/) 🔗
📜 Paper Sakana AI
2024.08 3주차
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery
  • open-ended 방식으로 아이디어 발전 과정을 반복하며 knowledge archive를 키워 나감
  • diffusion modeling, transformer-based language modeling, learning dynamics, 세 분야에서 실험하는 동안 15$ 이하의 비용이 발생
  • [깃허브 링크](https://github.com/SakanaAI/AI-Scientist) 🔗
📜 Paper Microsoft, Harvard
2024.08 3주차
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
  • 1. target SLM이 Monte Carlo Tree Search (CMTS)를 human-like reasoning actions로 증강
  • 2. another SLM이 target SLM이 만들어내는 trajectory를 discriminate
  • → 양측 동의를 받은 것들은 mutual consistent로 구분
🧑🏻‍💻 Dev Anthropic
2024.08 3주차
Prompt caching with Claude
  • 배경 지식, 예시 등을 설명하는데 사용되었던 컨텍스트가 캐싱됨으로써 비용을 90%까지 줄이고 latency도 85%까지 감소할 수 있음.
  • 현재 public beta로 Claude 3.5 Sonnet & Haiku 에서 사용 가능
🧑🏻‍💻 Dev xAI
2024.08 3주차
Grok-2 Beta Release
  • (xAI피셜..) Claude 3.5 Sonnet & GPT-4-Turbo 이상의 성능
  • Grok-2 & Grok-2 mini 를 X로 선공개. 추후 Grok에서 API 지원
📜 Paper ACL 2024 Best Paper Award
2024.08 3주차
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
  • 101개 언어를 지원하는 multilingual generative language model
  • instruction datasets을 [링크](https://hf.co/CohereForAI/aya-101)에 공개
  • [Cambridge, ETH] [Causal Estimation of Memorisation Profiles](https://arxiv.org/abs/2406.04327)
🧑🏻‍💻 Dev Google
2024.08 3주차
Gemini Live
  • Gemini Advanced 구독자 대상
🧑🏻‍💻 Dev Qwen
2024.08 3주차
Introducing Qwen2-Math
  • closed-source models (gpt-4o) 보다도 뛰어난 수학적, 추론 능력을 지녔다고 주장
  • [깃허브](https://github.com/QwenLM/Qwen2-Math) 링크 🔗 [허깅페이스](https://huggingface.co/Qwen) 링크 🔗
📜 Paper Meta
2024.08 2주차
Self-Taught Evaluators
  • unlabeled instruction → contrasting model outputs → reasoning traces & final judgements
  • 최근 가장 주목을 받은 논문이 합성 데이터로 인한 모델 붕괴인데.. 아이러니하다.
📜 Paper ByteDance
2024.08 2주차
Language Model Can Listen While Speaking
  • listening-while-speaking language model (LSLM) 이라는 모델 디자인을 공개
  • early fusion, middle fusion, late fusion 셋 중에서 middel fusion의 balance가 가장 훌륭
  • OpenAI에서 공개했던 자연스러운 실시간 대화와 관련된 연구로 보임
🧑🏻‍💻 Dev OpenAI
2024.08 2주차
Introducing Structured Outputs in the API
  • `“strict”: true` 로 설정 시 100% 확률로 structured output 반환
  • function calling 또는 response_format 파라미터로 기능 지원
🧑🏻‍💻 Dev DeepLearning.AI
2024.08 2주차
AI Python for Beginners
  • 비지니스, 마케팅과 같은 실제 산업 분야에 파이썬을 활용하는 방법 안내
  • AI 어시스턴트를 이용한 코드 디버깅, 개념 설명 등을 시도
📜 Paper Google DeepMind
2024.08 2주차
Achieving Human Level Competitive Robot Table Tennis
  • 탁구 칠 수 있는 로봇을 개발했는데 특징은 다음과 같음 (아마추어 수준으로 판단)
  • hierarchical and modular policy architecture
  • zero-shot sim-to-real을 가능하게 만드는 기술
🧑🏻‍💻 Dev HuggingFaceM4
2024.08 2주차
Idefics3-8B-Llama3
  • [google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384) & [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct)
  • [v1 paper](https://huggingface.co/papers/2306.16527) 링크 🔗 & [v2 paper](https://huggingface.co/papers/2405.02246) 링크 🔗
🧑🏻‍💻 Dev NVIDIA
2024.08 2주차
Build a Digital Human
  • 웹 사이트에서 음성을 통해 실시간 interaction 가능
🧑🏻‍💻 Dev Google
2024.08 1주차
Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma
  • [Gemma 2 허깅페이스 링크](https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f) 🔗
  • 언어 모델의 생성 결과를 필터링 해주는 ShieldGemma를 공개. SoTA급 성능.
  • 모델의 내부 동작 과정을 살펴볼 수 있는 툴 Gemma scope 🔭 공개.

2024년 7월 74건

🧑🏻‍💻 Dev OpenAI
2024.07 5주차
GPT-4o Long Output
  • 요즘 가장 큰 두 개의 트렌드는 context 늘리기와 모델 사이즈 줄이기 (추론 속도 up)
📜 Paper Generative AI Research Lab (GAIR), Fudan
2024.07 4주차
Weak-to-Strong Reasoning
  • samll, but high-quality dataset으로 지도 학습을 시작 → 모델 스스로 contrastive sample로 식별한 케이스들에 대해 preference optimization
  • 세 개의 weak 모델을 이용하여 LLama2-70B 모델의 성능을 향상시킬 수 있었다고 보고
📜 Paper Apple, Meta
2024.07 4주차
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
  • 병목을 해결하기 위해 prefilling과 decoding에 중요한 토큰의 KV만 선별적으로 계산하는 방식 LazyLLM을 제안
  • 다른 방식들과 달리 매 생성 step에서 ‘dynamically’ 토큰을 고른다는 점이 특징
  • 기존 모델들에 추가 학습 없이 seamlessly 통합 가능하다는 점이 특징
🧑🏻‍💻 Dev groq
2024.07 4주차
Introducing Llama-3-Groq-Tool-Use Models
  • [Llama-3-Groq-70B-Tool-Use](https://huggingface.co/Groq/Llama-3-Groq-70B-Tool-Use) & [Llama-3-Groq-8B-Tool-Use](https://huggingface.co/Groq/Llama-3-Groq-8B-Tool-Use)
  • [GroqCloud Devloper Hub](http://console.groq.com/)에서도 이용 가능
🧑🏻‍💻 Dev Meta
2024.07 4주차
Introducing Llama 3.1: Our most capable models to date
  • GPT-4 수준을 상회하는 오픈소스 모델은 최초라고 봐도 될 듯
  • [Meta paper 링크](https://ai.meta.com/research/publications/the-llama-3-herd-of-models/) 🔗
  • [Hugging Face Model Family 링크](https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f) 🔗
🧑🏻‍💻 Dev Numina, Hugging Face, MIT, Mistral, Peking
2024.07 4주차
NuminaMath
  • 1M 수학 문제 & 정답으로 구성된 high-quality training dataset
  • [Hugging Face 데이터셋 링크](https://huggingface.co/collections/AI-MO/numinamath-6697df380293bcfdbc1d978c) 🔗
🧑🏻‍💻 Dev Mistral AI
2024.07 4주차
Mistral Large 2
  • French, German 등 다양한 언어 뿐만 아니라 Python, Java 등 프로그래밍 언어에도 특화
  • 비상업적, 연구적 목적으로 이용 가능. [weight download](https://models.mistralcdn.com/mistral-large-2407/mistral-large-instruct-2407.tar) 🔗 [HuggingFace](https://huggingface.co/mistralai/Mistral-Large-Instruct-2407) 🔗
🧑🏻‍💻 Dev OpenAI
2024.07 4주차
SearchGPT Prototype
  • conversational capability를 향상시킴으로써 real-time 정보를 보다 쉽게 획득할 수 있음
  • partnering with publisher & creator
📜 Paper AI2, University of Washington, Microsoft
2024.07 4주차
The Art of Saying No: Contextual Noncompliance in Language Models
  • 모델이 언제 어떻게 유저의 요청을 따르지 말아야 하는지에 대한 어휘 분류 체계를 도입
  • 1,000개의 noncompliance prompt를 바탕으로 실험 → 30% 정도는 유저의 요청을 제대로 따르지 못하고 있음
  • → request & noncompliant response로 구성된 학습용 학습 데이터를 제작 → Fine-tuning은 overfit으로 이어지는 반면 LoRA 같은 기법이 밸런스가 좋음
📜 Paper Qwen, Alibaba
2024.07 3주차
Qwen2 Technical Report
  • multilingual 능력이 뛰어나 30개 언어를 커버할 수 있다고 강조
  • [허깅페이스](https://huggingface.co/Qwen)와 [ModelScope](https://modelscope.cn/organization/qwen)에서만 이용 가능. [깃허브](https://github.com/QwenLM/Qwen2)에서 예시 코드 참조 가능.
🧑🏻‍💻 Dev Mistral AI
2024.07 3주차
MathΣtral
  • Mathstral: 수학적 추론 능력이 탁월한 7B 모델. 32K context window. Apache 2.0
  • Codestral Mamba: 코드 생성에 특화된 Mamba2 language model. Apache 2.0
🧑🏻‍💻 Dev HuggingFace
2024.07 3주차
SmolLM - blazingly fast and remarkably powerful
  • Cosmopedia v2, FineWeb-Edu, Stack-Edu-Python을 정제한 Smollm-Corpus 데이터셋 ([링크](https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus) 🔗)
🧑🏻‍💻 Dev OpenAI
2024.07 3주차
Prover-Verifier Games improve legibility of language model outputs
  • 정확도만을 높이기 위해 학습된 모델은 legibility가 떨어진다는 문제가 존재
  • Prover-Verifier Game 이론을 바탕으로 하는 학습 알고리즘을 제안
  • small verifier는 solution이 옳았는지를 구분하도록 학습, helpful prover는 verifier에게 인정받을 정확한 답변을 생성하도록 학습, sneaky prover는 verifier를 속일 수 있는 부정확한 solution을 생성하도록 학습.
🧑🏻‍💻 Dev Upstage, DeepLearning.AI
2024.07 3주차
Pretraining LLMs
  • Meta의 Llama 모델을 비롯한 다양한 모델들을 원하는대로 학습하는 방식 등
  • 학습 비용을 크게 줄여주는 Depth Upscaling에 대한 소개
  • 업스테이지 강의가 여기에 나오다니.. 엄청 신기..
🧑🏻‍💻 Dev Andrej Karpathy
2024.07 3주차
new AI Education company called Eureka labs
  • LLM101n 라는 첫 번째 컨텐츠 ([링크](https://github.com/karpathy/LLM101n) 🔗)
  • 홈페이지 [링크](https://eurekalabs.ai/) 🔗, 깃허브 [링크](https://t.co/ubv4xONI57) 🔗
🧑🏻‍💻 Dev Apple
2024.07 3주차
DCLM-7B-8k
  • systematic data curation 관련해서 이점이 있음
  • Common Crawl로부터 추출한 240T 토큰의 corpus, DCLM (논문 [링크](https://arxiv.org/abs/2406.11794) 🔗)
🧑🏻‍💻 Dev Mistral AI
2024.07 3주차
Mistral NeMo
  • 128k context window를 지원
  • sentence 기반의 tokenizer → Tiktoken 기반의 tokenizer, Tekken을 사용
📜 Paper University of Washington, AI2
2024.07 3주차
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore
  • → inference 시 사용 가능한 datastore의 사이즈를 키워 retrieval-based LM의 성능을 지속적으로 개선.
  • 뭔가 당연해 보이는데.. datastore를 키워서 이를 이용하면 사이즈만 큰 모델보다 잘한다는 결과를 제시함
  • 1.4T 토큰에 해당하는 datastore, MassiveDS 공개. ([링크](https://github.com/RulinShao/retrieval-scaling) 🔗)
🧑🏻‍💻 Dev Reddit
2024.07 2주차
ChatGPT prompt hacking issue
  • v1 ~ v6까지의 personality가 있고 현재는 v2 (Balanced & Friendly) 라고 답변
🧑🏻‍💻 Dev Microsoft
2024.07 2주차
MInference
  • single A100에서 운용
📜 Paper Auburn University
2024.07 2주차
Vision language models are blind
  • → 그러나 일부 (사람에게) 굉장히 쉬운 vision task (원이 중첩되어 있는가, 원 안의 글자는 무엇인가) 들은 오히려 엄청나게 못함.
  • 세부적인 내용을 거의 파악하지 못하는 것으로 판단
  • https://vlmsareblind.github.io/
📜 Paper Google DeepMind
2024.07 2주차
PaliGemma: A versatile 3B VLM for transfer
  • transfer를 잘해서 다양한 open-word task를 수행할 수 있는 능력이 있는 모델
  • 특히 remote-sensing & segmentation에서 강점
🧑🏻‍💻 Dev infiniflow
2024.07 1주차
ragflow
  • Reranker 모델을 추가함으로써 향상된 retrieval 퍼포먼스를 보여줌
  • Q&A parsing 방식 중 Markdown & Docx 를 새로 지원
📜 Paper Google Reserach
2024.07 1주차
CodecLM: Aligning Language Models with Tailored Synthetic Data
  • 여러 downstream instructoin distribution에 맞는 고품질 합성 데이터를 생성해주는 프레임워크, CodecLM을 제안
  • seed instructions을 meta data로 인코딩 한 뒤, tailored instructions을 생성하기 위해 decode
  • Self-Rubrics & Contrastive Filtering 도입

2024년 6월 70건

📜 Paper Zou group
2024.06 5주차
TextGrad: Automatic "Differentiation" via Text
  • compound AI 시스템의 개별 구성 요소를 LLM에 의해 제공되는 피드백으로 개선
  • LLM은 general & rich 자연어로 피드백을 제공 → out-of-the-box 태스크도 잘 수행
  • [깃허브 링크](https://github.com/zou-group/textgrad) 🔗
🧑🏻‍💻 Dev Andrej Karpathy
2024.06 5주차
https://github.com/karpathy/LLM101n
  • 스토리텔링 AI LLM 구축 방법을 알려주는 강의를 담은 repo
  • from scratch in Python, C and CUDA
🧑🏻‍💻 Dev HuggingFace
2024.06 5주차
Open-llm-leaderboard 2
  • Qwen2 72B instruct > llama 3 70B > CommandR
  • MMLU-pro, GPQA, BBH 등 어려운 벤치마크 추가
📜 Paper Peking, HKUST, MIT
2024.06 5주차
Efficient Continual Pre-training by Mitigating the Stability Gap
  • → 이를 해결하기 위한 세 가지 학습 전략을 제시
  • 1. 여러 epoch 동안 적당한 사이즈의 subset으로 continual pre-training (single epoch, large corpus 대신)
  • 2. high-quality의 sub-corpus에 대해서만 pre-training
📜 Paper ByteDance, MIT-IBM
2024.06 5주차
Selective Prompting Tuning for Personalized Conversations with LLM
  • 개인화된 LLM을 만드는 방법론
  • prompt engineering보다 fine-tuning이 원하는 답변을 생성할 가능성이 더 높더라 → Selective Prompt Tuning (SPT)
  • soft prompts로 시작하고 학습 가능한 dense retriever를 사용하여 input context 기반 최적의 soft prompt를 dynamic하게 고르는 방식을 제안
📜 Paper Hong Kong, Tsinghua, NVIDIA, HKUST
2024.06 5주차
Unlocking Continual Learning Abilities in Language Models
  • MIGU (MagnItude-based Gradient Updating for continual learning): LM의 linear layer에서 가장 큰 output 크기를 갖는 파라미터 업데이트에 집중하는 방식
🧑🏻‍💻 Dev Google
2024.06 5주차
Gemma 2 is now available to researchers and developers
  • 27B 모델의 경우 A100/H100 한 대에서 추론 가능
  • [Kaggle](https://www.kaggle.com/models/google/gemma-2), [HuggingFace](https://huggingface.co/google/gemma-2-9b) 등에서 다운로드 가능
📜 Paper CMU, KAIST
2024.06 5주차
Learning to Correct for QA Reasoning with Black-box LLMs
  • → CoBB (Correct for improving QA reasoning of Black-Box LLMs)
  • 불완전한 추론을 올바른 추론으로 Seq2Seq 매핑하는 학습된 adaptation 모델을 사용
  • dataset과 sampled sub-dataset의 divergence를 최소화하기 위한 유전 알고리즘 적용
📜 Paper Fudan, AI2
2024.06 4주차
SelfGoal: Your Language Agents Already Know How to Achieve High-level Goals
  • → 사람이 제공하는 피드백이 제한되고 느린(delayed) 상황에서도 high-level goal을 달성할 수 있도록 돕는 automatic apporach, SelfGoal을 제안
  • 핵심: high-level goal을 실용적인 subgoal로 이루어진 tree structure로 쪼개는 것
🧑🏻‍💻 Dev Google DeepMind
2024.06 4주차
Generating audio for video
  • positive - negative prompt를 구분할 수 있을 정도로 정교한 컨트롤이 가능해짐
🧑🏻‍💻 Dev runway
2024.06 4주차
Introducing Gen-3 Alpha
  • Sora의 등장 이후로 이와 같은 고해상도 비디오 생성 모델들의 발전이 빠르게 이어지고 있는 듯한 느낌이 듦
🧑🏻‍💻 Dev Cohere
2024.06 4주차
Claude 3.5 Sonnet
  • 뛰어난 coding 능력과 visual reasoning 능력을 강조
  • code snippets & website design과 같이 AI-generated content와 상호작용 가능한 Artifacts 기능을 공개
🧑🏻‍💻 Dev Meta
2024.06 4주차
Sharing new research, models, and datasets from Meta FAIR
  • 한 번에 여러 개의 토큰을 예측하는 Multi-Token Prediction ([HuggingFace](https://huggingface.co/facebook/multi-token-prediction) 🤗)
  • Meta Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation ([데모](https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/) 🔗)
  • 최초의 audio 워터마크 기법 (faster & efficient detection), AudioSeal ([Github](https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/) 🧑🏻‍💻)
🗞️ News LLMs Aren’t Just “Trained On the Internet” Anymore
2024.06 3주차
LLMs Aren’t Just “Trained On the Internet” Anymore
  • 맞춤형 학습데이터를 제작하여 활용하는 방식이 대두. Phi-3가 대표적인 모델이며 [Scale.ai](http://Scale.ai) 같은 회사가 크게 주목을 받게 됨.
📜 Paper University of Washington
2024.06 3주차
Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
  • Reddit, ChangedMyView에서 수집한 포스트에서 사람과 LLM 응답 간의 의미적 유사성 및 어휘 중복 정도를 비교 → open-ended scenarios에서 명백한 한계를 보임
  • LLM은 아직까지 social reasoning 성능이 부족함을 입증하고 어떻게 인간 의도와 감정을 통합할 수 있는지에 대한 방법을 제시
📜 Paper Washington, Meta, AI2
2024.06 3주차
Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
  • → numerical, tabular, knowledge-based reasoning을 다룰 수 있는, 즉 unified action space에서 학습한 open-source language agent, Husky를 제안
  • 1. 다음 단계에 수행할 작업을 예측 2) expert 모델이 선택된 작업을 실행하고 상태 업데이트
  • 7B 모델로도 GPT-4에 준하거나 그 이상의 성능을 보임
🧑🏻‍💻 Dev Microsoft
2024.06 3주차
Generative-AI-For-Beginners
  • 생성형 AI application을 만드는 데 필요한 18개의 강의를 제공
  • 데이터 베이스와 관련된 강의를 DeepLearning.AI 에서도 제공
📜 Paper New York University
2024.06 3주차
Large Language Models Must Be Taught to Know What They Don't Know
  • → 작은 correct & incorrect answer로 fine-tuning 함으로써 불확실성 추정에 대한 일반화 성능을 끌어올릴 수 있다.
  • 인간과 AI가 협력하는 환경에서의 불확실성 추정이 어떻게 인간 의사결정에 도움이 되는지 연구
📜 Paper University of Edinburgh
2024.06 3주차
Are We Done with MMLU?
  • error taxonomy를 이용하여 데이터셋을 확인하는 프레임워크, MMLU-Redux를 제안
  • 30개의 MMLU subjects에 대해서 3,000개를 reannotate → 벤치마크 성능과 실제 체감 성능 간의 괴리를 줄이고자 함
🧑🏻‍💻 Dev DeepLearning.AI
2024.06 2주차
AI Agents in LangGraph
  • 추가로, 여러 개의 답변을 agent-friendly 형식으로 반환하는 agent serarch도 다룸
📜 Paper Google DeepMind
2024.06 2주차
To Believe or Not to Believe Your LLM
  • information-theoretic metric을 사용하여 언제 epistemic uncertainty가 높은지를 탐지
  • 이전의 답변을 기반으로 삼는 iterative prompting을 통해 metric을 계산. 즉, log-likelihood 등을 사용하지 않음.
🧑🏻‍💻 Dev Google
2024.06 2주차
PlaiGemma
  • 다양한 태스크를 처리할 수 있는 PaliGemma와 특정 research dataset에 fine-tuned PaliGemma-FT를 공개
  • [캐글](https://www.kaggle.com/models/google/paligemma)에서 다운로드 가능
🧑🏻‍💻 Dev Mistral AI
2024.06 2주차
My Tailor is Mistral
  • LoRA를 기반으로 하여 memory-efficient 하면서도 performant한 fine-tuning 기법을 도입
🧑🏻‍💻 Dev OpenAI
2024.06 2주차
Extracting Concepts from GPT-4
  • GPT-4의 internal representation을 16M 개의 oft-interpretable pattern으로 decompose하기 위해 고안한 scalable method를 공개
  • k-sparse autoencoders를 제안하여 sparsity를 control 함과 동시에 reconstruction-sparsity frontier를 tuning하고 개선하는 과정을 간소화
  • autoencoder의 크기와 sparsity 간의 확연한 scaling laws를 관측
🧑🏻‍💻 Dev Alibaba
2024.06 2주차
Hello Qwen2
  • coding, mathematics, multilingual understanding, long-context understanding 등에서 Meta의 Llama3나 OpenAI의 GPT-4를 능가하는 수준의 성능을 보임
🧑🏻‍💻 Dev Anthropic
2024.06 1주차
Claude can now use tools
  • 예를 들어 구조화된 데이터 추출, DB 기반 검색 및 답변, API 기능 자동화 등에 활용 가능

2024년 5월 89건

📜 Paper IEEE
2024.05 5주차
Wav-KAN: Wavelet Kolmogorov-Arnold Networks
  • wavelet function을 KAN 네트워크 구조에 통합함으로써 입력 데이터의 high-/low-frequency 요소들을 효율적으로 capture 할 수 있도록 함
🧑🏻‍💻 Dev Mistral AI
2024.05 5주차
Codestral: Hello, World!
  • 22B 사이즈의 모델임에도 불구하고 Llama 3 70B, CodeLlama 70B 보다 뛰어난 성능을 보임
  • [허깅페이스](https://huggingface.co/mistralai/Codestral-22B-v0.1)에서 다운로드 가능
📜 Paper The University of Edinburgh
2024.05 5주차
2BP: 2-Stage Backpropagation
  • → 2-stage backporpagation(2BP)을 제안. 이를 통해 1.70x 향상된 throughput을 확인
📜 Paper University of Cambridge
2024.05 4주차
Zero-Shot Tokenizer Transfer
  • tokenizer를 입력으로 받고 이에 대응하는 embedding을 예측하도록 학습하는 hypernetwork를 제안 → encoder & decoder 둘 다에 일반화 가능하다는 것을 실험적으로 입증
🧑🏻‍💻 Dev Korea Univ.
2024.05 4주차
Horangi 한국어 LLM 리더보드
  • llm-jp-eval을 기반으로 llm-kr-eval을 구축
  • Multi-turn 대화를 통해 생성 능력을 평가하는 MT-Bench를 포함
🧑🏻‍💻 Dev llama3-from-scratch
2024.05 4주차
llama3-from-scratch
  • llama3의 구성 요소를 하나씩 간단히 살펴볼 수 있는 ipynb을 제공. meta로부터 weight를 받을 수 있는 공식 링크도 포함되어 있음.
🗞️ News You can now buy a 4-foot-tall humanoid robot for $16K
2024.05 4주차
You can now buy a 4-foot-tall humanoid robot for $16K
  • [데모 영상](https://www.youtube.com/watch?v=GzX1qOIO1bE&t=58s)을 보면 굉장히 자연스럽고 다양한 동작을 지원함 (상당히 유연..;;)
📜 Paper AIRI
2024.05 4주차
Your Transformer is Secretly Linear
  • 이러한 linear block을 제거하더라도 모델의 성능에 거의 영향을 주지 않는다는 것이 관측됨
  • pretraining 단계에서 linearity를 최소화하기 위해 cosine-similarity-based regularization을 도입
📜 Paper Xi’an Jiaotong University
2024.05 4주차
Quantifying Emergence in Large Language Models
  • → 본 연구에서는 macroscopic(semantic) & microscopic(token) level에서 entropy reduction을 비교하여 strength of emergence를 quantify
  • metric의 variance와 ICL에서 shot의 개수 등 사이의 상관 계수 등을 바탕으로 novel emergence pattern을 파악하고, 이를 통해 hallucination을 새로운 관점에서 해석
🧑🏻‍💻 Dev phidata
2024.05 4주차
phidata
  • Assistant = LLM + Memory(Chat History, Summaries, ...) + Knowledge(PDF, Docs, … ) + Tools(Search Web, Send Email, …)
🧑🏻‍💻 Dev Mistral AI
2024.05 4주차
mistral-finetune
  • 대부분의 파라미터는 frozen & 1-2% 정도의 추가 파라미터로 학습 → A100 or H100 권장
🧑🏻‍💻 Dev OpenAI
2024.05 3주차
Hello GPT-4o
  • 개인적인 교육 분야에서 특히 활용 여지가 많이 커진 것 같다고 느낌.
  • [유튜브에 공개된 데모 링크](https://www.youtube.com/watch?v=DQacCB9tDaw&t=3986s)
🧑🏻‍💻 Dev TII
2024.05 3주차
Falcon 2
🧑🏻‍💻 Dev Google
2024.05 3주차
Google I/O 2024: An I/O for a new generation
  • Gemini를 구글 제품(포토, 이미지 검색, 워크 스페이스, 이메일 등)에 통합하겠다고 발표. (라이브 데모 x, 여름 또는 올해 말 출시 예정 ????)
  • GPT-4o와 마찬가지로 multimodality를 강조. 그러나 그만큼의 임팩트가 있지는 않음.
🧑🏻‍💻 Dev TIGER-Lab
2024.05 3주차
MMLU-Pro
📜 Paper MIT
2024.05 3주차
The Platonic Representation Hypothesis
  • 인공지능 모델의 발전 방향은 데이터 타입(언어의 종류, modality)과 무관할 것이라고 주장했던 사람이 생각남.
🧑🏻‍💻 Dev MIT, MyShell
2024.05 1주차
OpenVoice

2024년 4월 90건

🧑🏻‍💻 Dev HuggingFace
2024.04 4주차
FineWeb
🧑🏻‍💻 Dev PyTorch
2024.04 3주차
torchtune
🧑🏻‍💻 Dev Tesla
2024.04 2주차
Robotaxi
🧑🏻‍💻 Dev Andrej Karpathy
2024.04 2주차
llm.c

2024년 3월 87건

🧑🏻‍💻 Dev Open-Sora
2024.03 4주차
Open-Sora

2024년 2월 55건

🧑🏻‍💻 Dev minbpe
2024.02 5주차
minbpe
🧑🏻‍💻 Dev Meta
2024.02 5주차
V-JEPA
📜 Paper UC Berkely
2024.02 5주차
LoRA+: Efficient Low Rank Adaptation of Large Models
  • 기존의 LoRA에서 사용하는 adapater 행렬 A와 B는 고정된 learning rate로 업데이트된다는 점이 문제임 → 두 행렬의 learning rate를 조절함으로써 퍼포먼스와 학습 속도를 향상시킬 수 있는 알고리즘 LoRA+ 를 제시
🧑🏻‍💻 Dev Mitral AI
2024.02 5주차
Au Large
📜 Paper Microsoft Research
2024.02 5주차
Orca-Math: Unlocking the potential of SLMs in Grade School Math
  • Mistral-7B 모델을 베이스로 학습한 7B 모델 Orca-Math. 200K 개의 고품질 합성 데이터, feedback을 통합시키는 학습 방식 등이 활용됨. Llama-2-70B, ChatGPT-3.5 등을 능가하는 퍼포먼스