OpenAI GPT-5.3 Instant 출시·GPT-5.4 예고, Google Gemini 3.1 Flash-Lite 공개, OpenAI 국방부 계약 수정, AMD 추론 성능 30일 만에 1.5배 향상, AI VC 투자 사상 최대 $189B 기록
- OpenAI GPT-5.3 Instant 출시 — 환각 최대 26.8% 감소, '설교적' 톤 제거, GPT-5.4 임박 예고
- Google Gemini 3.1 Flash-Lite 프리뷰 — 입력 $0.25/1M 토큰, 2.5 Flash 대비 성능↑ 가격↓
- Sam Altman, OpenAI-국방부(DoW) 계약에 감시 금지·NSA 배제 조항 추가 발표
- AMD MoRI 추론 라이브러리 — SGLang 최적화로 30일간 1.5배 성능 향상(MI355X)
- SemiAnalysis: NVIDIA Blackwell Tensor Memory(TMEM) 아키텍처 심층 분석, Rubin 세대 전망
- 2026년 2월 글로벌 VC 투자 $189B 사상 최대 — OpenAI $110B·Anthropic $30B·Waymo $16B
- CUDA Agent 논문 — 강화학습 기반 CUDA 커널 생성, KernelBench에서 Claude Opus 4.5·Gemini 3 Pro 40% 상회
- AI 기업들, AI 규제 지지 후보 저지에 $125M PAC 투입
- Karpathy: AI 에이전트 연구 조직 실험 — 8개 에이전트 병렬 연구, 코딩 에이전트 시대 도래 선언
- swyx: 에이전틱 엔지니어링의 최종 보스는 '코드 리뷰 제거'
OpenAI GPT-5.3 Instant 출시 — 환각 26.8% 감소, 톤 개선, GPT-5.4 임박 예고
주요 사건
OpenAI가 GPT-5.3 Instant를 ChatGPT와 API(gpt-5.3-chat-latest)에 출시했다. 고위험 분야(의료·법률·금융)에서 환각이 26.8% 감소하고, 불필요한 거부·설교적 면책조항이 크게 줄었다. 웹 검색 시 맥락 파악과 톤 일관성도 개선됐다. 같은 날 '5.4 sooner than you Think'이라는 티저를 게시해 GPT-5.4 출시가 임박했음을 시사했다.
배경
- 2025-12-01GPT-5 시리즈 최초 출시
- 2026-02-01GPT-5.2 Instant 출시
- 2026-03-03GPT-5.3 Instant 출시
- 2026-03-03GPT-5.4 임박 티저
주요 입장
전망
- · OnMSFT: '드문 톤 업데이트이면서 하드 메트릭을 함께 제시한 점이 주목할 만'
한국 영향
- GPT-5.3 한국어 벤치마크 검증
- 5.4 출시 시 Thinking 모델 성능
Google Gemini 3.1 Flash-Lite 프리뷰 출시 — 입력 $0.25/1M 토큰, 최고 비용효율 모델
주요 사건
Google DeepMind이 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. 입력 $0.25/1M 토큰, 출력 $1.50/1M 토큰으로 가격이 매우 저렴하면서도 이전 2.5 Flash보다 성능이 향상됐다. 새로운 'thinking levels' 기능으로 추론 강도를 태스크별로 조절할 수 있어 UI 생성, 시뮬레이션 등 복잡한 작업도 처리 가능하다.
배경
- 2025-06-01Gemini 2.5 Flash 출시
- 2026-01-01Gemini 3 Pro/Flash 출시
- 2026-03-03Gemini 3.1 Flash-Lite 프리뷰
주요 입장
전망
- · SemiAnalysis: 추론 비용 하락은 Jevons Paradox로 총 컴퓨트 수요를 더 키울 것
한국 영향
- 한국어 멀티링구얼 성능 벤치마크
- Vertex AI 한국 리전 지원 확대
Sam Altman, OpenAI-국방부 계약 수정 — 감시 금지·NSA 배제 조항 추가
주요 사건
Sam Altman이 내부 게시글을 공개하며 OpenAI-국방부(DoW) 계약에 중요한 수정 사항을 발표했다. 핵심 변경: (1) 미국 시민/국민 대상 국내 감시 명시적 금지(4th Amendment 준수, 상업적 개인정보 구매 포함), (2) NSA 등 정보기관 사용 배제(별도 계약 필요), (3) Anthropic SCR(Supply Chain Risk) 지정 반대 입장 재확인, (4) 금요일 급하게 발표한 것은 실수였다고 인정.
배경
- 2024-01-01OpenAI 군사 분야 정책 완화
- 2026-02-28OpenAI-DoW 기밀 AI 배치 계약 체결
- 2026-03-01Sam Altman AMA로 대중 질문 응답
- 2026-03-03감시 금지·NSA 배제 계약 수정 발표
주요 입장
전망
- · Ben Thompson(Stratechery): '정부가 기술을 무기로 취급하지 않길 원하면 무기처럼 행동하지 마라'
- · Business Insider: '여론 반발 후 계약 수정은 빠른 대응이나 근본적 우려 해소 불충분'
한국 영향
- 한국 AI 국방 도입 로드맵
- 동맹국 간 AI 기술 공유 프레임워크
AMD MoRI 추론 라이브러리, SGLang 최적화로 30일 만에 1.5배 성능 향상
주요 사건
AMD의 MoRI(Modular RDMA Interface) 추론 통신 라이브러리가 MoE(Mixture of Experts) 디스패치/컴바인, KV캐시 전송 최적화를 통해 30일 만에 1.5배 성능 향상을 달성했다. 최적화는 SGLang에 PR #17012, #14626, #18437로 업스트림되어 오픈소스로 공개됐다. AMD의 중국 10x 팀이 구축했으며, MI355X GPU 클러스터 기반.
배경
- 2025-06-01AMD MI355X 출시
- 2026-01-01MoRI 라이브러리 초기 버전
- 2026-03-0330일간 1.5x 성능 향상 발표
주요 입장
전망
- · SemiAnalysis: '추론 시대에는 추론 최적화의 개발 속도가 핵심'
한국 영향
- AMD MI355X 한국 데이터센터 도입 현황
- SGLang 한국어 모델 최적화
SemiAnalysis: NVIDIA Blackwell Tensor Memory(TMEM) 아키텍처와 Rubin 세대 전망
주요 사건
SemiAnalysis가 NVIDIA Blackwell GPU의 Tensor Memory(TMEM) 아키텍처를 심층 분석했다. TMEM은 SM당 256KB로, 레지스터 파일과 동일한 크기의 Tensor Core 전용 메모리다. Hopper의 극심한 레지스터 압박을 해결하기 위해 도입. 또한 Hopper→Blackwell FP8 효율 47%↑, Blackwell→Rubin 83%↑로, 매 세대 와트당 FLOPs가 대폭 향상되지만 Jevons Paradox에 의해 총 전력 소비는 오히려 증가할 전망.
배경
- 2022-09-01NVIDIA Hopper 출시
- 2024-03-01NVIDIA Blackwell 발표
- 2025-03-01Blackwell Ultra 발표
- 2027-01-01Rubin 세대 설치 베이스 FLOPs 주도 예상
주요 입장
전망
- · SemiAnalysis: 'Rubin이 2027년까지 설치 베이스 FLOPs를 지배할 것'
한국 영향
- HBM4 양산 일정
- 국내 AI 데이터센터 전력 인프라 투자
2026년 2월 글로벌 VC 투자 $189B 사상 최대 — OpenAI $110B, Anthropic $30B, Waymo $16B
주요 사건
Crunchbase 데이터에 따르면 2026년 2월 글로벌 VC 투자가 $189B로 사상 최대를 기록했다. 이 중 83%($156B)가 OpenAI($110B, 역대 최대 단일 라운드), Anthropic($30B), Waymo($16B) 세 회사에 집중됐다. 전년 동기($21.5B) 대비 780% 증가. 시드 단계는 11% 감소한 반면, 초기 단계는 47% 증가.
배경
- 2025-10-01OpenAI $6.6B 라운드
- 2026-02-01OpenAI $110B 사상 최대 라운드
- 2026-02-01Anthropic $30B 라운드(역대 3위)
- 2026-03-03Crunchbase 2월 VC 데이터 발표
주요 입장
전망
- · Crunchbase: '자본 집중은 심화되고 있으며 시드 단계 생태계 건강성이 우려'
한국 영향
- 한국 AI 스타트업 시리즈A+ 자금 조달 현황
- 정부 AI 투자 펀드 규모
참고 자료
CUDA Agent — 강화학습 기반 CUDA 커널 생성, KernelBench에서 SOTA 달성
주요 사건
CUDA Agent 논문이 공개됐다. 대규모 에이전틱 강화학습(RL) 시스템으로 CUDA 커널 최적화 전문성을 학습한다. 3대 핵심 구성: (1) 확장 가능한 데이터 합성 파이프라인, (2) 자동 검증·프로파일링의 스킬 강화 개발 환경, (3) 안정적 학습을 위한 RL 알고리즘 기법. KernelBench Level-1/2에서 triton.cc 대비 100% 빠른 비율, Level-3에서 92%. Claude Opus 4.5·Gemini 3 Pro를 가장 어려운 Level-3에서 약 40% 상회.
배경
- 2023-01-01KernelBench 벤치마크 등장
- 2025-06-01LLM 기반 CUDA 코드 생성 연구 활발
- 2026-02-27CUDA Agent 논문 발표(arXiv:2602.24286)
주요 입장
전망
- · 논문: 'Level-3에서 최강 독점 모델 대비 40% 우위는 RL의 근본적 우월성 시사'
한국 영향
- 한국 AI 반도체 소프트웨어 생태계 구축 현황
AI 빅테크, 규제 지지 후보 저지에 $125M PAC 투입 — 정치적 영향력 확대
주요 사건
테크 억만장자 후원 슈퍼PAC이 AI 규제를 추진하는 후보들을 저지하기 위해 $125M을 투입하고 있다. 뉴욕주의 전 테크 임원 Alex Bores가 주요 타겟으로, 그는 AI 규제 법안을 지지하며 의회 진출을 시도 중이다.
배경
- 2024-09-01캘리포니아 SB 1047 AI 안전 법안 논쟁
- 2025-06-01연방 AI 규제 논의 본격화
- 2026-03-03AI PAC $125M 투입 보도
주요 입장
전망
- · TechCrunch: '$125M은 AI 기업의 정치적 영향력이 전례 없는 수준에 도달했음을 시사'
한국 영향
- 한국 AI 기본법 국회 진행 현황
- EU AI Act 시행 영향
Karpathy: AI 에이전트 연구 조직 실험 — 8개 에이전트 병렬 연구, '코딩 에이전트 시대 도래'
주요 사건
Andrej Karpathy가 nanochat에서 8개 AI 에이전트(4 Claude + 4 Codex)를 병렬로 운영하는 'AI 연구 조직' 실험을 공개했다. 각 에이전트에 GPU를 할당하고 git 브랜치/워크트리로 격리하며, 팀 구조(독립 연구자, 수석 과학자+주니어 등)를 실험. 현재 에이전트의 실험 설계 능력은 부족(예: 네트워크 크기 증가를 '발견'하는 spurious 결과)하지만, '조직 프로그래밍' 개념 자체가 혁신적이라고 평가. 또한 별도로 2025년 12월 이후 코딩 에이전트가 '근본적으로 달라졌다'고 선언.
배경
- 2025-12-01Karpathy: 코딩 에이전트가 근본적으로 작동하기 시작
- 2026-02-25프로그래밍 패러다임 변화 선언
- 2026-02-278-에이전트 연구 조직 실험 공개
주요 입장
전망
- · Karpathy: '에이전틱 엔지니어링의 레버리지가 지금 매우 높다'
- · swyx: '코드 리뷰 제거가 에이전틱 엔지니어링의 최종 보스'
한국 영향
- 국내 기업 AI 코딩 에이전트 도입률
- SW 교육과정 개편 동향
AI 데이터센터 전력 비용 논란 — SemiAnalysis, 가격 상승 내러티브 반박
주요 사건
SemiAnalysis가 'AI 데이터센터가 미국 가정 전기요금을 올리는가?'라는 분석을 발표했다. PJM(동부 전력시장)의 시장 설계 문제와 용량 가격 9.3배 상승을 지적하면서도, AI 데이터센터가 직접적 원인이라는 내러티브는 '정치적 동기의 조작된 통계'라고 반박. ERCOT(텍사스) 대비 PJM의 그리드 확장·안정성 차이를 분석.
배경
- 2025-01-01AI 데이터센터 물 사용량 논란
- 2025-12-01PJM 용량 가격 9.3x 상승
- 2026-03-03SemiAnalysis 전력 비용 분석 발표
주요 입장
전망
- · Dylan Patel: '전력 가격 내러티브는 근거 없이 정치적으로 조작된 것'
한국 영향
- 국내 AI 데이터센터 전력 확보 현황
- 한전 산업용 요금 정책
dLLM — 디퓨전 기반 언어 모델링, 자기회귀 대안 접근법
주요 사건
dLLM(diffusion Language Model) 논문이 공개됐다. 기존 자기회귀(autoregressive) 방식 대신 디퓨전 프로세스를 언어 모델링에 적용하는 접근법으로, 토큰을 순차적으로 생성하지 않고 전체 시퀀스를 동시에 디노이징하는 방식이다.
배경
- 2023-06-01MDLM 등 초기 디퓨전 LM 연구
- 2025-01-01Plaid 등 실용적 디퓨전 LM 등장
- 2026-03-02dLLM 논문 공개
주요 입장
전망
- · AK(Hugging Face): 지속적으로 디퓨전 LM 논문을 소개하며 연구 커뮤니티 관심 촉진
한국 영향
- KAIST/SNU 등 디퓨전 LM 연구 현황