Google Gemini 3.1 Pro 출시로 ARC-AGI-2 점수 2배 달성, Anthropic AI 에이전트 자율성 연구 공개, Intel 18A 성능 부진과 14A 노드 1년 지연 확인
- Google DeepMind, Gemini 3.1 Pro 출시 — ARC-AGI-2에서 3 Pro 대비 2배 이상 점수
- Anthropic, AI 에이전트 자율성 실측 연구 공개 — Claude Code 자율 실행 시간 3개월 만에 2배 증가
- SemiAnalysis, Intel 18A가 TSMC N3B 대비 효율성 개선 미미 확인 — Intel 14A 1년 지연
- Applied Materials, GAA/2nm용 Centris Sym3 Z Magnum 에칭 시스템 출시
- Google DeepMind Lyria 3 음악 생성 모델 베타 출시
- Augment Code Intent — IDE 이후 멀티 에이전트 오케스트레이션 워크스페이스
- Karpathy, 'App Store는 시대착오' — AI 네이티브 센서/액추에이터 비전 제시
- Mistral, Voxtral Realtime 오픈소스 실시간 음성 인식 모델 기술보고서 공개
- Claude Sonnet 4.6 출시 — Opus 4.5급 성능을 Sonnet 가격에
- OpenAI EVMbench — 스마트 컨트랙트 취약점 탐지 벤치마크 발표
Google DeepMind, Gemini 3.1 Pro 출시 — ARC-AGI-2 점수 2배 이상, 복잡한 추론 작업에 최적화
주요 사건
Google DeepMind이 Gemini 3.1 Pro를 출시했다. 이 모델은 전작 Gemini 3 Pro 대비 ARC-AGI-2 벤치마크에서 점수를 2배 이상 높이며 복잡한 추론 능력을 크게 향상시켰다. Gemini App, Google AI Studio, NotebookLM에서 접근 가능하며, 데이터 정리, 복잡한 시각화, 창의적 프로젝트에 특화되었다.
배경
- 2023-12-06Gemini 1.0 출시
- 2024-02-15Gemini 1.5 Pro (100만 토큰 컨텍스트)
- 2024-12-11Gemini 2.0 Flash 출시
- 2025-09-01Gemini 3 Pro 출시
- 2026-02-19Gemini 3.1 Pro 출시, ARC-AGI-2 2배 달성
주요 입장
전망
- · ARC-AGI 설계자 Chollet은 이 벤치마크가 '진정한 일반화 능력'을 측정한다고 주장
- · 업계에서는 벤치마크보다 실제 코딩/분석 성능 비교가 더 중요하다는 시각
한국 영향
- Google Cloud 한국 리전 AI 서비스 확장 여부
- 네이버 HyperCLOVA X와의 성능 격차
Anthropic, AI 에이전트 자율성 실측 연구 공개 — Claude Code 자율 실행 시간 3개월 새 2배 증가
주요 사건
Anthropic이 수백만 건의 Claude Code 및 API 인터랙션을 프라이버시 보존 방식으로 분석한 연구를 공개했다. 주요 발견: (1) Claude Code 장시간 세션의 자율 실행 시간이 3개월간 25분→45분으로 2배 증가, (2) 숙련 사용자의 40% 이상이 auto-approve 모드 사용, (3) Claude가 사용자보다 더 자주 스스로 멈추고 확인 요청, (4) SW 엔지니어링이 에이전트 도구 호출의 50% 차지하나 의료/금융/사이버보안 등 고위험 분야에서도 사용 증가.
배경
- 2024-03-01Claude 3 출시, 도구 사용 기능 도입
- 2025-05-01Claude Code 출시
- 2025-11-01Claude Code 자율 실행 25분
- 2026-02-18자율 실행 45분, Anthropic 연구 공개
주요 입장
전망
- · Anthropic은 '자율성은 모델, 사용자, 제품이 함께 구성하는 것'이라고 강조
- · 업계에서는 이 연구가 향후 에이전트 규제의 기준선이 될 것으로 예상
한국 영향
- 국내 에이전트 활용 사례의 리스크 프로파일
- 개인정보보호법과 에이전트 자율 실행의 충돌 가능성
참고 자료
Intel 18A, TSMC N3B 대비 효율성 개선 미미 — 14A 노드 1년 지연으로 2029년 양산
주요 사건
SemiAnalysis가 Intel Panther Lake(18A 공정) 실측 데이터를 분석한 결과, 18A가 나노시트 트랜지스터와 후면 전력 공급(BSPDN)을 적용했음에도 TSMC N3B(2023년 제품 적용)와 비슷한 효율성에 그쳤다. 또한 Intel CEO Lip-Bu Tan이 14A 노드의 위험 생산을 2028년(기존 2027년), 양산을 2029년으로 1년 지연 발표. 이로써 Intel은 16년간 5개 노드만 달성하는 셈이다.
배경
- 2019-01-01Intel 10nm Ice Lake 출시 (3년 지연)
- 2023-01-01Intel 4 Meteor Lake 출시
- 2024-01-01Intel, 18A가 TSMC N2 대비 동등 성능 주장
- 2026-02-18Panther Lake 실측: 18A ≈ TSMC N3B 수준 확인
- 2026-02-18Intel CEO, 14A 1년 지연 발표 (2029 양산)
주요 입장
전망
- · SemiAnalysis: '한때 Intel 10nm이 파운드리 7nm과 경쟁했는데, 이제 Intel 1.8nm이 파운드리 3nm과 간신히 경쟁'
- · 업계: 'Lip-Bu Tan의 보수적 약속은 긍정적이나 실행이 관건'
한국 영향
- 삼성 2nm GAA 수율 현황
- Intel 파운드리 외부 고객 확보 성과
Applied Materials, GAA/2nm용 Centris Sym3 Z Magnum 에칭 시스템 출시 — 250+ 챔버 이미 현장 배치
주요 사건
Applied Materials가 Centris Sym3 Z Magnum 에칭 시스템을 발표했다. 2nm 이하 GAA(Gate-All-Around) 트랜지스터 제조에 필요한 고종횡비 에칭 문제를 해결하는 장비로, 2세대 PVT2(Pulsed Voltage Technology) 기술로 이온 각도와 에너지를 독립 제어한다. 이미 2nm 로직에서 POR(Process of Record) 지위를 확보하고 250개 이상 챔버가 배치됨. DRAM 4F2와 HBM에도 적용 가능.
배경
- 2022-06-01삼성, 3nm GAA 세계 최초 양산 시작
- 2025-01-01TSMC N2 GAA 위험 생산 시작
- 2026-02-19AMAT Sym3 Z Magnum 출시, 2nm POR 확보
주요 입장
전망
- · SemiAnalysis: 'POR 지위와 250+ 챔버 배치는 경쟁사가 따라잡기 어려운 선점 효과'
한국 영향
- 삼성 2nm GAA 장비 선정 현황
- SK하이닉스 HBM4 에칭 공정
Google DeepMind, Lyria 3 음악 생성 모델 베타 출시 — 텍스트/사진에서 보컬 포함 음악 생성
주요 사건
Google DeepMind이 Lyria 3를 출시했다. 텍스트와 사진으로부터 보컬, 가사, 다양한 장르의 음악을 생성하며, 템포·보컬 스타일·가사를 세밀하게 제어할 수 있다. Gemini App에서 전 세계 베타로 롤아웃되며, 모든 생성물에 SynthID 워터마크가 삽입된다.
배경
- 2023-05-01Google MusicLM 공개
- 2024-11-01Lyria 2 출시 (YouTube 통합)
- 2026-02-18Lyria 3 글로벌 베타 출시
주요 입장
전망
- · Google은 SynthID 워터마크로 AI 생성 콘텐츠 추적 가능성 확보
- · Suno/Udio와 달리 대형 플랫폼 통합이 차별점
한국 영향
- KOMCA(한국음악저작권협회)의 AI 음악 가이드라인
- 한국 AI 음악 스타트업과의 경쟁
Augment Code Intent — IDE 이후 시대의 멀티 에이전트 오케스트레이션 워크스페이스 등장
주요 사건
Augment Code가 'Intent'라는 새로운 개발 도구를 공개했다. IDE를 대체하는 에이전트 오케스트레이션 워크스페이스로, 여러 코딩 에이전트(Auggie, Claude Code, Codex, OpenCode)를 병렬로 실행하며 스펙 기반 개발을 지원한다. 코디네이터→구현→검증 3단계 에이전트 체계를 기본으로 하며, git worktree 기반 격리 워크스페이스를 제공. swyx는 '이것이 IDE 이후의 미래'라고 극찬했다.
배경
- 2024-03-01Devin(Cognition) — 최초 자율 코딩 에이전트
- 2025-01-01Cursor, Claude Code 등 AI 코딩 도구 폭발적 성장
- 2026-02-10Augment Code Intent 출시
- 2026-02-19swyx '역대 가장 정확한 예측' 평가
주요 입장
전망
- · swyx: '이건 내 눈앞에서 소프트웨어가 만들어지는 방식이 바뀌고 있는 것'
- · Karpathy: 'App Store 개념 자체가 시대착오 — 에이전트가 즉석에서 앱을 만든다'
한국 영향
- 국내 AI 코딩 도구 시장 동향
- 기업의 멀티 에이전트 개발 환경 도입 사례
Karpathy, 'App Store는 시대착오' — AI 네이티브 센서/액추에이터로 에피메럴 앱 시대 예고
주요 사건
Andrej Karpathy가 자신의 심박수 추적을 위해 1시간 만에 맞춤형 대시보드를 바이브코딩한 경험을 공유하며, 'App Store에서 앱을 골라 쓰는 개념 자체가 시대착오'라고 선언했다. LLM 에이전트가 즉석에서 사용자 맞춤 앱을 만들 수 있으므로, 산업은 AI 네이티브 API/CLI를 갖춘 '센서와 액추에이터 서비스'로 재편되어야 한다고 주장. 2년 전이면 10시간 걸렸을 일이 1시간, 궁극적으로는 1분이 되어야 한다고 봤다.
배경
- 2025-02-01Karpathy '바이브코딩' 개념 제시
- 2025-06-01Claude Code, Codex 등 자율 코딩 에이전트 성숙
- 2026-02-19Karpathy 'App Store 시대착오' 선언
주요 입장
전망
- · Karpathy: '99%의 제품이 아직 AI 네이티브 CLI가 없다. 2026년인데.'
- · Thom Wolf(HuggingFace): '소프트웨어 공급망이 축소되고 모놀리스로 회귀할 것'
한국 영향
- 국내 주요 서비스의 AI/MCP API 제공 현황
- 개발자 생태계의 바이브코딩 채택률
Mistral, Voxtral Realtime 오픈소스 공개 — 4B 파라미터로 200ms 미만 지연의 실시간 음성 인식
주요 사건
Mistral AI가 Voxtral Realtime의 기술 보고서를 공개했다. 4B 파라미터의 실시간 음성 인식 모델로, 지연을 200ms 미만으로 설정 가능하며 13개 언어를 지원한다. Apache 2.0 라이선스로 Hugging Face에서 오픈소스 공개. 동반 출시된 Voxtral Mini Transcribe V2는 FLEURS 벤치마크에서 GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal을 능가하며 $0.003/분의 최저 가격.
배경
- 2022-09-01OpenAI Whisper 오픈소스 공개
- 2025-01-01보이스 에이전트 시장 폭발적 성장
- 2026-02-19Voxtral Realtime 기술 보고서 및 오픈소스 공개
주요 입장
전망
- · Mistral: '오프라인 동작으로 프라이버시 민감 분야에 최적'
- · 한국어 포함 13개 언어 지원으로 다국어 시장 접근성 확보
한국 영향
- 한국어 WER(Word Error Rate) 실측 결과
- 국내 엣지 AI 디바이스 시장 동향
Claude Sonnet 4.6 출시 — Opus 4.5급 성능을 Sonnet 가격($3/$15)에 제공
주요 사건
Anthropic이 Claude Sonnet 4.6을 출시했다. 코딩, 컴퓨터 사용, 롱컨텍스트 전반에서 지난 11월 출시된 Opus 4.5와 유사한 성능을 제공하면서, 가격은 Sonnet 티어($3/$15 per million tokens)를 유지한다. 지식 컷오프는 2025년 8월, 최대 입력 100만 토큰(베타). Anthropic의 연간 수익은 $14B ARR, $380B 밸류에이션에 $30B 펀딩도 동시 발표.
배경
- 2025-06-01Claude 3.5 Sonnet (가격-성능비 혁신)
- 2025-11-01Claude Opus 4.5 출시
- 2026-02-12Anthropic $30B 펀딩, $380B 밸류에이션
- 2026-02-17Claude Sonnet 4.6 출시
주요 입장
전망
- · Simon Willison: 'Sonnet 4.6은 Opus 4.5와 유사 성능, 가격은 1/5'
- · 업계: 'Anthropic의 연간 10배 성장이 가장 인상적'
한국 영향
- Sonnet 4.6 한국어 성능 벤치마크
- 국내 기업 Claude vs GPT 채택 동향
OpenAI, EVMbench 발표 — AI 에이전트의 스마트 컨트랙트 취약점 탐지/악용/패치 벤치마크
주요 사건
OpenAI가 EVMbench를 공개했다. AI 에이전트가 EVM(Ethereum Virtual Machine) 기반 스마트 컨트랙트의 고위험 취약점을 탐지, 악용, 패치할 수 있는 능력을 측정하는 벤치마크다. 블록체인 보안과 AI의 교차점을 다루는 최초의 체계적 벤치마크.
배경
- 2016-06-17The DAO 해킹 ($60M)
- 2024-01-01AI 코드 감사 도구 등장
- 2026-02-18OpenAI EVMbench 발표
주요 입장
전망
- · 블록체인 보안 커뮤니티: '체계적 벤치마크가 없었던 분야에 기준점 제시'
한국 영향
- 국내 블록체인 보안 기업의 AI 도구 채택
- 가상자산 규제와 보안 표준 연계
참고 자료
SemiAnalysis InferenceX v2 — GB300 NVL72, MI355X 포함 AI 추론 하드웨어 종합 벤치마크
주요 사건
SemiAnalysis가 InferenceX(구 InferenceMAX) v2를 공개했다. NVIDIA GB300 NVL72, AMD MI355X, B200, H100 등 주요 AI 추론 하드웨어를 대규모 MoE 모델에서 비교하는 벤치마크로, Disaggregated Serving과 Wide Expert Parallelism 등 SOTA 최적화 기법을 적용한 결과를 제공한다.
배경
- 2025-03-01NVIDIA B200 출시
- 2025-09-01AMD MI355X 발표
- 2026-02-16SemiAnalysis InferenceX v2 (GB300, MI355X 포함)
주요 입장
전망
- · SemiAnalysis: 'MI355X 양산 토큰은 H2 2026에 나올 것인지가 핵심 질문'
- · Dylan Patel: 'Codex(GPT-5.3)가 코딩에서 Opus를 압도한다'
한국 영향
- 한국 데이터센터 NVIDIA vs AMD 비중
- SK하이닉스/삼성 HBM 공급 계약
Google, LLM의 팩트 기억력 병목 연구 발표 — Recall이 핵심 한계
주요 사건
Google이 'Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality'라는 논문을 발표했다. LLM이 학습 데이터의 사실을 정확히 기억하지 못하는 '사실성(factuality)' 문제의 핵심이 recall(회상) 능력에 있다는 것을 규명했다. 정보가 모델 파라미터에 저장은 되어 있지만 적시에 꺼내지 못하는 것이 hallucination의 주요 원인이라는 분석.
배경
- 2023-01-01할루시네이션이 LLM의 핵심 한계로 인식
- 2024-01-01RAG 등 외부 지식 보강 방식 활성화
- 2026-02-19Google, recall이 사실성 병목임을 연구로 증명
주요 입장
전망
- · 이 연구는 '할루시네이션은 저장 문제가 아닌 검색 문제'라는 새로운 패러다임 제시
한국 영향
- 한국어 모델에서의 recall 특성 연구
- 네이버/카카오 LLM의 factuality 벤치마크