GB300·TPU 8i가 추론 인프라 경쟁을 다시 끌어올렸다
- GB300 NVL72는 vLLM 실서비스 구간에서 GB200보다 최대 2.7배 빠르다는 평가를 받았다.
- Google은 TPU 8t·8i를 훈련과 추론으로 나누며 자체 ASIC 전략을 강화했다.
- Web2BigTable과 UniVidX는 멀티에이전트 검색과 통합 영상 생성에서 연구 자동화의 방향을 보여줬다.
- Grok 4.3·이미지 AI 앱 성장·Cerebras IPO는 AI 수익화가 전문 도메인, 소비자 시각 기능, 인프라 자본시장으로 갈라지고 있음을 드러냈다.
GB300 NVL72, vLLM 추론에서 GB200보다 최대 2.7배 빨라졌다
주요 사건
SemiAnalysis가 NVIDIA GB300 Ultra NVL72가 vLLM 기반 추론에서 GB200 NVL72보다 최대 2.7배 빠르다고 전했다. 공개 벤치마크는 GB300이 288GB HBM과 NVFP4 최적화, 커널·스케줄러 개선을 합쳐 실제 서비스 구간에서 큰 차이를 만든다는 점을 보여준다.
배경
- 2024-03-18NVIDIA Blackwell 아키텍처 공개
- 2026-02-13vLLM, GB300에서 DeepSeek V3.2 NVFP4 추론 결과 공개
- 2026-05-04SemiAnalysis, vLLM 구간별 GB300 2.7배 성능 언급
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- GB300 공급 가격과 국내 도입 시점
- vLLM/SGLang 최적화의 국산 모델 적용성
Google TPU 8i, 288GB HBM으로 추론 전용 칩 전략을 분명히 했다
주요 사건
SemiAnalysis는 TPU v8i가 두 개의 compute die를 가졌지만 훈련 칩이 아니라 추론 칩이라고 설명했다. v8i는 288GB HBM3E, 8.6TB/s 대역폭, 384MB SRAM을 갖춰 디코드·KV 캐시 병목에 맞췄고, v8t는 12.6PFLOPS FP4로 대규모 훈련에 최적화됐다.
배경
- 2016-05-18Google, 1세대 TPU 공개
- 2025-04-09Ironwood TPU 세대 공개
- 2026-04-22Google Cloud, TPU 8t·8i 기술 설명 공개
- 2026-05-04SemiAnalysis, 8i·8t 역할 구분 분석
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- TPU 8i의 실제 서비스 단가
- HBM 공급 배분과 Google 물량 확대
Web2BigTable, 넓은 웹 검색 성공률을 기존 2위보다 7.5배 높였다
주요 사건
Web2BigTable은 인터넷 규모 검색·추출을 표 형태로 수행하는 bi-level 멀티에이전트 시스템이다. 상위 오케스트레이터가 일을 쪼개고 하위 워커들이 병렬 검색하며, 실행 후 검증·반성 결과를 외부 메모리에 남겨 다음 작업의 분해 전략을 개선한다.
배경
- 2023-03-01LLM 기반 웹 에이전트 연구 확산
- 2026-04-28Web2BigTable arXiv 공개
- 2026-05-04Hugging Face papers와 X에서 확산
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- 한국어 웹에서 Row F1 유지 여부
- MCP 기반 병렬 워커의 보안·비용 관리
UniVidX, 1천개 미만 영상으로 15개 비디오 생성 과제를 통합했다
주요 사건
UniVidX는 비디오 확산 모델 하나로 RGB, albedo, normal, alpha matte, foreground/background 등 여러 시각 모달리티를 오가는 프레임워크다. Stochastic Condition Masking, Decoupled Gated LoRA, Cross-Modal Self-Attention으로 고정된 입력-출력 모델 여러 개를 하나의 조건부 생성 체계로 묶었다.
배경
- 2022-08-22Stable Diffusion 공개로 diffusion 기반 생성 생태계 확산
- 2026-04-30UniVidX arXiv 공개
- 2026-05-04Hugging Face 모델 체크포인트와 데모 공유
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- 상용 영상 데이터 라이선스
- 한국어 프롬프트와 로컬 문화 표현 성능
Grok 4.3, Vals 법률·금융 벤치마크 1위로 기업 시장을 겨냥했다
주요 사건
Elon Musk가 Grok 4.3의 법률·금융 벤치마크 성과를 홍보했다. Vals AI 모델 페이지는 Grok 4.3의 Vals Index 정확도를 62.55%±1.90, 지연 584.24초, 테스트당 비용 0.38달러, 컨텍스트 100만 토큰으로 표시한다. VentureBeat는 CaseLaw v2 79.3%와 CorpFin 1위를 보도했다.
배경
- 2023-07-12xAI 설립
- 2026-04-30Vals AI, Grok 4.3 모델 평가 등재
- 2026-05-04Musk, Grok 4.3 법률·금융 1위 성과 재확산
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- 한국어 법률 추론 정확도
- 금융권 망분리·감사 로그 요구 충족 여부
싱가포르항공, 2027년부터 A350·A380에 Starlink 와이파이를 넣는다
주요 사건
싱가포르항공이 2027년 1분기부터 장거리 A350-900, 초장거리 A350-900 ULR, A380에 Starlink 저궤도 위성 인터넷을 순차 도입한다. 완료 목표는 2029년 말이며, Starlink Aero Terminal은 안테나당 최대 1Gbps와 기내 다중 기가비트 연결을 제공한다고 발표됐다.
배경
- 2019-05-24Starlink 첫 대량 위성 발사
- 2022-10-18Starlink Aviation 서비스 공개
- 2026-05-04싱가포르항공, Starlink 도입 발표
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- 한국 항공사의 LEO 도입 일정
- 국내 전파·항공 인증 절차
이미지 AI 업데이트, 챗봇 모델 출시보다 앱 다운로드를 6.5배 더 끌어올렸다
주요 사건
TechCrunch는 Appfigures 분석을 인용해 이미지·비디오 모델 업데이트가 일반 챗봇 모델 출시보다 모바일 AI 앱 다운로드 증가를 6.5배 더 크게 만든다고 보도했다. ChatGPT의 4o 이미지 생성은 28일 동안 1,200만 추가 다운로드와 약 7,000만달러 소비자 지출 증가를 만들었고, Gemini의 Nano Banana는 2,200만 추가 다운로드를 만들었다.
배경
- 2025-03-01OpenAI, 4o 이미지 생성 도입
- 2025-08-01Google, Gemini 2.5 Flash Image 도입
- 2026-05-04TechCrunch, Appfigures 분석 보도
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- 이미지 생성의 결제 전환율
- 저작권·초상권 민원 증가
Linux ‘Copy Fail’ 취약점, 공개 이틀 만에 CISA 악용 목록에 올랐다
주요 사건
CISA가 Linux 커널 취약점 CVE-2026-31431, 일명 Copy Fail을 Known Exploited Vulnerabilities catalog에 추가했다. 이 결함은 2017년 이후 주요 배포판에 영향을 줄 수 있으며 로컬 비권한 사용자가 setuid-root 바이너리의 캐시 페이지를 조작해 root 권한을 얻을 수 있다.
배경
- 2017-01-01영향 커널 범위 시작으로 추정
- 2026-04-29Copy Fail 공개
- 2026-05-01CISA KEV 등재, 5월 15일 조치 기한 지정
- 2026-05-04SecurityWeek, 악용 시작 보도
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- 사용 중인 커널 패치 제공 여부
- 컨테이너 escape 탐지 로그
Cerebras, 35억달러 IPO로 266억달러 AI 칩 상장을 추진한다
주요 사건
Cerebras가 주당 115~125달러에 2,800만주를 매각해 최대 35억달러를 조달하고, 상단 기준 약 266억달러 시가총액으로 상장하는 조건을 제시했다. OpenAI와의 대규모 칩·서버 계약, Wafer-Scale Engine 3, Sam Altman 등 초기 투자자 구성이 투자 포인트로 부각됐다.
배경
- 2015-01-01Cerebras 설립
- 2024-03-13Wafer-Scale Engine 3 공개
- 2026-04-17Reuters, OpenAI-Cerebras 200억달러 이상 계약 보도
- 2026-05-04Cerebras IPO 조건 업데이트 보도
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- OpenAI 계약의 실제 매출 인식
- WSE3 생산·수율과 공급망
Import AI, 2028년까지 AI R&D 자동화 확률을 60%로 제시했다
주요 사건
Jack Clark의 Import AI 455는 프런티어 모델이 후속 모델 훈련을 자율적으로 수행하는 ‘자동화된 AI R&D’가 2028년 말까지 나타날 확률을 60%, 2027년은 30%로 제시했다. 핵심 근거는 코딩·실험 실행·평가 루프에서 모델의 독립 작업 시간이 빠르게 늘고 있다는 점이다.
배경
- 2017-12-01AutoML과 NAS 연구 확산
- 2024-01-01LLM 코딩 에이전트가 장시간 소프트웨어 작업을 수행하기 시작
- 2026-04-20Import AI 454, 자동화된 alignment 연구 사례 소개
- 2026-05-04Import AI 455, 2028년 AI R&D 자동화 60% 전망 제시
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- AI가 설계한 실험의 재현성
- 모델 자기개선 루프의 감사·중단 장치
Musk-Altman 재판, OpenAI 지배구조와 영리화 논쟁을 법정에 올렸다
주요 사건
Musk v. Altman 재판이 OpenAI의 비영리 설립 취지와 영리 자회사 전환을 둘러싼 책임 문제를 다룬다. Musk 측은 OpenAI가 자선 신탁을 위반했다고 주장하고, OpenAI 측은 Musk가 경쟁사 xAI를 위해 소송을 이용한다고 반박한다. CNBC는 책임 단계가 5월 21일 전후 마무리될 수 있다고 전했다.
배경
- 2015-12-11OpenAI 비영리 연구소 출범
- 2019-03-11OpenAI LP capped-profit 구조 발표
- 2024-02-29Musk, OpenAI와 Altman 등을 상대로 소송 제기
- 2026-05-04재판 1주차 이후 쟁점 보도 확산
주요 입장
전망
- · SemiAnalysis와 LMSYS/vLLM 계열 벤치마크는 이론 FLOPS보다 엔드투엔드 처리량을 핵심 지표로 본다
- · 시장 분석가들은 AI 수요가 모델 성능뿐 아니라 전력·네트워크·소프트웨어 최적화로 이동한다고 본다
한국 영향
- OpenAI 투자·파트너십 계약 변화
- 비영리 AI 조직의 국내 법제 논의