커스텀 AI 칩 Taalas HC1이 17K tok/s로 기존 GPU 대비 10배 빠른 추론 시연, GGML/llama.cpp가 Hugging Face에 합류하며 로컬 AI 생태계 통합 가속, 삼성은 Galaxy S26에 Perplexity 탑재해 멀티에이전트 시대 선언
- Taalas HC1: 모델을 실리콘에 직접 구현한 ASIC으로 Llama 3.1 8B를 17,000 tok/s 속도로 추론 — Cerebras 대비 10배, NVIDIA B200 대비 수배 빠름
- GGML/llama.cpp가 Hugging Face에 합류 — 오픈소스 로컬 AI 추론의 핵심 인프라가 최대 모델 허브와 통합
- 삼성 Galaxy S26에 Perplexity AI 시스템 레벨 통합 — 'Hey Plex' 음성 명령으로 Bixby/Gemini와 함께 멀티에이전트 플랫폼 구축
- SemiAnalysis: AI 데이터센터 수요응답(Demand Response) 프로그램의 경제적 한계 분석 — 전력 비용 절감보다 인터커넥션 가속이 핵심 인센티브
- 중국 BCI(뇌-컴퓨터 인터페이스) 산업 급성장 — 정책 지원과 임상시험 확대로 상용화 단계 진입
- Quantonation, 양자컴퓨팅 전용 VC 최대 규모 €220M 2호 펀드 클로즈
- SpargeAttention2: 비디오 디퓨전 모델에서 95% 어텐션 희소성, 16.2배 속도 향상 달성
Taalas HC1: LLM을 실리콘에 하드와이어링한 ASIC, 17,000 tok/s 추론 속도 시연
주요 사건
스타트업 Taalas가 Meta Llama 3.1 8B 모델을 실리콘에 직접 구현(하드와이어링)한 HC1 칩을 공개. TSMC 6nm 공정, 815mm², 530억 트랜지스터. 사용자당 약 17,000 tok/s 추론 속도를 달성해 Cerebras(~2,000 tok/s)의 10배, Groq(~600 tok/s)의 28배 성능. 제조 비용 20배 절감, 전력 소비 10배 감소. 단, 하드와이어된 단일 모델만 실행 가능하며 LoRA 어댑터를 통한 파인튜닝은 지원.
배경
- 2024-06-01Groq TSP 칩 공개, 500+ tok/s 추론
- 2025-03-01Cerebras 추론 서비스 상용화
- 2026-02-21Taalas HC1 공개, 17K tok/s 시연
주요 입장
전망
- · swyx: '이 타임라인은 2년 내 0으로 수렴할 것 — 그에 맞춰 개발하라'
- · CNX Software: '2.5kW 서버용이라 엣지/로봇 직접 적용은 아직 시기상조'
한국 영향
- Taalas HC2 성능 및 모델 범위
- PIM 기반 AI 칩 특허 동향
- SK하이닉스 AIM(Accelerator-in-Memory) 로드맵과의 시너지
참고 자료
GGML/llama.cpp가 Hugging Face에 합류 — 로컬 AI 추론 생태계 대통합
주요 사건
Georgi Gerganov(ggml 창시자)와 GGML.ai 팀 전원이 Hugging Face에 합류. llama.cpp, whisper.cpp, GGUF 포맷 등 로컬 추론 핵심 스택이 최대 모델 허브와 통합. MIT 라이선스 유지, 오픈소스 지속.
배경
- 2023-03-01llama.cpp 프로젝트 시작
- 2023-08-01GGUF 포맷 도입
- 2026-02-20GGML/llama.cpp가 Hugging Face에 합류
주요 입장
전망
- · Karpathy: 'DeepWiki + llama.cpp로 라이브러리 기능을 에이전트가 직접 추출하는 시대'
- · SitePoint: '로컬 에이전트 인프라에 단일 프론트 도어가 생겼다'
한국 영향
- HF의 llama.cpp 로드맵 변경 여부
- 삼성/LG 온디바이스 AI에 llama.cpp 통합 가능성
참고 자료
삼성 Galaxy S26에 Perplexity AI 시스템 통합 — 모바일 멀티에이전트 시대 개막
주요 사건
삼성이 Galaxy S26 시리즈에 Perplexity AI를 시스템 레벨로 통합. 'Hey Plex' 음성 명령 또는 사이드 버튼으로 호출. Bixby, Gemini와 함께 '멀티에이전트 생태계' 구축. Perplexity가 Samsung Notes, Calendar, Gallery 등 네이티브 앱에 접근 가능.
배경
- 2025-01-22Galaxy S25에 Gemini 통합
- 2026-02-22Galaxy S26에 Perplexity AI 시스템 통합 발표
주요 입장
전망
- · The Verge: '단일 비서 모델은 과거, 멀티에이전트가 새로운 모바일 AI 기본'
한국 영향
- 한국 시장 Perplexity 한국어 지원 수준
- 네이버/카카오 AI의 삼성 생태계 진입 가능성
참고 자료
SemiAnalysis: AI 데이터센터 수요응답은 비용 절감이 아닌 전력 인터커넥션 가속이 핵심
주요 사건
SemiAnalysis가 AI 데이터센터의 수요응답(Demand Response) 프로그램 경제성을 분석. 피크 시간 전력 사용 줄이면 전력 요금 크레딧을 받지만, AI 클라우드에는 그 금액이 가치 없음. 진정한 인센티브는 수요응답 계약으로 전력 인터커넥션(연결 승인)을 빠르게 확보하는 것. ERCOT과 PJM이 관련 규칙 수립 중이나 아직 워크숍 단계.
배경
- 2024-07-01버지니아 데이터센터 60개 동시 차단 사고
- 2025-01-01DCFlex 이니셔티브 실증 시작
- 2026-02-22SemiAnalysis 수요응답 경제성 분석 공개
주요 입장
전망
- · SemiAnalysis: '금전적 인센티브는 무의미하지만 time-to-power가 게임 체인저'
- · Harvard Belfer Center: '과잉 규제는 AI 경쟁력 저해, 과소 규제는 그리드 불안정'
한국 영향
- 미국 ERCOT/PJM 수요응답 규칙 최종안
- 한국 데이터센터 전력 특례 정책 동향
참고 자료
SpargeAttention2: 비디오 디퓨전 모델 어텐션 95% 희소화, 16.2배 속도 향상
주요 사건
칭화대 연구팀이 SpargeAttention2를 발표. 비디오 디퓨전 모델(Sora 계열)의 어텐션 연산에서 95% 희소성을 달성하면서 생성 품질 유지. Top-k와 Top-p 마스킹을 결합한 하이브리드 방식과 증류 기반 파인튜닝 목적함수 제안. 16.2배 어텐션 속도 향상.
배경
- 2025-01-01SpargeAttention1 발표
- 2026-02-13SpargeAttention2 arXiv 공개 (ICML 투고)
주요 입장
전망
- · AK(HuggingFace): '비디오 디퓨전 모델 효율화의 새로운 SOTA'
한국 영향
- 오픈소스 구현 공개 여부
- 상용 비디오 모델 적용 시점
중국 BCI(뇌-컴퓨터 인터페이스) 산업, 정부 지원 하에 급속 상용화 단계 진입
주요 사건
중국의 BCI 산업이 연구 단계를 넘어 상용화로 빠르게 전환 중. BrainCo, NeuroXess, Gestala 등 스타트업이 임상시험을 확대하고 투자를 유치. 정부의 강력한 정책 지원과 규제 완화가 가속화 요인. Neuralink, Synchron 등 미국 기업과의 경쟁 심화.
배경
- 2024-01-29Neuralink 첫 인체 임플란트
- 2025-06-01중국 BCI 국가 로드맵 발표
- 2026-02-22TechCrunch, 중국 BCI 산업 급성장 보도
주요 입장
전망
- · TechCrunch: '중국은 정책 지원 + 대규모 임상 데이터로 빠른 반복이 가능'
한국 영향
- 한국 BCI 규제 프레임워크 수립 진행
- 삼성전자 헬스케어 BCI 투자 동향
Quantonation, 양자컴퓨팅 전용 세계 최대 VC 펀드 €220M 클로즈
주요 사건
Quantonation Ventures가 2호 펀드를 €220M(약 $260M)으로 클로즈. 1호 펀드(€91M) 대비 2.4배 규모. 양자컴퓨팅 전용 VC로는 세계 최대. Vertex Holdings, Bpifrance, EIF, Novo Holdings, Toshiba 등 참여. 이미 12개 기업에 투자 진행.
배경
- 2018-01-01Quantonation 설립
- 2022-01-011호 펀드 €91M 클로즈
- 2026-02-182호 펀드 €220M 클로즈 발표
주요 입장
전망
- · Quantonation CEO: '양자는 하나의 기계를 만드는 경주가 아니라 연동 스택'
한국 영향
- 한국 양자 스타트업의 Quantonation 포트폴리오 진입 가능성
- Diraq 등 실리콘 기반 양자칩과 삼성 파운드리 협력
Karpathy, 'Claw'를 LLM 위의 새로운 AI 스택 레이어로 정의 — NanoClaw 등 생태계 폭발
주요 사건
Karpathy가 'Claw'를 Chat→Code 다음의 AI 스택 새 레이어로 정의. OpenClaw, NanoClaw(4000줄 코어), ZeroClaw, IronClaw 등 개인 AI 에이전트 시스템이 폭발적 증가. NanoClaw는 '스킬로 코드를 수정하는' AI 네이티브 설정 방식을 도입. 보안 우려(RCE 취약점, 악성 스킬, 공급망 공격)도 지적.
배경
- 2023-03-01AutoGPT 등 초기 LLM 에이전트
- 2025-10-01OpenClaw 출시, Claw 카테고리 형성
- 2026-02-21Karpathy의 Claw 생태계 분석, NanoClaw 주목
주요 입장
전망
- · Karpathy: '앱스토어는 점점 구식 개념. 미래는 AI 센서/액추에이터 + LLM 접착제로 만드는 맞춤형 일회성 앱'
- · Simon Willison: 'Claw가 에이전트 시스템의 새 용어로 정착 중'
한국 영향
- OpenClaw 보안 취약점 대응
- 한국어 최적화된 Claw 스킬 생태계 형성
SemiAnalysis: AI 서버 PCB 복잡도 급증 — 드릴 비트 수명 5분의 1로 감소, 공급망 긴축
주요 사건
AI 서버 설계로 PCB 레이어 수가 8-24층에서 28-46층으로 증가하면서 제조 복잡도가 기하급수적으로 상승. 드릴링 종횡비(aspect ratio)가 8-10x에서 12-14x로 올라가고 드릴 비트 수명이 3,000홀에서 600홀로 5분의 1로 감소. 드릴 비트, 백드릴링 장비, 서포트 플레이트 모두 부족 상태. 대만 업체들(ToPoint, Ta Liang 등)과 미쓰비시 등이 수혜.
배경
- 2024-01-01AI 서버 PCB 8-24층 표준
- 2026-02-2028-46층 PCB로 전환, 드릴링 병목 심화
주요 입장
전망
- · SemiAnalysis: '하이엔드 PCB 드릴링 생태계가 AI 성장의 숨은 보석'
한국 영향
- 삼성전기 AI 서버 PCB 양산 현황
- 국내 PCB 장비 기업의 고종횡비 드릴링 기술 확보
SemiAnalysis: 프론티어 MoE 모델은 Wide Expert Parallelism + 대규모 스케일업이 최적 — 랙 스케일 인프라의 가치
주요 사건
SemiAnalysis가 프론티어 MoE(Mixture of Experts) 모델의 최적 서빙 아키텍처를 분석. Wide Expert Parallelism(WideEP)과 대규모 스케일업 월드사이즈가 8-way 박스 클러스터링 대비 중간 인터랙티비티에서 경제성과 속도 모두 우위. Google TPU, AWS Trainium, NVIDIA NVL72가 이미 대규모 랙 스케일업 기반으로 프로덕션 토큰 서빙 중. 업계는 이미 Dense 모델을 넘어섰다고 판단.
배경
- 2024-12-01DeepSeek v3 MoE 모델 공개
- 2025-06-01NVIDIA NVL72 랙 스케일 출하
- 2026-02-20SemiAnalysis WideEP 서빙 분석 공개
주요 입장
전망
- · SemiAnalysis: '소프트웨어-하드웨어 공동설계 역량이 미래 모델 아키텍처를 이해하는 조직의 핵심 가치'
한국 영향
- NVIDIA NVL72 한국 공급 현황
- 삼성전자 AI 칩의 MoE 서빙 지원 로드맵
Elon Musk: 우주가 AI 추론에 가장 저렴한 장소가 될 것 — 태양광 기반 우주 AI 인프라 비전
주요 사건
Elon Musk가 '우주에서 태양광으로 AI 추론을 구동하는 것이 가장 경제적'이라는 비전을 재확인. 무한 태양 에너지, 냉각 용이성, 토지/전력 규제 부재 등이 논거. SpaceX Starship의 발사 비용 감소가 이를 가능하게 한다고 주장.
배경
- 2025-09-01xAI Colossus 2, 세계 최초 GW급 데이터센터
- 2026-02-22Musk, 우주 AI 추론 비전 재확인
주요 입장
전망
- · Musk: 'no-brainer 수준의 경제성이 될 것'
한국 영향
- SpaceX Starship 상용화 일정
- 우주 기반 컴퓨팅 규제 논의