AI 에이전트·장문맥·의료 진단이 24시간 기술 뉴스 흐름을 주도
- OpenAI·DeepSeek·AI2가 에이전트 실행, 장문맥 효율, 코드 보완 평가에서 개발자용 AI 경쟁 축을 넓혔다
- Tesla FSD 100억 마일과 캘리포니아 로보택시 단속 논의가 자율주행의 데이터 규모와 책임 문제를 다시 부각했다
- 하버드·BIDMC 연구와 Artisan 저작권 논란은 의료·창작 분야 AI 도입의 실증·법적 검증 압력을 키웠다
OpenAI, Agents SDK 2.0으로 샌드박스형 에이전트 실행을 전면화
주요 사건
Sam Altman이 Agents SDK 2.0을 과소평가된 발표라고 언급했다. OpenAI 문서 기준 SDK는 에이전트 루프, 도구 호출, handoff, guardrail, 세션 메모리, MCP, 샌드박스 실행을 묶어 개발자가 장기 작업형 에이전트를 제품에 넣기 쉽게 만든다.
배경
- 2023-10-01LLM tool-use와 multi-agent 프레임워크가 개발자 생태계에서 확산
- 2026-04-15OpenAI가 샌드박스·manifest·snapshot을 포함한 Agents SDK 업데이트 발표
- 2026-05-03Sam Altman이 Agents SDK 2.0을 underrated라고 언급
주요 입장
전망
- · OpenAI 문서는 SDK를 'production-ready upgrade'로 규정하며 sandbox agents를 장기 작업의 핵심으로 제시한다
- · 업계 개발자들은 agent loop보다 보안·관측성·중단 복구가 실제 도입 병목이라고 본다
한국 영향
- TypeScript SDK와 subagent 출시 일정
- 국내 클라우드·망분리 환경에서 샌드박스 실행 가능성
DeepSeek V4, 100만 토큰 장문맥을 낮은 추론비로 밀어붙여
주요 사건
swyx가 DeepSeek V4의 장문맥 효율을 주목했다. 공개 해설 자료들은 V4-Pro·V4-Flash가 CSA/HCA 혼합 attention으로 100만 토큰 문맥을 지원하며 V4-Flash는 V3.2 대비 FLOPs 10%, KV cache 7% 수준을 목표로 한다고 설명한다.
배경
- 2017-06-01Transformer 논문 발표, self-attention이 LLM 표준 구조가 됨
- 2026-04-24DeepSeek V4 Preview 관련 해설과 스펙 공개
- 2026-05-03swyx가 DeepSeek V4 효율성을 업계 신호로 평가
주요 입장
전망
- · DeepSeek V4 해설은 Flash가 284B total, 13B active, 1M context를 제공한다고 설명한다
- · swyx는 비용 효율이 다시 AI 경쟁의 핵심 메뉴가 됐다고 평가했다
한국 영향
- 독립 벤치마크에서 1M 문맥 retrieval 정확도
- 국내 클라우드에서 오픈웨이트 추론 비용
AI2 OlmPool, 7B 장문맥 모델 26개로 구조 선택의 비용을 수치화
주요 사건
AK가 Allen AI의 OlmPool 연구 모델 공개를 전했다. OlmPool은 7B급 모델 26개와 체크포인트를 공개해 QK norm, GQA, sliding window attention, pretraining context length가 장문맥 확장 성능에 미치는 영향을 통제 실험으로 보여준다.
배경
- 2024-02-01AI2가 OLMo 7B를 공개하며 개방형 LLM 연구 기반을 제공
- 2026-04-01OlmPool이 26개 7B 모델과 38개 체크포인트 체계를 공개
- 2026-05-02AK가 Hugging Face 공개를 기술 뉴스로 재확산
주요 입장
전망
- · OlmPool 페이지는 최악 조합이 HELMET 32K에서 최대 47% 성능 저하를 만들 수 있다고 설명한다
- · 검색 결과는 26개 7B 모델, 170,000 H100-hour, 38개 체크포인트 공개를 강조한다
한국 영향
- 한국어 long-context 벤치마크에서 OlmPool 계열 구조 재현
- 국내 H100/H200 연구 자원 배분 방식
Microsoft DELULU, 실제 코드 보완형 벤치마크 수요를 드러내
주요 사건
AK가 Microsoft의 DELULU fill-in-the-middle 코드 완성 벤치마크 공개를 전했다. 검색상 Hugging Face 데이터셋은 아직 빈 상태로 보이지만, 관련 Real-FIM-Eval 연구는 실제 GitHub 커밋 30,000건 이상과 12개 언어를 기반으로 FIM 평가가 현실 개발 패턴을 더 잘 반영한다고 설명한다.
배경
- 2021-06-01GitHub Copilot 공개로 코드 완성 모델 시장 개화
- 2025-06-01Real-FIM-Eval 논문이 30,000+ GitHub 커밋 기반 평가를 제안
- 2026-05-02Microsoft DELULU-FIM-BENCHMARK가 Hugging Face에서 포착
주요 입장
전망
- · Real-FIM-Eval 연구는 30,000개 이상 GitHub 커밋과 12개 언어를 사용한다고 설명한다
- · AST-FIM 논문은 무작위 FIM보다 AST 기반 masking이 실제 코드 편집 성능에 더 잘 맞는다고 주장한다
한국 영향
- DELULU 데이터셋 실제 파일 공개 여부
- 한국어 주석·레거시 프레임워크 포함 벤치마크 필요성
Tesla FSD 100억 마일 돌파, 자율주행 책임 논쟁은 남아
주요 사건
Elon Musk가 Tesla의 FSD Supervised 100억 마일 돌파를 재확산했다. Tesla 안전 페이지와 Electrek 보도는 누적 주행거리와 충돌 감소 수치를 강조하지만, supervised 시스템이라는 한계와 Level 4 책임 문제는 여전히 남아 있다고 지적한다.
배경
- 2021-01-01Tesla FSD Supervised 누적 주행이 초기 상용 fleet 데이터로 축적
- 2026-03-01Teslarati가 FSD Supervised 84억 마일 돌파 보도
- 2026-05-03Tesla가 100억 마일 milestone을 공개적으로 강조
주요 입장
전망
- · Electrek은 100억 마일이 중요한 데이터 milestone이지만 Level 4 책임 전환을 보장하지 않는다고 지적했다
- · Tesla는 FSD Supervised 사용 시 주요 충돌 가능성이 미국 평균보다 낮다고 주장한다
한국 영향
- Tesla가 Q4 2026 전후 무감독 기능을 실제로 책임지고 출시하는지
- 국내 FSD 기능 승인과 보험 책임 기준
캘리포니아, 로보택시 교통위반 단속 공백을 7월부터 닫는다
주요 사건
TechCrunch Mobility는 로보택시에 교통딱지를 어떻게 발부할지라는 규제 쟁점을 다뤘다. 관련 보도에 따르면 캘리포니아는 7월 1일부터 무인차가 교통법규를 위반하면 제조사에 notice of noncompliance를 발부하고 DMV가 조사·제재할 수 있게 한다.
배경
- 2024-09-27캘리포니아 AB 1777이 무인차 단속 공백 해소 방향을 제시
- 2026-04-30DMV가 robotaxi citation rule을 공식화했다는 보도 확산
- 2026-07-01새 단속 규칙 발효 예정
주요 입장
전망
- · Carscoops는 제조사에 notice of noncompliance를 발부하고 반복 위반 시 permit 제한이 가능하다고 설명했다
- · The Independent는 캘리포니아 규칙이 미국에서 가장 포괄적인 AV 단속 체계 중 하나라고 전했다
한국 영향
- 서울·세종 로보택시 실증의 위반 통지 체계
- 제조사·운영사·보험사 간 책임 배분
참고 자료
하버드 연구, 응급실 진단에서 LLM이 전문의 기준을 앞섰다고 보고
주요 사건
TechCrunch는 하버드 의대·Beth Israel Deaconess 연구를 인용해 LLM이 응급실 진단 과제에서 두 명의 인간 의사보다 정확한 결과를 보였다고 보도했다. Harvard Magazine은 o1 preview가 76개 응급실 사례에서 triage, 초진, 입원 단계별 평가를 받았다고 설명했다.
배경
- 1959-01-01의사 진단 능력 평가를 위한 고전적 임상 추론 benchmark 전통 시작
- 2026-04-30Science에 하버드·BIDMC 연구 발표
- 2026-05-03TechCrunch가 대중 기술 뉴스로 재보도
주요 입장
전망
- · EurekAlert는 연구진이 AI가 임상에서 자율적으로 진료할 준비가 됐다는 뜻은 아니라고 선을 그었다고 전했다
- · Harvard Magazine은 o1 preview가 초기 triage처럼 정보가 적은 단계에서 특히 강했다고 설명했다
한국 영향
- 한국어 EHR에서 성능 재현 여부
- 의료법상 의사 최종 판단과 AI 권고의 책임 분리
참고 자료
Vibe Kanban 폐업, AI 코딩 도구 시장의 수익모델 한계를 드러내
주요 사건
swyx가 AIE Europe 무대에서 Vibe Kanban이 폐업을 발표한 장면을 공유했다. 관련 보도는 30,000 MAU와 GitHub 25,000 stars가 있었지만 개인 개발자 대상 $30 구독만으로는 에이전트 토큰 비용을 먹는 시장에서 지속 가능하지 않았다고 분석했다.
배경
- 2021-01-01AI 코딩이 autocomplete 중심으로 대중화 시작
- 2026-04-10Vibe Kanban 공식 블로그가 bloop 폐업과 오픈소스 전환을 공지
- 2026-05-03swyx가 30,000 MAU에도 폐업한 사례를 재조명
주요 입장
전망
- · BigGo Finance는 Vibe Kanban이 30,000 MAU와 25,000 stars에도 middleware 수익화에 실패했다고 분석했다
- · 창업자는 돈을 버는 회사들이 enterprise 판매와 token resale을 한다고 말했다
한국 영향
- Codex·Claude Code의 kanban·multi-agent 관리 기능 흡수
- 국내 개발자툴 스타트업의 enterprise 전환 속도
OpenAI Codex 5.5 흥행, 기업용 에이전트 코딩 수요를 재확인
주요 사건
Sam Altman은 OpenClaw와 OpenAI Codex 5.5가 좋다는 사용자 반응에 동의했고, 전날 OpenAI는 GPT-5.5 출시 일주일 만에 API 매출 성장과 Codex 매출 두 배를 강조했다. 검색 결과 Newsquawk도 OpenAI의 'API revenue 2x faster, Codex doubled revenue' 문구를 인용했다.
배경
- 2021-06-01Codex 계열 모델이 GitHub Copilot을 통해 코드 AI 시장을 열었다
- 2026-05-01OpenAI가 GPT-5.5 출시 일주일 성과와 Codex 매출 두 배를 발표
- 2026-05-03Altman이 Codex 5.5 xhigh fast mode와 사용자 반응을 재확산
주요 입장
전망
- · WinBuzzer는 Codex가 2026년 초 이미 주간 개발자 수백만 명과 연환산 매출 10억 달러대에 접근했다고 보도했다
- · Fortune은 OpenAI가 Codex를 기업용 AI agents의 관문으로 포지셔닝한다고 전했다
한국 영향
- Codex 5.5의 SWE-bench·실무 리팩터링 독립 평가
- 국내 기업의 소스코드 외부 전송 제한 대응
Tesla·SpaceX, Starlink 단말 400~500Mbps 가능성을 재강조
주요 사건
Elon Musk가 Starlink 관련 답글을 리트윗하며 현행 단말이 peak download 400~500Mbps를 지원할 수 있다는 설명을 확산했다. Starlink 사양 페이지도 Performance Kit이 400+ Mbps 다운로드를 지원하며 2026년 service plan 업그레이드로 기가비트급 개선을 추진한다고 밝힌다.
배경
- 2025-10-27PCMag가 Starlink median download 160Mbps대에서 210~220Mbps로 개선됐다고 보도
- 2026-01-01Starlink Performance Kit 400+ Mbps 사양 문구 공개
- 2026-05-03Musk가 현행 단말 400~500Mbps peak 가능성을 재확산
주요 입장
전망
- · Starlink 사양서는 Performance Kit이 현재 400+ Mbps를 지원한다고 적고 있다
- · PCMag는 median download가 약 50% 개선됐지만 실제 테스트 peak는 315Mbps였다고 보도했다
한국 영향
- 한국 Starlink 서비스 허가와 요금제
- 선박·항공·재난망에서 지연시간과 안정성 검증
Artisan 광고 논란, AI 스타트업의 저작권 리스크를 다시 부각
주요 사건
TechCrunch는 'This is fine' 밈 작가 KC Green이 AI 스타트업 Artisan의 광고가 자신의 그림을 허락 없이 사용했다고 주장했다고 보도했다. Artisan은 작가와 연락 중이라고 답했으며, Green은 법적 대리인을 검토하겠다고 밝혔다.
배경
- 2013-01-01KC Green의 Gunshow comic에서 'This is fine' 밈이 등장
- 2026-01-07Artisan이 LinkedIn 데이터·브랜드 사용 문제로 플랫폼에서 제한됐다가 복귀했다는 보도
- 2026-05-03TechCrunch가 Artisan 광고 저작권 논란을 보도
주요 입장
전망
- · TechCrunch는 Artisan이 Green에게 직접 연락하겠다고 답했다고 전했다
- · Green은 법적 대리인을 검토하겠다고 밝혔다
한국 영향
- Artisan과 KC Green의 합의 또는 소송 여부
- 국내 광고에서 AI 생성·차용 이미지 표시 기준
참고 자료
멀티에이전트 연구, 회사형 계층 구조가 토큰 비용과 성능을 함께 개선
주요 사건
AK가 'Recursive Multi-Agent Systems, Agentic World Modeling, and AI Organizations'를 주간 주요 논문으로 공유했다. 검색된 OrgAgent 논문은 governance, execution, compliance layer로 나눈 회사형 계층 구조가 flat multi-agent보다 성능을 높이고 토큰 사용을 줄일 수 있다고 보고한다.
배경
- 2023-01-01ReAct와 AutoGPT류 프레임워크가 LLM agent 실험을 확산
- 2025-12-01Agent2World 등 adaptive multi-agent feedback 연구가 world model 생성에 적용
- 2026-05-03AK가 multi-agent 조직화 연구를 주요 논문으로 공유
주요 입장
전망
- · OrgAgent 검색 결과는 GPT-OSS-120B에서 flat MAS 대비 F1이 최대 102.73% 개선되고 토큰은 52% 줄었다고 제시한다
- · Agent2World는 deep researcher, model developer, testing team으로 world-model 생성을 나눠 SOTA 결과를 보고한다
한국 영향
- 한국어 업무 benchmark에서 계층형 multi-agent 효과
- 토큰 비용 절감과 품질 향상 재현성
참고 자료
AI 일자리 논쟁, LeCun 리트윗으로 낙관론이 다시 전면에 올라
주요 사건
Yann LeCun이 'AI will create more jobs than any other technology in history'라는 주장을 리트윗했다. 기술 뉴스로서 새 제품 발표는 아니지만, frontier AI 확산 속 노동시장 충격을 보는 주요 연구자 진영의 시각 차이를 보여준다.
배경
- 2012-09-01딥러닝이 ImageNet 이후 산업 자동화 기대를 키움
- 2022-11-30ChatGPT 출시로 생성 AI 노동시장 논쟁이 대중화
- 2026-05-03LeCun이 AI 일자리 창출 낙관론을 재확산
주요 입장
전망
- · LeCun은 과거에도 AI doom 담론보다 인간 능력 확장과 세계모델 연구를 강조해왔다
- · 노동시장 연구자들은 기술이 장기적으로 일자리를 만들 수 있어도 단기 전환 충격은 별도 정책 대상이라고 본다
한국 영향
- 국내 기업의 AI 도입 후 채용 구조 변화
- 정부 AI 재교육·전직 지원 정책