주간 기술 뉴스 2026. 04. 18

· 4분 읽기
목차

K8s v1.36 릴리스 임박 | Gemma 4 오픈소스 31B가 400B급 초과 | MCP STDIO RCE 취약점 폭로 | Docker Model Runner vLLM 통합 | Databricks Unity AI Gateway

주간 기술 뉴스 2026년 4월 18일 커버 이미지

지난 주 Microsoft Agent Framework 1.0 통합과 KServe+llm-d 아키텍처를 전한 바 있다. 이번 주는 AI 에이전트 인프라의 세 축 — 성능, 보안, 거버넌스 — 에서 동시에 움직임이 있었다. Google Gemma 4가 파라미터 효율의 새 기준을 세웠고, Ox Security가 MCP 생태계 전체에 걸친 설계 결함을 공식화했으며, Databricks와 Docker는 각각 에이전트 거버넌스와 로컬 AI 추론의 도구를 확장했다.

K8s v1.36 릴리스 임박: AI 워크로드 최적화 세대

4월 22일 예정인 K8s v1.36의 핵심은 AI/GPU 워크로드 효율화다.

HPA scale-to-zero GA — GPU 인스턴스 비용이 핵심 이슈인 AI 서빙 환경에서 유휴 시간에 파드를 0으로 축소할 수 있다. KServe 같은 서빙 프레임워크와 결합하면 모델별 비용 효율이 크게 개선된다.

DRA(Dynamic Resource Allocation) 개선지난 주 NVIDIA가 CNCF에 기증한 GPU DRA 드라이버와 직접 연결되는 변화다. GPU·TPU 같은 이종 자원을 선언적으로 할당하는 메커니즘이 성숙 단계에 진입한다.

In-Place Pod Resize 성숙 — 파드 재시작 없이 CPU/메모리를 조정할 수 있어, 추론 워크로드의 동적 자원 관리가 가능해진다.

그 외 Ingress NGINX 공식 은퇴가 예정되어 있다. Gateway API로의 전환이 아직 완료되지 않은 팀은 마이그레이션 계획이 필요하다.

Gemma 4: 파라미터 효율의 새 기준

Google이 4월 초 Apache 2.0으로 공개한 Gemma 4는 4개 변종(E2B, E4B, 26B MoE, 31B Dense)으로 구성된다.

주목할 수치는 31B Dense 모델이 400B급 모델 벤치마크를 초과했다는 점이다. 256K 컨텍스트 윈도우, 네이티브 비전/오디오 지원, 140개 언어 커버리지까지 갖추면서도 파라미터 수는 10분의 1 이하다.

실무 관점에서 의미 있는 부분은 E2B/E4B 변종의 온디바이스 가능성이다. 라즈베리파이부터 모바일까지 로컬 추론이 현실화되는 범위가 넓어진다. Agentic workflow 특화 설계로, 도구 호출과 멀티스텝 추론 시나리오에서 최적화됐다.

Apache 2.0 라이선스는 상용 배포에 제약이 없어, Meta의 Llama 시리즈와 직접 경쟁하는 포지션이다. 다만 벤치마크 수치와 실제 프로덕션 성능 사이에는 항상 갭이 있으므로, 자체 유스케이스에서의 검증이 필요하다.

MCP 보안 취약점 폭로: 1.5억 다운로드 생태계의 설계 결함

Ox Security가 4월 15일 Anthropic MCP SDK 전체(Python/TypeScript/Java/Rust)의 STDIO RCE 취약점을 공개했다. 핵심은 MCP 서버를 로컬 서브프로세스로 실행할 때 명령어 문자열이 검증 없이 OS에 전달되는 구조다.

영향 범위는 1.5억 다운로드, 7,000+ 공개 서버, 최대 20만 취약 인스턴스, 10개 CVE(9개 Critical)다. Anthropic은 “의도된 설계이며 입력 검증은 개발자 책임”이라는 입장으로 프로토콜 차원 패치를 거절했다.

같은 주에 Palo Alto Unit42도 MCP 샘플링 기반 공격 벡터 3가지(리소스 탈취, 대화 하이재킹, 은밀한 도구 실행)를 공개해, MCP 보안이 복수의 연구 기관에서 동시에 조명받고 있다.

이 주제의 상세 분석은 MCP 보안 1년 — 19개 사건으로 본 4가지 결함 패턴에서 다뤘다.

Docker Model Runner: vLLM 통합으로 로컬 AI 추론 확장

Docker Model Runner가 vLLM 엔진을 통합하면서 로컬 AI 추론의 선택지가 넓어졌다. 이제 llama.cpp(기본), vLLM(NVIDIA GPU), Diffusers(이미지 생성) 3개 엔진을 지원한다.

vLLM 통합의 의미는 NVIDIA GPU 환경에서 프로덕션급 추론 성능을 Docker 네이티브로 얻을 수 있다는 점이다. OCI 레지스트리 기반 모델 배포와 OpenAI 호환 API를 제공해, 기존 컨테이너 워크플로우에 자연스럽게 통합된다.

Ollama가 “간편한 로컬 LLM”의 대명사였다면, Docker Model Runner는 “컨테이너 생태계에 이미 있는 팀”을 타겟으로 한다. 별도 도구 설치 없이 Docker 환경 안에서 모델 관리부터 추론까지 가능하다.

같은 맥락에서 Docker Offload GA도 주목할 만하다. 컨테이너 엔진을 Docker 클라우드로 이전하는 완전관리형 서비스로, bind mount·포트 포워딩·Docker Compose가 로컬과 동일하게 동작한다. SOC 2 인증 인프라 위에서 개발 환경 격리가 필요한 엔터프라이즈에 적합하다.

DevOps & 에이전트 생태계 동향

Databricks Unity AI Gateway — Unity Catalog 거버넌스를 AI 에이전트로 확장했다. MCP 서버/API 접근에 권한, 감사, 정책 제어를 적용한다. 지난 주 Okta가 에이전트를 독립 ID로 관리하기 시작한 것과 맞물려, 에이전트 거버넌스 도구가 연이어 출시되고 있다.

Google Agent Development Kit (adk-python) — 4월 기준 가장 완성도 높은 멀티 에이전트 프레임워크라는 평가. 네이티브 MCP 지원이 포함됐다.

Block Goose → Linux Foundation — Goose 에이전트 프레임워크가 Agentic AI Foundation에 기부됐다. 로컬 퍼스트 아키텍처와 네이티브 MCP 지원이 특징이다. Velero의 CNCF 기부와 마찬가지로, 에이전트 도구도 커뮤니티 거버넌스로 이동하는 흐름이다.

Microsoft markitdown — PDF/DOCX/PPTX/HTML을 LLM용 Markdown으로 변환하는 도구. 첫 주에 3,600+ 스타를 기록했다. 에이전트가 비정형 문서를 처리하는 전처리 파이프라인으로 활용할 수 있다.

OpenAI Responses API 확장 — 셸 도구, 에이전트 실행 루프, 호스팅 컨테이너 워크스페이스, 컨텍스트 압축, 재사용 가능 스킬이 추가됐다.

하이라이트

  • MCP 보안 위기 — 1.5억 다운로드 생태계에 설계 단계부터 내장된 RCE 취약점이 공식화됐다. “개발자 책임”이라는 벤더 입장과 “프로토콜 차원 패치”를 요구하는 연구자 사이의 간극이 좁혀지지 않고 있다
  • Gemma 4 — 31B가 400B급을 이기는 파라미터 효율. Apache 2.0으로 온디바이스부터 클라우드까지 커버한다
  • Docker Model Runner의 진화 — vLLM 통합으로 NVIDIA GPU 환경에서 프로덕션급 로컬 추론이 Docker 네이티브로 가능해졌다
  • K8s v1.36 — HPA scale-to-zero, DRA 개선으로 GPU 리소스 효율화. AI 인프라 플랫폼으로서의 K8s 입지가 강화되고 있다
  • 에이전트 거버넌스 본격화 — Databricks Unity AI Gateway, Okta for AI Agents에 이어 Google ADK, Block Goose 등 에이전트를 프로덕션에서 관리하기 위한 도구가 연이어 등장하고 있다

이어서 읽기