AI 엔지니어링의 진화와 종착지 — 하네스, 메타 하네스, 그리고 가중치 속으로

위 사진은 CES 2025에서 젠슨 황이 보여준 그래프다. 한 장에 NVIDIA가 보는 AI의 흐름이 다 담겨 있다.

Generative AI → Agentic AI → Physical AI

이 세 구간을 따라가다 보면, 지금 우리가 "AI 엔지니어링"이라 부르는 게 어디로 향하고 있는지가 또렷해진다. 결론부터 말하면, 외부에서 모델을 감시하던 시대는 짧고, 흐름은 모델 안쪽으로 빠르게 빨려 들어가고 있다.

이 글은 그 흐름을 4단계로 정리한 마일스톤이다.

1. [현재] 하네스 엔지니어링 — 과도기에 필요한 진짜 엔지니어링

요즘 개발 업계 화두인 하네스 엔지니어링은 한 줄로 말하면 이렇다.

"AI가 규칙을 우회하거나 헛짓거리를 못 하도록, 시스템적인 감시·제동 장치를 구축하는 기술."

왜 갑자기 이게 필요해졌을까. AI의 코드 생성 속도는 폭주하는데, 인간이 일일이 검증·수정하느라 생산성에 병목이 생겼기 때문이다. 그래서 사람들은 인간을 프로세스에서 제외하고, AI 주변에 가드레일을 세우기 시작했다.

깃 워크트리 분리
CI/CD 강제 훅
실시간 로그 모니터링
도구 권한·격리 (E2B, Modal sandbox)
trace 관측·자동 평가 (LangSmith, Braintrust, Inspect AI)

특징은 명확하다. 과거의 정밀한 소프트웨어 아키텍처와 달리, 확률 기반으로 튀어 오르는 AI를 길들이기 위해 덫을 놓는 비결정적이고 지저분한 조율 과정이다.

→ 이게 왜 "과도기"냐. 모델 자체가 더 신뢰성 있어질수록, 외부 하네스의 두께는 빠르게 얇아지기 때문이다. 지금이 그 두께가 가장 두꺼운 순간이고, 앞으로 점점 얇아진다.

2. [에이전틱 AI 시대] 메타 하네스 — AI가 AI의 하네스를 짠다

에이전트가 long-horizon task를 자율 수행하면 인간은 모든 step을 검수할 수 없다. 그래서 AI가 AI를 감시·평가·개선하는 레이어 자체가 핵심 인프라가 된다. 이걸 메타 하네스라고 부른다.

상위 AI(총감독)가 하위 AI의 가공되지 않은 실패 로그(trace)를 파일 시스템 단에서 직접 읽는다. 프롬프트 수정 수준을 넘어, **하위 AI를 통제할 규칙 파일과 검증 파이프라인 코드를 직접 새로 짜서 배포하는 폐쇄 루프(Closed Loop)**를 완성한다.

이건 더 이상 가설이 아니다. 2026년 현재 학계에서 정확히 그 이름으로 정립된 프로젝트가 있다.

Stanford IRIS Lab — Meta-Harness

논문: Lee, Yoonho et al. "Meta-Harness: End-to-End Optimization of Model Harnesses" (arXiv:2603.28052)
GitHub: 937 stars, MIT 라이선스
Proposer Agent(Claude Code)가 파일시스템을 통해 이전 candidate들의 source code·scores·execution traces에 unrestricted access를 가지고, harness 코드 자체를 evolution loop으로 진화시킴
Terminal-Bench 2.0에서 76.4% (Claude Opus 4.6)
Text classification에서 SOTA context management 대비 +7.7점 / 4× fewer tokens

같은 결의 동료들도 함께 자라고 있다.

도구	역할
DSPy (Stanford)	프롬프트·프로그램 자동 컴파일 최적화
TextGrad	gradient-style prompt optimization
Constitutional AI (Anthropic)	규칙 → 합성 데이터 → 정렬 폐쇄 루프
Meta-Harness (Stanford)	harness 코드 전체를 LLM이 진화

→ 에이전틱 시대의 핵심 엔지니어링은 **"하네스를 잘 짜는 일"이 아니라 "하네스를 짜는 시스템을 잘 짜는 일"**로 옮겨간다.

3. [피지컬 AI 시대] 물리 법칙의 지배 — 로컬 SLM으로 흡수

여기서부터가 젠슨 황 그래프의 오른쪽 영역이다. 물리 세계와 상호작용하는 로봇·자율주행이 본격화되면, 클라우드를 거쳐 자아성찰 루프를 돌리는 무겁고 지저분한 메타 하네스 아키텍처는 기술적으로 작동할 수 없다.

이유는 둘이다.

① 0.001초의 시차(Latency) 물리 세계에서는 실시간성이 생명이다. 클라우드에서 로그를 분석하는 순간 이미 로봇은 파손된다.

② 가중치(Weights)의 내재화 디바이스 안에서 독립적으로 도는 초경량 로컬 SLM은 학습 단계에서 이미 물리 법칙과 안전 규칙이 가중치 자체에 박혀서 태어난다. 모델 자체가 곧 하네스 역할을 한다.

이건 NVIDIA가 회사 전략으로 박아놓은 방향이다.

NVIDIA의 Physical AI 스택 (CES 2026)

제품	역할
Cosmos World Foundation Models	물리 상호작용 시뮬레이션·합성 데이터
Cosmos Reason 2	edge planning model. on-device 의사결정
Nemotron 3 Nano	30B/3B active, 1M context, 4× faster on-device agentic
TensorRT Edge-LLM	DRIVE AGX Thor / Jetson Thor 임베디드 추론

NVIDIA 공식 블로그의 표현이 인상적이다:

"AI moves off the cloud and into machines that can learn how to think in the physical world."

TechCrunch는 더 직설적이다: "Nvidia wants to be the Android of generalist robotics."

→ 외부에서 둘러싸는 시대는, 적어도 피지컬 영역에선 분명히 끝난다. 하네스가 모델 안쪽으로 흡수된다.

(엄밀히 말하면 신경망은 여전히 확률적이라 "결정론적"이라기보다 "외부 코드 의존성이 최소화된" 영역이라 부르는 게 더 정확하다.)

4. [종착지] 자동 파인튜닝 — 자연어 지침이 곧 모델 업데이트

기술이 더 성숙하면, 외부에서 코드로 AI를 억지로 묶어두던 지저분한 하네스 엔지니어링은 가중치 레벨의 자동 파인튜닝 파이프라인으로 대체된다.

이게 마케팅 카피처럼 들리지만, 2026년 5월 기준 이미 실전 배포 중이다.

"말 한마디로 뇌세포 개조" — 실측 가능한 워크플로우

PremAI 파이프라인

자연어로 task 설명 → GPT-4o / Claude가 다양한 예시 생성
자동 semantic dedup, length filter, IFD scoring, LLM judge scoring
100K raw → 2K~5K high-quality examples
LoRA/QLoRA + 컨슈머 GPU로 도메인 특화 SLM 생성

Shopify Tangle

데이터 수집·훈련·평가·배포를 reproducible workflow로
intelligent caching — 영향 받은 step만 재실행

Test-time Self-Improvement (arXiv:2510.07841)

모델이 production에서 uncertain sample 감지
self-data augmentation으로 비슷한 예시 자동 생성
on-the-fly fine-tune, tool-use 벤치마크 평균 +5.48%

경제성

7B SLM 서빙 = 70~~175B LLM 대비 **10~~30× 저렴**
GPU·클라우드·에너지 비용 최대 75% 감소
Llama 3.2 1B = 4bit 양자화로 650MB RAM, iPhone 12+에서 20~30 tokens/sec
Gemma 3는 270M까지 내려가고, SmolLM2는 135M부터 시작

→ 인간 관리자가 자연어 지침만 던지면, 시스템이 백엔드에서 합성 데이터를 만들고, 몇 분 만에 규칙이 가중치에 박힌 새로운 로컬 SLM이 생성된다. **"말 한마디로 뇌세포 개조"**가 마케팅이 아니라 워크플로우의 정확한 묘사다.

5. 인간의 역할 — 사라지지 않고 추상 레벨이 올라간다

코드를 짜거나 프롬프트를 깎던 개발자의 역할은 줄어든다. 그러나 인간이 사라지는 게 아니라, 위쪽 추상 레벨로 이동한다.

데이터 감독관 — 합성 데이터의 정당성 검증
Constitution 작성자 — 모델에 주입할 규칙·헌법 명세
Eval set 큐레이터 — 무엇을 잘하는지의 ground truth 제공
Red team — 모델이 깰 수 있는 방식의 발견

이건 frontier model 영역에서 특히 중요하다. Scalable Oversight라는 학술 분야가 따로 자라고 있다 — Recursive Reward Modeling, Hierarchical Supervision, Weak-to-Strong Generalization 등 모두 *"모델이 강해질수록 인간이 더 정교한 추상 레벨에서 감독해야 한다"*는 방향이다.

→ 즉 실용 영역에선 하네스가 모델 안으로 빨려 들어가지만, 거버넌스 영역에선 인간 감독이 더 정교하게 두꺼워진다. 두 흐름이 동시에 진행된다.

💡 종합 — 흐름은 한 방향이다, 모델 안쪽으로

[하네스 엔지니어링] — 외부에서 둘러싸는 과도기적 꼼수
    ↓
[메타 하네스 에이전트] — AI가 스스로 규칙 코드를 짠다
    ↓
[자동 파인튜닝 + 로컬 SLM] — 자연어 지침으로 가중치에 규칙을 박는다

각 단계는 다음을 더 깊은 곳에 내재화한다. 외부 → 메타 → 가중치 → ...

젠슨 황 그래프의 Generative → Agentic → Physical 화살표가 결국 같은 얘기를 다른 축으로 그린 것이다. AI가 진짜 세상으로 내려올수록, 모델 안쪽으로 깊어진다.

외부에서 둘러싸던 시대는 분명히 짧다. 지금 우리가 보는 하네스 엔지니어링은 그 짧은 과도기의 풍경이고, 진짜 게임은 모델 가중치 안쪽에서 벌어진다.