AI 엔지니어링의 진화와 종착지 — 하네스, 메타 하네스, 그리고 가중치 속으로
- #하네스 엔지니어링
- #메타하네스
- #Meta-Harness
- #피지컬 AI
- #로컬 SLM
- #젠슨 황
- #자동 파인튜닝
- #에이전틱 AI
위 사진은 CES 2025에서 젠슨 황이 보여준 그래프다. 한 장에 NVIDIA가 보는 AI의 흐름이 다 담겨 있다.
Generative AI → Agentic AI → Physical AI
이 세 구간을 따라가다 보면, 지금 우리가 "AI 엔지니어링"이라 부르는 게 어디로 향하고 있는지가 또렷해진다. 결론부터 말하면, 외부에서 모델을 감시하던 시대는 짧고, 흐름은 모델 안쪽으로 빠르게 빨려 들어가고 있다.
이 글은 그 흐름을 4단계로 정리한 마일스톤이다.
1. [현재] 하네스 엔지니어링 — 과도기에 필요한 진짜 엔지니어링
요즘 개발 업계 화두인 하네스 엔지니어링은 한 줄로 말하면 이렇다.
"AI가 규칙을 우회하거나 헛짓거리를 못 하도록, 시스템적인 감시·제동 장치를 구축하는 기술."
왜 갑자기 이게 필요해졌을까. AI의 코드 생성 속도는 폭주하는데, 인간이 일일이 검증·수정하느라 생산성에 병목이 생겼기 때문이다. 그래서 사람들은 인간을 프로세스에서 제외하고, AI 주변에 가드레일을 세우기 시작했다.
- 깃 워크트리 분리
- CI/CD 강제 훅
- 실시간 로그 모니터링
- 도구 권한·격리 (E2B, Modal sandbox)
- trace 관측·자동 평가 (LangSmith, Braintrust, Inspect AI)
특징은 명확하다. 과거의 정밀한 소프트웨어 아키텍처와 달리, 확률 기반으로 튀어 오르는 AI를 길들이기 위해 덫을 놓는 비결정적이고 지저분한 조율 과정이다.
→ 이게 왜 "과도기"냐. 모델 자체가 더 신뢰성 있어질수록, 외부 하네스의 두께는 빠르게 얇아지기 때문이다. 지금이 그 두께가 가장 두꺼운 순간이고, 앞으로 점점 얇아진다.
2. [에이전틱 AI 시대] 메타 하네스 — AI가 AI의 하네스를 짠다
에이전트가 long-horizon task를 자율 수행하면 인간은 모든 step을 검수할 수 없다. 그래서 AI가 AI를 감시·평가·개선하는 레이어 자체가 핵심 인프라가 된다. 이걸 메타 하네스라고 부른다.
상위 AI(총감독)가 하위 AI의 가공되지 않은 실패 로그(trace)를 파일 시스템 단에서 직접 읽는다. 프롬프트 수정 수준을 넘어, **하위 AI를 통제할 규칙 파일과 검증 파이프라인 코드를 직접 새로 짜서 배포하는 폐쇄 루프(Closed Loop)**를 완성한다.
이건 더 이상 가설이 아니다. 2026년 현재 학계에서 정확히 그 이름으로 정립된 프로젝트가 있다.
Stanford IRIS Lab — Meta-Harness
- 논문: Lee, Yoonho et al. "Meta-Harness: End-to-End Optimization of Model Harnesses" (arXiv:2603.28052)
- GitHub: 937 stars, MIT 라이선스
- Proposer Agent(Claude Code)가 파일시스템을 통해 이전 candidate들의 source code·scores·execution traces에 unrestricted access를 가지고, harness 코드 자체를 evolution loop으로 진화시킴
- Terminal-Bench 2.0에서 76.4% (Claude Opus 4.6)
- Text classification에서 SOTA context management 대비 +7.7점 / 4× fewer tokens
같은 결의 동료들도 함께 자라고 있다.
| 도구 | 역할 |
|---|---|
| DSPy (Stanford) | 프롬프트·프로그램 자동 컴파일 최적화 |
| TextGrad | gradient-style prompt optimization |
| Constitutional AI (Anthropic) | 규칙 → 합성 데이터 → 정렬 폐쇄 루프 |
| Meta-Harness (Stanford) | harness 코드 전체를 LLM이 진화 |
→ 에이전틱 시대의 핵심 엔지니어링은 **"하네스를 잘 짜는 일"이 아니라 "하네스를 짜는 시스템을 잘 짜는 일"**로 옮겨간다.
3. [피지컬 AI 시대] 물리 법칙의 지배 — 로컬 SLM으로 흡수
여기서부터가 젠슨 황 그래프의 오른쪽 영역이다. 물리 세계와 상호작용하는 로봇·자율주행이 본격화되면, 클라우드를 거쳐 자아성찰 루프를 돌리는 무겁고 지저분한 메타 하네스 아키텍처는 기술적으로 작동할 수 없다.
이유는 둘이다.
① 0.001초의 시차(Latency) 물리 세계에서는 실시간성이 생명이다. 클라우드에서 로그를 분석하는 순간 이미 로봇은 파손된다.
② 가중치(Weights)의 내재화 디바이스 안에서 독립적으로 도는 초경량 로컬 SLM은 학습 단계에서 이미 물리 법칙과 안전 규칙이 가중치 자체에 박혀서 태어난다. 모델 자체가 곧 하네스 역할을 한다.
이건 NVIDIA가 회사 전략으로 박아놓은 방향이다.
NVIDIA의 Physical AI 스택 (CES 2026)
| 제품 | 역할 |
|---|---|
| Cosmos World Foundation Models | 물리 상호작용 시뮬레이션·합성 데이터 |
| Cosmos Reason 2 | edge planning model. on-device 의사결정 |
| Nemotron 3 Nano | 30B/3B active, 1M context, 4× faster on-device agentic |
| TensorRT Edge-LLM | DRIVE AGX Thor / Jetson Thor 임베디드 추론 |
NVIDIA 공식 블로그의 표현이 인상적이다:
"AI moves off the cloud and into machines that can learn how to think in the physical world."
TechCrunch는 더 직설적이다: "Nvidia wants to be the Android of generalist robotics."
→ 외부에서 둘러싸는 시대는, 적어도 피지컬 영역에선 분명히 끝난다. 하네스가 모델 안쪽으로 흡수된다.
(엄밀히 말하면 신경망은 여전히 확률적이라 "결정론적"이라기보다 "외부 코드 의존성이 최소화된" 영역이라 부르는 게 더 정확하다.)
4. [종착지] 자동 파인튜닝 — 자연어 지침이 곧 모델 업데이트
기술이 더 성숙하면, 외부에서 코드로 AI를 억지로 묶어두던 지저분한 하네스 엔지니어링은 가중치 레벨의 자동 파인튜닝 파이프라인으로 대체된다.
이게 마케팅 카피처럼 들리지만, 2026년 5월 기준 이미 실전 배포 중이다.
"말 한마디로 뇌세포 개조" — 실측 가능한 워크플로우
PremAI 파이프라인
- 자연어로 task 설명 → GPT-4o / Claude가 다양한 예시 생성
- 자동 semantic dedup, length filter, IFD scoring, LLM judge scoring
- 100K raw → 2K~5K high-quality examples
- LoRA/QLoRA + 컨슈머 GPU로 도메인 특화 SLM 생성
Shopify Tangle
- 데이터 수집·훈련·평가·배포를 reproducible workflow로
- intelligent caching — 영향 받은 step만 재실행
Test-time Self-Improvement (arXiv:2510.07841)
- 모델이 production에서 uncertain sample 감지
- self-data augmentation으로 비슷한 예시 자동 생성
- on-the-fly fine-tune, tool-use 벤치마크 평균 +5.48%
경제성
- 7B SLM 서빙 = 70
175B LLM 대비 **1030× 저렴** - GPU·클라우드·에너지 비용 최대 75% 감소
- Llama 3.2 1B = 4bit 양자화로 650MB RAM, iPhone 12+에서 20~30 tokens/sec
- Gemma 3는 270M까지 내려가고, SmolLM2는 135M부터 시작
→ 인간 관리자가 자연어 지침만 던지면, 시스템이 백엔드에서 합성 데이터를 만들고, 몇 분 만에 규칙이 가중치에 박힌 새로운 로컬 SLM이 생성된다. **"말 한마디로 뇌세포 개조"**가 마케팅이 아니라 워크플로우의 정확한 묘사다.
5. 인간의 역할 — 사라지지 않고 추상 레벨이 올라간다
코드를 짜거나 프롬프트를 깎던 개발자의 역할은 줄어든다. 그러나 인간이 사라지는 게 아니라, 위쪽 추상 레벨로 이동한다.
- 데이터 감독관 — 합성 데이터의 정당성 검증
- Constitution 작성자 — 모델에 주입할 규칙·헌법 명세
- Eval set 큐레이터 — 무엇을 잘하는지의 ground truth 제공
- Red team — 모델이 깰 수 있는 방식의 발견
이건 frontier model 영역에서 특히 중요하다. Scalable Oversight라는 학술 분야가 따로 자라고 있다 — Recursive Reward Modeling, Hierarchical Supervision, Weak-to-Strong Generalization 등 모두 *"모델이 강해질수록 인간이 더 정교한 추상 레벨에서 감독해야 한다"*는 방향이다.
→ 즉 실용 영역에선 하네스가 모델 안으로 빨려 들어가지만, 거버넌스 영역에선 인간 감독이 더 정교하게 두꺼워진다. 두 흐름이 동시에 진행된다.
💡 종합 — 흐름은 한 방향이다, 모델 안쪽으로
[하네스 엔지니어링] — 외부에서 둘러싸는 과도기적 꼼수
↓
[메타 하네스 에이전트] — AI가 스스로 규칙 코드를 짠다
↓
[자동 파인튜닝 + 로컬 SLM] — 자연어 지침으로 가중치에 규칙을 박는다
각 단계는 다음을 더 깊은 곳에 내재화한다. 외부 → 메타 → 가중치 → ...
젠슨 황 그래프의 Generative → Agentic → Physical 화살표가 결국 같은 얘기를 다른 축으로 그린 것이다. AI가 진짜 세상으로 내려올수록, 모델 안쪽으로 깊어진다.
외부에서 둘러싸던 시대는 분명히 짧다. 지금 우리가 보는 하네스 엔지니어링은 그 짧은 과도기의 풍경이고, 진짜 게임은 모델 가중치 안쪽에서 벌어진다.
Sources
- Meta-Harness: End-to-End Optimization of Model Harnesses (arXiv:2603.28052)
- stanford-iris-lab/meta-harness — GitHub
- Build Next-Gen Physical AI with Edge-First LLMs — NVIDIA Technical Blog
- Nvidia wants to be the Android of generalist robotics — TechCrunch
- Into the Omniverse: Physical AI Open Models — NVIDIA Blog
- NVIDIA Cosmos: World Foundation Models
- How to Generate Synthetic Training Data for LLM Fine-Tuning (2026) — PremAI
- Flow generation through natural language — Shopify Engineering
- Self-Improving LLM Agents at Test-Time (arXiv:2510.07841)
- Scaling Laws For Scalable Oversight (arXiv:2504.18530)
- On-Device LLMs in 2026: What Changed — Edge AI and Vision Alliance
- 젠슨 황 CES 2025 Physical AI 그래프: kbam.co.kr