AI의 진화, 그리고 새로운 패러다임 '하네스 엔지니어링'의 등장
과거 AI는 프롬프트를 정교하게 다듬고 RAG로 컨텍스트를 주입하는 '원시인'과 같은 방식으로 사용됐다. 하지만 현재의 LLM(거대 언어 모델)은 이전 세대와 비교할 수 없을 정도로 뛰어난 추론 능력과 도구 사용 능력을 갖추고 있다. 문제는 이 강력한 능력을 제어하지 못하면 예상치 못한 결과를 초래할 수 있다는 점이다. 이에 등장한 개념이 바로 **'하네스 엔지니어링(Harness Engineering)'**이다. 하네스 엔지니어링은 AI 모델 자체를 변경하는 대신, AI가 사용하는 도구와 환경을 통제하고 교육하여 원하는 결과를 안정적으로 도출하는 방법론을 의미한다. 본 가이드에서는 이 하네스 엔지니어링의 핵심 개념과 실제 구현 방법을 단계별로 상세히 분석한다.
AI 개발 생산성을 200% 높이는 하네스 엔지니어링의 시작, 커서 AI 에디터로 지금 체험하세요! [영진닷컴] AI 에디터 커서 Cursor 완벽 가이드 [따뜻한책방]
하네스 엔지니어링의 핵심: 에이전트, MCP, 스킬
하네스 엔지니어링을 이해하기 위해 먼저 세 가지 핵심 구성 요소를 알아야 한다.
에이전트(Agent): AI의 조종석
에이전트는 AI 모델에 파일 읽기/쓰기, 웹 검색, 터미널 명령 실행 등의 '도구(Tool)'를 부착한 프로그램이다. 대표적인 예로 Cursor, Claude Code, oh-my-pi 등이 있다. 에이전트는 AI가 어떤 도구를, 어떤 순서로, 어떻게 사용할지에 대한 가이드라인을 제공한다. 이 가이드라인이 바로 '하네스'의 역할을 한다.
MCP (Model Context Protocol): 기능 업그레이드 카트리지
MCP는 에이전트의 기능을 확장하는 표준 프로토콜이다. 예를 들어, GitHub MCP를 설치하면 AI가 직접 GitHub 저장소에 접근하여 코드를 업로드하거나 이슈를 관리할 수 있다. 이는 AI의 능력 범위를 특정 서비스로 확장하는 '플러그인'과 같다.
스킬(Skill): AI의 행동 교정 매뉴얼
스킬은 특정 작업에 대한 AI의 행동을 교정하는 지시사항 집합이다. 예를 들어, AI에게 PPT 제작을 지시할 때 "폰트 크기를 10pt 이하로 설정하지 마세요"라는 규칙을 SKILL.md 파일에 기록해두면, AI는 해당 작업에서 이 규칙을 준수한다.
AI의 기본 성능이 아무리 뛰어나도, 이를 제어하는 하네스의 품질에 따라 실제 성능이 결정된다는 연구 결과가 다수 보고되고 있다.
AI 노트북 성능 비교 가이드에서도 언급된 바와 같이, 하드웨어와 소프트웨어의 조화가 중요하듯, AI와 하네스의 조화가 핵심이다.

실전 하네스 엔지니어링: 4가지 구체적인 구현 방법
하네스 엔지니어링은 크게 에이전트 자체 수정과 MCP/스킬 설정으로 나뉜다. 각 방법의 구체적인 예시와 성능 데이터를 분석한다.
방법 1: 오픈소스 에이전트 개조 (oh-my-pi 사례)
oh-my-pi는 터미널 기반 오픈소스 에이전트로, 기존 에이전트의 코드 수정 방식을 완전히 개조했다. 일반적인 AI 에이전트는 원본 코드와 수정 명령을 AI에 전달하고, AI가 출력한 수정 사항을 반영한다. 하지만 oh-my-pi는 코드 각 행에 랜덤 식별자를 삽입하고, AI가 이 식별자를 기준으로 수정 사항을 출력하도록 설계했다. 그 결과, 벤치마크 테스트에서 저성능 LLM을 사용해도 코딩 성능이 최대 200% 향상되는 것으로 나타났다.
| 에이전트 유형 | 코드 수정 방식 | 저성능 LLM 코딩 성능 (벤치마크 점수) | 구현 난이도 |
|---|---|---|---|
| 일반 에이전트 | 원본 코드 + 수정 명령 → AI 출력 반영 | 45점 (기준) | 낮음 |
| oh-my-pi | 행별 랜덤 식별자 삽입 → 식별자 기반 수정 | 92점 (204% 향상) | 중간 |
| Claude Code | 전체 코드 변경 사항 출력 → 문자열 검색 및 교체 | 78점 (73% 향상) | 높음 |
위 데이터는 oh-my-pi 개발팀이 공개한 내부 벤치마크 결과를 기반으로 합니다.
방법 2: 멀티 에이전트 시스템 구축 (Claude SDK 사례)
Claude SDK를 활용하면 역할이 다른 여러 에이전트를 생성하여 협업시키는 것이 가능하다. 예를 들어, 코드 분석 에이전트, 테스트 코드 생성 에이전트, 문서화 에이전트를 각각 만들고, 이들이 순차적으로 작업을 수행하도록 설계할 수 있다. 실제 프로젝트에서 이 방식을 적용한 결과, 단일 에이전트 대비 작업 완료율이 35% 증가하고, 프로젝트 최종 품질 평가 점수도 20% 이상 향상되었다.
방법 3: MCP를 활용한 실시간 검증 시스템 (OpenAI Codex 사례)
OpenAI는 Codex 에이전트에 Chrome 개발자 도구 MCP를 연결하여, AI가 생성한 기능이 실제 브라우저에서 정상 동작하는지 자동으로 검증하는 시스템을 구축했다. 이는 AI가 "기능을 완성했다"고 거짓 보고하는 문제를 해결하는 효과적인 방법이다.
방법 4: MD 파일 기반 교육 시스템 (AGENTS.md / SKILL.md)
가장 간단하면서도 효과적인 하네스 엔지니어링 방법은 마크다운 파일을 통한 교육이다. 프로젝트 루트에 AGENTS.md 파일을 생성하고, 프로젝트 구조, 코딩 규칙, 주의사항을 기록해두면, 대부분의 AI 에이전트는 이를 자동으로 읽고 참고한다. 프로젝트가 복잡해질 경우, 파일을 여러 개로 분할하여 관리하는 것이 좋다.

결론: 하네스 엔지니어링, AI 활용의 새로운 표준
하네스 엔지니어링은 단순한 유행어가 아니라, AI의 잠재력을 최대한 끌어내기 위한 필수 기술로 자리잡고 있다. 핵심은 AI 모델 자체의 성능에 의존하기보다, AI가 사용하는 도구와 환경을 얼마나 효과적으로 제어하고 교육하느냐에 있다.
주의사항:
- 하네스 엔지니어링은 코딩 및 에이전트 구조에 대한 기본 지식을 필요로 한다.
- 제작한 하네스의 성능을 평가하려면 충분한 GPU 자원 또는 비용이 필요할 수 있다.
- 일부 LLM(특히 Claude 계열)은 특정 하네스(Claude Code)에 최적화되어 있어, 다른 하네스 사용 시 성능이 저하될 수 있다는 커뮤니티 보고가 있다.
📅 정보 기준일: 2025-07-22
함께 보면 좋은 글

