Claude Code에서 가장 야심찬 플러그인 중 하나인 superpowers. 단일 스킬이 아니라 14개 스킬로 구성된 완전한 개발 워크플로우다. 스펙 작성 → 계획 → TDD → 서브에이전트 실행 → 코드 리뷰까지 자동화한다.
3가지 태스크를 "그냥 만들어줘" vs "superpowers 워크플로우로 만들어줘"로 비교해봤다.
이 스킬은 뭘 하는가
superpowers는 Jesse Vincent가 만든 오픈소스 플러그인으로, 코딩 에이전트에게 체계적인 소프트웨어 개발 프로세스를 강제한다.
14개 스킬이 만드는 워크플로우
파란색: 설계 | 초록색: 구현 | 주황색: 품질 | 빨간색: 리뷰 | 보라색: 인프라
핵심 사상: "코드를 바로 짜지 마라. 먼저 생각하고, 계획하고, 테스트부터 써라."
Without vs With — 과정의 차이
결과물보다 더 큰 차이는 과정에 있다. 같은 요청을 했을 때 Claude가 어떻게 반응하는지 보자.
Without: 바로 코딩 시작
요청 → 즉시 코딩 → 완료. 약 1분.
With Superpowers: 먼저 질문부터
요청 → 역질문 → 스펙 확인 → 계획 → 코딩 → 셀프 리뷰 → 완료. 약 3분.
Without은 "포모도로 타이머"라는 단어만 보고 자기 판단으로 구현한다. 대부분의 경우 잘 작동하지만, "탭 백그라운드에서 타이머가 멈추는" 같은 엣지 케이스는 요청에 없으면 고려하지 않는다.
With는 코딩 전에 사용자에게 돌아와서 확인한다. 이 과정에서 "백그라운드 정확성" 같은 요구사항이 명시적으로 정의되고, 그에 맞는 기술적 결정(Date.now() 기반 타이밍)이 스펙 단계에서 이루어진다.
테스트 설계
테스트 일시: 2026년 3월 29일 | 모델: Claude Opus 4.6 (1M context)
3가지 태스크에 동일한 비교를 적용:
| # | 태스크 | 유형 |
|---|---|---|
| 1 | 비밀번호 생성기 CLI | Python CLI |
| 2 | 포모도로 타이머 | 웹앱 (HTML) |
| 3 | 인터랙티브 퀴즈 앱 | 웹앱 (HTML) |
- A (Without) — "만들어줘" 한 마디.
- B (With) — superpowers 워크플로우: 스펙 → 계획 → 구현 → 셀프 리뷰.
테스트 #1: 비밀번호 생성기 CLI
| 항목 | Without | With |
|---|---|---|
| 코드 라인 | 176줄 | 132줄 (−25%) |
| 테스트 | 없음 | 28개 (182줄) |
| 강도 계산 | 휴리스틱 | 엔트로피 기반 (수학적) |
| 산출물 | 코드 1개 | 스펙 + 계획 + 코드 + 테스트 + 로그 |
| 소요 시간 | 46초 | 124초 |
관찰: 계획을 먼저 세우니 코드가 25% 짧아졌다. 스펙 단계에서 "YAGNI: 클립보드 복사, 파일 출력, 인터랙티브 모드 — 전부 안 한다"고 명시적으로 결정한 효과.
테스트 #2: 포모도로 타이머
A. Without
B. With Superpowers
| 항목 | Without | With |
|---|---|---|
| 코드 라인 | 372줄 | 451줄 |
| 토큰 | 12,241 | 20,027 |
| 소요 시간 | 66초 | 199초 |
| 타이밍 방식 | requestAnimationFrame | Date.now() 기반 (탭 백그라운드 대응) |
| 클릭 디바운싱 (버튼 연타 방지) | ❌ | ✅ |
관찰: 시각적으로는 비슷하지만, With 버전은 스펙 단계에서 "탭이 백그라운드로 갈 때 타이머가 멈추면 안 된다"는 엣지 케이스를 식별하고 Date.now() 기반 타이밍을 선택했다. 이런 건 "만들어줘"만으로는 나오기 어렵다.
테스트 #3: 인터랙티브 퀴즈
A. Without
B. With Superpowers
| 항목 | Without | With |
|---|---|---|
| 코드 라인 | 479줄 | 486줄 |
| 토큰 | 13,084 | 22,473 |
| 소요 시간 | 67초 | 159초 |
| 시작 화면 | ❌ 바로 1번 문제 | ✅ 웰컴 + Start Quiz 버튼 |
| 셀프 리뷰에서 발견한 버그 | 리뷰 없음 | 3개 발견 및 수정 |
셀프 리뷰에서 잡은 버그 3개
lang="ko"인데 콘텐츠는 영어 — 수정- 결과 화면 점수 도트 애니메이션이 작동 안 함 — opacity 초기값 누락 수정
- 5번째 문제 답변 후 300ms 내 키보드 입력 시 런타임 에러 — race condition 수정
특히 3번은 실제 사용 중에 발견하기 어려운 타이밍 버그다. 코드 리뷰 단계가 없었다면 출시 후에 발견됐을 것.
종합 비교
| 지표 | Without (3개 합산) | With (3개 합산) |
|---|---|---|
| 토큰 | 36,975 | 60,239 (+63%) |
| 소요 시간 | 179초 | 483초 (+170%) |
| 산출물 파일 수 | 3개 (코드만) | 15개 (스펙+계획+코드+테스트+로그) |
| 셀프 리뷰에서 잡은 버그 | 0개 | 3개 (퀴즈 앱) |
| 테스트 | 0개 | 28개 (CLI) |
결론: 쓸 가치가 있나?
프로젝트 크기와 목적에 따라 다르다.
과한 경우
- 일회성 스크립트, 프로토타입
- "빨리 돌아가는 거 보여줘"
- 1분이면 충분한 태스크
가치 있는 경우
- 팀이 유지보수할 프로덕션 코드
- 에이전트가 장시간 자율 작업할 때
- 테스트/문서가 필수인 환경
- 엣지 케이스를 놓치면 안 되는 서비스
Without도 작동하는 좋은 코드를 만든다. 하지만 3가지 테스트에서 공통적으로 나타난 패턴이 있다:
- 계획 → 짧은 코드: CLI 테스트에서 계획을 세우니 코드가 25% 줄었다. "먼저 생각하면 불필요한 코드를 안 쓴다."
- 스펙 → 엣지 케이스 발견: 포모도로에서 "탭 백그라운드 시 타이머 드리프트" 문제를 스펙 단계에서 식별.
- 셀프 리뷰 → 버그 사전 수정: 퀴즈에서 race condition을 출시 전에 잡았다.
한 줄 요약: superpowers는 비용이 2.7배이지만, "작동하는 코드"를 "테스트되고 문서화되고 리뷰된 코드"로 격상시킨다. 도구가 아니라 개발 문화를 주입하는 플러그인.
Member discussion: