SLM 모델 조사 보고서Day 1 · Assignment
AI 전문인재 과정 · 2026 Public AI Expert Program · Hugging Face SLM Research Report
Day 1 · Assignment 01

Hugging Face SLM
모델 조사 보고서

기술 분석 · 모델 카드 분해 리포트
Hugging Face에서 1B~7B 규모의 Small Language Model을 선택해 모델 스펙·학습 데이터·튜닝 방식·파라미터 구조·활용 가능성을 분석한 1인 1리포트입니다.
Track
SLM Research
Format
HTML Report
Submission
GitHub Public Repo
AI 전문인재 과정 Day 1 · 1B~7B Small Language Model
Hugging Face Model Card Analysis · Technical Report Template
Student Identity · 수강생 정보
수강생 소속 한국청소년활동진흥원
수강생 이름 장성주
선택 모델명 ibm-granite/granite-4.0-h-tiny
Hugging Face 모델 링크 https://huggingface.co/ibm-granite/granite-4.0-h-tiny

01모델 선택 이유

  • 128K 컨텍스트로 대형 문서 묶음 및 긴 RAG 컨텍스트 지원
  • MoE 활성 파라미터가 약 1B 수준이라, 지원 런타임에서 Dense 7B보다 지연·메모리 효율이 좋을 수 있음
  • Apache-2.0은 조달(procurement)에 친화적
  • Gated 처리되지 않은 공개 모델로 비교적 자유롭게 사용 가능
  • 구조화된 JSON, 도구 호출, RAG 프롬프트를 기본 지원
  • IBM이 데이터 출처/리스크 통제 감사를 돕는 공시 JSON 제공

02모델 기본 정보

모델명granite-4.0-h-tiny
개발 주체IBM Granite
모델 규모7B
라이선스Apache-2.0
모델 유형Instruct

03학습 데이터와 튜닝 방식

1) 사전학습 (Pre-training)

베이스 모델 카드에 따르면 Granite-4.0-H-Tiny-Base는 약 23조(23T) 토큰으로 4단계(Four-Stage) 학습 전략을 통해 처음부터(from scratch) 학습되었습니다.

단계토큰량특징
I15T일반 혼합, 웜업, Power Scheduler 학습률
II5T코드·수학 비중을 늘린 일반 혼합
III2T고품질 데이터, 지수형 LR 감쇠
IV0.5T고품질 데이터, 0까지 선형 LR 감쇠

주요 사전학습 데이터셋과 출처 유형

카테고리예시공개 여부도메인 관련성
GneissWeb, Webhose혼합일반 지식, 언어 커버리지
코드Code Pile, Granite Feedback, opc-annealing-corpus혼합소프트웨어, IT, 엔터프라이즈/코드
법률·특허·금융Free Law, USPTO, EDGAR, SEC Filings, FDIC, 어닝 콜대부분 공개법률, 금융, 규제, 기업
사이버보안사이버보안 웹 컴펜디움공시 기준 공개보안/IT 운영
엔터프라이즈·기술IBM Documentation, ibm.com, Top US Companies혼합 웹 크롤링기업 문서, 회사 데이터
학술TxT360 Papers, 금융 연구 논문, Papers With Code혼합과학·기술 추론
기술·웹 지식Wikipedia-TxT360, 금융 교과서, PG-19, LoC 퍼블릭 도메인 도서, StackExchange혼합지식, 장문, QA
수학·추론·코드OpenMathReasoning, OpenCodeReasoning, 합성 수학/코드 코퍼스혼합추론, 코드 생성
다국어다수의 다국어 코퍼스, 합성 번역혼합다국어 능력 (사전학습 공시에 한국어 일부 언급)

공개 데이터셋 

  • GneissWeb은 IBM Granite가 FineWeb 기반으로 공개한 데이터셋/레시피 아티팩트입니다.
  • LLM360/TxT360 서브셋, LoC-PD-Books, OpenMathReasoning, OpenCodeReasoning, OpenCodeInstruct, Hermes, xLAM, When2Call 등 다수 데이터셋이 Hugging Face URL과 함께 공개되어 있습니다.
  • IBM은 데이터셋의 메타데이터, 출처 분류, 크기, 언어, 합성 여부, 출처 유형이 담긴 머신리더블 공시 JSON을 공개합니다.

비공개 부분 

  • Webhose는 비공개 제3자 상용 데이터로 명시되어 있습니다.
  • 일부 IBM 합성 데이터셋은 외부 접근이 불가능합니다.
  • 일부 내부 수집/획득 휴먼 큐레이션, 정부 도메인, 도구, RAG 데이터셋은 비공개입니다.
  • 정확한 혼합 비율, 샘플링 순서, 필터링 구현, 전체 학습 코드는 모델 카드만으로 완전 재현이 불가능합니다.

2) 사후학습 / 파인튜닝 (Post-training)

인스트럭트 모델은 Granite-4.0-H-Tiny-Base로부터 파인튜닝되었습니다.

방법근거적용 여부
Instruction Tuning모델 카드에서 인스트럭션 데이터셋 기반 파인튜닝 명시적용
SFT (Supervised Fine-Tuning)모델 카드 및 GitHub README에서 SFT 언급적용
강화학습 기반 정렬모델 카드/GitHub에 강화학습 기반 모델 정렬 언급적용
Model Merging모델 카드/GitHub에서 모델 머징 언급적용
RLVR공시에 SQL 검증 가능 보상 데이터 등 RLVR 스타일 데이터셋 언급특정 데이터/유스케이스에 부분 적용

사후학습 데이터 구성

  • 허용적 라이선스의 오픈소스 인스트럭션 데이터셋
  • 내부 합성 데이터셋
  • 사람이 큐레이션한 데이터
  • 도구 호출 데이터: xLAM, When2Call, 함수 라우팅, 비관련성 탐지, 병렬/다중 도구 호출
  • RAG 데이터: 위키피디아·정부 도메인 대상 단일턴/멀티턴 합성 RAG 데이터
  • 코드·수학 인스트럭션/추론 데이터셋
  • 안전성/정렬 데이터

04파라미터 및 구조적 특징

Architecturegranitemoehybrid MoE
Context Length131,072 tokens
Hidden Sizehidden_size = 1536
Layersnum_hidden_layers = 40
Attention HeadsGQA 형식 (Q:12, KV:4)
TokenizerBPE

05모델 파일 구성

파일명크기 (bytes)역할
config.json1,796아키텍처 및 생성 모델 구성
chat_template.jinja6,418시스템/유저/어시스턴트, 도구 호출, 문서/RAG용 채팅 포맷
tokenizer.json7,153,421전체 토크나이저 정의
tokenizer_config.json17,659토크나이저 동작, 특수 토큰, 최대 길이, 패딩 방향
vocab.json2,014,114토큰 어휘
merges.txt916,646BPE 병합 규칙
special_tokens_map.json579BOS/EOS/PAD/FIM/채팅 특수 토큰
model-00001-of-00003.safetensors4,924,822,608가중치 샤드 1
model-00002-of-00003.safetensors4,879,018,632가중치 샤드 2
model-00003-of-00003.safetensors4,074,301,016가중치 샤드 3
model.safetensors.index.json48,924텐서 이름 → 샤드 파일 매핑
model.sig10,740서명/아티팩트 검증 메타데이터

06활용 가능 업무

  • 한국어/영어 행정문서 Q&A (RAG 기반)
  • 민원 분류 및 라우팅
  • 장문 문서 요약
  • JSON 스키마로의 문서 추출
  • 법령/고시/규정/매뉴얼 기반 FAQ 어시스턴트
  • 내부 지식베이스 검색 어시스턴트
  • 워크플로 시스템용 도구 호출 에이전트
  • 콜센터 통화 녹취록 요약 및 분류
  • IT 헬프데스크 자동화
  • 내부 시스템용 코드/SQL 어시스턴트

07한계와 주의사항

  • 학습 데이터 완전 공개 아님 — 일부 비공개·합성·내부 데이터 사용완전 투명 데이터 통과가 아닌 조건부로 취급. 조달 검토에 IBM 공시 활용
  • 한국어가 주(primary) 언어 아님 — 한국어 지원하나 인스트럭션 튜닝은 대부분 영어한국어 Few-shot 프롬프트, RAG grounding, 태스크 평가
  • 새로운 하이브리드 아키텍처 — Mamba2/MoE 지원이 일부 런타임에서 늦을 수 있음도입 전 vLLM/Transformers/TGI/양자화 지원 검증
  • 환각(Hallucination) — 부정확한 출력 가능성검색 기반 grounding, 인용, 답변 거절, 직접 검토 필수
  • 도구 호출 리스크 — 잘못된 API 호출이 부적절한 워크플로 동작을 트리거Allowlist, 검증, 드라이런 모드, 민감 작업에 직접 승인 필수

08종합 의견

공공업무에서는 Apache-2.0 라이선스, 작은 활성 파라미터, 장문 컨텍스트, 도구/RAG 지원, IBM 공시 메타데이터의 조합 덕분에 SLM 모델의 서브에이전트로 활용하기 적합하다고 판단됩니다. 그러나 학습 데이터를 완전히 오픈하지 않았고 한국어 네이티브 모델이 아니기 때문에, 실 사용 시 엔터프라이즈급 다국어 모델로서 사용해야 할 것입니다.

SLM 모델로서 업무에 적용한다면 공공·행정의 법령·규정 등의 한국어 RAG QA, 컨텍스트 요약, 민원 양식 등 문서로부터의 JSON 추출 등을 먼저 시도하여 기관망에서 사용하기 적합한 모델인지 먼저 파악하고 적용하는 작업이 선행되어야 합니다.

09참고 링크

Submission · 제출 정보

GitHub Repository 주소: https://github.com/SJJ-universe/slm-model-report-KYWA-SungJu

파일명 예시: 행안부_김민수_slm_report.html

최종 제출 시 EDIT 버튼을 눌러 모든 항목을 채운 뒤, [HTML 저장] 버튼으로 파일을 다운로드해 GitHub Repository에 업로드하세요. 또는 EDIT하지 않고 동일한 양식 그대로 생성형 AI(Claude·ChatGPT 등)에 첨부해 채움을 요청해도 무방합니다.