AI 전문인재 과정 · 2026 Public AI Expert Program · Hugging Face SLM Research Report

Day 1 · Assignment 01

Hugging Face SLM
모델 조사 보고서

기술 분석 · 모델 카드 분해 리포트

Hugging Face에서 1B~7B 규모의 Small Language Model을 선택해 모델 스펙·학습 데이터·튜닝 방식·파라미터 구조·활용 가능성을 분석한 1인 1리포트입니다.

Track

SLM Research

Format

HTML Report

Submission

GitHub Public Repo

AI 전문인재 과정 Day 1 · 1B~7B Small Language Model

Hugging Face Model Card Analysis · Technical Report Template

Student Identity · 수강생 정보

수강생 소속 한국청소년활동진흥원

수강생 이름 장성주

선택 모델명 ibm-granite/granite-4.0-h-tiny

Hugging Face 모델 링크 https://huggingface.co/ibm-granite/granite-4.0-h-tiny

01모델 선택 이유

128K 컨텍스트로 대형 문서 묶음 및 긴 RAG 컨텍스트 지원
MoE 활성 파라미터가 약 1B 수준이라, 지원 런타임에서 Dense 7B보다 지연·메모리 효율이 좋을 수 있음
Apache-2.0은 조달(procurement)에 친화적
Gated 처리되지 않은 공개 모델로 비교적 자유롭게 사용 가능
구조화된 JSON, 도구 호출, RAG 프롬프트를 기본 지원
IBM이 데이터 출처/리스크 통제 감사를 돕는 공시 JSON 제공

02모델 기본 정보

모델명	granite-4.0-h-tiny
개발 주체	IBM Granite
모델 규모	7B
라이선스	Apache-2.0
모델 유형	Instruct

03학습 데이터와 튜닝 방식

1) 사전학습 (Pre-training)

베이스 모델 카드에 따르면 Granite-4.0-H-Tiny-Base는 약 23조(23T) 토큰으로 4단계(Four-Stage) 학습 전략을 통해 처음부터(from scratch) 학습되었습니다.

단계	토큰량	특징
I	15T	일반 혼합, 웜업, Power Scheduler 학습률
II	5T	코드·수학 비중을 늘린 일반 혼합
III	2T	고품질 데이터, 지수형 LR 감쇠
IV	0.5T	고품질 데이터, 0까지 선형 LR 감쇠

주요 사전학습 데이터셋과 출처 유형

카테고리	예시	공개 여부	도메인 관련성
웹	GneissWeb, Webhose	혼합	일반 지식, 언어 커버리지
코드	Code Pile, Granite Feedback, opc-annealing-corpus	혼합	소프트웨어, IT, 엔터프라이즈/코드
법률·특허·금융	Free Law, USPTO, EDGAR, SEC Filings, FDIC, 어닝 콜	대부분 공개	법률, 금융, 규제, 기업
사이버보안	사이버보안 웹 컴펜디움	공시 기준 공개	보안/IT 운영
엔터프라이즈·기술	IBM Documentation, ibm.com, Top US Companies	혼합 웹 크롤링	기업 문서, 회사 데이터
학술	TxT360 Papers, 금융 연구 논문, Papers With Code	혼합	과학·기술 추론
기술·웹 지식	Wikipedia-TxT360, 금융 교과서, PG-19, LoC 퍼블릭 도메인 도서, StackExchange	혼합	지식, 장문, QA
수학·추론·코드	OpenMathReasoning, OpenCodeReasoning, 합성 수학/코드 코퍼스	혼합	추론, 코드 생성
다국어	다수의 다국어 코퍼스, 합성 번역	혼합	다국어 능력 (사전학습 공시에 한국어 일부 언급)

공개 데이터셋

GneissWeb은 IBM Granite가 FineWeb 기반으로 공개한 데이터셋/레시피 아티팩트입니다.
LLM360/TxT360 서브셋, LoC-PD-Books, OpenMathReasoning, OpenCodeReasoning, OpenCodeInstruct, Hermes, xLAM, When2Call 등 다수 데이터셋이 Hugging Face URL과 함께 공개되어 있습니다.
IBM은 데이터셋의 메타데이터, 출처 분류, 크기, 언어, 합성 여부, 출처 유형이 담긴 머신리더블 공시 JSON을 공개합니다.

비공개 부분

Webhose는 비공개 제3자 상용 데이터로 명시되어 있습니다.
일부 IBM 합성 데이터셋은 외부 접근이 불가능합니다.
일부 내부 수집/획득 휴먼 큐레이션, 정부 도메인, 도구, RAG 데이터셋은 비공개입니다.
정확한 혼합 비율, 샘플링 순서, 필터링 구현, 전체 학습 코드는 모델 카드만으로 완전 재현이 불가능합니다.

2) 사후학습 / 파인튜닝 (Post-training)

인스트럭트 모델은 Granite-4.0-H-Tiny-Base로부터 파인튜닝되었습니다.

방법	근거	적용 여부
Instruction Tuning	모델 카드에서 인스트럭션 데이터셋 기반 파인튜닝 명시	적용
SFT (Supervised Fine-Tuning)	모델 카드 및 GitHub README에서 SFT 언급	적용
강화학습 기반 정렬	모델 카드/GitHub에 강화학습 기반 모델 정렬 언급	적용
Model Merging	모델 카드/GitHub에서 모델 머징 언급	적용
RLVR	공시에 SQL 검증 가능 보상 데이터 등 RLVR 스타일 데이터셋 언급	특정 데이터/유스케이스에 부분 적용

사후학습 데이터 구성

허용적 라이선스의 오픈소스 인스트럭션 데이터셋
내부 합성 데이터셋
사람이 큐레이션한 데이터
도구 호출 데이터: xLAM, When2Call, 함수 라우팅, 비관련성 탐지, 병렬/다중 도구 호출
RAG 데이터: 위키피디아·정부 도메인 대상 단일턴/멀티턴 합성 RAG 데이터
코드·수학 인스트럭션/추론 데이터셋
안전성/정렬 데이터

04파라미터 및 구조적 특징

Architecture	granitemoehybrid MoE
Context Length	131,072 tokens
Hidden Size	hidden_size = 1536
Layers	num_hidden_layers = 40
Attention Heads	GQA 형식 (Q:12, KV:4)
Tokenizer	BPE

05모델 파일 구성

파일명	크기 (bytes)	역할
config.json	1,796	아키텍처 및 생성 모델 구성
chat_template.jinja	6,418	시스템/유저/어시스턴트, 도구 호출, 문서/RAG용 채팅 포맷
tokenizer.json	7,153,421	전체 토크나이저 정의
tokenizer_config.json	17,659	토크나이저 동작, 특수 토큰, 최대 길이, 패딩 방향
vocab.json	2,014,114	토큰 어휘
merges.txt	916,646	BPE 병합 규칙
special_tokens_map.json	579	BOS/EOS/PAD/FIM/채팅 특수 토큰
model-00001-of-00003.safetensors	4,924,822,608	가중치 샤드 1
model-00002-of-00003.safetensors	4,879,018,632	가중치 샤드 2
model-00003-of-00003.safetensors	4,074,301,016	가중치 샤드 3
model.safetensors.index.json	48,924	텐서 이름 → 샤드 파일 매핑
model.sig	10,740	서명/아티팩트 검증 메타데이터

06활용 가능 업무

한국어/영어 행정문서 Q&A (RAG 기반)
민원 분류 및 라우팅
장문 문서 요약
JSON 스키마로의 문서 추출
법령/고시/규정/매뉴얼 기반 FAQ 어시스턴트
내부 지식베이스 검색 어시스턴트
워크플로 시스템용 도구 호출 에이전트
콜센터 통화 녹취록 요약 및 분류
IT 헬프데스크 자동화
내부 시스템용 코드/SQL 어시스턴트

07한계와 주의사항

학습 데이터 완전 공개 아님 — 일부 비공개·합성·내부 데이터 사용완전 투명 데이터 통과가 아닌 조건부로 취급. 조달 검토에 IBM 공시 활용
한국어가 주(primary) 언어 아님 — 한국어 지원하나 인스트럭션 튜닝은 대부분 영어한국어 Few-shot 프롬프트, RAG grounding, 태스크 평가
새로운 하이브리드 아키텍처 — Mamba2/MoE 지원이 일부 런타임에서 늦을 수 있음도입 전 vLLM/Transformers/TGI/양자화 지원 검증
환각(Hallucination) — 부정확한 출력 가능성검색 기반 grounding, 인용, 답변 거절, 직접 검토 필수
도구 호출 리스크 — 잘못된 API 호출이 부적절한 워크플로 동작을 트리거Allowlist, 검증, 드라이런 모드, 민감 작업에 직접 승인 필수

08종합 의견

공공업무에서는 Apache-2.0 라이선스, 작은 활성 파라미터, 장문 컨텍스트, 도구/RAG 지원, IBM 공시 메타데이터의 조합 덕분에 SLM 모델의 서브에이전트로 활용하기 적합하다고 판단됩니다. 그러나 학습 데이터를 완전히 오픈하지 않았고 한국어 네이티브 모델이 아니기 때문에, 실 사용 시 엔터프라이즈급 다국어 모델로서 사용해야 할 것입니다.

SLM 모델로서 업무에 적용한다면 공공·행정의 법령·규정 등의 한국어 RAG QA, 컨텍스트 요약, 민원 양식 등 문서로부터의 JSON 추출 등을 먼저 시도하여 기관망에서 사용하기 적합한 모델인지 먼저 파악하고 적용하는 작업이 선행되어야 합니다.

09참고 링크

https://www.ibm.com/granite/docs/
https://github.com/ibm-granite/granite-4.0-language-models
https://huggingface.co/datasets/ibm-granite/GneissWeb

Submission · 제출 정보

GitHub Repository 주소: https://github.com/SJJ-universe/slm-model-report-KYWA-SungJu

파일명 예시: 행안부_김민수_slm_report.html

최종 제출 시 EDIT 버튼을 눌러 모든 항목을 채운 뒤, [HTML 저장] 버튼으로 파일을 다운로드해 GitHub Repository에 업로드하세요. 또는 EDIT하지 않고 동일한 양식 그대로 생성형 AI(Claude·ChatGPT 등)에 첨부해 채움을 요청해도 무방합니다.