Apple Silicon Mac에서 Gemma 4 E2B 실행해보기
최근 공개된 Gemma 4 모델을 Apple Silicon Mac에서 실행한 과정을 정리한다.
결론부터 말하면, transformers 체크포인트보다 MLX 4bit 변환본을 사용하는 쪽이 훨씬 현실적이었다.
참고 자료:
- Welcome Gemma 4: Frontier multimodal intelligence on device
- google/gemma-4-E2B-it
- mlx-community/gemma-4-e2b-it-4bit
1. 시도 방법, 해결 방법
a. 어떤 모델을 고를지 먼저 판단했다
공식 블로그를 보면 Gemma 4는 여러 크기와 여러 런타임을 지원한다.
하지만, 내 환경은 M1 맥북에어, 램 8GB 였기 때문에, 원본 대형 체크포인트를 그대로 쓰는 것은 부담이 컸다.
그래서 최적화된 모델을 찾아보았고, 애플 실리콘 계열에 최적화된 배포판을 찾을 수 있었다.
- 원본 모델: google/gemma-4-E2B-it
- Apple Silicon 최적화 배포판: mlx-community/gemma-4-e2b-it-4bit
여기서 핵심은 "같은 Gemma 4 E2B 계열이라도 어떤 런타임 포맷으로 배포되었는가"이다.
원본 모델은 보통 transformers 라이브러리로 다루는 체크포인트이고, MLX 버전은 Apple Silicon에서 더 잘 돌도록 변환된 모델이다.
b. 첫 시도에서 생긴 문제
초기에는 mlx-lm 을 일반적인 방식으로 설치해 바로 실행을 시도했었다.
모델 다운로드는 정상적으로 끝났지만, 로드 단계에서 아래 오류가 발생한다.
ValueError: Model type gemma4 not supported.
즉, 모델 파일은 받아졌지만 현재 설치된 mlx-lm 런타임이 gemma4 아키텍처를 아직 모르는 상태이다.
c. 그래서 어떻게 해결했나
해결은 단순했다.
- GitHub 소스코드로 mlx-lm 를 설치
- 다시 실행
코드에서는 gemma4 관련 모듈이 포함되어 있었고, 이후에는 정상적으로 로딩과 생성이 가능했다.
이 과정에서 얻은 인사이트가 있다.
- '모델이 공개되었다'와 '런타임이 그 아키텍처를 지원한다'는 별개이다.
- 새 모델은 런타임 지원 버전이 따라오지 못할 수 있다.
- 특히 공개 직후에는 PyPI 배포버전보다 GitHub 소스코드가 더 빨리 지원할 가능성이 높다.
2. 환경 설정 방법 (https://github.com/ce-dric/gemma4-mlx)
이번에 사용한 환경은 다음과 같다.
- macOS (Apple M1)
- 메모리 8GB
- Python 3
환경 설정은 아래 순서로 진행한다.
a. 가상환경 생성
python3 -m venv .venv
.venv/bin/activate
b. 기본 패키지 업그레이드
python -m pip install -U pip setuptools wheel
c. `mlx-lm` 최신 소스판 설치 (4/7 해결방안)
python -m pip install -U "git+https://github.com/ml-explore/mlx-lm.git"
3. 수행 방법
설치가 끝났으면, 이제 실제 모델을 실행하면 된다.
이 글과 함께 정리한 리포지토리에는 실행용 스크립트가 포함되어 있다.
./run_gemma4.sh "서울을 한 문장으로 소개해줘."
내부적으로는 Python 실행기가 mlx-community/gemma-4-e2b-it-4bit 모델을 로드한다.

추가로 확인된 점:
- 모델 캐시 크기: 약 3.4GB
- 피크 메모리: 약 2.65GB
- 따라서 8GB 메모리 환경에서도 비교적 현실적으로 실행 가능
4. 기타 팁
a. Gemma 4 출력 포맷은 그대로 쓰면 다소 지저분할 수 있다.
Gemma 4는 응답 안에 `thinking` 채널 같은 메타 텍스트가 섞일 수 있다.
그래서 실제 사용 시에는 출력 후처리를 넣어, 최종 답변만 정리해서 보여주는 것이 편하다.
b. HF 토큰이 있으면 더 편하다.
익명 다운로드도 가능하지만, `HF_TOKEN`을 설정해 두면 다운로드 속도나 rate limit 측면에서 더 안정적일 수 있다.
5. 마무리
정리하면, Apple Silicon Mac에서 Gemma 4를 빠르게 써보려면 transformers 체크포인트보다 MLX 4bit 배포판이 훨씬 현실적이다. 다만 런타임이 새 아키텍처를 지원하는지 꼭 확인해야 하고, 공개 직후라면 PyPI 버전보다 GitHub 최신판이 더 잘 동작할 수 있다.
'CSE > LLMs' 카테고리의 다른 글
| 엔비디아 API, 모델을 무료로 사용한다? 진실 혹은 오해 (1) | 2026.05.08 |
|---|---|
| llmfit 설치 및 사용 방법 : Local LLM 중 어떤 걸 내 컴퓨터에서 돌릴 수 있을까? (0) | 2026.03.15 |
| 프로젝트 microGPT - Architecture (0) | 2026.03.02 |
| 프로젝트 microGPT - Dataset, Tokenizer, Autograd, Parameters (0) | 2026.03.01 |
| 프로젝트 microGPT - 소개 (0) | 2026.02.21 |