llmfit 설치 및 사용 방법 : Local LLM 중 어떤 걸 내 컴퓨터에서 돌릴 수 있을까?
보통 5년 이내의 기술을 최신 기술(SOTA;State-of-the-art)라고 한다. 지금으로부터 5년 전인 2021년에는 LLM 이라는 용어는 주로 Legum Magister에서 온 라틴어로 Master of Laws를 의미했다. (라틴어에서 복수는 두 개의 대문자로 표기하여 Laws를 LL 로 표기)

이렇듯 용어 자체도 최신이며, 최근 몇년 사이에 LLM (Large Language Model) 생태계는 꽤 빠르게 변했다.
초기에는 대부분의 사람들이 OpenAI API 같은 Cloud 모델을 사용했다. (보통은 Chat을 많이들 사용)
즉, 모델은 서버에서 돌고, 우리는 API만 호출하면 그만이였다. 이 방식의 장점은 단순하다. GPU가 필요없고, 모델 관리도 필요 없고, 호출(요청)하면 응답이 온다. 하지만, 시간이 지나면서 몇가지 문제(비용, latency, 개인정보 보안, 벤더 종속)가 계속 이야기되기 시작했다. 그래서 자연스럽게 open weight 모델 쪽으로 관심이 옮겨갔다.
LLaMA, Mistral, Qwen, Gemma, DeepSeek... Open 모델이 늘어나면서 사람들의 관심도도 자연스럽게 바뀌었다.
이걸 내 컴퓨터에서 돌릴 수 있을까?
이 질문 때문에 등장한 기술들도 몇가지 있다. 대표적으로 llama.cpp, GGUF, quantization (Q4,5,8)
이 덕분에 예전에는 데이터 센터에서만 돌리던 모델도 지금은 개인 GPU에서 실행할 수 있게 됐다. 그래서 여러 로컬 LLM 도구들이 등장했다. 예를 들면, Ollama, LM Studio 등이 있다. 여기까지는 꽤 잘 돌아가는 생태계처럼 보인다.
하지만, 실제로 조금 써보면 금방 고민하게 되는 문제는 부딪히는 문제가 하나 있다.
그런데...모델이 너무나도 많다, 어떤걸 써야하지?
현재 HuggingFace에는 LLM 모델이 굉장히 많다.그리고 같은 모델이라도 quantization, context length (ctx_length) 등이 전부 다르다.
모델을 다운로드하고, 실행하고, VRAM 부족하고, 다른 quantization 모델을 다운받고, 다시 실행...
이 과정을 몇번 반복하다보면 생각보다 시간을 꽤 많이 쓰게 된다.
서론이 길었다. 앞선 문제를 해결하고자 나온 프로젝트가 llmfit 이다. 핵심 아이디어는 꽤 단순하다. 모델을 먼저 고르는 것이 아니라 하드웨어를 기준으로 모델을 추천한다.

오늘은 윈도우 컴퓨터 앞에서 블로그 글을 쓰고 있기에, 윈도우를 기준으로 설명한다. 윈도우 패키지 관리도구 중 Scoop 을 설치하자. PowerShell 을 열고 아래의 명령어를 실행한다.
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
Invoke-RestMethod -Uri https://get.scoop.sh | Invoke-Expression
그리고 설치가 완료되면 llmfit을 설치하자.
scoop install llmfit
llmfit 명령어를 사용하면 자동으로 하드웨어를 찾고 모델 제공자를 찾은 뒤 실행된다. Provider, Use Case (General, Chat, Coding) 등 다양한 정렬 기능을 제공하고, / 을 통해 검색도 가능하다.

재미있는 점은 이런 프로젝트가 하나둘씩 등장하면서 LLM 생태계에도 stack 구조가 보이기 시작했다는 것이다.
대략 이런 구조다.
Application
AI agents / RAG / assistants
Platform
Ollama / LM Studio
Runtime
llama.cpp / vLLM
Model
LLaMA / Qwen / Mistral
Hardware
CPU / GPU
그리고 llmfit은 Hardware와 Model 사이에 있는 도구이다. 구조면에서 어떤 모델이 실행 가능한지를 계산하는 레이어라고 볼 수 있다. 그래서 앞으로는 모델, Runtime, platform, Optimization 같은 LLM tooling stack이 더 중요해질 것 같다.
'CSE > LLMs' 카테고리의 다른 글
| 엔비디아 API, 모델을 무료로 사용한다? 진실 혹은 오해 (1) | 2026.05.08 |
|---|---|
| Apple Silicon Mac에서 Gemma 4 E2B 실행해보기 (0) | 2026.04.08 |
| 프로젝트 microGPT - Architecture (0) | 2026.03.02 |
| 프로젝트 microGPT - Dataset, Tokenizer, Autograd, Parameters (0) | 2026.03.01 |
| 프로젝트 microGPT - 소개 (0) | 2026.02.21 |