CanIRun.ai: 내 컴퓨터에서 어떤 AI 모델을 실행할 수 있을까?

들어가며

“내 GPU로 Llama 3.1 8B를 돌릴 수 있을까? 성능은 어느 정도 나올까?”

로컬 AI 모델을 실행해보고 싶을 때 가장 먼저 떠오르는 질문입니다. VRAM이 충분한지, 어느 정도 속도가 나올지, 어떤 모델이 내 하드웨어에 적합한지 - 이 모든 것을 한 번에 확인할 수 있는 도구가 있습니다.

CanIRun.ai는 접속하는 즉시 내 GPU를 분석하고, 어떤 AI 모델을 실행할 수 있는지, 예상 성능(토큰/초)은 얼마나 나오는지 등급별로 보여줍니다. 별도 설치 없이 브라우저만 있으면 1초 만에 결과를 확인할 수 있습니다.

CanIRun.ai란?

CanIRun.ai는 내 GPU에서 어떤 AI 모델을 실행할 수 있는지, 그리고 예상 성능은 어느 정도인지 즉시 확인해주는 웹 도구입니다.

접속하면 WebGPU를 통해 하드웨어를 자동 분석하고, 70개 이상의 AI 모델 중 내 컴퓨터에서 실행 가능한 모델을 S~F 등급으로 분류해 보여줍니다. 각 모델마다 예상 속도(tok/s), 메모리 요구량, 지원 양자화 옵션까지 한눈에 확인할 수 있습니다.

스페인의 개발자 midudev가 만들었으며, llama.cpp, Ollama, LM Studio 등의 데이터를 기반으로 정확한 모델별 요구 사양을 산출합니다.

CanIRun.ai 메인 화면 - 실행 가능한 모델을 등급별로 표시 (이미지 출처: canirun.ai)

핵심 기능

1. WebGPU 기반 하드웨어 분석

별도의 프로그램 설치 없이 브라우저에서 WebGPU API를 통해 하드웨어 스펙을 추정합니다. GPU 메모리, 연산 능력 등을 분석하여 모델 실행 가능성을 판단합니다.

주의: 브라우저 API 기반 추정이므로 실제 스펙과 차이가 있을 수 있습니다. 보다 정확한 결과를 위해서는 Chrome이나 Edge 등 WebGPU를 완전히 지원하는 최신 브라우저를 사용하는 것이 좋습니다.

2. 등급별 모델 분류

모델을 6단계 등급으로 분류하여 직관적으로 보여줍니다:

등급	상태	설명
S	Runs great	완벽하게 실행, 최적의 성능
A	Runs well	원활하게 실행
B	Decent	무난하게 실행
C	Tight fit	메모리가 빠듯함
D	Barely runs	겨우 실행 가능
F	Too heavy	실행 불가

3. 상세 모델 정보

각 모델마다 다음 정보를 제공합니다:

메모리 요구량: Q2_K부터 F16까지 다양한 양자화 레벨
컨텍스트 길이: 지원하는 최대 토큰 수
예상 속도: 초당 토큰 생성 수 (tok/s)
아키텍처: Dense 또는 MoE (Mixture of Experts)
특화 분야: chat, code, reasoning, vision 등

3. 상세 모델 정보

지원 모델 목록

CanIRun.ai는 70개 이상의 오픈웨이트 AI 모델을 지원합니다. 주요 모델들을 살펴보겠습니다.

초소형 모델 (1B 이하) - S등급

1GB 미만의 메모리로 실행 가능한 초경량 모델들입니다:

모델	파라미터	메모리	속도	특징
Qwen 3.5 0.8B	0.8B	0.5 GB	~70 tok/s	엣지 디바이스용
Llama 3.2 1B	1B	0.5 GB	~70 tok/s	Meta의 최소형
Gemma 3 1B	1B	0.5 GB	~70 tok/s	구글의 온디바이스용
TinyLlama 1.1B	1.1B	0.6 GB	~58 tok/s	커뮤니티 모델

소형 모델 (1.5B-4B) - A/B등급

일반적인 노트북에서도 실행 가능한 실용적인 모델들입니다:

모델	파라미터	메모리	속도	특징
Qwen 2.5 Coder 1.5B	1.5B	0.8 GB	~44 tok/s	코딩 특화
DeepSeek R1 1.5B	1.5B	0.8 GB	~44 tok/s	추론 증류
Llama 3.2 3B	3B	1.5 GB	~23 tok/s	모바일용
Phi-3.5 Mini	3.8B	1.9 GB	~18 tok/s	장문 컨텍스트
Gemma 3 4B	4B	2 GB	~18 tok/s	멀티모달

중형 모델 (7B-14B) - C/D등급

일반적인 게이밍 GPU나 고성능 노트북에서 실행 가능한 모델들입니다:

모델	파라미터	메모리	속도	특징
Mistral 7B v0.3	7B	3.6 GB	~10 tok/s	고품질 범용
Qwen 2.5 7B	7B	3.6 GB	~10 tok/s	다국어/코딩
Llama 3.1 8B	8B	4.1 GB	~9 tok/s	품질/속도 균형
Gemma 2 9B	9B	4.6 GB	~8 tok/s	구글 중형 최고
Phi-4 14B	14B	7.2 GB	0 tok/s	추론 특화

대형 모델 (24B 이상) - F등급

고성능 워크스테이션이나 서버급 하드웨어가 필요한 모델들입니다:

모델	파라미터	메모리	특징
Mistral Small 3.1 24B	24B	12.3 GB	멀티모달
Gemma 3 27B	27B	13.8 GB	구글 플래그십
Qwen 2.5 Coder 32B	32B	16.4 GB	최고 코딩 모델
Llama 3.3 70B	70B	35.9 GB	70B급 최고
DeepSeek R1	671B	343.7 GB	MoE 추론 거대
DeepSeek V3.2	685B	350.9 GB	SOTA MoE
Kimi K2	1T	512.2 GB	1조 파라미터

양자화 이해하기

CanIRun.ai는 다양한 양자화 레벨을 보여줍니다. 양자화는 모델의 정밀도를 낮춰 메모리 사용량을 줄이는 기법입니다.

GGUF 양자화 레벨

레벨	설명	품질	메모리
Q2_K	2비트	낮음	최소
Q3_K_M	3비트 중간	보통	적음
Q4_K_M	4비트 중간	양호	보통
Q5_K_M	5비트	좋음	보통+
Q6_K	6비트	매우 좋음	많음
Q8_0	8비트	우수	많음
F16	16비트	원본	최대

일반적으로 Q4_K_M이 품질과 메모리의 균형점입니다. 메모리가 충분하다면 Q5_K_M이나 Q6_K를, 부족하다면 Q3_K_M을 고려해보세요.

활용 방법

1. 사이트 접속

canirun.ai에 접속하면 자동으로 하드웨어 분석이 시작됩니다. WebGPU를 지원하는 브라우저(Chrome, Edge 등)를 사용하세요.

2. 모델 탐색

상단의 등급 필터(S, A, B, C, D, F)를 사용하여 실행 가능한 모델을 빠르게 확인할 수 있습니다. 검색 기능으로 특정 모델이나 제공사(Meta, Google, Alibaba 등)를 필터링할 수도 있습니다.

3. 모델 선택

관심 있는 모델을 클릭하면 상세 정보를 확인할 수 있습니다. 메모리 요구량, 예상 속도, 지원하는 양자화 옵션 등을 확인하고 적절한 버전을 선택하세요.

4. 모델 다운로드

CanIRun.ai는 모델 데이터를 llama.cpp, Ollama, LM Studio에서 가져옵니다. 선택한 모델은 이 도구들을 통해 다운로드하고 실행할 수 있습니다:

# Ollama 예시
ollama run llama3.2:3b

# LM Studio에서는 GUI로 모델 검색 및 다운로드

아키텍처 이해하기

Dense vs MoE

CanIRun.ai는 모델의 아키텍처도 표시합니다:

Dense (밀집형)

모든 파라미터가 추론 시 활성화
단순하지만 메모리 요구량이 큼
예: Llama 3.1, Gemma 2, Mistral 7B

MoE (Mixture of Experts)

여러 전문가 모델 중 일부만 활성화
적은 활성 파라미터로 높은 성능
예: DeepSeek R1 (37B active / 671B total), Mixtral 8x7B (12.9B active)

MoE 모델은 총 파라미터는 많지만, 실제로 사용되는 파라미터(active params)가 적어 효율적입니다.

주의사항

추정치: WebGPU 기반 추정이므로 실제 성능과 차이가 있을 수 있습니다.
컨텍스트: 표시된 메모리는 기본 컨텍스트 기준입니다. 긴 컨텍스트 사용 시 추가 메모리가 필요합니다.
속도: 토큰 속도는 하드웨어에 따라 크게 달라질 수 있습니다.
GPU 종류: NVIDIA GPU가 일반적으로 가장 호환성이 좋습니다. AMD나 통합 GPU는 제약이 있을 수 있습니다.

마치며

CanIRun.ai는 AI 모델을 로컬에서 실행해보고 싶은 개발자와 사용자에게 매우 유용한 도구입니다. 복잡한 시스템 정보를 확인할 필요 없이, 브라우저만 있으면 어떤 모델을 실행할 수 있는지 즉시 파악할 수 있습니다.

특히 다음 상황에서 유용합니다:

새 컴퓨터 구매 전: 어떤 GPU가 필요한지 확인
모델 선택 시: 하드웨어에 맞는 적절한 모델 찾기
양자화 결정: 메모리 상황에 맞는 양자화 레벨 선택
성능 예측: 예상 토큰 속도 확인

로컬 AI의 시대가 열리고 있습니다. CanIRun.ai로 당신의 컴퓨터가 어디까지 가능한지 확인해보세요.

참고 자료