AI LLM WebGPU

CanIRun.ai: 내 컴퓨터에서 어떤 AI 모델을 실행할 수 있을까?

CanIRun.ai는 WebGPU를 활용해 브라우저에서 바로 하드웨어 스펙을 분석하고, 로컬에서 실행 가능한 AI 모델을 등급별로 보여주는 유용한 도구입니다.

d

devfreshi85

Author

Published

Mar 16, 2026

들어가며

“내 GPU로 Llama 3.1 8B를 돌릴 수 있을까? 성능은 어느 정도 나올까?”

로컬 AI 모델을 실행해보고 싶을 때 가장 먼저 떠오르는 질문입니다. VRAM이 충분한지, 어느 정도 속도가 나올지, 어떤 모델이 내 하드웨어에 적합한지 - 이 모든 것을 한 번에 확인할 수 있는 도구가 있습니다.

CanIRun.ai는 접속하는 즉시 내 GPU를 분석하고, 어떤 AI 모델을 실행할 수 있는지, 예상 성능(토큰/초)은 얼마나 나오는지 등급별로 보여줍니다. 별도 설치 없이 브라우저만 있으면 1초 만에 결과를 확인할 수 있습니다.

CanIRun.ai란?

CanIRun.ai는 내 GPU에서 어떤 AI 모델을 실행할 수 있는지, 그리고 예상 성능은 어느 정도인지 즉시 확인해주는 웹 도구입니다.

접속하면 WebGPU를 통해 하드웨어를 자동 분석하고, 70개 이상의 AI 모델 중 내 컴퓨터에서 실행 가능한 모델을 S~F 등급으로 분류해 보여줍니다. 각 모델마다 예상 속도(tok/s), 메모리 요구량, 지원 양자화 옵션까지 한눈에 확인할 수 있습니다.

스페인의 개발자 midudev가 만들었으며, llama.cpp, Ollama, LM Studio 등의 데이터를 기반으로 정확한 모델별 요구 사양을 산출합니다.

CanIRun.ai 메인 화면 CanIRun.ai 메인 화면 - 실행 가능한 모델을 등급별로 표시 (이미지 출처: canirun.ai)

핵심 기능

1. WebGPU 기반 하드웨어 분석

별도의 프로그램 설치 없이 브라우저에서 WebGPU API를 통해 하드웨어 스펙을 추정합니다. GPU 메모리, 연산 능력 등을 분석하여 모델 실행 가능성을 판단합니다.

주의: 브라우저 API 기반 추정이므로 실제 스펙과 차이가 있을 수 있습니다. 보다 정확한 결과를 위해서는 Chrome이나 Edge 등 WebGPU를 완전히 지원하는 최신 브라우저를 사용하는 것이 좋습니다.

2. 등급별 모델 분류

모델을 6단계 등급으로 분류하여 직관적으로 보여줍니다:

등급 상태 설명
S Runs great 완벽하게 실행, 최적의 성능
A Runs well 원활하게 실행
B Decent 무난하게 실행
C Tight fit 메모리가 빠듯함
D Barely runs 겨우 실행 가능
F Too heavy 실행 불가

3. 상세 모델 정보

각 모델마다 다음 정보를 제공합니다:

  • 메모리 요구량: Q2_K부터 F16까지 다양한 양자화 레벨
  • 컨텍스트 길이: 지원하는 최대 토큰 수
  • 예상 속도: 초당 토큰 생성 수 (tok/s)
  • 아키텍처: Dense 또는 MoE (Mixture of Experts)
  • 특화 분야: chat, code, reasoning, vision 등

3. 상세 모델 정보

지원 모델 목록

CanIRun.ai는 70개 이상의 오픈웨이트 AI 모델을 지원합니다. 주요 모델들을 살펴보겠습니다.

초소형 모델 (1B 이하) - S등급

1GB 미만의 메모리로 실행 가능한 초경량 모델들입니다:

모델 파라미터 메모리 속도 특징
Qwen 3.5 0.8B 0.8B 0.5 GB ~70 tok/s 엣지 디바이스용
Llama 3.2 1B 1B 0.5 GB ~70 tok/s Meta의 최소형
Gemma 3 1B 1B 0.5 GB ~70 tok/s 구글의 온디바이스용
TinyLlama 1.1B 1.1B 0.6 GB ~58 tok/s 커뮤니티 모델

소형 모델 (1.5B-4B) - A/B등급

일반적인 노트북에서도 실행 가능한 실용적인 모델들입니다:

모델 파라미터 메모리 속도 특징
Qwen 2.5 Coder 1.5B 1.5B 0.8 GB ~44 tok/s 코딩 특화
DeepSeek R1 1.5B 1.5B 0.8 GB ~44 tok/s 추론 증류
Llama 3.2 3B 3B 1.5 GB ~23 tok/s 모바일용
Phi-3.5 Mini 3.8B 1.9 GB ~18 tok/s 장문 컨텍스트
Gemma 3 4B 4B 2 GB ~18 tok/s 멀티모달

중형 모델 (7B-14B) - C/D등급

일반적인 게이밍 GPU나 고성능 노트북에서 실행 가능한 모델들입니다:

모델 파라미터 메모리 속도 특징
Mistral 7B v0.3 7B 3.6 GB ~10 tok/s 고품질 범용
Qwen 2.5 7B 7B 3.6 GB ~10 tok/s 다국어/코딩
Llama 3.1 8B 8B 4.1 GB ~9 tok/s 품질/속도 균형
Gemma 2 9B 9B 4.6 GB ~8 tok/s 구글 중형 최고
Phi-4 14B 14B 7.2 GB 0 tok/s 추론 특화

대형 모델 (24B 이상) - F등급

고성능 워크스테이션이나 서버급 하드웨어가 필요한 모델들입니다:

모델 파라미터 메모리 특징
Mistral Small 3.1 24B 24B 12.3 GB 멀티모달
Gemma 3 27B 27B 13.8 GB 구글 플래그십
Qwen 2.5 Coder 32B 32B 16.4 GB 최고 코딩 모델
Llama 3.3 70B 70B 35.9 GB 70B급 최고
DeepSeek R1 671B 343.7 GB MoE 추론 거대
DeepSeek V3.2 685B 350.9 GB SOTA MoE
Kimi K2 1T 512.2 GB 1조 파라미터

양자화 이해하기

CanIRun.ai는 다양한 양자화 레벨을 보여줍니다. 양자화는 모델의 정밀도를 낮춰 메모리 사용량을 줄이는 기법입니다.

GGUF 양자화 레벨

레벨 설명 품질 메모리
Q2_K 2비트 낮음 최소
Q3_K_M 3비트 중간 보통 적음
Q4_K_M 4비트 중간 양호 보통
Q5_K_M 5비트 좋음 보통+
Q6_K 6비트 매우 좋음 많음
Q8_0 8비트 우수 많음
F16 16비트 원본 최대

일반적으로 Q4_K_M이 품질과 메모리의 균형점입니다. 메모리가 충분하다면 Q5_K_M이나 Q6_K를, 부족하다면 Q3_K_M을 고려해보세요.

활용 방법

1. 사이트 접속

canirun.ai에 접속하면 자동으로 하드웨어 분석이 시작됩니다. WebGPU를 지원하는 브라우저(Chrome, Edge 등)를 사용하세요.

2. 모델 탐색

상단의 등급 필터(S, A, B, C, D, F)를 사용하여 실행 가능한 모델을 빠르게 확인할 수 있습니다. 검색 기능으로 특정 모델이나 제공사(Meta, Google, Alibaba 등)를 필터링할 수도 있습니다.

3. 모델 선택

관심 있는 모델을 클릭하면 상세 정보를 확인할 수 있습니다. 메모리 요구량, 예상 속도, 지원하는 양자화 옵션 등을 확인하고 적절한 버전을 선택하세요.

4. 모델 다운로드

CanIRun.ai는 모델 데이터를 llama.cpp, Ollama, LM Studio에서 가져옵니다. 선택한 모델은 이 도구들을 통해 다운로드하고 실행할 수 있습니다:

# Ollama 예시
ollama run llama3.2:3b

# LM Studio에서는 GUI로 모델 검색 및 다운로드

아키텍처 이해하기

Dense vs MoE

CanIRun.ai는 모델의 아키텍처도 표시합니다:

Dense (밀집형)

  • 모든 파라미터가 추론 시 활성화
  • 단순하지만 메모리 요구량이 큼
  • 예: Llama 3.1, Gemma 2, Mistral 7B

MoE (Mixture of Experts)

  • 여러 전문가 모델 중 일부만 활성화
  • 적은 활성 파라미터로 높은 성능
  • 예: DeepSeek R1 (37B active / 671B total), Mixtral 8x7B (12.9B active)

MoE 모델은 총 파라미터는 많지만, 실제로 사용되는 파라미터(active params)가 적어 효율적입니다.

주의사항

  1. 추정치: WebGPU 기반 추정이므로 실제 성능과 차이가 있을 수 있습니다.
  2. 컨텍스트: 표시된 메모리는 기본 컨텍스트 기준입니다. 긴 컨텍스트 사용 시 추가 메모리가 필요합니다.
  3. 속도: 토큰 속도는 하드웨어에 따라 크게 달라질 수 있습니다.
  4. GPU 종류: NVIDIA GPU가 일반적으로 가장 호환성이 좋습니다. AMD나 통합 GPU는 제약이 있을 수 있습니다.

마치며

CanIRun.ai는 AI 모델을 로컬에서 실행해보고 싶은 개발자와 사용자에게 매우 유용한 도구입니다. 복잡한 시스템 정보를 확인할 필요 없이, 브라우저만 있으면 어떤 모델을 실행할 수 있는지 즉시 파악할 수 있습니다.

특히 다음 상황에서 유용합니다:

  1. 새 컴퓨터 구매 전: 어떤 GPU가 필요한지 확인
  2. 모델 선택 시: 하드웨어에 맞는 적절한 모델 찾기
  3. 양자화 결정: 메모리 상황에 맞는 양자화 레벨 선택
  4. 성능 예측: 예상 토큰 속도 확인

로컬 AI의 시대가 열리고 있습니다. CanIRun.ai로 당신의 컴퓨터가 어디까지 가능한지 확인해보세요.


참고 자료