Askimo 앱을 위한 LocalAI 설정
LocalAI 구성
섹션 제목: “LocalAI 구성”Askimo 앱을 자가 호스팅된 LocalAI 인스턴스에 연결하여 AI 인프라를 완전히 제어하세요.
서버 구성
섹션 제목: “서버 구성”- 서버 URL: LocalAI 서버 엔드포인트
- 기본값:
http://localhost:8080 - 원격 서버:
http://your-server:8080
- 기본값:
- API 키: (선택) LocalAI 인스턴스가 인증을 요구하는 경우
- Timeout: 연결 타임아웃 (기본: 120초)
- 사용 가능 모델: LocalAI 배포에서 자동 감지
LocalAI 설정
섹션 제목: “LocalAI 설정”- 공식 가이드를 따라 LocalAI 설치
- LocalAI 서버 시작:
docker run -p 8080:8080 --name local-ai -ti localai/localai:latest- LocalAI 인스턴스에 모델 배포
- Askimo에서 LocalAI 서버 URL 입력
- “Test Connection”을 눌러 확인
공급자 설정 접근
섹션 제목: “공급자 설정 접근”- 메뉴 바 클릭
- “Settings” 선택
- “AI Providers” 탭으로 이동
- 공급자 목록에서 “LocalAI” 선택
키보드 단축키: ⌘ + , (macOS) 또는 Ctrl + , (Windows/Linux) 후 “AI Providers”
배포 옵션
섹션 제목: “배포 옵션”Docker(권장):
docker run -p 8080:8080 \ -v $PWD/models:/models \ localai/localai:latestDocker Compose:
version: '3.8'services: localai: image: localai/localai:latest ports: - "8080:8080" volumes: - ./models:/models environment: - THREADS=4LocalAI 활용 사례
섹션 제목: “LocalAI 활용 사례”엔터프라이즈 배포:
민감한 고객 데이터를 내부 AI 인프라에서 처리컴플라이언스 요구사항:
모든 AI 처리가 통제된 환경 내에서 이루어지도록 보장커스텀 모델:
도메인 특화 작업을 위한 사내 파인튜닝 모델 사용모델 관리
섹션 제목: “모델 관리”모델 설치: LocalAI는 다양한 모델 형식을 지원합니다:
- GGUF/GGML 모델
- PyTorch 모델
- ONNX 모델
- 커스텀 백엔드
모델 갤러리: LocalAI 갤러리에서 모델 설치:
curl http://localhost:8080/models/apply \ -H "Content-Type: application/json" \ -d '{ "id": "model-gallery://llama-2-7b-chat" }'문제 해결
섹션 제목: “문제 해결”연결 불가?
- LocalAI 서버가 실행 중인지 확인
- 방화벽과 네트워크 설정 확인
- 서버 URL과 포트가 올바른지 확인
curl http://localhost:8080/v1/models로 테스트
인증 문제?
- LocalAI가 인증을 요구한다면, 설정에서 API 키 추가
- LocalAI 로그에서 인증 오류 확인
- API 키 형식이 LocalAI 구성과 일치하는지 검증
모델 로딩 실패?
- LocalAI 로그 확인:
docker logs local-ai - 모델 파일이 올바른 디렉터리에 있는지 확인
- 충분한 메모리 확보
- LocalAI 서비스를 재시작
성능 저하?
- GPU 가속 활성화
- 양자화 모델 사용
- THREADS 환경변수 조정
- 다중 인스턴스로 수평 확장 고려
고급 구성
섹션 제목: “고급 구성”인증: LocalAI에서 API 키 인증 구성:
docker run -p 8080:8080 \ -e API_KEY=your-secret-key \ localai/localai:latest그 다음 Askimo 설정에 API 키 추가.
커스텀 백엔드: LocalAI는 특수 모델을 위한 커스텀 백엔드를 지원합니다:
name: custom-modelbackend: custom-backendparameters: model: /path/to/model리소스 제한: 리소스 사용 제어:
docker run -p 8080:8080 \ --memory="8g" \ --cpus="4" \ localai/localai:latest