Guides

Converse com seus Documentos usando Ollama e RAG: IA Local Gratuita para PDFs, Word e Artigos

Askimo RAG with Ollama - Chat with your documents using local AI models

Voce ja quis fazer perguntas sobre seus documentos, artigos de pesquisa ou arquivos de projeto sem precisar fazer upload para a nuvem? O RAG (Recuperacao Aumentada por Geracao) com Ollama no Askimo torna isso possivel. Modelos de IA locais como Llama, Mistral ou Phi podem responder perguntas sobre seus PDFs, documentos Word, notas e qualquer arquivo de texto - tudo rodando completamente na sua maquina.

TL;DR: Instale o Ollama, baixe um modelo como llama3 ou mistral, baixe o Askimo, crie um projeto apontando para sua pasta de documentos e comece a fazer perguntas. Seus arquivos sao indexados localmente e a IA recupera informacoes relevantes para responder suas perguntas. Sem internet apos a configuracao.

Novo no Ollama? Leia nosso guia sobre por que o Askimo e o melhor app de desktop para Ollama.


Por que usar RAG com Ollama para seus documentos?

O problema: a IA nao conhece seus arquivos

Quando o ChatGPT surgiu, era revolucionario para perguntas gerais. Mas ao tentar aplicar IA ao trabalho real, os usuarios encontraram limitacoes:

  • Artigos de pesquisa: Voce nao tem um artigo - tem 20, 50 ou 100+ para sintetizar
  • Politicas da empresa: Dezenas de documentos de politica, manuais e guias
  • Documentacao de projetos: Notas de reuniao, requisitos, especificacoes dispersas
  • Conhecimento pessoal: Anos de notas e pesquisas acumuladas

A IA responde com base em dados de treinamento da internet, nao do que esta nos seus arquivos. Pode inventar informacoes plausively incorretas (alucinacoes), nao consegue buscar em multiplos arquivos simultaneamente, e exige upload de documentos sensiveis para a nuvem.

A solucao: RAG torna a IA local consciente dos documentos

Com RAG, os modelos Ollama se tornam seu assistente de pesquisa pessoal que realmente conhece seus arquivos:

  • Respostas fundamentadas: Referenciam seus documentos reais, nao informacoes genericas
  • Memoria de arquivos: A IA “lembra” de todos os seus documentos e seu conteudo
  • Contexto instantaneo: Recupera automaticamente informacoes relevantes
  • Privacidade completa: Tudo roda localmente - seus arquivos nunca saem da sua maquina

Como o RAG funciona com Ollama

  1. Indexacao: Seus arquivos sao lidos, divididos em pedacos e organizados para busca rapida
  2. Armazenamento: O indice fica na sua maquina (geralmente 10-30% do tamanho dos arquivos)
  3. Recuperacao: Quando voce faz uma pergunta, informacoes relevantes sao encontradas automaticamente
  4. Injecao: Esses trechos sao mostrados a IA antes de ela responder
  5. Geracao: Os modelos Ollama usam esse contexto para dar respostas precisas e especificas

Tudo acontece localmente - sem chamadas a APIs externas.


Casos de uso do mundo real

Pesquisa: Sintese de multiplos artigos

You: "What are the main findings across all my climate research papers?"
Llama 3: Based on your papers, three key findings emerge:
1. Temperature increases correlate with CO2 levels (mentioned in 12 papers)
2. Ocean acidification is accelerating faster than predicted (7 papers)
3. Renewable energy adoption is cost-effective (15 papers with economic data)
Sources: climate-change-2023.pdf, renewable-study.docx, ocean-research.pdf [and 9 more]

Escrita: Gerenciamento de projetos de formato longo

You: "Has Elena ever mentioned being afraid of water in any chapter?"
Mistral: Yes, in chapter 7 Elena mentions she nearly drowned as a child. She also
avoids the harbor scene in chapter 12 saying "I don't do boats." Your character
notes list this as a key personality trait stemming from her childhood incident.
Sources: chapter-07.docx, chapter-12.docx, character-profiles.md

Trabalho: Acesso rapido ao conhecimento da empresa

You: "What's our policy on remote work expenses?"
Llama 3: According to the HR Policy Handbook (updated Jan 2026), employees can
expense up to $500/month for home office equipment and $150/month for internet.
Receipts must be submitted within 30 days. See section 4.2 for full details.
Source: HR-Policies-2026.pdf (page 23)

Configurando RAG com Ollama

Passo 1: Instalar o Ollama

macOS:

Terminal window
brew install ollama

Linux:

Terminal window
curl -fsSL https://ollama.com/install.sh | sh

Windows: Baixe o instalador em ollama.com/download/windows

Teste a instalacao:

Terminal window
ollama run llama3

Passo 2: Baixar um modelo de embeddings

Terminal window
ollama pull nomic-embed-text

Passo 3: Baixar um modelo de chat

Terminal window
# Para 8GB+ de RAM - Rapido e capaz
ollama pull llama3
# Para 16GB+ de RAM - Excelente para perguntas complexas
ollama pull mistral
# Para 4-8GB de RAM - Leve
ollama pull phi3

Passo 4: Instalar o Askimo

Passo 5: Configurar Ollama no Askimo

  1. Abra o Askimo
  2. Va para Configuracoes > Provedores
  3. Ative Ollama
  4. Defina o endpoint como http://localhost:11434
  5. Selecione seu modelo de chat (ex. llama3)
  6. Defina o modelo de embeddings como nomic-embed-text

Passo 6: Criar um projeto com RAG

  1. Clique no icone “Projetos” na barra lateral ou use Cmd/Ctrl + P
  2. Clique em ”+ Novo Projeto”, insira um nome, selecione sua pasta de documentos
  3. Aguarde a indexacao automatica (10-60 segundos)
  4. Crie um novo chat no projeto e comece a fazer perguntas

Dica profissional: Crie multiplos projetos para diferentes propositos - trabalho, pesquisa pessoal, materiais de estudo, etc.


O que e indexado

Formatos incluidos: .pdf, .docx, .doc, .odt, .xlsx, .xls, .ods, .pptx, .ppt, .txt, .md, .rtf, .eml, .msg, .js, .py, .java, .html, .css, .json, .yaml, .xml

Excluidos automaticamente: Arquivos ocultos/temporarios, arquivos maiores de 5 MB, imagens/videos/audio, arquivos comprimidos (.zip, .rar, .tar)


Funcionalidades avancadas do RAG

Multiplos projetos para diferentes topicos

Askimo sidebar showing multiple RAG projects organized by topic: Work Documents, Personal Research, Academic Work, and Creative Projects
  • Documentos de trabalho: Relatorios, notas de reuniao, arquivos de clientes
  • Pesquisa pessoal: Hobbies, interesses, materiais de aprendizado
  • Trabalho academico: Materiais de estudo, artigos de pesquisa, notas de tese
  • Projetos criativos: Escrita, notas de arte, documentos de brainstorming

Atualizacoes automaticas

  • Arquivo modificado: Re-indexa apenas esse arquivo
  • Arquivo adicionado: Adicionado ao indice
  • Arquivo excluido: Removido do indice

Modelos de embeddings personalizados

Terminal window
ollama pull mxbai-embed-large
# Em Configuracoes > Provedores > Ollama, altere o modelo de embeddings

Dicas de desempenho

Memoria do seu computadorModelo recomendadoMelhor para
4-8 GBphi3Perguntas rapidas, documentos simples
8-16 GBllama3Uso geral, pesquisa, escrita
16+ GBmistralAnalise complexa, documentos longos
32+ GBdeepseek-coderGrandes colecoes de documentos

RAG vs. busca tradicional de documentos

FuncionalidadeExplorador de ArquivosLeitor de PDFAskimo RAG com Ollama
Busca por palavra-chaveBasicaRapidaInstantanea em todos os arquivos
Busca semanticaNaoNaoEntende o significado
Linguagem naturalNaoNaoPerguntas em linguagem natural
Entre documentosUm por vezUm por vezBusca em todos os documentos
Geracao de respostasNaoNaoExplica e resume
PrivacidadeLocalLocalTotalmente local

Privacidade e seguranca

  • Indexacao: Feita na sua maquina com Lucene
  • Embeddings: Gerados localmente pelo Ollama
  • Chat: Modelos Ollama rodam no seu hardware
  • Armazenamento: Arquivos de indice ficam em ~/.askimo/

Funciona completamente offline. Nenhum dado sai da sua maquina.


Solucao de problemas

”A IA nao parece conhecer meus documentos”

  1. Verifique se a indexacao foi concluida
  2. Tente re-indexar: Configuracoes do projeto > “Re-indexar Projeto”
  3. Verifique se o tipo de arquivo e compativel (arquivos maiores de 5 MB sao ignorados)
Askimo project settings showing the Re-index Project button to trigger manual re-indexing of documents

Indexacao lenta

  1. Tenha paciencia - a indexacao inicial leva tempo mas ocorre apenas uma vez
  2. Atualizacoes futuras sao muito mais rapidas
  3. Considere organizar em projetos menores se tiver 10.000+ arquivos

Sem memoria suficiente

  1. Use um modelo menor (phi3 em vez de mistral)
  2. Feche outros aplicativos que consomem muita memoria
  3. Reinicie o computador para liberar memoria

Precisa de mais ajuda? Pergunte em nossas discussoes no GitHub.


O que voce pode fazer com RAG

  • Pesquisa: Encontrar informacoes rapidamente em dezenas de artigos
  • Escrita: Acompanhar personagens, enredos e pesquisas para seus livros
  • Aprendizado: Estudar mais efetivamente fazendo perguntas sobre suas notas
  • Trabalho: Encontrar informacoes em relatorios, notas de reuniao e documentacao
  • Pessoal: Organizar receitas, pesquisas de viagem, notas de hobbies

Tudo mantendo seus documentos privados e locais.


Perguntas frequentes

O RAG com Ollama funciona offline? Sim, completamente. Apos baixar os modelos e indexar o projeto, tudo funciona sem internet. Nao ha chamadas a APIs externas em nenhuma etapa.

Meus dados sao privados com RAG e Ollama? Sim. Seus documentos nunca saem da maquina. A indexacao e feita localmente com Apache Lucene, os embeddings sao gerados por um modelo Ollama local e o modelo de chat roda no seu proprio hardware. Nada e enviado a nenhum servico em nuvem.

Quais tipos de arquivo o Askimo RAG suporta? PDFs, documentos Word (.docx, .doc), planilhas (.xlsx, .xls), apresentacoes (.pptx), texto simples, Markdown, RTF, emails e arquivos de codigo-fonte. Arquivos maiores de 5 MB e arquivos binarios sao excluidos automaticamente.

Como o RAG com Ollama difere do upload de um documento no ChatGPT? Tres diferencas-chave: privacidade (arquivos nunca saem da maquina), escala (RAG busca em centenas de documentos simultaneamente) e precisao (respostas baseadas em seus documentos reais, nao em dados de treinamento, reduzindo significativamente alucinacoes).

Quanto tempo leva a indexacao? Para 50-100 documentos, a indexacao inicial leva 10-60 segundos. Depois, apenas arquivos alterados ou novos sao re-indexados automaticamente.

Qual modelo Ollama funciona melhor para RAG? Para a maioria dos usuarios, Llama ou Mistral oferece o melhor equilibrio entre velocidade e qualidade. Com menos de 8 GB de RAM, use Phi. Para embeddings, nomic-embed-text e o padrao recomendado.


Saiba mais sobre Askimo e Ollama


Experimente o Askimo hoje: 👉 https://askimo.chat

Deixe uma estrela no projeto: 👉 https://github.com/haiphucnguyen/askimo

Perguntas ou comentarios? Abra um issue no GitHub ou participe das nossas discussoes da comunidade.

Postagens Relacionadas

Guides

Workflow de pesquisa de investimento com IA: como analisar qualquer ação com IA em múltiplas etapas

Um único prompt de IA para pesquisa de ações não consegue raciocinar bem ao longo de várias etapas. Este guia mostra como criar um workflow de pesquisa de investimento com IA que espelha como analistas profissionais realmente pensam: perfilar o negócio, testar as finanças sob estresse, avaliar riscos e então escrever o relatório. Cada etapa se apoia na anterior, produzindo uma saída específica, rastreável e pronta para exportar como PDF ou Word.

Guides

Personalização de Currículo com IA: adapte seu CV para cada vaga em minutos

Um currículo genérico é ignorado. Recrutadores e sistemas ATS filtram por correspondências exatas de palavras-chave, linguagem específica do cargo e apresentação adaptada de experiência. Este guia mostra como usar o Askimo Plans como ferramenta de personalização de CV: analisar automaticamente a vaga, mapear sua experiência, reescrever as seções relevantes e produzir um currículo pronto para enviar. Nenhum conhecimento de prompt engineering necessário.

Askimo Updates

Atualização do App Askimo: Suporte Multilíngue, Novos Temas e Ferramentas para Desenvolvedores

A grande atualização do App Askimo adiciona suporte multilíngue para mais de 10 idiomas, incluindo inglês, vietnamita, chinês, japonês, coreano, francês, alemão, espanhol, português e italiano. Introduz 18 temas com opções claras, escuras e adaptativas ao sistema. As novas ferramentas para desenvolvedores incluem monitoramento de recursos em tempo real, depuração aprimorada e controles de logs granulares. Melhorias significativas de desempenho, especialmente no Windows, além de melhor tratamento de erros em todas as plataformas.