Klu raises $1.7M to empower AI Teams  

Qu'est-ce que Ollama?

by Stephen M. Walker II, Co-Fondateur / PDG

Ollama est un outil convivial conçu pour exécuter des modèles de langage de grande taille (LLM) localement sur votre ordinateur. Il est rapide et léger.

Ollama prend en charge une variété de LLM, y compris LLaMA-2, LLaMA non censuré, CodeLLaMA, Falcon, Mistral, le modèle Vicuna, WizardCoder et Wizard non censuré.

Klu Ollama

Modèles Ollama

Ollama est un outil qui vous permet d'exécuter des modèles de langage de grande taille (LLM) open-source localement sur votre machine. Il prend en charge une variété de modèles, y compris Llama 2, Code Llama, et d'autres, et il regroupe les poids du modèle, la configuration et les données dans un seul paquet, défini par un Modelfile.

Les 5 modèles les plus populaires sur Ollama sont :

ModèleDescriptionTéléchargementsMis à jour
llama2Le modèle le plus populaire pour un usage général.200Kil y a 7 jours
mistralLe modèle 7B publié par Mistral AI, mis à jour en version 0.2.110Kil y a 5 jours
codellamaUn grand modèle de langage qui peut utiliser des invites textuelles pour générer et discuter de code.91Kil y a 2 mois
dolphin-mixtralUn modèle non censuré et affiné basé sur le Mixtral MoE qui excelle dans les tâches de codage.76Kil y a 3 jours
llama2-uncensoredModèle Llama 2 non censuré par George Sung et Jarrad Hope.44Kil y a 2 mois

Ollama prend également en charge la création et l'utilisation de modèles personnalisés. Vous pouvez créer un modèle en utilisant un Modelfile, qui comprend le passage du fichier modèle, la création de diverses couches, l'écriture des poids, et enfin, voir un message de succès.

Certains des autres modèles disponibles sur Ollama incluent :

  • Llama2 : Un modèle fondamental.
  • Mistral/Mixtral : Un modèle de 7 milliards de paramètres affiné sur le modèle Mistral 7B en utilisant le jeu de données OpenOrca.
  • Llava : Un modèle multimodal appelé LLaVA (Large Language and Vision Assistant) qui peut interpréter des entrées visuelles.
  • CodeLlama : Un modèle formé à la fois sur le code et le langage naturel en anglais.
  • DeepSeek Coder : Formé à partir de zéro sur 87 % de code et 13 % de langage naturel en anglais.
  • Meditron : Un modèle de langage de grande taille médical open-source adapté de Llama 2 au domaine médical.

Installation et configuration d'Ollama

  1. Téléchargez Ollama depuis le site officiel.
  2. Après le téléchargement, le processus d'installation est simple et similaire à celui d'autres installations logicielles. Pour les utilisateurs de MacOS et Linux, vous pouvez installer Ollama avec une seule commande : curl https://ollama.ai/install.sh | sh.
  3. Une fois installé, Ollama crée une API où il sert le modèle, permettant aux utilisateurs d'interagir directement avec le modèle depuis leur machine locale.

Ollama est compatible avec macOS et Linux, avec un support pour Windows à venir bientôt. Il peut être facilement installé et utilisé pour exécuter divers modèles open-source localement. Vous pouvez sélectionner le modèle que vous souhaitez exécuter localement à partir de la bibliothèque Ollama.

Exécution de modèles à l'aide d'Ollama

Exécuter des modèles à l'aide d'Ollama est un processus simple. Les utilisateurs peuvent télécharger et exécuter des modèles en utilisant la commande run dans le terminal. Si le modèle n'est pas installé, Ollama le téléchargera automatiquement en premier. Par exemple, pour exécuter le modèle Code Llama, vous utiliseriez la commande ollama run codellama.

Klu Ollama Run Model

Utilisation d'Ollama avec Python

Vous pouvez également utiliser Ollama avec Python. LiteLLM est une bibliothèque Python qui fournit une interface unifiée pour interagir avec divers LLM, y compris ceux exécutés par Ollama.

Pour utiliser Ollama avec LiteLLM, vous devez d'abord vous assurer que votre serveur Ollama est en fonctionnement. Ensuite, vous pouvez utiliser la fonction litellm.completion pour faire des requêtes au serveur. Voici un exemple de comment faire :

from litellm import completion

réponse = completion(
    modèle="ollama/llama2",
    messages=[{ "content": "répondez en 20 mots. qui êtes-vous ?", "role": "user"}],
    api_base="http://localhost:11434"
)

print(réponse)

Dans cet exemple, ollama/llama2 est le modèle utilisé, et le paramètre messages contient l'entrée pour le modèle. Le paramètre api_base est l'adresse du serveur Ollama.

Le cas d'utilisation que cela débloque est la capacité d'exécuter des LLM localement, ce qui peut être bénéfique pour plusieurs raisons :

  1. Développement — Itérer rapidement localement sans avoir besoin de déployer des changements de modèle.
  2. Vie privée et sécurité — Exécuter des modèles localement signifie que vos données ne quittent pas votre machine, ce qui peut être crucial si vous travaillez avec des informations sensibles.
  3. Coût — Selon le volume de votre utilisation, exécuter des modèles localement pourrait être plus rentable que de faire des appels API à un service cloud.
  4. Contrôle — Vous avez plus de contrôle sur le modèle et pouvez l'ajuster selon les besoins.

De plus, l'interface unifiée de LiteLLM vous permet de passer facilement entre différents fournisseurs de LLM, ce qui peut être utile si vous souhaitez comparer les performances de différents modèles ou si vous avez des modèles spécifiques que vous préférez pour certaines tâches.

Dans cet exemple, base_url est l'URL où Ollama sert le modèle (par défaut, c'est http://localhost:11434), et modèle est le nom du modèle que vous souhaitez utiliser (dans ce cas, llama2).

Fonctionnalités supplémentaires

L'une des caractéristiques uniques d'Ollama est son soutien à l'importation des formats de fichiers GGUF et GGML dans le Modelfile. Cela signifie que si vous avez un modèle qui n'est pas dans la bibliothèque Ollama, vous pouvez le créer, l'itérer dessus, et le télécharger dans la bibliothèque Ollama pour le partager avec d'autres lorsque vous êtes prêt.

Modèles disponibles

Ollama prend en charge une variété de modèles, et vous pouvez trouver une liste des modèles disponibles sur la page de la bibliothèque de modèles Ollama.

Ollama prend en charge une variété de modèles de langage de grande taille. Voici certains des modèles disponibles sur Ollama :

  1. Mistral — Le modèle Mistral 7B publié par Mistral AI.
  2. Llama2 — Le modèle le plus populaire pour un usage général.
  3. CodeLlama — Un grand modèle de langage qui peut utiliser des invites textuelles pour générer et discuter de code.
  4. Llama2-Uncensored — Modèle Llama 2 non censuré par George Sung et Jarrad Hope.
  5. Orca-Mini — Un modèle polyvalent allant de 3 milliards de paramètres à 70 milliards, adapté pour le matériel de niveau d'entrée.
  6. Vicuna — Modèle de chat d'usage général basé sur Llama et Llama 2 avec des tailles de contexte de 2K à 16K.
  7. Wizard-Vicuna-Uncensored — Wizard Vicuna Uncensored est un modèle de 7B, 13B et 30B paramètres basé sur Llama 2 non censuré par Eric Hartford.
  8. Phind-CodeLlama — Modèle de génération de code basé sur CodeLlama.
  9. Nous-Hermes — Modèles d'usage général basés sur Llama et Llama 2 de Nous Research.
  10. Mistral-OpenOrca — Mistral OpenOrca est un modèle de 7 milliards de paramètres, affiné sur le modèle Mistral 7B en utilisant le jeu de données OpenOrca.
  11. WizardCoder — Modèle de génération de code basé sur Llama axé sur Python.
  12. Wizard-Math — Modèle axé sur les problèmes de mathématiques et de logique.
  13. Modèle Llama 2 affiné — Pour répondre aux questions médicales basées sur un jeu de données médicales open source.
  14. Wizard-Vicuna — Wizard Vicuna est un modèle de 13B paramètres basé sur Llama 2 formé par MelodysDreamj.
  15. Open-Orca-Platypus2 — Fusion du modèle Open Orca OpenChat et du modèle Garage-bAInd Platypus 2. Conçu pour la génération de chat et de code.

Vous pouvez trouver une liste complète des modèles disponibles sur la page de la bibliothèque de modèles Ollama.

N'oubliez pas de vous assurer que vous disposez de suffisamment de RAM pour le modèle que vous exécutez. Par exemple, le modèle Code Llama recommande 8 Go de mémoire pour un modèle de 7 milliards de paramètres, 16 Go pour un modèle de 13 milliards de paramètres et 32 Go pour un modèle de 34 milliards de paramètres.

Conclusion

Ollama est un outil puissant pour exécuter des modèles de langage de grande taille localement, facilitant ainsi pour les utilisateurs l'exploitation de la puissance des LLM. Que vous soyez un développeur cherchant à intégrer l'IA dans vos applications ou un chercheur explorant les capacités des LLM, Ollama offre une plateforme conviviale et flexible pour exécuter ces modèles sur votre machine locale.

More terms

What is spatial-temporal reasoning?

Spatial-temporal reasoning is a cognitive ability that involves the conceptualization of the three-dimensional relationships of objects in space and the mental manipulation of these objects as a series of transformations over time. This ability is crucial in fields such as architecture, engineering, and mathematics, and is also used in everyday tasks like moving through space.

Read more

What is the GAIA Benchmark (General AI Assistants)?

GAIA, or General AI Assistants, is a benchmark designed to evaluate the performance of AI systems. It was introduced to push the boundaries of what we expect from AI, examining not just accuracy but the ability to navigate complex, layered queries. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency.

Read more

It's time to build

Collaborate with your team on reliable Generative AI features.
Want expert guidance? Book a 1:1 onboarding session from your dashboard.

Start for free