Ollama 是一个开源软件框架,它主要用于简化在本地环境中部署和管理大型语言模型的过程。这个框架设计了与Docker容器集成的方式,使得用户能够通过简单的命令行操作在自己的计算机上运行大型预训练的语言模型,比如Llama 2或其他兼容模型。

Ollama会将模型的权重、配置和其他必要数据打包成一个Modelfile,以方便用户下载、安装和执行。它还优化了资源使用,特别是对于GPU的支持,这样即便在非云端环境下,用户也能高效地利用本地硬件资源来运行复杂的AI模型。

随着2024年的更新,Ollama不仅支持macOS和Linux系统,也已经扩展到了Windows平台,使得更多用户能够在不同的操作系统上便捷地进行本地化的大规模语言模型部署。此外,Ollama还能够支持像谷歌Gemma这样的开源大语言模型。

安装ollama

ollama官网:https://ollama.com/download

ollama Github:https://github.com/ollama/ollama

在官网可直接下载macOs、Linux、Windows三大系统已编译好的安装包

拉取并运行模型

由于ollama设计了与Docker容器集成的方式所以用户可直接像docker一样从官网云端拉取模型并启动。

查看官网已有模型:https://ollama.com/library

下载并启动(以llama2为例):

ollama run llama2

使用run运行模型时,如果模型未下载则会先下载后自动运行,如果已下载则会直接运行本地已下载好的。这点和docker类似

使用api调用ollama

使用ollama run命令启动模型后就可以直接在命令行进行对话了,如果觉得命令行对话不方便也可以直接使用api的方式进行调用。

请求路径:http://127.0.0.1:11434/api/generate

请求体:

{
    "model":"llama2",
    "prompt":"hello"
}