
Octopus V2-斯坦福推出的可在设备上运行的大模型
Octopus v2是一个拥有20亿参数的模型,能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4,且将上下文长度减少了95%。与基于RAG的Llama7B模型相比,Octopus v2的速度快了36倍。,Octopus v2是一个拥有20亿参数的模型,能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4,且将上下文长度减少了95%。与基于RAG的Llama7B模型相比,Oc…
Ollama是一个用于在本地计算机上运行大型语言模型的命令行工具,允许用户下载并本地运行像Llama 2、Code Llama和其他模型,并支持自定义和创建自己的模型。该免费开源的项目,目前支持macOS和Linux操作系统,未来还将支持Windows系统。
此外,Ollama还提供了官方的Docker镜像,由此使用Docker容器部署大型语言模型变得更加简单,确保所有与这些模型的交互都在本地进行,无需将私有数据发送到第三方服务。Ollama在macOS和Linux上支持GPU加速,并提供了简单的命令行界面(CLI)以及用于与应用程序交互的REST API。
该工具对于需要在本地机器上运行和实验大语言模型的开发人员或研究人员来说特别有用,无需依赖外部云服务。
Ollma提供一个模型库,用户可以自行选择安装想要运行的模型,目前支持40+的模型,还在持续增加中,以下是可以下载的开源模型示例:
模型 | 参数大小 | 文件大小 | 下载运行命令 |
---|---|---|---|
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Mistral | 7B | 4.1GB | ollama run mistral |
Llama 2 | 7B | 3.8GB | ollama run llama2 |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
Vicuna | 7B | 3.8GB | ollama run vicuna |