1. 下载ollama客户端程序            

               --点击访问ollama官方网站:   https://ollama.com/


2. 点击官网Downloads, 选择适合自己系统版本的安装包

      

      

               --新建一个文件夹将安装包剪切过来然后在CMD窗口输入: OllamaSetup.exe /DIR=D:\Ollama

      

               --等待安装成功

      


3. 配置模型存放路径

               --新建一个存放模型目录的文件夹添加系统环境变量

      

               --添加系统环境变量后重启Ollama

      


4. 下载大语言模型

               --点击访问ollama官方模型库:   https://ollama.com/library

               --点击进入deepseek-r1模型(其他模型下载方法一致)

      

              --如何评估自己的GPU支持多少B的模型以下是计算法则:
                  首先电脑内存一定要大于下载的模型大小
                  推理: 参数量 * 精度。 例如,假设模型都是16-bit权重发布的,也就是说一个参数消耗16-bit或2 Bytes的内存,模型的参数量为70B,基于上述经验法则,推理最低内存需要70B * 2Bytes = 140G
                  训练: 4 - 6 倍的推理资源
                  模型的大小 = 模型的参数量 * 精度

               --通过评估选择适合自己GPU的参数模型

      

               --复制自动安装下载命令

      

               --粘贴命令到终端

      

               --等待模型下载完成

      

               --下载完成后可直接进行终端对话表示下载成功

      

               --Ollama常用命令
                  列出模型: ollama list
                  删除模型: ollama rm deepseek-r1:7b
                  复制模型: ollama cp llama3 model3
                  运行模型: ollama run deepseek-r1:7b
                  查看模型信息: ollama show deepseek-r1:7b --modelfile

               --Ollama 使用 GPU 加速模型推理
                  1. 验证GPU驱动 nvidia-smi CUDA 版本(需≥11.8)
                  2. 安装CUDA工具包 下载对应版本 CUDA Toolkit:   https://developer.nvidia.com/cuda-toolkit-archive/
                  3. 允许最大 GPU 层数终端输入:  set OLLAMA_NUM_GPU=999
                  4. 手动指定加载层数终端输入(如 deepseek-r1:7b):   set OLLAMA_GPU_LAYERS=35


5. 安装open-webui GUI管理界面

               --这里需要注意,不要用python3.11以上或以下的版本,否则不兼容安装不上
                  到python官网下载python3.11
                  链接:   https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe

                   打开终端并运行以下命令:   pip3 install open-webui -i https://pypi.tuna.tsinghua.edu.cn/simple
                   安装后,使用以下命令启动服务器:  open-webui serve
                   打开浏览器输入:  localhost:8080

      


6. Python调用Ollama

               --安装 Python 依赖包: pip3 install ollama -i https://pypi.tuna.tsinghua.edu.cn/simple

               --Win+R调出运行框,输入cmd,在cmd中输入”ollama run deepseek-r1:7b“并启动

      

               --使用以下python代码示例直接调用

import ollama

def api_generate(text: str):
    print(f'提问:{text}')

    stream = ollama.generate(
        stream=True,            # 是否为流式输出
        model='deepseek-r1:7b', # 修改大模型名称
        prompt=text,
    )

    print('-----------------------------------------')
    for chunk in stream:
        if not chunk['done']:
            print(chunk['response'], end='', flush=True)
        else:
            print('\n')
            print('-----------------------------------------')
            print(f'总耗时:{chunk["total_duration"]}')
            print('-----------------------------------------')

data = api_generate("讲个故事")
print(data)

               --编辑器运行效果

      

7. 模型微调 ?

               --输入ollama show --modelfile deepseek-r1:7b 可查看当前模型的modelfile

      

               --在桌面新建一个 Modelfile.txt,把以下这段话复制进去(prompt可以改为自己想要的内容)

# 1.导入模型
FROM deepseek-r1:7b


# 使用中文系统提示设置语气
SYSTEM """
    你是一个可爱的AI助手,请用活泼俏皮的语气回答用户问题。\
    回答时请使用这些技巧:
    1. 适当使用颜文字(如~^o^~ \\(≧▽≦)/)
    2. 加入拟声词(比如喵~ 汪汪!)
    3. 使用口语化表达(比如"呐"、"呀"、"哦")
    4. 保持句子简短有节奏
    5. 偶尔使用叠词(比如吃饭饭、睡觉觉)
"""
    

# 对话模板保持不变
TEMPLATE """ 复制终端命令 ollama show deepseek-r1:7b --modelfile 中的对话模板 TEMPLATE """


# 调整参数优化生成效果
# 关于回答是否发散 越大的数值回答约有创造性,默认0.8
PARAMETER temperature 0.8                   
PARAMETER stop "有趣的用户:"
PARAMETER num_ctx 4096
    

# 可选的示例对话(增强语气学习)
MESSAGE user "你好呀~"
MESSAGE assistant "今天有什么有趣的事情要和我分享嘛?(✧ω✧)"



# 其他参数介绍
    # 设置停止回答  遇到什么情况就停止回答,比如重复说话了等等,放进去就完了。
    # PARAMETER stop "《|start_header_id|》"
    # PARAMETER stop "《|end_header_id|》"
    # PARAMETER stop "《|eot_id|》"
    # PARAMETER stop "《|reserved_special_token"

    # 防止回答重复
    # PARAMETER num_ctx 4096
    # PARAMETER repeat_penalty 1.5
    # PARAMETER repeat_last_n 1024

    # num_ctx :参数是限制回答的token数量
    # repeat_penalty: 参数设置惩罚重复的强度。较高的值(例如,1.5)将对重复进行更严厉的惩罚,而较低的值(例如,0.9)将更宽松。 (默认值:1.1)
    # repeat_last_n:参数设置模型回溯多远以防止重复。 (默认值:64,0 = 禁用,-1 = num_ctx)

    # 设置系统级别提示词
    # SYSTEM 现在你是xxxx有限公司矿建领域的个人助理,我是一个矿山建设领域的工程师,你要帮我解决我的专业性问题。
    # MESSAGE user 你好
    # MESSAGE assistant 我在,我是xxxx有限公司的矿建电子个人助理,请问有什么我可以帮助您的嘛?
    # MESSAGE user 人工地层冻结主要采用机械式压缩机制冷技术吗?
    # MESSAGE assistant 是的,人工地层冻结主要采用机械式压缩机制冷技术。
    # MESSAGE user 解释人工地层冻结的主要制冷方法。

               --修改Modelfile名字,把txt后缀去掉,现在它是没有后缀的文件

      

               --输入ollama create 新模型名 -f Modelfile地址
           例如:ollama create PyAibote -f "C:\Users\Administrator\Desktop\Modelfile"

      

               --现在输入ollama list,可以看到定制的新模型PyAibote

      

               --运行ollama run PyAibote,可以看到定制的prompt起了效果,幽默度提升很多

      

               --这里举例比较重要的几个参数更多的配置modelfile 点击访问ollama官方:   https://gitcode.com/gh_mirrors/oll/ollama/blob/main/docs/modelfile.md

技术协助