Demo

1. 下载ollama客户端程序

--点击访问ollama官方网站: https://ollama.com/

2. 点击官网Downloads, 选择适合自己系统版本的安装包

--新建一个文件夹将安装包剪切过来然后在CMD窗口输入： OllamaSetup.exe /DIR=D:\Ollama

--等待安装成功

3. 配置模型存放路径

--新建一个存放模型目录的文件夹添加系统环境变量

--添加系统环境变量后重启Ollama

4. 下载大语言模型

--点击访问ollama官方模型库: https://ollama.com/library

--点击进入deepseek-r1模型（其他模型下载方法一致）

              --如何评估自己的GPU支持多少B的模型以下是计算法则:
                  首先电脑内存一定要大于下载的模型大小
                  推理: 参数量 * 精度。例如，假设模型都是16-bit权重发布的，也就是说一个参数消耗16-bit或2 Bytes的内存，模型的参数量为70B，基于上述经验法则，推理最低内存需要70B * 2Bytes = 140G
                  训练: 4 - 6 倍的推理资源
                  模型的大小 = 模型的参数量 * 精度

--通过评估选择适合自己GPU的参数模型

--复制自动安装下载命令

--粘贴命令到终端

--等待模型下载完成

--下载完成后可直接进行终端对话表示下载成功

               --Ollama常用命令
                  列出模型: ollama list
                  删除模型: ollama rm deepseek-r1:7b
                  复制模型: ollama cp llama3 model3
                  运行模型: ollama run deepseek-r1:7b
                  查看模型信息: ollama show deepseek-r1:7b --modelfile

               --Ollama 使用 GPU 加速模型推理
                  1. 验证GPU驱动 nvidia-smi CUDA 版本（需≥11.8）
                  2. 安装CUDA工具包下载对应版本 CUDA Toolkit:   https://developer.nvidia.com/cuda-toolkit-archive/
                  3. 允许最大 GPU 层数终端输入：  set OLLAMA_NUM_GPU=999
                  4. 手动指定加载层数终端输入（如 deepseek-r1:7b）:   set OLLAMA_GPU_LAYERS=35

5. 安装open-webui GUI管理界面

               --这里需要注意，不要用python3.11以上或以下的版本，否则不兼容安装不上
                  到python官网下载python3.11
                  链接：   https://www.python.org/ftp/python/3.11.9/python-3.11.9-amd64.exe

                   打开终端并运行以下命令：   pip3 install open-webui -i https://pypi.tuna.tsinghua.edu.cn/simple
                   安装后，使用以下命令启动服务器：  open-webui serve
                   打开浏览器输入：  localhost:8080

6. Python调用Ollama

--安装 Python 依赖包： pip3 install ollama -i https://pypi.tuna.tsinghua.edu.cn/simple

--Win+R调出运行框，输入cmd，在cmd中输入”ollama run deepseek-r1:7b“并启动

--使用以下python代码示例直接调用

import ollama

def api_generate(text: str):
    print(f'提问：{text}')

    stream = ollama.generate(
        stream=True,            # 是否为流式输出
        model='deepseek-r1:7b', # 修改大模型名称
        prompt=text,
    )

    print('-----------------------------------------')
    for chunk in stream:
        if not chunk['done']:
            print(chunk['response'], end='', flush=True)
        else:
            print('\n')
            print('-----------------------------------------')
            print(f'总耗时：{chunk["total_duration"]}')
            print('-----------------------------------------')

data = api_generate("讲个故事")
print(data)

--编辑器运行效果

7. 模型微调？

--输入ollama show --modelfile deepseek-r1:7b 可查看当前模型的modelfile

--在桌面新建一个 Modelfile.txt，把以下这段话复制进去（prompt可以改为自己想要的内容）

# 1.导入模型
FROM deepseek-r1:7b


# 使用中文系统提示设置语气
SYSTEM """
    你是一个可爱的AI助手，请用活泼俏皮的语气回答用户问题。\
    回答时请使用这些技巧：
    1. 适当使用颜文字（如~^o^~ \\(≧▽≦)/）
    2. 加入拟声词（比如喵~ 汪汪！）
    3. 使用口语化表达（比如"呐"、"呀"、"哦"）
    4. 保持句子简短有节奏
    5. 偶尔使用叠词（比如吃饭饭、睡觉觉）
"""
    

# 对话模板保持不变
TEMPLATE """ 复制终端命令 ollama show deepseek-r1:7b --modelfile 中的对话模板 TEMPLATE """


# 调整参数优化生成效果
# 关于回答是否发散 越大的数值回答约有创造性，默认0.8
PARAMETER temperature 0.8                   
PARAMETER stop "有趣的用户："
PARAMETER num_ctx 4096
    

# 可选的示例对话（增强语气学习）
MESSAGE user "你好呀~"
MESSAGE assistant "今天有什么有趣的事情要和我分享嘛？(✧ω✧)"



# 其他参数介绍
    # 设置停止回答  遇到什么情况就停止回答，比如重复说话了等等，放进去就完了。
    # PARAMETER stop "《|start_header_id|》"
    # PARAMETER stop "《|end_header_id|》"
    # PARAMETER stop "《|eot_id|》"
    # PARAMETER stop "《|reserved_special_token"

    # 防止回答重复
    # PARAMETER num_ctx 4096
    # PARAMETER repeat_penalty 1.5
    # PARAMETER repeat_last_n 1024

    # num_ctx ：参数是限制回答的token数量
    # repeat_penalty： 参数设置惩罚重复的强度。较高的值（例如，1.5）将对重复进行更严厉的惩罚，而较低的值（例如，0.9）将更宽松。 （默认值：1.1）
    # repeat_last_n：参数设置模型回溯多远以防止重复。 （默认值：64，0 = 禁用，-1 = num_ctx）

    # 设置系统级别提示词
    # SYSTEM 现在你是xxxx有限公司矿建领域的个人助理，我是一个矿山建设领域的工程师，你要帮我解决我的专业性问题。
    # MESSAGE user 你好
    # MESSAGE assistant 我在，我是xxxx有限公司的矿建电子个人助理，请问有什么我可以帮助您的嘛？
    # MESSAGE user 人工地层冻结主要采用机械式压缩机制冷技术吗？
    # MESSAGE assistant 是的，人工地层冻结主要采用机械式压缩机制冷技术。
    # MESSAGE user 解释人工地层冻结的主要制冷方法。

--修改Modelfile名字，把txt后缀去掉，现在它是没有后缀的文件

--输入ollama create 新模型名 -f Modelfile地址
例如：ollama create PyAibote -f "C:\Users\Administrator\Desktop\Modelfile"

--现在输入ollama list，可以看到定制的新模型PyAibote

--运行ollama run PyAibote，可以看到定制的prompt起了效果,幽默度提升很多

--这里举例比较重要的几个参数更多的配置modelfile 点击访问ollama官方: https://gitcode.com/gh_mirrors/oll/ollama/blob/main/docs/modelfile.md