update at 2024-04-27 14:34:13

2024-04-27 14:34:13 +08:00 · 2024-04-27 14:34:13 +08:00 · a0f9f1cbe0
parent 8ffaf66c08
commit a0f9f1cbe0
2 changed files with 62 additions and 2 deletions
--- a/codeblock/llama/ollama-nodeselector.yaml
+++ b/codeblock/llama/ollama-nodeselector.yaml
@ -0,0 +1,45 @@
 apiVersion: apps/v1
 kind: StatefulSet
 metadata:
  name: ollama
  namespace: llama
 spec:
  serviceName: "ollama"
  replicas: 1
  selector:
    matchLabels:
      app: ollama
  template:
    metadata:
      labels:
        app: ollama
    spec:
      # highlight-start
      nodeSelector:
        gpu: v100
      # highlight-end
      containers:
        - name: ollama
          image: ollama/ollama:latest
          ports:
            - containerPort: 11434
          resources:
            requests:
              cpu: "2000m"
              memory: "2Gi"
              nvidia.com/gpu: "4"
            limits:
              cpu: "4000m"
              memory: "4Gi"
          volumeMounts:
            - name: ollama-volume
              mountPath: /root/.ollama
          tty: true
  volumeClaimTemplates:
    - metadata:
        name: ollama-volume
      spec:
        accessModes: ["ReadWriteOnce"]
        resources:
          requests:
            storage: 200Gi
--- a/content/cases/llama3.md
+++ b/content/cases/llama3.md
@ -103,7 +103,9 @@ ollama pull llama3:70b
 ## 开始对话
-打开 `OpenWebUI` 页面，
+打开 `OpenWebUI` 页面，选择模型，然后就可以在对话框中开始对话了。
 ![](https://image-host-1251893006.cos.ap-chengdu.myqcloud.com/2024%2F04%2F27%2F20240427135707.png)
 ## 小技巧
@ -111,7 +113,20 @@ ollama pull llama3:70b
 对于像 `70b` 这样的模型，需要较好的 GPU 才能跑起来，如果集群内有多种 GPU 节点，需要加下调度策略，避免分配到较差的 GPU。
-比如要调度到显卡型号为 `Nvdia Tesla V100`  的节点，
+比如要调度到显卡型号为 `Nvdia Tesla V100`  的节点，可以给节点打上 label：
 ```bash
 kubectl label node gpu=v100
 ```
 然后配置下调度策略(高亮部分)：
 <FileBlock showLineNumbers file="llama3/ollama-nodeselector.yaml" />
 ### 省钱小妙招
 * 如果使用云厂商托管的 Kubernetes 集群，且不需要大模型高可用，可以购买竞价实例(Spot)，会便宜很多。
 * 如果只在部分时间段使用，可以使用定时伸缩，在不需要的时间段将 Ollama 和 OpenWebUI 的副本数自动缩到 0 以停止计费，比如 [使用 KEDA 的 Cron 触发器实现定时伸缩](../best-practices/autoscaling/keda/cron)。
 ## 常见问题