ts sucks vrah

2026-03-13 18:43:11 -04:00
parent b7e89f4da4
commit 4b3a369c6e
5 changed files with 205 additions and 24 deletions
--- a/machines/homepc/configuration.nix
+++ b/machines/homepc/configuration.nix
@@ -6,6 +6,7 @@
  config,
  lib,
  pkgs,
+  inputs,
  ...
 }:
 {
@@ -42,11 +43,14 @@
  # TODO: honestly, while I currently only have one pc that can run local AI, might change in the future.
  # And this config is getting a bit complicated for a single pc config
  # Should be moved to it's own shit
-  environment.systemPackages = with pkgs; [
-    ollama-cuda
-    opencode
-    llama-cpp
-    llama-swap
+  environment.systemPackages = [
+    pkgs.ollama-cuda
+    pkgs.opencode
+    pkgs.llama-cpp
+    pkgs.llama-swap
+
+    inputs.llm-agents.packages.${pkgs.stdenv.hostPlatform.system}.pi
+    inputs.llm-agents.packages.${pkgs.stdenv.hostPlatform.system}.rtk
  ];

  services.ollama = {
@@ -87,32 +91,35 @@
  environment.etc."llama-swap/config.yaml".text = ''
    models:
      "Qwen3.5-35B-A3B-GGUF":
-        cmd: llama-server --port ''${PORT} -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-IQ4_XS --ctx-size 128000 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -np 1  --cpu-moe --fit-target 256 --ubatch-size 1024 -fa on  --slots --slot-save-path /home/laythe/llamapcache  --jinja -kvu --no-mmproj --swa-checkpoints 32
+        cmd: llama-server --port ''${PORT} -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-IQ4_XS --ctx-size 128000 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -np 1 --fit-target 256 --ubatch-size 1024 -fa on  --slots --slot-save-path /home/laythe/llamapcache --jinja -kvu --no-mmproj --swa-checkpoints 32 --no-kv-offload
        ttl: 2400
      "Qwen3-1.7B-GGUF":
        cmd: llama-server --port ''${PORT} -hf unsloth/Qwen3-1.7B-GGUF:Q4_K_S --ctx-size 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu
-        ttl: 120
+        ttl: 300
      "Qwen3-8B-GGUF":
        cmd: llama-server --port ''${PORT} -hf unsloth/Qwen3-8B-GGUF:Q4_K_S --ctx-size 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1
-        ttl: 120
+        ttl: 300
      "Qwen3-4B-Claude-Opus-Distill":
        cmd: llama-server --port ''${PORT} -hf TeichAI/Qwen3-4B-Thinking-2507-Claude-4.5-Opus-High-Reasoning-Distill-GGUF:Q4_K_M --ctx-size 32768 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256
-        ttl: 120
+        ttl: 300
      "Qwen3.5-9B-Thinking":
-        cmd: "llama-server --port ''${PORT} -hf unsloth/Qwen3.5-9B-GGUF:Q4_K_M --ctx-size 32000 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256 --chat-template-kwargs '{\"enable_thinking\": true}' --no-mmproj"
-        ttl: 120
+        cmd: "llama-server --port ''${PORT} -hf unsloth/Qwen3.5-9B-GGUF:Q4_K_M --ctx-size 128000 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256 --chat-template-kwargs '{\"enable_thinking\": true}' --no-mmproj --no-kv-offload"
+        ttl: 300
+      "Qwen3.5-9B-Claude-Opus-Distill":
+        cmd: "llama-server --port ''${PORT} -hf Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF:Q4_K_S --ctx-size 32000 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 512 --chat-template-kwargs '{\"enable_thinking\": true}' --no-mmproj"
+        ttl: 300
      "Qwen3.5-4B-Thinking":
        cmd: "llama-server --port ''${PORT} -hf unsloth/Qwen3.5-4B-GGUF:Q4_K_M --ctx-size 64000 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256 --chat-template-kwargs '{\"enable_thinking\": true}'"
-        ttl: 120
+        ttl: 300
      "Qwen3.5-9B-Non-Thinking":
        cmd: "llama-server --port ''${PORT} -hf unsloth/Qwen3.5-9B-GGUF:Q4_K_M --ctx-size 32000 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256 --no-mmproj"
-        ttl: 120
+        ttl: 300
      "Qwen3.5-4B-Non-Thinking":
        cmd: "llama-server --port ''${PORT} -hf unsloth/Qwen3.5-4B-GGUF:Q4_K_M --ctx-size 64000 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256"
-        ttl: 120
+        ttl: 300
      "Qwen3.5-0.8B-Non-Thinking":
        cmd: "llama-server --port ''${PORT} -hf unsloth/Qwen3.5-0.8B-GGUF:Q4_K_M --ctx-size 64000 --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.00 -fa on --jinja -kvu -np 1 --fit-target 256"
-        ttl: 120'';
+        ttl: 300'';

  # Set your time zone.
  # time.timeZone = "Europe/Amsterdam";