Refactor instance management and configuration handling

2025-11-06 17:14:28 +00:00 · 2025-07-19 21:10:27 +02:00
parent 3428089bec
commit 301e170974
7 changed files with 102 additions and 78 deletions
--- a/server/pkg/llama.go
+++ b/server/pkg/llama.go
@@ -0,0 +1,364 @@
+package llamactl
+
+import (
+	"encoding/json"
+	"reflect"
+	"strconv"
+	"strings"
+)
+
+type LlamaServerOptions struct {
+	// Common params
+	VerbosePrompt           bool     `json:"verbose_prompt,omitempty"`
+	Threads                 int      `json:"threads,omitempty"`
+	ThreadsBatch            int      `json:"threads_batch,omitempty"`
+	CPUMask                 string   `json:"cpu_mask,omitempty"`
+	CPURange                string   `json:"cpu_range,omitempty"`
+	CPUStrict               int      `json:"cpu_strict,omitempty"`
+	Priority                int      `json:"priority,omitempty"`
+	Poll                    int      `json:"poll,omitempty"`
+	CPUMaskBatch            string   `json:"cpu_mask_batch,omitempty"`
+	CPURangeBatch           string   `json:"cpu_range_batch,omitempty"`
+	CPUStrictBatch          int      `json:"cpu_strict_batch,omitempty"`
+	PriorityBatch           int      `json:"priority_batch,omitempty"`
+	PollBatch               int      `json:"poll_batch,omitempty"`
+	CtxSize                 int      `json:"ctx_size,omitempty"`
+	Predict                 int      `json:"predict,omitempty"`
+	BatchSize               int      `json:"batch_size,omitempty"`
+	UBatchSize              int      `json:"ubatch_size,omitempty"`
+	Keep                    int      `json:"keep,omitempty"`
+	FlashAttn               bool     `json:"flash_attn,omitempty"`
+	NoPerf                  bool     `json:"no_perf,omitempty"`
+	Escape                  bool     `json:"escape,omitempty"`
+	NoEscape                bool     `json:"no_escape,omitempty"`
+	RopeScaling             string   `json:"rope_scaling,omitempty"`
+	RopeScale               float64  `json:"rope_scale,omitempty"`
+	RopeFreqBase            float64  `json:"rope_freq_base,omitempty"`
+	RopeFreqScale           float64  `json:"rope_freq_scale,omitempty"`
+	YarnOrigCtx             int      `json:"yarn_orig_ctx,omitempty"`
+	YarnExtFactor           float64  `json:"yarn_ext_factor,omitempty"`
+	YarnAttnFactor          float64  `json:"yarn_attn_factor,omitempty"`
+	YarnBetaSlow            float64  `json:"yarn_beta_slow,omitempty"`
+	YarnBetaFast            float64  `json:"yarn_beta_fast,omitempty"`
+	DumpKVCache             bool     `json:"dump_kv_cache,omitempty"`
+	NoKVOffload             bool     `json:"no_kv_offload,omitempty"`
+	CacheTypeK              string   `json:"cache_type_k,omitempty"`
+	CacheTypeV              string   `json:"cache_type_v,omitempty"`
+	DefragThold             float64  `json:"defrag_thold,omitempty"`
+	Parallel                int      `json:"parallel,omitempty"`
+	Mlock                   bool     `json:"mlock,omitempty"`
+	NoMmap                  bool     `json:"no_mmap,omitempty"`
+	Numa                    string   `json:"numa,omitempty"`
+	Device                  string   `json:"device,omitempty"`
+	OverrideTensor          []string `json:"override_tensor,omitempty"`
+	GPULayers               int      `json:"gpu_layers,omitempty"`
+	SplitMode               string   `json:"split_mode,omitempty"`
+	TensorSplit             string   `json:"tensor_split,omitempty"`
+	MainGPU                 int      `json:"main_gpu,omitempty"`
+	CheckTensors            bool     `json:"check_tensors,omitempty"`
+	OverrideKV              []string `json:"override_kv,omitempty"`
+	Lora                    []string `json:"lora,omitempty"`
+	LoraScaled              []string `json:"lora_scaled,omitempty"`
+	ControlVector           []string `json:"control_vector,omitempty"`
+	ControlVectorScaled     []string `json:"control_vector_scaled,omitempty"`
+	ControlVectorLayerRange string   `json:"control_vector_layer_range,omitempty"`
+	Model                   string   `json:"model,omitempty"`
+	ModelURL                string   `json:"model_url,omitempty"`
+	HFRepo                  string   `json:"hf_repo,omitempty"`
+	HFRepoDraft             string   `json:"hf_repo_draft,omitempty"`
+	HFFile                  string   `json:"hf_file,omitempty"`
+	HFRepoV                 string   `json:"hf_repo_v,omitempty"`
+	HFFileV                 string   `json:"hf_file_v,omitempty"`
+	HFToken                 string   `json:"hf_token,omitempty"`
+	LogDisable              bool     `json:"log_disable,omitempty"`
+	LogFile                 string   `json:"log_file,omitempty"`
+	LogColors               bool     `json:"log_colors,omitempty"`
+	Verbose                 bool     `json:"verbose,omitempty"`
+	Verbosity               int      `json:"verbosity,omitempty"`
+	LogPrefix               bool     `json:"log_prefix,omitempty"`
+	LogTimestamps           bool     `json:"log_timestamps,omitempty"`
+
+	// Sampling params
+	Samplers           string   `json:"samplers,omitempty"`
+	Seed               int      `json:"seed,omitempty"`
+	SamplingSeq        string   `json:"sampling_seq,omitempty"`
+	IgnoreEOS          bool     `json:"ignore_eos,omitempty"`
+	Temperature        float64  `json:"temperature,omitempty"`
+	TopK               int      `json:"top_k,omitempty"`
+	TopP               float64  `json:"top_p,omitempty"`
+	MinP               float64  `json:"min_p,omitempty"`
+	XTCProbability     float64  `json:"xtc_probability,omitempty"`
+	XTCThreshold       float64  `json:"xtc_threshold,omitempty"`
+	Typical            float64  `json:"typical,omitempty"`
+	RepeatLastN        int      `json:"repeat_last_n,omitempty"`
+	RepeatPenalty      float64  `json:"repeat_penalty,omitempty"`
+	PresencePenalty    float64  `json:"presence_penalty,omitempty"`
+	FrequencyPenalty   float64  `json:"frequency_penalty,omitempty"`
+	DryMultiplier      float64  `json:"dry_multiplier,omitempty"`
+	DryBase            float64  `json:"dry_base,omitempty"`
+	DryAllowedLength   int      `json:"dry_allowed_length,omitempty"`
+	DryPenaltyLastN    int      `json:"dry_penalty_last_n,omitempty"`
+	DrySequenceBreaker []string `json:"dry_sequence_breaker,omitempty"`
+	DynatempRange      float64  `json:"dynatemp_range,omitempty"`
+	DynatempExp        float64  `json:"dynatemp_exp,omitempty"`
+	Mirostat           int      `json:"mirostat,omitempty"`
+	MirostatLR         float64  `json:"mirostat_lr,omitempty"`
+	MirostatEnt        float64  `json:"mirostat_ent,omitempty"`
+	LogitBias          []string `json:"logit_bias,omitempty"`
+	Grammar            string   `json:"grammar,omitempty"`
+	GrammarFile        string   `json:"grammar_file,omitempty"`
+	JSONSchema         string   `json:"json_schema,omitempty"`
+	JSONSchemaFile     string   `json:"json_schema_file,omitempty"`
+
+	// Server/Example-specific params
+	NoContextShift       bool    `json:"no_context_shift,omitempty"`
+	Special              bool    `json:"special,omitempty"`
+	NoWarmup             bool    `json:"no_warmup,omitempty"`
+	SPMInfill            bool    `json:"spm_infill,omitempty"`
+	Pooling              string  `json:"pooling,omitempty"`
+	ContBatching         bool    `json:"cont_batching,omitempty"`
+	NoContBatching       bool    `json:"no_cont_batching,omitempty"`
+	MMProj               string  `json:"mmproj,omitempty"`
+	MMProjURL            string  `json:"mmproj_url,omitempty"`
+	NoMMProj             bool    `json:"no_mmproj,omitempty"`
+	NoMMProjOffload      bool    `json:"no_mmproj_offload,omitempty"`
+	Alias                string  `json:"alias,omitempty"`
+	Host                 string  `json:"host,omitempty"`
+	Port                 int     `json:"port,omitempty"`
+	Path                 string  `json:"path,omitempty"`
+	NoWebUI              bool    `json:"no_webui,omitempty"`
+	Embedding            bool    `json:"embedding,omitempty"`
+	Reranking            bool    `json:"reranking,omitempty"`
+	APIKey               string  `json:"api_key,omitempty"`
+	APIKeyFile           string  `json:"api_key_file,omitempty"`
+	SSLKeyFile           string  `json:"ssl_key_file,omitempty"`
+	SSLCertFile          string  `json:"ssl_cert_file,omitempty"`
+	ChatTemplateKwargs   string  `json:"chat_template_kwargs,omitempty"`
+	Timeout              int     `json:"timeout,omitempty"`
+	ThreadsHTTP          int     `json:"threads_http,omitempty"`
+	CacheReuse           int     `json:"cache_reuse,omitempty"`
+	Metrics              bool    `json:"metrics,omitempty"`
+	Slots                bool    `json:"slots,omitempty"`
+	Props                bool    `json:"props,omitempty"`
+	NoSlots              bool    `json:"no_slots,omitempty"`
+	SlotSavePath         string  `json:"slot_save_path,omitempty"`
+	Jinja                bool    `json:"jinja,omitempty"`
+	ReasoningFormat      string  `json:"reasoning_format,omitempty"`
+	ReasoningBudget      int     `json:"reasoning_budget,omitempty"`
+	ChatTemplate         string  `json:"chat_template,omitempty"`
+	ChatTemplateFile     string  `json:"chat_template_file,omitempty"`
+	NoPrefillAssistant   bool    `json:"no_prefill_assistant,omitempty"`
+	SlotPromptSimilarity float64 `json:"slot_prompt_similarity,omitempty"`
+	LoraInitWithoutApply bool    `json:"lora_init_without_apply,omitempty"`
+
+	// Speculative decoding params
+	DraftMax        int     `json:"draft_max,omitempty"`
+	DraftMin        int     `json:"draft_min,omitempty"`
+	DraftPMin       float64 `json:"draft_p_min,omitempty"`
+	CtxSizeDraft    int     `json:"ctx_size_draft,omitempty"`
+	DeviceDraft     string  `json:"device_draft,omitempty"`
+	GPULayersDraft  int     `json:"gpu_layers_draft,omitempty"`
+	ModelDraft      string  `json:"model_draft,omitempty"`
+	CacheTypeKDraft string  `json:"cache_type_k_draft,omitempty"`
+	CacheTypeVDraft string  `json:"cache_type_v_draft,omitempty"`
+
+	// Audio/TTS params
+	ModelVocoder      string `json:"model_vocoder,omitempty"`
+	TTSUseGuideTokens bool   `json:"tts_use_guide_tokens,omitempty"`
+
+	// Default model params
+	EmbdBGESmallEnDefault bool `json:"embd_bge_small_en_default,omitempty"`
+	EmbdE5SmallEnDefault  bool `json:"embd_e5_small_en_default,omitempty"`
+	EmbdGTESmallDefault   bool `json:"embd_gte_small_default,omitempty"`
+	FIMQwen1_5BDefault    bool `json:"fim_qwen_1_5b_default,omitempty"`
+	FIMQwen3BDefault      bool `json:"fim_qwen_3b_default,omitempty"`
+	FIMQwen7BDefault      bool `json:"fim_qwen_7b_default,omitempty"`
+	FIMQwen7BSpec         bool `json:"fim_qwen_7b_spec,omitempty"`
+	FIMQwen14BSpec        bool `json:"fim_qwen_14b_spec,omitempty"`
+}
+
+// UnmarshalJSON implements custom JSON unmarshaling to support multiple field names
+func (o *LlamaServerOptions) UnmarshalJSON(data []byte) error {
+	// First unmarshal into a map to handle multiple field names
+	var raw map[string]interface{}
+	if err := json.Unmarshal(data, &raw); err != nil {
+		return err
+	}
+
+	// Create a temporary struct for standard unmarshaling
+	type tempOptions LlamaServerOptions
+	temp := tempOptions{}
+
+	// Standard unmarshal first
+	if err := json.Unmarshal(data, &temp); err != nil {
+		return err
+	}
+
+	// Copy to our struct
+	*o = LlamaServerOptions(temp)
+
+	// Handle alternative field names
+	fieldMappings := map[string]string{
+		// Threads alternatives
+		"t":             "threads",
+		"tb":            "threads_batch",
+		"threads-batch": "threads_batch",
+
+		// Context size alternatives
+		"c":        "ctx_size",
+		"ctx-size": "ctx_size",
+
+		// Predict alternatives
+		"n":         "predict",
+		"n-predict": "predict",
+		"n_predict": "predict",
+
+		// Batch size alternatives
+		"b":          "batch_size",
+		"batch-size": "batch_size",
+
+		// GPU layers alternatives
+		"ngl":          "gpu_layers",
+		"gpu-layers":   "gpu_layers",
+		"n-gpu-layers": "gpu_layers",
+		"n_gpu_layers": "gpu_layers",
+
+		// Model alternatives
+		"m": "model",
+
+		// Seed alternatives
+		"s": "seed",
+
+		// Flash attention alternatives
+		"fa":         "flash_attn",
+		"flash-attn": "flash_attn",
+
+		// Verbose alternatives
+		"v":           "verbose",
+		"log-verbose": "verbose",
+
+		// Verbosity alternatives
+		"lv":            "verbosity",
+		"log-verbosity": "verbosity",
+
+		// Temperature alternatives
+		"temp": "temperature",
+
+		// Top-k alternatives
+		"top-k": "top_k",
+
+		// Top-p alternatives
+		"top-p": "top_p",
+
+		// Min-p alternatives
+		"min-p": "min_p",
+
+		// Additional mappings can be added here
+	}
+
+	// Process alternative field names
+	for altName, canonicalName := range fieldMappings {
+		if value, exists := raw[altName]; exists {
+			// Use reflection to set the field value
+			v := reflect.ValueOf(o).Elem()
+			field := v.FieldByNameFunc(func(fieldName string) bool {
+				field, _ := v.Type().FieldByName(fieldName)
+				jsonTag := field.Tag.Get("json")
+				return jsonTag == canonicalName+",omitempty" || jsonTag == canonicalName
+			})
+
+			if field.IsValid() && field.CanSet() {
+				switch field.Kind() {
+				case reflect.Int:
+					if intVal, ok := value.(float64); ok {
+						field.SetInt(int64(intVal))
+					} else if strVal, ok := value.(string); ok {
+						if intVal, err := strconv.Atoi(strVal); err == nil {
+							field.SetInt(int64(intVal))
+						}
+					}
+				case reflect.Float64:
+					if floatVal, ok := value.(float64); ok {
+						field.SetFloat(floatVal)
+					} else if strVal, ok := value.(string); ok {
+						if floatVal, err := strconv.ParseFloat(strVal, 64); err == nil {
+							field.SetFloat(floatVal)
+						}
+					}
+				case reflect.String:
+					if strVal, ok := value.(string); ok {
+						field.SetString(strVal)
+					}
+				case reflect.Bool:
+					if boolVal, ok := value.(bool); ok {
+						field.SetBool(boolVal)
+					}
+				}
+			}
+		}
+	}
+
+	return nil
+}
+
+// BuildCommandArgs converts InstanceOptions to command line arguments
+func (o *LlamaServerOptions) BuildCommandArgs() []string {
+	var args []string
+
+	v := reflect.ValueOf(o).Elem()
+	t := v.Type()
+
+	for i := 0; i < v.NumField(); i++ {
+		field := v.Field(i)
+		fieldType := t.Field(i)
+
+		// Skip unexported fields
+		if !field.CanInterface() {
+			continue
+		}
+
+		// Get the JSON tag to determine the flag name
+		jsonTag := fieldType.Tag.Get("json")
+		if jsonTag == "" || jsonTag == "-" {
+			continue
+		}
+
+		// Remove ",omitempty" from the tag
+		flagName := jsonTag
+		if commaIndex := strings.Index(jsonTag, ","); commaIndex != -1 {
+			flagName = jsonTag[:commaIndex]
+		}
+
+		// Convert snake_case to kebab-case for CLI flags
+		flagName = strings.ReplaceAll(flagName, "_", "-")
+
+		// Add the appropriate arguments based on field type and value
+		switch field.Kind() {
+		case reflect.Bool:
+			if field.Bool() {
+				args = append(args, "--"+flagName)
+			}
+		case reflect.Int:
+			if field.Int() != 0 {
+				args = append(args, "--"+flagName, strconv.FormatInt(field.Int(), 10))
+			}
+		case reflect.Float64:
+			if field.Float() != 0 {
+				args = append(args, "--"+flagName, strconv.FormatFloat(field.Float(), 'f', -1, 64))
+			}
+		case reflect.String:
+			if field.String() != "" {
+				args = append(args, "--"+flagName, field.String())
+			}
+		case reflect.Slice:
+			if field.Type().Elem().Kind() == reflect.String {
+				// Handle []string fields
+				for j := 0; j < field.Len(); j++ {
+					args = append(args, "--"+flagName, field.Index(j).String())
+				}
+			}
+		}
+	}
+
+	return args
+}