Simplegram
diff --git a/‎examples/low_level_api/common.py‎
Lines changed: 60 additions & 9 deletions b/‎examples/low_level_api/common.py‎
Lines changed: 60 additions & 9 deletions
diff --git a/‎examples/low_level_api/low_level_api_chat_cpp.py‎
Lines changed: 21 additions & 12 deletions b/‎examples/low_level_api/low_level_api_chat_cpp.py‎
Lines changed: 21 additions & 12 deletions
@@ -21,8 +21,9 @@ class GptParams:
     ignore_eos: bool = False
     logit_bias: dict[int, float] = field(default_factory=dict)
     top_k: int = 40
+    top_n_sigma: float = -1.00
     top_p: float = 0.95
-    tfs_z: float = 1.00
+
     typical_p: float = 1.00
     temp: float = 0.80
     repeat_penalty: float = 1.10
@@ -32,7 +33,13 @@ class GptParams:
     mirostat: int = 0
     mirostat_tau: float = 5.0
     mirostat_eta: float = 0.1
-
+    xtc_threshold: float = 0.1
+    xtc_probability: float = 0.0
+    dry_multiplier: float = 0.0
+    dry_base: float = 1.75
+    dry_allowed_length: int = 2
+    dry_penalty_last_n:int = 0
+    dry_seq_breakers: list[str] = ["\n", ":", "\"", "*"]
     model: str = "./models/llama-7B/ggml-model.bin"
     prompt: str = ""
     path_session: str = ""
@@ -147,14 +154,10 @@ def gpt_params_parse(argv=None):
         "--top_k", type=int, default=40, help="top-k sampling", dest="top_k"
     )
     parser.add_argument(
-        "--top_p", type=float, default=0.95, help="top-p samplin", dest="top_p"
+        "--top_n_sigma", type=int, default=40, help="top-n-sigma sampling", dest="top_n_sigma"
     )
     parser.add_argument(
-        "--tfs",
-        type=float,
-        default=1.0,
-        help="tail free sampling, parameter z (1.0 = disabled)",
-        dest="tfs_z",
+        "--top_p", type=float, default=0.95, help="top-p samplin", dest="top_p"
     )
     parser.add_argument(
         "--temp", type=float, default=0.80, help="temperature", dest="temp"
@@ -178,7 +181,7 @@ def gpt_params_parse(argv=None):
         type=float,
         default=0.0,
         help="repeat alpha frequency penalty (0.0 = disabled)",
-        dest="tfs_z",
+        dest="frequency_penalty",
     )
     parser.add_argument(
         "--presence_penalty",
@@ -209,6 +212,54 @@ def gpt_params_parse(argv=None):
         dest="mirostat_eta",
     )
 
+    parser.add_argument(
+        "--xtc_threshold",
+        type=float,
+        default=0.1,
+        help="Sets a minimum probability threshold for tokens to be removed (default: 0.1)",
+        dest="xtc_threshold",
+    )
+
+    parser.add_argument(
+        "--xtc_probability",
+        type=float,
+        default=0.0,
+        help="Sets the chance for token removal (checked once on sampler start) (default: 0.0)",
+        dest="xtc_probability",
+    )
+
+    parser.add_argument(
+        "--dry_multiplier",
+        type=float,
+        default=0.0,
+        help="Set the DRY repetition penalty multiplier. Default is 0.0, which disables DRY.",
+        dest="dry_multiplier",
+    )
+
+    parser.add_argument(
+        "--dry_base",
+        type=float,
+        default=1.75,
+        help="Set the DRY repetition penalty base value. Default is 1.75",
+        dest="dry_base",
+    )
+
+    parser.add_argument(
+        "--dry_allowed_length",
+        type=int,
+        default=2,
+        help="Tokens that extend repetition beyond this receive exponentially increasing penalty. Default is 2",
+        dest="dry_allowed_length",
+    )
+
+    parser.add_argument(
+        "--dry_penalty_last_n",
+        type=int,
+        default=0,
+        help="How many tokens to scan for repetitions. Default is 0, where 0 is disabled and -1 is context size",
+        dest="dry_penalty_last_n",
+    )
+
     parser.add_argument(
         "-m",
         "--model",
 
@@ -275,14 +275,23 @@ def __init__(self, params: GptParams) -> None:
 presence_penalty = {self.params.presence_penalty},\
 frequency_penalty = {self.params.frequency_penalty},\
 top_k = {self.params.top_k},\
-tfs_z = {self.params.tfs_z},\
+top_n_sigma  = {self.params.top_n_sigma},\
 top_p = {self.params.top_p},\
 typical_p = {self.params.typical_p},\
 temp = {self.params.temp},\
 mirostat = {self.params.mirostat},\
 mirostat_lr = {self.params.mirostat_eta},\
 mirostat_ent = {self.params.mirostat_tau},\
 
+xtc_threshold = {self.params.xtc_threshold},\
+xtc_probability = {self.params.xtc_probability},\
+
+dry_multiplier = {self.params.dry_multiplier},\
+dry_base = {self.params.dry_base},\
+dry_allowed_length = {self.params.dry_allowed_length},\
+dry_penalty_last_n = {self.params.dry_penalty_last_n},\
+dry_seq_breakers = {self.params.dry_seq_breakers},\
+
 generate: n_ctx = {self.n_ctx},\
 n_batch = {self.params.n_batch},\
 n_predict = {self.params.n_predict},\
@@ -454,7 +463,7 @@ def generate(self):
                 _arr = (llama_cpp.llama_token * last_n_repeat)(
                     *self.last_n_tokens[len(self.last_n_tokens) - last_n_repeat :]
                 )
-                llama_cpp.llama_sample_repetition_penalties(
+                llama_cpp.llama_sampler_init_penalties(
                     ctx=self.ctx,
                     candidates=candidates_p,
                     last_tokens_data=_arr,
@@ -474,15 +483,15 @@ def generate(self):
 
                 if self.params.temp <= 0:
                     # Greedy sampling
-                    id = llama_cpp.llama_sample_token_greedy(self.ctx, candidates_p)
+                    id = llama_cpp.llama_sampler_init_greedy(self.ctx, candidates_p)
                 else:
                     if self.params.mirostat == 1:
                         mirostat_mu = 2.0 * self.params.mirostat_tau
                         mirostat_m = 100
-                        llama_cpp.llama_sample_temperature(
+                        llama_cpp.llama_sampler_init_temp(
                             self.ctx, candidates_p, llama_cpp.c_float(self.params.temp)
                         )
-                        id = llama_cpp.llama_sample_token_mirostat(
+                        id = llama_cpp.llama_sampler_init_mirostat(
                             self.ctx,
                             candidates_p,
                             llama_cpp.c_float(self.params.mirostat_tau),
@@ -495,7 +504,7 @@ def generate(self):
                         llama_cpp.llama_sample_temperature(
                             self.ctx, candidates_p, llama_cpp.c_float(self.params.temp)
                         )
-                        id = llama_cpp.llama_sample_token_mirostat_v2(
+                        id = llama_cpp.llama_sampler_init_mirostat_v2(
                             self.ctx,
                             candidates_p,
                             llama_cpp.c_float(self.params.mirostat_tau),
@@ -504,31 +513,31 @@ def generate(self):
                         )
                     else:
                         # Temperature sampling
-                        llama_cpp.llama_sample_top_k(
+                        llama_cpp.llama_sampler_init_top_k(
                             self.ctx,
                             candidates_p,
                             top_k,
                             min_keep=llama_cpp.c_size_t(1),
                         )
-                        llama_cpp.llama_sample_tail_free(
+                        llama_cpp.llama_sampler_init_top_n_sigma(
                             self.ctx,
                             candidates_p,
-                            llama_cpp.c_float(self.params.tfs_z),
+                            llama_cpp.c_float(self.params.top_n_sigma),
                             min_keep=llama_cpp.c_size_t(1),
                         )
-                        llama_cpp.llama_sample_typical(
+                        llama_cpp.llama_sampler_init_typical(
                             self.ctx,
                             candidates_p,
                             llama_cpp.c_float(self.params.typical_p),
                             min_keep=llama_cpp.c_size_t(1),
                         )
-                        llama_cpp.llama_sample_top_p(
+                        llama_cpp.llama_sampler_init_top_p(
                             self.ctx,
                             candidates_p,
                             llama_cpp.c_float(self.params.top_p),
                             min_keep=llama_cpp.c_size_t(1),
                         )
-                        llama_cpp.llama_sample_temperature(
+                        llama_cpp.llama_sampler_init_temp(
                             self.ctx, candidates_p, llama_cpp.c_float(self.params.temp)
                         )
                         id = llama_cpp.llama_sample_token(self.ctx, candidates_p)