From 97bc78a6efaa870f950790ae1925b2136ceb5e76 Mon Sep 17 00:00:00 2001
From: Richie Cahill <Richie@tmmworkshop.com>
Date: Mon, 13 Apr 2026 15:43:01 -0400
Subject: [PATCH] start

---
 __init__.py                                   |   1 +
 config.py                                     |  89 +++++++
 prompt_bench/Dockerfile.finetune              |  25 ++
 prompt_bench/__init__.py                      |   1 +
 .../__pycache__/__init__.cpython-314.pyc      | Bin 0 -> 223 bytes
 .../batch_bill_summarizer.cpython-314.pyc     | Bin 0 -> 13495 bytes
 .../batch_compresion_test.cpython-314.pyc     | Bin 0 -> 13486 bytes
 .../__pycache__/batch_openai.cpython-314.pyc  | Bin 0 -> 13591 bytes
 .../bill_token_compression.cpython-314.pyc    | Bin 0 -> 7734 bytes
 .../build_finetune_dataset.cpython-314.pyc    | Bin 0 -> 6320 bytes
 .../__pycache__/compression.cpython-314.pyc   | Bin 0 -> 3884 bytes
 .../__pycache__/container.cpython-314.pyc     | Bin 0 -> 4144 bytes
 .../__pycache__/downloader.cpython-314.pyc    | Bin 0 -> 4501 bytes
 .../finetune_container.cpython-314.pyc        | Bin 0 -> 10114 bytes
 prompt_bench/__pycache__/main.cpython-314.pyc | Bin 0 -> 10303 bytes
 .../__pycache__/models.cpython-314.pyc        | Bin 0 -> 1023 bytes
 .../summarization_prompts.cpython-314.pyc     | Bin 0 -> 2025 bytes
 .../__pycache__/vllm_client.cpython-314.pyc   | Bin 0 -> 4687 bytes
 .../vllm_container.cpython-314.pyc            | Bin 0 -> 3102 bytes
 prompt_bench/batch_bill_summarizer.py         | 238 +++++++++++++++++
 prompt_bench/bill_token_compression.py        | 162 ++++++++++++
 prompt_bench/compresion_test.py               | 241 ++++++++++++++++++
 prompt_bench/containers/__init__.py           |   1 +
 .../__pycache__/__init__.cpython-314.pyc      | Bin 0 -> 234 bytes
 .../__pycache__/finetune.cpython-314.pyc      | Bin 0 -> 8029 bytes
 .../__pycache__/lib.cpython-314.pyc           | Bin 0 -> 1450 bytes
 prompt_bench/containers/finetune.py           | 165 ++++++++++++
 prompt_bench/containers/lib.py                |  23 ++
 prompt_bench/containers/vllm.py               |  70 +++++
 prompt_bench/downloader.py                    |  75 ++++++
 prompt_bench/finetune.py                      | 214 ++++++++++++++++
 prompt_bench/input/1.txt                      |   1 +
 prompt_bench/input/2.txt                      |   1 +
 prompt_bench/input/3.txt                      |   1 +
 prompt_bench/input/4.txt                      |   1 +
 prompt_bench/main.py                          | 215 ++++++++++++++++
 prompt_bench/models.py                        |  30 +++
 prompt_bench/summarization_prompts.py         |  34 +++
 prompt_bench/tools/build_finetune_dataset.py  | 114 +++++++++
 prompt_bench/tools/count_tokens.py            |  97 +++++++
 prompt_bench/vllm_client.py                   |  68 +++++
 pyprject.toml                                 |   0
 42 files changed, 1867 insertions(+)
 create mode 100644 __init__.py
 create mode 100644 config.py
 create mode 100644 prompt_bench/Dockerfile.finetune
 create mode 100644 prompt_bench/__init__.py
 create mode 100644 prompt_bench/__pycache__/__init__.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/batch_bill_summarizer.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/batch_compresion_test.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/batch_openai.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/bill_token_compression.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/build_finetune_dataset.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/compression.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/container.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/downloader.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/finetune_container.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/main.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/models.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/summarization_prompts.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/vllm_client.cpython-314.pyc
 create mode 100644 prompt_bench/__pycache__/vllm_container.cpython-314.pyc
 create mode 100644 prompt_bench/batch_bill_summarizer.py
 create mode 100644 prompt_bench/bill_token_compression.py
 create mode 100644 prompt_bench/compresion_test.py
 create mode 100644 prompt_bench/containers/__init__.py
 create mode 100644 prompt_bench/containers/__pycache__/__init__.cpython-314.pyc
 create mode 100644 prompt_bench/containers/__pycache__/finetune.cpython-314.pyc
 create mode 100644 prompt_bench/containers/__pycache__/lib.cpython-314.pyc
 create mode 100644 prompt_bench/containers/finetune.py
 create mode 100644 prompt_bench/containers/lib.py
 create mode 100644 prompt_bench/containers/vllm.py
 create mode 100644 prompt_bench/downloader.py
 create mode 100644 prompt_bench/finetune.py
 create mode 100644 prompt_bench/input/1.txt
 create mode 100644 prompt_bench/input/2.txt
 create mode 100644 prompt_bench/input/3.txt
 create mode 100644 prompt_bench/input/4.txt
 create mode 100644 prompt_bench/main.py
 create mode 100644 prompt_bench/models.py
 create mode 100644 prompt_bench/summarization_prompts.py
 create mode 100644 prompt_bench/tools/build_finetune_dataset.py
 create mode 100644 prompt_bench/tools/count_tokens.py
 create mode 100644 prompt_bench/vllm_client.py
 create mode 100644 pyprject.toml

diff --git a/__init__.py b/__init__.py
new file mode 100644
index 0000000..525291c
--- /dev/null
+++ b/__init__.py
@@ -0,0 +1 @@
+"""init."""
diff --git a/config.py b/config.py
new file mode 100644
index 0000000..b70df9b
--- /dev/null
+++ b/config.py
@@ -0,0 +1,89 @@
+from __future__ import annotations
+
+from dataclasses import dataclass
+from pathlib import Path
+import tomllib
+
+
+@dataclass
+class LoraConfig:
+    """LoRA adapter hyperparameters."""
+
+    rank: int
+    alpha: int
+    dropout: float
+    targets: list[str]
+
+
+@dataclass
+class TrainingConfig:
+    """Training loop hyperparameters."""
+
+    learning_rate: float
+    epochs: int
+    batch_size: int
+    gradient_accumulation: int
+    max_seq_length: int
+    warmup_ratio: float
+    weight_decay: float
+    logging_steps: int
+    save_steps: int
+
+
+@dataclass
+class FinetuneConfig:
+    """Top-level finetune configuration."""
+
+    base_model: str
+    lora: LoraConfig
+    training: TrainingConfig
+
+    @classmethod
+    def from_toml(cls, config_path: Path) -> FinetuneConfig:
+        """Load finetune config from a TOML file."""
+        raw = tomllib.loads(config_path.read_text())["finetune"]
+        return cls(
+            base_model=raw["base_model"],
+            lora=LoraConfig(**raw["lora"]),
+            training=TrainingConfig(**raw["training"]),
+        )
+
+
+class BenchmarkConfig:
+    """Top-level benchmark configuration loaded from TOML."""
+
+    models: list[str]
+    model_dir: str
+    port: int
+    gpu_memory_utilization: float
+    temperature: float
+    timeout: int
+    concurrency: int
+    vllm_startup_timeout: int
+
+    @classmethod
+    def from_toml(cls, config_path: Path) -> BenchmarkConfig:
+        """Load benchmark config from a TOML file."""
+        raw = tomllib.loads(config_path.read_text())["bench"]
+        return cls(**raw)
+
+
+def get_config_dir() -> Path:
+    """Get the path to the config file."""
+    return Path(__file__).resolve().parent.parent.parent / "config"
+
+def default_config_path() -> Path:
+    """Get the path to the config file."""
+    return get_config_dir() / "config.toml"
+
+
+def get_finetune_config(config_path: Path | None = None) -> FinetuneConfig:
+    if config_path is None:
+        config_path = default_config_path()
+    return FinetuneConfig.from_toml(config_path)
+
+
+def get_benchmark_config(config_path: Path | None = None) -> BenchmarkConfig:
+    if config_path is None:
+        config_path = default_config_path()
+    return BenchmarkConfig.from_toml(config_path)
diff --git a/prompt_bench/Dockerfile.finetune b/prompt_bench/Dockerfile.finetune
new file mode 100644
index 0000000..4209526
--- /dev/null
+++ b/prompt_bench/Dockerfile.finetune
@@ -0,0 +1,25 @@
+# Unsloth fine-tuning container for Qwen 3.5 4B on RTX 3090.
+#
+# Build:
+#   docker build -f python/prompt_bench/Dockerfile.finetune -t bill-finetune .
+#
+# Run:
+#   docker run --rm --device=nvidia.com/gpu=all --ipc=host \
+#     -v $(pwd)/output:/workspace/output \
+#     -v $(pwd)/output/finetune_dataset.jsonl:/workspace/dataset.jsonl:ro \
+#     -v /zfs/models/hf:/models \
+#     bill-finetune \
+#     --dataset /workspace/dataset.jsonl \
+#     --output-dir /workspace/output/qwen-bill-summarizer
+
+FROM ghcr.io/unslothai/unsloth:latest
+
+RUN pip install --no-cache-dir typer
+
+WORKDIR /workspace
+COPY python/prompt_bench/finetune.py python/prompt_bench/finetune.py
+COPY config/prompts/summarization_prompts.toml config/prompts/summarization_prompts.toml
+COPY python/prompt_bench/__init__.py python/prompt_bench/__init__.py
+COPY python/__init__.py python/__init__.py
+
+ENTRYPOINT ["python", "-m", "python.prompt_bench.finetune"]
diff --git a/prompt_bench/__init__.py b/prompt_bench/__init__.py
new file mode 100644
index 0000000..dc58a44
--- /dev/null
+++ b/prompt_bench/__init__.py
@@ -0,0 +1 @@
+"""Prompt benchmarking system for evaluating LLMs via vLLM."""
diff --git a/prompt_bench/__pycache__/__init__.cpython-314.pyc b/prompt_bench/__pycache__/__init__.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..43755bbbb37553a0babf894a80e433ace51f48b7
GIT binary patch
literal 223
zcmdPq<K<#tU|_g*`&Ons0|Ucj5C?`Cp^VQUB@GNg3?&RfjLHm}OjQ;EMfte}B??KY
zdC3{MiAC9&dFcwpmBl5gxe96dMGC29i8-Z-B_L5BAKzkyvdlz<G9MpbJwHvxTkP@i
zDf!9q@hcfVgDkjZs-Kaco2p-wnVgZCs-Kcyl9rj1TC87CS(1^Tr(XcJDIRQ-etdjp
wUS>&ryk0@&Ee@O9{FKt1RJ$TJ1_lO@TZ=gu7#Kb<Gcq#XX0R(_VPIeY0N>U>5&!@I

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/batch_bill_summarizer.cpython-314.pyc b/prompt_bench/__pycache__/batch_bill_summarizer.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..27f0263c45621f3d0e05e3e0728c57403c08819e
GIT binary patch
literal 13495
zcmdPq<K<#tU|>*jy^*<4k%8echy%l{5C-Gt4n_us28JMp5{5X2AVyC{52g|(c@Ue)
zlevUBjv<K2lcj_OOtY4-f@!uAHZaXz!XC#E#O%r8!CAry*2Ch-<-uLT4Q8`?@_6u;
z@PgS)o_r;IU_JaL{BaCHY@Pxhf+d0;LM1|Ad3H}>50MfPFq^|u)I+R9%tO3HT%IA8
zHNXJkQe;w*Ay(3a5h79|6~tL09i$w@CC(7UEzXc5ki%Fa6T~CV5X1}OmB<G1i8BQ8
zgV}OH0^$rof?&3MkdQb-kT9675F{eb5F`p_D+Y;)GX#l)*-AkY;tWBOV778Bw<1H3
z6wF>QPa4Jxl8Ivok~L-xk`reLk_V~JVJuMzQV?edQUvizRAVKBlq@0`7*e<x7-Se?
zRTUXbARb_lX9!|a24hW?#2!WlhTzhq+{_Y%#5@K6g48@mPX(vMlH?2p#{f@-q|BTg
z-Qv>R+{B{Hs>G7a{5*xM{3M0^veY7l<ow)%qSWHz)D(r1)QS>4F0P=|#FS!%l8jV^
zw9KO75(Pi7{$ho+qWoNiL<Q&IFop8Wk_?4Jg#?g}_~iV&lGMDC1cl`MoYLGp9fXm^
zT&ao4846{Yi3$lIH^i6ZXQ$@H!>r8A&(njk<00~?6(tEe3Q47zIVr^oi3(o9{(e3R
zX_+~x3i)YVs6Hr4Ei6qfE-BVgNX$!7C<gn!SOF9Q#h^e)EUwH;&M3;y%P%cP3W}`!
zB(B8t#LT?n5`_f)GDH33jKmUskSlUhK><^opr_!NQ=G3*UX)pq3UUL;zxinj1*t{4
zAU7%$6s77H<QJFda)ES#f({g(V4o=@=a=S{6zg$mGT!1&%*)F!0S9)mpC;oiw)E7J
z)VwlH##<}_i6t4DjJG%)Au3W+G?{L3xaKA2r)1`(-{MJ6Es0Ns@-!K53BjyE1d%4w
zE$QG;Uth-{&nU+bPk+Do;K<+*SKs)6Ab;P05Om4VVAr7d5Le#-AIA{aD#?tJl7eC@
zef`9OOuhVq)V#z@P%P+|876}=2MB|b7#jlv12Y2y<7X8HP*x9Ph-0#7VPHsM1|`Hm
z#tg<F#vrC3<{*|J)*v>0W@QFV_Locy3=Fq8l8ejY3ld8*idaBgR&bcyV$RGfxy4qL
zT2fk+_e(S<v$!O>q_iL>HM+Q@NJpW#q$oCaB?Bm!((;RP6HAIg&QQALq@R(Wo2p-w
znVgZCs-Kcy0!j+S`URCG8Tono1x5L}1tsxGsd>p6`bnVF4hbSyI!P_kE2zB16CV$a
ziq!b{B2fkg21N!2hGHeKx4tt7GYWnL5i>+SfT#t@VCsUAJ6QBHC@7La{sJ*Tm>m)>
zte<Bvfx;yQBnHL-$g031Ae&-9fdJ+OfI<|^LJ+WmK%PO5p@1ojA%GJh2V+6P*&J%R
zHDf$uDN`wPJiH(%U`BESxafxIgwTo%Vazal3RuEe1Q^`TGcXjehOq|lLR27=K`bz}
z){N><iF9zB%QFNq2Jl0LkSJJzRKOO-hN{EcjDZ1%Ev#5<(Ez0^d0aZ!u;}22=m=tu
z5rjD?j0vWWhrx)cfE|bZ957Ybd|AK|#sTw53J1uJFm@h>AkHuj9tI<3U&avj0?sg|
z0AZM&2s(V4G2DK6hA_rB28$^S43O~i-pjy%&7EP47JJ}o&NDE`Gx#!bGRQFmae<%-
zGsJXxhA<{&1_cIf2AIpznLsYfWRho)WsnEM5GG{?Yi3!7Oh!%as)8VJUQ^Hj6<YC`
zDLUZd9adOtDu8oeF{C8V%g@tI%`GUY1gp{G;_^&WNC4;C1cl6E1p|frB89xv^u&_P
zvQ!;~#GD+3qWtn=g~Xy%g(9#msVRC~w-|o0mX@UHTC8Nc#h#a1o|BoEdW!>Aklo@z
zt}AY_LtS-?DKn*tr6|8#_ZClCYEf}!KB#&~Nxj9W>!-<ei#fTt?3O@UW@=7Kd~s$~
zYJ5&+Zf40X=HklYTkN@s6(F%&ETBT{7MDwAatWyFN-es@oSs^8i?z6<D6`-eb53gB
zEw;phg4DbeO|BwPk}u)|7fc{06yIXYNX$#gNd=Wni76nxMfv4LvJ4CiMRFiQ0i=|(
zG%vHTG&Mdmr5KdK)YKH9phyHH&6Sg%m;x?(ii-?k<qHS6h4h7sftBMri^L@si8;da
zrDsZCVNt!ItlHpugHy0ywo`US(F*qt+3TDpS2#^}u-y?9nJza;ZUNh6LG=!{+rp9^
z&NpP_=ey5zU*LCH#`wC7<pmkb4Mo?b9WF{cT$Xm~@VPH6e^Wr>hM45^^oi*+GB1m1
zTo((tAQrH~dA<8e_YE$qeIfiEB}bf3upah0U~|DXpu_!!wA_62ndS@ZE=wC-m$tYd
zZLuM#!{@%a^9=JDnhOjU#4PZ;C}Dg;yu<Sbk6^z~r_T({3z9}xc#LoGi%cl&tDF<O
zKy-H03e#({1~&ynKMFI5NPTBz;4=Ln!N4Qf;PYLQfy?w7rwNq%tJsEtf#D#Nv5N)k
zK{E*#3)VyYk|0tO#6HZV=3>EmSd$Axn#j9YupW`%1(8}TAku={m6H>tW&)L{;F<{(
zHw_FpYbGXrCS?XqmLeWd9I=)q=9H%1VlFNzDiQ!itPleOgC=7UC=){}8*p5L>jyAl
z4yq(TNuYt@I|CD=H{(YzIYamZm|h?Z;TMT9Fff3f2g#=l44^hLGXn$b=M-=agH$*}
zi*T4i5Ut1nD&E5wVA(tXq#GoGgoEHk3YNkORPnM@+4v@Arz#|Z>e0-+bcN!?v{Z$(
z{33<Y;#7r1P$LFZZ{{WDrh;-ZxTaJ{E-fy}&yCMa(W?@Oj&szFO4O|~(6!Wy*NxS_
z#Tb8!y)+M`Aw`q<7E=)@;7XH<G$CPT3<?@h1+4}Svs=6%`{H3%6j?DaFn~i3q`ZOQ
z2{&)QS(n)bA=L%ND_k#g8(rtNxX5j>L-;bc?R9Ri3*24@BrmXdAp#O)GRXTJkeZh9
zvj#XIamRBIOAr&d6~Y2)g+St)6YjqvPz801H8(#cHRl#5DAUJ-iXw0-xW$r^nOsst
zC@p}JZ!yFb-x+ur**=1Z8NnYw)CyrRwF5#O5CO|UJOeGdL4IKXS%H))f*8XX5Y49`
z_AtgEjv&q;t{`qideLVJ;tb*m;*No*n*dPK2OEbV6dA&pf_TlLfu_%-$E44s4+;pr
zDitSCJ6a(>FBR4$fJ8mC<*WcIq4kPDp1Z}Cn_7~QpK^;Oz&|+T7ISG)&My&ct>arP
zN%<+2MYf<U#gUs@T%4GmT6~M8C?8aU7FQORq~_jYhjs{Vv6L347HKkqOH)neB2e3=
z2vmN8Go2<g*k-U%MRuSR1qv=THCUPg_W|OePA&3gU|;|_v^Wx+7Cx{saEeTbyul$b
zLG1<y?*)F<8ytK$c!Vc}-ry0tAt*jWVu9rqJ<kgQULcOx0?8{n?$>qvF6sDPh)KPo
zlXgKM{R1nrB;N;CHbJfroZLKY9~ih<*&xvd3Q7<Lg)ykj1}<xeZv{ir9}7|o7!=OM
zzqr7SUQl|Ag{D2f{Jd0xY0n1~G@uqMs2pNtl>f-U$|ye}<pYRXU<IZ&sDK3_u7@WU
z1_lODV1pCg4{)f3F$BQ;1@apdg9@M^W<2dnrZ7eU1~+R4h63g=rT|bZL3P3?{B2xN
z`xDelfY|_Rd4XCq*h~w8xAf#0yloj6z-=M+Aod`3SRpCT5X4TXEd){lZ3}T!$%lhF
za|($HpeRttPg4NJLNTah1a~m?ZZVb@NkYmt83qOhH%-P{JgIrbrA4XniN(p8nYS3Z
z{4`mL)Ih1872Gkr#gbK=pLdHjr8KvoSd*p57gVMAfe2lYA{KCzgK{gVtpF({xxpIa
zLHcrvK*<;!v%%n)dBDlrFWD(M!FYjqhvaom%`2RmE5dGzNOri~;1L4VzjH+9OU;s6
z;Ig6gilpro9y_S;43TR*avxb4M5VqnGjM5L=hVE;sd<T0^H(vb(wpPR<fy@VP=nji
z614^;J5{qK=VYelmHgrX^&u<toWVSZ=RuwYr)zL|OE6i7ASY{1M#YZ|oQ#Sycs_ur
z6)s?ELoiqnGg*TQ5^%B>0=Kck7_ld7SVF_nWde1z@Frv)h9D**rXc1pMr_@-Fs2|D
zV`hCuaHYc-#BL5XtAII(0|XHXHG&yimkv}TfijOgLl|=aH;9FbVe&zoI#LK3LP_4o
z9Gc*{s+>a$Ky6ag5tNdA@SqNKbjU3;C$$(nIs_U%fi&Y4GE0gfqb->!dbgO0lB(GB
zLDhQkEfx?}C74)Hkdv7V9@Nm!D$dW#xy4>kT2zo<oO+8DT(@X4-C_kPExyH)l30@H
zS0oS0R&0>0!vY#MxyA1v;Ogh-8Sfb28Sms6?0Sm@)XumiP?VTioEo2&Uld<ll2}q&
zToeY<%2E^!%2nX}1<qO=MXALF`FX{u#h?_2l)Xy9UIsTqiZU4(7{Dp493^|1^vn0i
z&v3gTEIHkJqV*kqxeI*qGs-UTsNE2joZ&LxbEfBlvJ3i77o?pp2)W!4lAaNMK~VJr
zJA;V)X9gA#t_}`RE|dJg!@$aWokjK{i|iE^`5WBA{kEO9-S#s~u5v3}U{Uza&%h<w
zFaN6;6tS~(9nDw|nsGa^q2@qh+cx0Ql_2&Y4seyu39eg;bU+~j>hVG<Pf%*P#SZRh
zr4|)|@-{dhR>^|9c+sFTFB(+f#p-~|KL|UPU=B?H<xnGV_<d)PV^sYJB5rUid|;Mi
zRQ<rlz{CH69mL{b;1m1631V?Euql7!mSa?fWLa2U1FDfgO>S_O%>!pyJ%$2iJ%$37
zFa`kzx0MVG<xC6=MPV^89Sqp(nJ{?G0L$71>@n~LGeWk2gP=+9{y*F#&JdOW(AW+l
zzkyjnj3KN+Oi1Rz-4Mi#Bnme#h$VzQh&6;Wh%JmA)>BX61ohOzr|W=H1lUvt24BV?
zc73>6@(eMcLJcez1|J(K;0j~L=B609IpGV#IADbh%qQ{;-m4+CX1Iwls0YMRbq&%G
z)PT08;=#3(jskehG9J{G*Mto2f*QxgdR$ztpix^82h{tA4L_!)C?ut(<rk$YB&C8n
z8K9B8)D(rxypnu{L<OkPkTxa6fCPm32@0usB}J7A8HvRT$r*`7#R}RG+o2<-;LZxD
zoeH+J7*bFrC+6g&7I7sf=0OHy6%rAHu+G6@dR*Wh`Yq0)#PWEsp|=DOZiR|)fh581
zD840#BnuVd2Gj9Hpc2hbldVV#RC%*Ovl1we7HNa>8mLDDZh~rZLoy$z{acg`Qp^kW
zI3!GOaX}5tFE0kW4&3&=#SeEyJa|;)7C*96QY%Vsi6IL>2gytGN^Y@(yH=Sg;KD>r
zMFl$Upa5x72ow~h79<v>!kWp&MU@N;4B(8r7o2fFNH8cWH~8L=m2dF6t*Ca9L$-tc
zj+E?-^!a%+^H#)Mmb1DnW!=GlM@nZ!%w;L74*oleDhtAw$1RN8;D1@w<+7sd1rE6z
z975MQBrkGEJ`j+cVSYnEdQR{Hnai?zHw2WHIIrNptYUFPKxRh%4FTl~s@69IWY5Q6
zP%yiu;Bg@-?E^16FW(ntPEM{bA`HR`3)n9UX>_pP;1IpeA#;&KW=`x1^Bwk=WxcO)
z_<WRSP*VS(z`!GUfm`JQiwdF)ft3oNl8v0UI8yth1QeV8AOch%Rq;bg$jrPF9Z)(Z
zTqZVx%0yUWoSRYoBLg?1`V5s1AZmpdnA%|v7KAt-RP=!}H3I_!sBi%nfo9+$5MN_F
zhy~W7z}9vl+#l3q2;%f-3}S^fxeJ)F7bKvX1LQn#I|N<;fkYrUj1f_&1hIi2tgw-1
zKomkj?BWcdE&|Lnn4SU_BsCm3)UbxTf(j}81Di-K8!t#x9zGib&Tp_%q$D3SJEf-p
z8Tu?%(17H-lEfUONvV|hlKhgy98JBVAW%Y(01=?Ze-WsurO9}U3q0HiYLgWEp$zPR
z8hOT`84*yWsKg-8(7+JF;Ks|qP$(G0fZR~4U}#{KXYl5Sl)^!b$_%E=nT(oDMfnU2
z41VB>cO}y;COv~9eNcJ=B@#7gj^?yUPt8lMC@8YKr3C3OfIS$WTwJDSlarsEm{V-0
z2UpVt(heGcddbkha6#B+qtpuJ89diTR4<9BZkGD_8Pq~*5*25pvNsCg-YBXAxd6!n
zMGc_f1Z9(Mkc>D30|VG?QeHc&b}(O%H@Yrud`a4Pch%3LCQ$Q^4N^+xf^_A92v86e
zfh;I0gvf(BT}7bD8psGQIQoljK{`_zso)`7PH;$p>aknQ#ihBLY>*re&g|eeBO62k
zq^bbNK1x*q7AXc5FQDe60yHZ4!J1%Gmc?a7ARmEzR@@9OTM>OWrWN6!UYqF^PSYJ?
z&@tQ_JVLj`OTVx(3vqR@ec)i=<iE}#b&*5r3Wv-M4!-Lg5*IlnW=LJ(Q2EZwz-9J@
zk3mr6A}9hc3)@^4uxaqTBQA9j6lj;Fye^A-U0@Np!7XxuTkQgi+IL|FF0<>LrjQ2a
zTpK42)<YcJP7>rdFj<1wg4n?gOb$o`6Wrtm4Mg4I&CDw(Ede*G<1<shUAtS{DXGQD
zMVSSl=~8e@v&bG4bD$9}d;_ZepacOK68z4<!zld`M9h%+0HQV|gQ*kDVCq6Z2v`zQ
zhJvykq&Q+=0QG9YWhf}+gNA;w_52X!BM(CmqY+aOQy3#`q7u}U4r9`1)Mp9eL@6EN
z%}AJ44DbmyaOnsty%ADi7OcEeX3*rSvT!a+O)LS8!Gili;Q4j*j#VjW;v^N)dr>Gz
ztORw@^r|=@Q<tg5MZKT~1xIRLN<n^RUP+M)hzoACK&GbS%QN#*^2={A8<}L>;>b-c
zNd$GViuyqLgb~(T0u4GBrGnxk9Yi4ap+LriRTpJ|q5@PnsHwpU9-d^d`{Ti`FPg%@
zzyOXf&^Sc{!vlWN{_4)^JKRzixTI%TT;Nc7z#}~)_6CpG1qr<yJn{=fZ}5oCkX^xj
zLBiw%Co3P<2UZ3F>CX%t0&EQ)AB3=WmoBhKf#bIdJS1DJmt0&{C7fScQczl=51P<P
z%!Ih5iYvXKMAuX|H#0Bu7K^8!n?JZTgEb1EDT47cXu$_4Mc|vJ2E{&Plr@M)pG}!T
zlNXZSL6bsNw(#lrXwU?`jzURgL28knKRBIhsO#z`7niB)C}gDO6xgaeW#;4*gDM*Z
z&^VvEX6!94h}+{+GK;E02^j@ZtDBNp1UE4}Bef`1p#-|{0J`!)TLBi$>YB0O-d>dn
z!ff!=If^SGj)V5_!6V)ZnJFNxpc$_!CxljTlLw1d-^2>&YLAk9g@U5|<kaF~9R&jg
zThOc@$eWxw`RVaFsb#4-ReA{HaJj@MKV1Q=7~}>}ldC8Ilqv}o74typ6EvCz8uN5w
zWHkTC03vVjd4FIAF&+q{eqaSLK5#McI52+T2D5n>c>EYY@PgTV3<7o^_`ys81~#sb
zf*>Y1y(J^(bdZz4<;f&gVkYy$SU`iNuyRA50nzykf={s{&C&3Hx_v0B;FIg1>33N7
zFkKR)E{L^&Ee2Evfy<TvQ0D{8LJ*1!h%RmhV;BRzkt4X-GGMdW!Wh8Q;iTEX7{H6L
z9mWC;#0GI7g#jpOfh7Y#LlR&Xf(YUaH$ZALf@a&mlHtrIpjHC|1499O3}{UTSTu|s
z)^-eIwh&@qNKpj2J_ca}s67Ezi6DZwu<J*%71X)|YY5_onP0#WBMlZ}U|<L@3gZak
zfwj27LlLvW7=w6`yXytqF`zkNu$J&$Ft>x%o<(vWwh-V8;R)dl<AKEpbTHr!vgy8z
zLHuFdCeV}#S~w6SfGl6Y7XuncgV_EOX1hEC0h<NG_>jVe6XthB$OH)m35T(QQieWb
z0e=i=J{4?70I0nMW+4bghA?Cmp!pDlB$%bh5F`S#BS;jMLa_8;1PHiW3}%WvLkuj~
z7{Ua?_+UOS5F}uNc$gqeEx}NdK(Y<gJOTS9Odw1!ND^D<@h}8Qg)#9k1W6mQ!a}k@
zh=6-!!i0ikk-G>8*9FOeAj~9rh9LPcrXU3*o8fsPNHGR98Ub-1AI#N3N)duV$`NSh
z2dRYd1gVDc2C0P!>2nkahcO1JqogR2Fp&UI+Zb#bf{4+Bv9Yh93=@uH3eteZEzAuB
z!&oy+1lh*~N3xr(A<I~_sw{9UYXq-fOhYU+OaWJ03ecrrsl|F#`l=d<#mOa^xv84P
z3aT35Y6#S;1M?sZD+N^z=p?3QF=*%-tOz_kd5h24$3NKB#nCf9#NXT1?-n1@u(h{q
zWR-zmYGz4BYLNn}I)%LaA_Y{Xph2|a)RHQG&`QF*{1Sz<{L;J>D}@kErd#Zw;hVgY
z;#(Z46`92)@%h<R5<dBfpoM@6st`Xx7hb9sSE>2u<y0bs6U!1aa}twsQWanWd#Nc3
zswtYcxblq*46@^s5{pwcnZT_E@K{xq0JJX&S)>SRa2bby#+snrXDfxG#By8J6r?}}
z@xX&)wyJu@X$rb_3aZ7Rb|pBGRPjN_zKZq0a{*Pt;YIl+sS2va3K}rCYu@5@EG@~%
zhpjuUVs}bSEJ`g>fS7Wi$N>}xkbYe8Ep||B<(HOJ@k8b>K*NmS8M-PSh(KzJm4a$<
z6(6{<4Uz>nSF5BEqi1NzK%t_FNkQWlqh^&LWH~IPnF}@sJU8J72_H}ubBh)14QMkQ
zY;t^N3TR@Y9MTIchKwBC5=U5vB2kpcz`#(&1=a};63}|a%)FG;ypk#rNZ7!dbD)Nv
zYO$u|E%u!J^mNd&Pwu3|;>={{{JgZx^deB7=N2oteRhk-DKRA=u_!S&wIsFZ7JFtf
zxHoo-H8(pYv*;EZNPlY4Etbr@w0!XDBgh~odwF6}US?i;5vbz=9u@@mUyDEu`dh5v
z>APEOkomh?>>-)CsrjWP;As<Z+aJ==<AU~pQ!7fq-HW1dP*+0~vW99ps38X)2L**)
z(F{;$g*~w#Gd?@D@)kQZS3yQgK?9{l#US;dF8M7!XflK?6I}+9Sq{?A1&#p7;?ad5
zQBX(p7CUG{3Do-p1#i)0kV0NqID*v{gBlQOAOIU4h0%~<QkLAr%)FvK3=9n5hGhbH
z;pP_+23DTyEaI0~#Ajq)Fi5=0lJta6<btT`Wj?j*d`=hmoYtsaFm$}E<<#JQpIhjL
zkV^;q9X{dfd<vKN6c&hI=F_~up?QN__&T@rMQ-Wq+_IOrWp9WmFYs7kbwNlEi`oY)
zeAih-F0zQs2wCBBfkosBi{TR%u6FN6?+XH2D_pOz*xca}n^19?N4>%I4m($eX>-*C
z*DLIjcR2X^`8xS7h}$0#J`j3X>O|-jj^HPJQZsBW^Jz4=-%&8wAbKMFibCi`7TE^h
z2cq&9luWLQnl$*`F|a?tciABNB8%<?7Lhv;yKZpU-r$h9!6AR&!s7y`!Zl9g6UjF?
z#J+H|v9f&-U=WhIAg6a#P_M!34h#PTt}85BP<<B!R2NijG2T#n+1T|8i`xT!xdrMg
z)K^GeP%ys0XVTz)hm)^grb}i<`kK=9wX14(gkIKnzRu}#mDA+}8^{OTo!l2hRIhNT
z-4T+Vk+vY~vXEg1J5*wV-vak596C=p`1--hRIYHS-Vu<Q5w;-wf`RuL=L-R`mwn<c
zc*kFePrQ(nejzdALPq8Vy{yXu*&VD<GcJgzuMk~PvR3*Ehbd?V&Xw_l2m`0U1koED
z{8NM{gie-%Frp^Q-{26RA%25HXoBkum8sr0IHWGf=-l8?yr67#gM)v9=m$YgaJN;2
zK~#Q$%vBNH2HzVjg4bDOF0#nX37H=?D{2MD4#6w3)}R=J1nLC=wH3VASj@g_GjO>w
zUgvcARSar5A2V@c_cCKWWybA|HvI=``+|qELCXzr^;-2Al^HadAw5)3M}@e)6KKCi
zF{qsl>N_zpih!1>iFAa3DM$whTzEqXP(cIk0D-1B8W=!hJ`fo~tC<m1KWKbYlc`E5
z1k_!I&hvl=F!cO1nTu9~vMX~@DJ1`a$3DTXfaFZ(<ebc+0}PN|Cg3n@V0gm9+3wlo
z*^|=d4_0}LBR(FKf#c&f8DD}Nr>S;}Jw84qKRG`B7FT?HT4@Prp+<ZWC{V#8g^<E(
zC8z+g01=?J>Mf@HVo0&d4(hSzWF|qDr?Zt*7J!OLP}{p`6G%1K#T+G>+2CTT2-GD5
z7oxYcAj{76ke8k7fhMdVl>qX#h9Xe+?Up7s4bT<}WE)02#H?b(+NfKc>8T|?`RVDY
zMIeuZ+9~nzMe9Kh1CQ!})|Y};*n#Jxz{NSF*apq~K#F+K;0?I61BWbnkaO7N=BJeA
zq}mmoWnf?c4WktAW?*3Wz|6?V_>qa7k>#rp1Eca|2Cmx-+_xF{ZZmM+X5hNZAbOWU
z;x2>CV+Nkv3_SN4w4X9~-e<^rz$tK@Q|c0@)C`NuoGJ}$4}^3Z_`kCWGYWpy0j-(*
z%Eimb_EmwEQU0p{C!^w52{}g9uTG5IjOt%yco?NWDlqsn1~Xm=j=Ss^e={TJ28Zlt
zW~NL=whwF!&W!$yHv$50IJkWW_v62MF)=ZUeBfeW;pwQl!Yp}{g}u%7BQpbZ7zqHU
C;h+ux

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/batch_compresion_test.cpython-314.pyc b/prompt_bench/__pycache__/batch_compresion_test.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..acb279ebedc1e81d89ba5e550114d9b57166c8ac
GIT binary patch
literal 13486
zcmdPq<K<#tU|_hVbtAJ$g@NHQhy%l{5C-Gt7)Az$28JMp5{5X2AVyC{52g|(c@Ue)
zlevUBjv<K2lcj_OOtY4-f@!uAHZaXz!XC#E#O%r8!CAry*2Ch-<-uLT4Q8`?@_6u;
z@PgS)o_r;IU_JaL{BaCHY@Pxhf+d3T46&>MDiD_-lZp(n!X}ImkrI(0_7c$`juNrB
zloIhE&Ju|rt`f;0ZgGYn9&v^offA`8UU7yXJ}_H4h+mu`NC3>12@(`%2oeIbWrKvp
z8G=N>Y`Gv&afTo<Fk3#BTah719A+1oCjsY)#fk?>8nXsTi8BOAgVg6RmM8?th%*Gq
zf_Np0vBE)e77+{#DO?N;G7PbbiVP+YM>EJX1TiUtv8H_K6-EYz;L@br%o2r?@_YsV
zg48@mPX(vMlH?2p#{f@-to)>61&!qV+=8Oi;^Nd4g|cFW(mW)7Qf5w$LP=^xiKZSG
zmv3fKQGQXeLIPAlW`16LNosM4UO{DoLQ-joLTPbou|i2kszPFMWnOYdQGQ;2X)%&@
znR&$}sfj5H`Dt94c_pbuiOD6IWvL3u8HptdATx7POEUBGiuDwNQWH}kCZ%N-6_+UZ
zDS#YOtdLfepR16l;2a#LP@Y+mp^(Ux0CHS>a(-S(YF<f#LUMjiX>Oj5LQ-jF4#<S^
zd<Cyye?K3Ew9K5;VueQyQxx*^QX!f_HbT7(G9BzqE{(FxM1=$pKfWYCJ2fvJrYbW(
zPY=e9hsdW^lq6^>B<7_c%q&VQ2b%-3iL10ACm-aG)WqZrg_3-5$hd*s;TYhl1J;;a
zl$uxq3bgWkg(PsafTJWaJrNXETnYMRhWeo3(Fa)#4W0x&E=|T;+=+R4`6Y?q0Q1vi
zyv3HDT9TSqrpb7VB_OdRLzD3qrz1o~YKkV~Eg_HrAm1X~UL~1PQc_TCrLUh@kg1nn
zkeZj63G$+TnPC-IdO?Y<scvp&US??*8v{dReyKuYQK~|sLQZOWW^qm;IN}oX5_2kx
zOB7NoO2BcMm#$EdpOcwfsZd;+R9upnmz)ZTGUxofbdcql`FV*s;J5^bk{%aVWPWK8
zC>bhb7K4Ha=1PS`h^oxIl6-|kg_P91;#3`lywuW?qQo49;*z4$<dV{&)D(r{(%js{
zqDqAla2iT10EreWq?V-?RVt)p7MEn^C6~Y)1xjxDd7!9K$jnR5DNV`DOIIjPP0r6t
z0U42+mX?}a0!ns?B?`Hj=@}&oNvR4+rA3*kDGHf+U_YfMg9BWTi_0}4B*@V@#M9qT
zAt=<xHQ0(vSHaWW&p*i3N})U>wJ0^QSRpwl5tJo#6p~T=pO%>ivKnd=C|C<hi&Aqc
z!R{={Oa}Wfu_QG&HLs*tN1-S+IkO}&r&vd!peQvlHz_BzSVsXQ1a^u-ewspR1=y$Q
z3OR}83Q3g;d8N5YsYMEjIr(|1kaSj1l%JfMQVI&Zr2NdB)S`l%#FA7!E?osTf9KF(
z1%E#)h5UllB1pWJr4}VYGD|rqSV1`&l;RbFJsf>}6jJha6as?$Jv^N}Lv$2^TmwTr
zgIskK9797q{DVBBKulj(KNlSZ$AEw!|9~J*#}HQ?h5RA~*WeIGCm+vX50JgVp+Rnr
z&aMg|6GJ?LTpeA4trR@dz?lSWSxJ6raz<*gLT+hJNoGM#DmZkKD?!OHu~<hTCli$L
zz&R_U2vn#Prxqj@C6=V-RO%_X<SXRmgUXbgoWz3SRFI*$AWNNG6`cM3oP%6LT&)!R
z5_7>a3W?x|PfbxM$S)`bCGGq?9gr4<+|=ZZ#JtSnTu2~-!XYKI2$BXAG*T-H67y1u
z^@~!AONug+ON#Y#6EpKlKsi?vWLa>CW2AzgYiLN2qmPw>Uq09akmyY-O3cm7OV?9y
zNi9w;%1laCfCn_FJX1)?2gNbS3t;igl46D8g8aN<Q0beTlbD&SkXZs&q{qeO9~u%6
z8lvFlALQ#80#4ioIf<a;ipV4&Gj+fr0xArxxVZcST!S1#Ji}ZSAW1mbiYwX=oM=*0
zAR(KdhHw%%IueshN)vN(D#6z3fJ;1Rekw>UQpm{!rL^3{3I!trh4TEOlwt)?sTa$|
z<>=<->Kx+gq7dL85bEOy$}k|?!ZY#}z=fPbaei)UNk(Q~x{gA5M!rH$KBy8w63j0G
zi5I6TB&B8~mSyG_fr^Tv)O1ixrKZGkarwGBdpP=e2K$1{^~f&=g-v;WQFgJFLSAaQ
zLRu*}x9KS4Cg!CimZXBRQGP~dQYI+-=qM!Srsk!9avG@kfoG)RlEjiyklOU3#Jm!P
zf};HNqQqPsh2oOZluA%tm77^yoC!)NsU^vJv0PjM{yv`0kqWSs%oXhePoL<;P)a^1
zohX!KWEMjTIcQ4P0To+$3b~ni`9+}cE!I;AElyQ{#AZ%nUV3R_I;arL2Sq*Dh~)f~
z)MAkB!I8dBAP49N1o=C=x`YNf`Y8DO`9xZAMMtI<gYuqVJ~(NBN?EwQ1x1;;iA9+?
zl?sUpMXAO4Ii-*wNl7ivOwR*XE#Q2cSe{svnwMH!tdNqLoCC^anfZB;Iy5gIsn~!N
zp!Ts`Tt2RT?jaruA&x=rt|3+mhNcFO8YUZ=!jeWweo11Eo`O@VLQ!c+Mh?j2#H9Sv
z5{2Z_k`idX$Sck)sZ_`>ODzHgcR>!Qc1tZT)~iYl1{e96Rglb^mY<W8Uk)nCu~agN
z$;tUept2Sexs{-*22`zrDi3fwgNw__)5k|4#5E$simMuwOJFUD+GJ285QIU^DmDfN
z24)5Z#?LAYpeAb=LmZPu3j;$6GpO+u$e6(x#2CaB#2myD#2Un=&#cU#$^McF)c)m2
zE-s5NNG!=HVgYeklk-dSN^UV{=9S!HD@rXXEy}AB1r=n`C8Y&9snNwHMW7^B6dSve
z0aT@@<rn29mK1}Wp>)ehKO;XkRlg`RIU_SwKPA5e+@#Sjs4U6I&(kj`%Fit*iBC$+
zOU}>-w<KUK7o=9&EuQ#zXtN<TKE6nRfq}u5fq|h|3GA)!3<8XTA3?+nkq;nhK{A-S
zpyv!0{R|3<WRSl=3=n3AgbVBEHYQNG#DK)WH~?7{ScHK=ks$^Y2w+|SC`7?51OaRO
z$}{LO6flJ`1aKncU@S;Dn?p^vW{hVnWh!Nkhc|u;n33E7?t;K{LTE*XFlLxN1uS7K
z0t{})7#Ipz!&n1&Au5o`AQqTfYesdbL^?Rm<r#t)1NfmrNEECQUceT{hN{EcjDZ1%
zEv#5<(Ez0^d0aZ!u;}22=m=tu5rjD?j0vWWhrx)cfE|bZ957Ybd|AK|#sTw53J1uJ
zFm@h>AkHuj9tI<3U&avj0?sg|0AZM&2s(V4G2DK625hbhW3<@AzyJwR?_&%M@(jLA
zoD6adL0lkc!VED>o*|4$nL&X;n*rvIbS98HGMVHVWEteaFoa2&!J1i?A(K&)yUHU7
zoU;^43qZL(0i5R&6f{7!SbS!R4!GqB%jcR3;G9<sE6wtBQ*#SSD#2>>ZZZ5~EiFmY
zwa{d`#h#a14yxpCair!Y=YxurTRg}G#w~WJ`L~!dQ>s{s^2>E^@sy<&fhvi3P&s{z
zQP)qC>lSlzaoH__w9M3;l=$Mzs?_+L%-qb9Tg=6k#kbgV6DvSsw^%@p@mpLjnaL%f
zo=|GhE#~ypl3T2xc1FQ1=A6{LTWpC11*v%{np{PoY*GYD>$g}zPAI;`mXVm3l9LK5
zVG>h7dW-VQi^Lfi7>Xo7gcPVG;w;U}EG$ip&rB%>X;o8GfPx}Ws=mbq>bQV=3dKd*
zuu_5n++Tmf!hW4a;u4F*9O3!WGo`PvsNPUkZE(H8DcCRDDLbQRg?oqWbxxBjoF+Ti
z?g)xZmzyNFfbFuNdI#HWVaX2X8#40q-DkQl@VhKyd|k%!f{f*cqU+KQ7o{C8OFMP=
z+!vO=DIjq}Omceq#Pk`Nm&G)$iv?T|3s~X2-hHL}2A9>o5dMymBhDvS4|^T3xnLX6
z;eJC}Zoc_U^96R7rH!sjTU?N~*pSrWbKl%~hWQN51%?Y^7WiG1Fg_vP;dz5cu-~WC
zXNKklNuw(~#&`IICYW|t%?Q25uXIyD^rJ9?h}3sh1}@VN5)3?o4L;u`8MsWZahgE6
zzlzNm7#I#R8N2AS9yF71(PurxF9{+wLF~g!YA*V$hc&rCq=|-$KI;)h77(e=?aIK3
zQlo%MLU4_u04{oQ)+kK+Ov((JEJYlkNMkKa%qdO1#avucRKx>{N>G`l$yme(D#O8*
z1UUA<<vN&%07=M!ZTQZ>#OTfV5lqey{s5*I2t)Wqpb`V@JV=gXU;vHLFf%Z)eog^v
zMk-XHMK4Sth*o3(70Y1^unZdj(hZV8!a?w&081eQsxVoqY<v^5K^;s`A_w)$64O!@
z((;Qyg9-|X#R`ewE_@!S&7NNb?JFmj7MJAb#%HGJRS87LIqF6w>Q))(TI$8?#%kYU
zjK9TRng`O5qRD)VsR$HsrAbA~3=9mKj77SjpaF%M8aT{u@fIhhrN)D*RFIA$P(cn3
zJxy=`JmKc;H|sLHAf&pWc!ld_Zlmkm78kiKb_ieQw!O~nb%ERKfaC=hFGN6sOa^%$
z6mQ^o)&QG>JD!7Bf|$Uq2NqE40TSPwaQ_wQf#W|nKP5Hi7AGj1$AbzVa4NXPl9HKR
zQbZ^%#DY8wam9BAUPiW$AYw-F2N1PF7)<SePzOZ7auClz3t^C77=&QeeG=F+L5yJx
zh-Oa^dl+L7M-XQaR}eQMz34LqaR%`OamT>Z4Yt$~#uUVB4h=GWCOsy7CVfya@Kvce
zfyQw_jbYf>6}V}mP?TC&np#`}?sn)Ef%4=nHc&4jKjjunfPZkvE#}gqoL?f?Mo(_B
zB;}`67MX(rlp{B_xHvIAwfGiGQ9h`|EUqjrNzJ{*4joUr#Zp?FTBOMcE<H7wZ}A34
z28X!%#s>uX`v!#E;tdUU4T=wO^$qZG3~>c#LrrF|Yrw`AS%88Z6o6`Kuv7*fmx_lv
zzsQ||fdL#Zk>CLRz{bESG9mH?hrk528yvhB_*HLk@ZI1Mo)CJ2N9=~6_zZ~!mTPh^
z2-twwVhbeK_+Hm>xTxcBBJ+Zd!)2X_3j&cJSeYgHKCrS0a(&?B=3)E5z|G1AiAYfJ
zf-op1L9H)vswBQW3rUeINNrhAZCG5z1#Z5AQeZ4JHTvb}r4meyxuBp?1pE3s11qEa
zM-VX~<pYRXU<IZ&sDK3_u7@Wd1_lODg#|90et`9dF$BQ;1@apdgNmdeW;`uLrZ7eU
z1~+R4h63g=rT|bZL3P3?{H;|`OA^%HhuHvYLxEZ=*h~w8x7p+wyloj6!0jCNAod`3
zSg|S35X4TXodZ$<ZRc=Q$%hwZmVio3P!xcMfk3fP3@R%@y?h_NTa4vJB9PKfjDdl{
zO_T8!PikIqX;Er?VsUb2<}F4pKTVb*Pz`j8wH##DEtag}{JdMNDW$mu#hNTdo}fy`
z3q*jLUbk4lQ4XrQK<x!cxycRI7!T5yQxw9$zyOZfU~tSl;N<O>?3A2fyg<A|@;ayH
z6;90+VYfvjJ6vw?2!U$hIU@6=W=Sn@*-&~#()J3E9aMOR$Tc3hkE{%$Qs0>wxU{Zw
zYF_8myu_*bs~A-4&2eOM)L=cR!R=^?TBnkos@alrGE?(Pe(`|DLo4*0!90lPL7oMt
zYj6onFj<!(Cu>ed#g7b}jEXaOK7gndE?{ayFjx>XS%cbf;AAZXZfAutVo%nvgodT_
z1L`#4O~^b9K}<$WLCj%{*g9ZgOhGKh%=(PrYKSq2-5hFG0do)s2qF?{1T(hI8K}+#
zWgdBkFy;Vm5DOK<<bybMKy6T{B%vhlV-8L5Tvg7Y-~n}oM5Hl&P!k_CF6R%K+JFzQ
zgGbjPU2Fx=@ENFPSIA7!yTw$LRK=zb;uhax0Z~<gi3J5YnaSYs4*jg+{Jfl7>;<Jo
z1^LCPw^+gTjV9AAR*=%-TP!JwC5e7TlAvtG2FW@s1^LA#xA^@7T>Tt9;~fJ$<DDFX
zU2n1ECFZ8y5-3W{EKZG2%P)!t4=EKF1%kA)6or9u6*zx^vld5DDtLe|wHTD*kg^wK
z4guUSDFQXdz$vU8C3~6l%lF97aJwNaIo*1q^&Nh>3w-i3$}aGz-4K?X;WFQIrssmP
z3;IqMq@6Dax!e$vo)LaQQ1t^lgNXcR1{M*n4h~Q*ll;KLz{-1_MfM_#>=hRI8{ESE
zww<=!_A^Ybaw}Y5QTWc!z$Mu)|Em}jv9oj?%~%hbaXYc0=0IXwJD_nAmLRquc5pS%
z0j^shArcO%mU%Pt3Q9}BevZ#f0q4A1+$rFZ(t?uA{5(j8v;>79p;k{LC__TpaNikt
z7^Odgh#4{;K-7k0Fm-|%OkD^F0ZT$MCN$}T(<rFW0cXrEaIj;qZx9U}9)=)BBc>px
zFh<yjP!M|%M;MbnqdrRzC#=3GU=Cx())aze5^yF0jjw>6fFNM<$_$!ZRTj?R=_Al&
z32g2NBi)zg<bVeEK%>X03I&Okpq`yx6$fODD7CmK4HV)Wsd*^{`I&hoMRp*rAZQu}
zGTRhio|%`DUw(_($Ry(yM{a6KA}9wGrGrv2BP=n;gQ6k<M1Wd`Fi~(42N@4mU6c%p
z3P|c!Q-D++Jdo+HcyJ~w0@WPg_=2>C9`K9yS9ez5;g-6<B|XF90*A^29_bmeH+aM@
zNa)?*kzXKsgGX$J><aD+5+)xwS^2m=urdfpe`eqiU~BOBAcQqFUto~}$8Qz54PC64
zTwGQqoL^c}P+Fo7>T@S%LfmqT#naEtAKWE^wJo5jfbp{dG!@_*0|do5q$wQ4qtB+y
zpvenK<DfFW$`(E^7Y&-J(@`j?EJ!WV^9QGG4Ru}J<l-`Q9fge4oB~^Qr_7w3V(^3~
zsOhDy8GDNh;@<d_%%ZALLPkN<>ZW8C!A%SYO-_M|O>oT(ElRZ&U{R~C84GT`R+%8o
z29HakxDw(xXrT-4mMCPVfV6@dXH_-`t(kcxXdZ-Uh0Hd9S}ma7OtAuJ5}`P?1mr=^
zoc#3ooYb<^oGLwpLAc!Dlb@~tRt&No6iG$ipoGW^NuW5p#uGrP(GMJz-x=Z<8O=X}
z$s2s$ADBVh2Lh=dSV4>rTns!8j32ncY#s(455^C?U^X9vfZYdvFjIhmjq9TzhzU+z
z$;cgG(8w6L^k`uxW{fn91=Mndl@js{F>tej;3JnvU1%QANEnJL_?RVVR1;LUfXa?^
zNsziA)&jN|P%8-}#1H@~t-&k=p~w&hZ>MH3hB4r)#^GkmfX!wLV*rmbl4b)V)^S%*
zyO;wh3_!66c4Po(qyo%B5J8;b28gCf3@E(8lHtrI&|X6UdyFVph=GA2j2+g13S+hq
zVqi#71i3y2VFPHO45k=L2XSH7kFZsbp@2h=p@1`vp@1unp@2J#U4X%@nt`F5iGiW$
zYz(Nm05&U(7iN0_Ul_8fd@ykxP{IYPWnd`a3gbqy8Lk&a4R?$*R5?Q!56qMT{xFUJ
zS(rG2j**A4gSf-^LGcx?2lE9?uRKE-Cjq@YP`$dCdcA8QeVZ`GAYL6%TLEfefj}5z
z5Fd(&U<{}O2$l~M2;+domOKNJxL_D3k~kuku%!e3Fae~{f{$v4afJyYiF3mI8OCh_
ztzYFCf&_vD!&pJ#q0d+#6a$(M0lN$P5}`0;6>4CGD1;(IkPyt4AYoWK#?oLHMoM?s
zd?W%hMV=uB)QADw5+)ob01J}>5dtQNhKaz`$}<p9D~7{1L6`{zq6AD34-<u{C1@Lb
zv6DPQ3}}cM<~NZbNu=0<$083ykW?5G4?~c&5i2a!6^IdVk4%_YkSua%gJ{>uA%z99
z>qLX(kz5B)OITeePQY~vVdA)47o-S+Fn`K31Sy3v1t}xh3@^okRDx84)PmGwKm(eP
zFcg5fJxC)$BuFy?EewLR!nlI8!^HI2f^>pZgLF~!3L@zh4bqH2b77EH7<Z6%n7BTh
zK1+c_7-NtgN{*HclMK)YI|7A>0X3PxA^}EV3WZQ)2$P6o3etz=6PODKrXYhbNkn`G
zDH7~RE{1j_4XZqGt%(CKzCvCPr>%gz98ME59}Q};KxT-l^i?$yi<3(-b5k{o6;w6A
z4G~bs56puwtQ1r=pyQ01#h{)fSWywEEW5?$?BgHo>f-1bAL8%r>UWC|sTb+(8d+uF
zmzr6Uky@mHs!jp4LI71MXi-FQYDpD8Xl)#5;YeD3X<mwzLI`N?ssJ>9Us8OF1H8T=
zK0muk!Y4lwG>N64ngU*f09{(AT3n^(pO;gK5Kb&h%*;tl%1KqwfR0+GrYNYUXjbun
z`Us#kU8yNnR#kk+!DMAsC03kT5}yd0f-X)?(F1p^t0X|;N%6?4p)!`?MfoME3aZ5l
z8ZbBMfSi$>kyum=S!IVq?iR0OX-P(YQDzmm3tz?Vl$uzSTBHE#qcAWWC~^P=K}ITQ
zF0A+#J1DO5OG~O`AcF~@g#*Q@B?^wn%OEwYgdnn@1!f>gD+Sf!DmjQ4Oox+#2C_HM
z^*Dj`2!MNNAT8iNj)G$qd?8*cEaWSym=rW_F=|!`Ll<T$K)OXKAQQkt4OQsII8})t
z+YODv3YZB_$R_xKoAb~aLQwE0-eS#3OiInU#f6B%Tdd&tf%XQ$ZjH}Oxy21$sSyv3
zgCfwV{w-FJ2}!qjkgc!c0c%Jt21g}m;X-C!N@`w7l?WtGVO<MQr$e<^Q|cCbPJViN
zW?uR&?xe)x%w*^MytK^pB2b_E7Av@$af`<(F(n|eC^0v+B(>-kduB0sG~gC%Zgxs$
z(JeNR{?wvdESY&}`QQo4BG5?oE%x%nqP)z!^de9r7d(ekqzdW`fX3OugOj&d!9#qv
z*dSwkx7b56b5rw6OTa@b;0`Ecw1ErUH-gNufCg-ef<WB~Dac%F0mw+u`~f&jiwZ$K
zX7<E_%=qlo%3JKvtX>3a7u@0og;rubc-$1iNrG|&5Md7q-dmhSiRBO`WS$n(5WU5Z
zqzp9UbBi53PnDT+iwj~js8<MKCqWjPRDxUw>U!Ve1PximCxYS;!b}1&*}-uYpLh$(
zNGi$!d4M+;+O-FpQVbfPQv(47Yyi@GX92B2Dq6_EzyR({<uQZ$H(x{;Sb46qh+kq6
zpOJaNAn__o(i1+B3!<u*`P8oSIbGm$TBCNs(DAaCQ-k|`ZlN1OE*<Q5_=K<XDO}=H
zSRj6xPxAtY<_&J)>)g^8xuvgj%U<G^y&<B!z+-{c1tC2wY9FxhU1t%w$RaW$WQEHG
z7Lh9~hEG_y+PxdSF9>L@aJ|A}bB9N4Ld9hs^#<2F>|7nD%~cazudqwr;o$4%>*Tv2
zZhu7hK<Htq6QNf)f*;5!G<e?t6XFsVSVV3J2sU`$R#dylA=|-zM@nZ!%w;L74*nY)
z5_6mv@L!fOxXNL0fkWa3hv1ap88Vke)vj`=b#UGhl3&1nSxBRU{RW5dbq=YE98z;^
zSJ>=e-%xo$)A4}mW$CCZ9MQ;fc01H}NM6u%J`j3YI`SGv)JI+hCG`&i3_>y&<jk%L
znl*Uc5R|?kXK_`~qQUD93;zVJ8Qxb|G!QJPmv3-5-{26s!@=F*eHr8|2^5~-7k&;_
zwhtl<0`d#gSE#R$yr5uwfzPDD{SGHzzf70RjPy07>uXol?g+iC?|hxp<tnGk2{uqT
zad&cG5HY&KVSGnKegWGGuFE3E9h`6pjTM?#I82^!@b!b$nOxy8B}Sdv6%O?~LUJ?8
z7F1p^aXV6c!uqm%_yxC!3lUKlq7yDeC0<BOx?q%iStzB09d4KA3iAynYi+M^Si<c?
zF~{SK@QLWlo{<+kqAo<mT!>A&5R-f%Ipu;;>Sductmb@|XW(*W{Gh_XDKJ6w1_%EX
z;R&IWrEYNWgC^c$Ztw_C37#P}IsOKZ^o&T*fD`)ymbtt)cqA`KYlBpTf8b>o;`$)K
zz$pOY#^Kg5!xE$bs$N_eJW8d(AS%B=?y87>gYOL%!RstC7g=QHgv^hc6}5t6hu{@i
zYf$oqrDnAiyw_OFzWXzR9DJSA<ySGNuXuvph1XA?^_)JppFQemEU5Pjp5>DP4|8Cj
zd)8-EX3%7Yj7||hdh!u8dIIWcH!y$}7Knh>5r}kzfGNlj2yzn-RIr1GK&-$H0o5ZA
zX+q1y5KX}#kTaR8ghD_=WeTZzB}Jgs(wTWBdVZSBMeU#xjJc>Z4_q37XKBE$fRt0r
z$vK%tOBom#z^(>`Sp&lp7S49hCeNOfHh-|nTO9H6pyDh(UQ_87dwhIKesX;LEw1?Z
zv{KND^7!~7P-qr`LJ~Z@S=0(DW<jmlBGCGZTTJ=Ikot=qR3PVMCP5bbv6WO7fa)XA
zAWl&qNDJ7hT98G1ddQ3R^gyjj%smH1psMT^XL@RhPkwrOY7xkxpmt?^d{H;ZJkY4?
zEnXK_H^)$)ka%Bz7grwy*V#YRFQf>x#IMK=q!`qbfmDm|8WE}H1C`|9a6%724x8Nk
zl+v73yP}N@44_p&48?~T7#Kb<Gcq!MWa40C`6|M|sQj3L>ox=TZ3e#E44k(axb8BD
z-er)u%OLZZf#)^@&r=4^2b==eIi)UfO3kpi%&F4A_CQFtf&YepOat!?0pSMT4=gf*
z@r(_;A8eQfg&KIj@(3^repLglTKUSw%gFXsft6AIs{kjX;#UbCM(K|V4E~J4j2D9A
zF8jsb%*eUHA^Vw`DU*@y0~>=gV*uj~ukafVZr{P<b6=g9nHWVra51p(bW~komb}Tr
N-sbv|nE^T&3;<a%l3xG-

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/batch_openai.cpython-314.pyc b/prompt_bench/__pycache__/batch_openai.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..372a2d5b0fd2fca96fa7a733c6ce9ae687c0b618
GIT binary patch
literal 13591
zcmdPq<K<#tU|^W5ek0REoq^#ohy%lH5C-GtG)4x728JMp5{5X2AVyC{52g|(c@Ue)
zlevUBjv<K2lcj_OOtY4-f@!uAHZaXz!Vac6N;u*ef|xxyJ-AA^Jh)4^!TMP|c|3Sa
zc)@H|Pd*R+5`Hk7%~QZbutX5dX7Us&5dxbbTp}FD5X9~&;vrfhD$fwh8lVGlAu_4R
z5G!uN2oWif2;wM_4B{-2ic2Yx4&o}2iPI{P4dO153*sq}58@SP2;viG$Pp+}2;vuK
z2oeCZ6@vuD8G?ksY^5M!afTofFk3m6Uy&h56lOM<CkE$9#Y)Es1c@871xbiA1WAH)
z<S>?~1WAcA1WAK<C91LFK{6H*3=An;3=A?1v8sv;CJ<*b$TI{nDTA@5Y-uYa14B@0
zo<d1^zCvbRNorAIa!F=cs)Bz(YM!H~LUKl8iEeU!Zb43JNoIbYLUDO&YC*9=epzaf
zLQ-Z<jzURlMTs64S5RtVO0hyoMyf(uW>Im8f*)A6SRt(_KUX19!8tfgp**uBLm^Qi
z0i+{7IX|x?HLoN=Avr&%G&fHnF)u}-I5iJsMtMFL)RvNrqWseI421;!GDCfkOY{*g
zDF$iHOD-)cO3f?DsZ@B>FhwChFBM`7$Q?zA<zP2(f$Y;kl>-@5lv-SzngUh=@q~hF
zVseH;QEFjnYH^8ru|h#ner`dDLT0f-abj6&ib6>~S4w7awnAb~eqMTUW=bm9yU=hd
zN-ZwP&nr$<$V^cv&Iijt^cRD@29qvUNKVXCNJ`~O&MzuT%}FdtO;G@mMS5JCjJLQG
z^YZdb5<vl7?5D|eODH6xC^a!9AU{9HwIVgSv?Rai7EfYvJjnSusU@i?nvA#D(o;)P
z^U5?CZ?Oa<mSku$-r{tGm;#m-0;vUgH69dO@u0A%lFTS6DJZtm*H0|S)XOhO%}dPG
zOU}>LFEgy-NiQhTHPJKF&CSfqOrJFq1WwwQcCj%qMCO+&Bo?JABr4>jre_xCB!ZJk
zVqRiSWpRl@YDEb+<>aL+6y)b*CRZvHmnIdLB<3ZjLehY9eqK7r9hv!gi8)B2&czj(
zUs|M)m7fF(>5_Z}n1dA(A*wR-O7ayF6;e|3ic@tI@={AniV|}aic5-0lS@jAQd1O)
zOLKD*iz*dLG7?J^k`oI+qQwfSWvNA#3MrYzC7F52B``;U5_f(cII(2rCFhi;WagzS
z6sIQV=cRy*NKH#iO)deY<HQn$+|2Zh5{0Bxg{0D=%+wTx%sjB4Qj@{)qsPVN8W9rY
z=p5qd@23zH>f;)0#igs@>F(zr<Z7i*o{?IVnpmumoRe5uoLa1-kc{I0w9Gt^)li#2
z!CFvSl$uisc4tXuGT4WSC8@coc_qa<3Pq{OnI(xi#X1TFMX8CoNjYE>GoeXEAwNwa
zwF2zZbcGyHvaeLgE6q(xEdr<2R2^^<EGWuPPE9EV1zu8qW=?8R0Vv_=ap@|!`8$UO
zEBO0aDdZQV7D3{*EVU@97#vRJpkM`MC{O}Y2=;LF@li<0*HH)v^7rs`@(j^Y2yzV!
z^$c>=QE&_m@$e7wi~=!zUHx2i6dVHrg8T!5JRL(^brkZ86kLNt9G!eTgFQg@28RZ@
zIXb&4fJ_YW2y%6F3AR%3Oao^guw^CrrO6qo#R|ElIVG6|IjP{#Nv;GX!^C18g`7-K
z!UJX65^z3IC{8U%EJ`d%&8gH=aLHH5%P#>HFFA<?#o)Y}3$oP7Rl(Wc&pF67#MMf{
zFEJM^qmT%W_|z1Ig8YI~P}0uN(*e69H#IpUF)y<?7ZQk|a7f84f}{Zjjns;Q#JrSZ
z{i4+3lA_Gyl4AYb#LT>s#LT>6O^{{5A&!v>ey*V*L5@CF3V!)u4?v<fttc@!GcR3F
z!6mggxhOL!RRJE*piHWek`IbwkQcz>nI**v;1VXk2%M-ga}_d6z>4&^xcoyy0zyL+
z-28)l9Yes8R*;hjO0I}Z0y0wv93o!9{(e?mT>b&BL5?AwVXg|0BphtT73~L3G@v30
z6tekg2q%G~BQd$8G%+Wq5^OD`M1|(3g47~~oXosb9fjP)3I!trh4TEOlwyU{#N>=v
zE-ptmH&^EnR~Ll<|A0^*M^J_V*%qFWuaFK3Duv?w+|-hc%)E3Rh4PGig`E82)M8}8
z{34KeajHU6YDQvNW_}T<s3=NJ2gOusN-P(budB0%qn~H6FUVYv{Bls(l;;;^7h5Uh
zrIstCm4b5{$aQ%si6yC^Y?PmonUo32$vO&&xv6<6pq!>ql8?wp#U+U)r69HGMTvPO
zpxPk4C^1(@p}3?pr4m$1<z^NaXM)m6YDuzQEEiXRzmKPLqyj7@b4B}rLJ<@O7{yRZ
zJ}8|ilw@QULkc-)O4k7uTX_n(nR)p|pc<=KPa(88RRI#4If;4crHSdFLNFf`^<X2C
z^HWlbLAD1+`Z|FepdS$A@9gRl8szAs;P2-XX~h*CnOY3Wdw%)gq>%|KbYS)t6lLZn
z7G>sCDkLftr55MsltO|eCABy+Jr7(Hf%9!*d16s&UTSf%LP~0K4k(j>8Ux@OJue@r
z*nkwE_OV=CKCXW5Asz}LjzR9OAyx{8rUs81CL5W;l152>Nn(zkf>WwOQE5p=4#?!h
zr2Ntnh2+wb5@^22E6yybgfulkl>(^7135vjDm55f<Y!hvGH+UbPELL~s3gZy$s{Hx
z=NEy>T2SOxf~uO#JV@n{nV(mz$HnF3>Eoji;u;ZR#Z?W;C9tMRZ8E4?2g0Cc6R2^@
z%)r3-S%m@AI1OWnW3p&rU`SyGHLd~~GZ=#ygP4MtgII!CgV^+$l^HbIUotT;Fx=uu
zE-s5NNG!=H0vU0OH95aDujCeUW?soHwxZOM(xSX7QBXk^T~b<*lNw!IQUpq3MX|9f
z89=prT7FS(Vo5Q`8A`V-^)vEwQ}v57lQS|?^;7ao(lT>Wi}edCOEU8F^daqy_@val
z<P80!#FFHUcxdHbP<e|dJ|5b*NR5v#5@KLraA#m(C{_ad<~xG`qu@snF+=17h+2>g
zrY`6?gGE1sLLeFB9S{SA*%=rZm>C#YKesV~f+Geb2F3x%s=y))42ldfEKnvx04Nk-
z94HNI)ygyIF%&R`F$8czC6Fjc@R~zSw`PoIEM+QXj)%8t3z(7I0PbTTX=VVqA&ePj
zPXS99ivWY$F$RVL)-cupUR0GJUJwgRtu>=MNPvNXAsrmm@(e+Y0sK%QBnsBHE?^5|
zL)GDJ#=wBX7FH~_Xn+!wJT4t<Sak41bOf=-2*Ml`#spKx!(hZzz>dRy4wx!zzAWGf
z<AC`jg#%<q7&{L`5N8+%4}%f2FJlOM0cRLffH2HX1RXxj7;e8j12$KMF<R__g{b#2
z1_pTsUnWilIffuE5Hw+im?h5;#-z-kz@W_lb4NN8$Q_wX@(i*J@?aRkq|9K=EX$C|
zsL5UB5d_Xq3Z(_0%$@+wY6%J&pvo&gGerm7%!g%fO$Bg<D~5C!^78X^Q*#SSD#2>>
zZZTA`mX@UHT4*xeV$Vx02i0x2I8yVH^FbxaEgs}@;ubs9{98<!DOD^*`Q^H|c*;_X
zKy^brsCd4`sOzW6b&EN<xa^idT4riaN_=r<Rcd@rW^QK5E#~6N;#=&wi4`ERTP&a)
zdyC5@Gr0uRqe?Bh#hjj6a*GwzyePQEoRgY&i!HIBAT=*VldFiEfq|ij2UN(gf}Bu%
zi!CEDFC`}xRIntbfb<sSmlsKZR7rveX^>LR(!9*V($x6OlwwdeQBzZZf+A4rxy6-}
zpO^yfD-;)jy1U>~f&ttif5O6kokijji^Lq^`O-6`udt}zP*!bly}>EiFWV_QqiBVD
zhwODulPjDiJJ{|BicFWAB)5R=vY>hg+ihXV4(A&(^7Gwix-am%EMt6K#`1!U<%Xi`
z(he7;9WF~db@<#DmcJ<=aYIaUdiuol8JU;GG_H#UTo4Ob;k@2`rTYe#)xHq^j*=tJ
zCs+@A9k97z8_?l?Lt1XW`AqW#c9*4%u1i~7kha*6)ZugA+<Aui49x|G3t|@dU6e3B
zA>QG6gGaF6r_*PK<^@TkD?G+`_=P5zc2~^^y~eL}Q$X~iFoTHHcUA^2(+?61Jc12A
z-z6EiOs{d8K)Jt)%@`OM4l)_L=(8R)lW@^zJ;W~wA~iwm!%S)}`mBdFxj>|ehKoMy
z5k(ddsn6}oz==|kfJ#DeMWO&MdU01I`b^3Unyf{jNV>%dieGT&?G|%!Nl_6W0|P@9
z7r5F;$xJSZEdrHDnv6vPpfVj?SAb&^T+V}uD3F8{*v9V+tc+|QLBx#Y4<Kqm7MNEA
z%E@4-LUJDi0|%^-_X2B#6v2pMR-Y+|F^DCIIR;uNGcW|O!n7jjFoqyjbC8o57#Q@K
z^gy0st1^UUR8VuexU#q;HCI7fp|m))NFg`1xHvIARiPj;vq&K=zX;k3)Vsw}ln+YT
z5Y@NXq2mX)SU|co8NsPsllc~JaAa_Zt8aWjkiTz0$SvN`VAr7d5Le#-AIA_^aPVj{
z7U_Wk1LPz%a46m4ODfIGNr{JAU0h_&z`y_wFi@f1!0>^MflFY5#0<+NxfeK0ZgBEX
z5St;n#P_<2#YGj11DO|8EH0}AT;K@&z{<?S_JM(!l?@S;AX`9TL2Rrufn%Ko66>sG
zi8-aIMf#w;3yN`qv77|*m>f8=zB4c}dNY0mlQV=rfawLo5I(|rAg6&aDBi%;c?wuF
zB95_F=b)4j#sDj(vBi22yaK>dwSZbjELEDmiP@mh1W?fi>VzkzrGg{8v^Z5Eu~;Ed
z0o1t3OUzBxs}hKgbJUGW)U7hmwbYB(jn%%z7=MesG!G=3qRD)VsVMapb8%@>5vXyd
z$yj6w3I|ZoLnD~CI590X9%f#VJp%&+IH)wizJ0>Y+i%uoc0ovWLGcRL%iKoSxh*bo
zTkH_N%x!y}+v@_i*8#~3EMACE1DOm8HBg*@voa)|;LgfHtU)Y6Y(XqR>_IF+96_8x
zTtVFW?8*$9JdlWHOU}tm%`2(m0S(Ml=sAOVMc^_U6#2JUa}twMbHM5L7He*PN@~t6
z?)=h{g3=O1%Mwy1$bl=h=%oDo936$UoczQRaBEVbM!_#XFO_gPkq!#E0C2E;XRu~e
z`v@X#@JM`Mwq{iOz{bEQ_<<e7;$Yz6|G)`iaWM!8f8YkOctB#jAQm5kkk|))5KDl8
zP35DYHKQ6L^gtm8N^j86WBt5|1>A&$g(?G5LyawnF^naMDU1!dlnG)%G$-|03fN=d
zP09dJi3Ktr2_uF*3pj#U!x)3u!kECOB9&XnCI+#`fa+DS2?&>f+@Q~1z$wiT#(=HC
z7z6SRSPu_F5Qh;{7<&*Wtg%|a6~+|+s$9YH2m+L9Ks<SdFfMG(D42W!H?ckp;m`q9
z7a&6!7#Iq8L%0L9p&TSCNCejGE8vTK86>L4z`ziBGl&O7<In*gcn;wV5(BA=+!-Ve
zqC;2%<dKYqGGjpf3ottXRLg-`2ttt|gfoaQjwy)W9NN%>xksKM2Gk(|D-F;EQz%4`
zM5JQmTN6;~VPF6aV@pQfGiC-g5o1JP3IoJoECkKQkTMU{a4g^<Hzb3&LU;l|Eh&Vd
zU{(OAP6e|NL=ZO)wK51bFjf#x2(LbK2xky4jYCrvW+Q?Q5{Og`;WYtOO_0#!3*ikC
zG-fVkl4S@IEa0){QHIi)j4>eRfwi(Rq|{OvmO?S0f){LB2oEgo!6CskKp`Pad`M)%
zx*JkeMZu|gDWG8*j9C)sB!U8HR-*va6(|M|Ac3Y6v_a!6;Hd)etO;lUpjbhpxHLIA
zwYXSEAr(AYnGz2flLim{f`|P;4R%dEt|Dhp8=eE!RJp}nl9~%1vn?%3y~R?TnwkQs
zHk?4pxHI!WRYY<|Vo`CGAjSj=Xv!d~I6v<eH+ZNEG_8=5dW$6~Kc(^(Kbkvkv8EOk
z<rleWGTq`y%_}Y~N{vq}PR`7{#g>_u0;;+cJVHVO6u^qWwYX}rzG|^TVp>URk%Fq8
zQChLzEq17@t0dhLGjmc?tQ0U56@jwTEpFIsNqlC?E!I*{d+-(qOsq=EB|k3}rZ+Ri
zR<#&3G7q*RL{l8xc)P_7YVv``H$#J5Z?Ocsy1LwADap)Dy~UZEpO;^fpO=|j1j-S&
zSPJrsOK$P|2e|q<dd52jc*Z+92D{!8C`!yMPK{5?FN%kRO%bRGe2W!aKi}d9`860c
zJXq`s3YDS|Pz%i)6yz+Rp5ZO7@}kU=R7iWBHKjDSp!gPBPJViNYSAsu)QaTPf|AVq
zyjz^EFeaplrwleAGcPS)lfTFjWF)u+0E$X*)enyQA{UT^8%Qa8L1HDSw+8ARCKiE*
zlR!gV5ZCyCl=*>`L8G!L2voO&ItpqkAOP+5DJVc1!Td#~dGYyqsqxUXTa*bJ^8jg)
z0}t_hkzx>#n~`~$U!%d}0SEsC(Hk5>6FhEkh)$`#!NE6$<pU=xKU;(Q7aj&)!G6Ck
zzso!_4XzJ31Sgo^fT#v*fvE=RE1qFFxejc~2YwC_wg$HkLc**nH-sgpTTirJqJKfr
z=z@{+1$mbf<`b+h3kP>_+~5$n&Y^gbL-7iS@(q6R{@Tvk?)navFDeZD!u@$&d6)U*
z7KmQuQ)_U)AtW|kW1_|klgWAw-Zx~_J8UnqNZwFTzrZbXkwx}~nAG%)i5WA>FN>)+
zxOJE}`rnY0?XbGYB6fp?|2m7*MHZ<!CiAUkSuIH0VR}OFinR9?7N0vTT<zYC-WLRP
zR;2F8zQPiGgPVVX_yum&3oNQXz8Ev`2wvw_xX7*Wg@Kb*<&KcpbiGM>mxYuTgkBZW
z>R^AsBRRu#zTHf_>(ZtdrA=?}2u*OE?l;lzx`_Hk5%n89vNOs*u(L>Wb+C1mck+MW
zV&D|H&LMY^LvBvV{Hj@1E7W$Bo(Q}m?|+3O;0_1hbq<M(91<5Kt#^c;2*1J+dV^nN
zLi&u73;fDgIh23j;THMAz>38YH>6dTB(G3ioOQv-`9SyuDPM?fH#mfeu*+ma>Vfnt
z9Db;Fec)zgRrytH0qPrzTDizG9FZ6G6k|SO;w0qG!+e~L(Nm21I1dkqlmxS-91T4M
znNM<qI41>JJ;j)-z@6J-z2xGuDj`U#Rv$D9l9(A^RGL?Oi^bE=%^%z^g|!etZ7pKk
z-E2YZuoia^PY`bqAGqDk4{mpZ2T-bP;nStjpb1nRg_6pG)FM59a3<AI*VRofE>qW0
z$Vkm8uvK@;%*iPR&t`*$bk#LuZ*f7K9G{X|R253dD2Q6!l*}TyiQ%A$LeOv(xXe%}
zNG;NZ=0F9|OpUr`EI8j+nIOytj}fD|65=?2$dr99sDq%8nF7)Z8Xc;#L1@j)D?#%h
zL@Q+G2Q-lg8fhp7IYXg1wFKlr?&N&vG<$Mol@np3oMFmK6f*O4({jMGs8BBzgAC-%
z$xn~ZNi9pwsnSCjhs#qw`RNK^#USs1V*VBjs4GLTFT4~~bb)&D4GiBI;u%3h9w71t
zpZ5o55aWSB>IYU3;{z81j|1ZeZZMmNfyaaK1234(#~>8K_<<kH7GMyt`ydEr3Nf&8
zeG~>UA$=Nn?}LGXK@>J(a*Pe!rvbNdKm_)FbQmkBCk^W-$TP%1Teb`gLGZz9r2aDx
zsNIF43O-DYGVCk~QWwNZxMvi`4r_g7ForP%!23NQ7eg?t4+0;6l>wX07RCS>SSHk-
zMzMi0h+PNCjslJ_#vl$95za6UY`v=>PEem25l&&8#Hd2_$*}dlg1EyCU?Ujv3^Aa=
zFR+)xnN6VMSp{4%p!fufhH=3{Dva4eh=CzR5flzcHi(0jp%6hl*!3f9)nh2&4&xGF
za0_B!C}(0|C^{Phs`A06guz?JJPbj+Moa~KVcY?r5nQk=f(YXYVvmu9@xypw?hNlk
z4q0P(N|9&4X%0vD%`iS(y1YXe7(hexNPfoBrw!sm@-sKgEnzGOKL_y#352nMQjb1k
z0e>7rfj}HXfuJ5kflv%+<O=K&?7c=<S}YKbLG%(qBR*g~2ttt|j2}q_yyt?fB1jPC
zwjd!`y23K4B!cLvgs}t(!^SbOs1yz37GMbF2^9+!50xlo)n_PWa?@a7C}&|{DBvj&
zD-bV`2ouHD8;{X}xhqU0j3-PiOgxM!Od?3c95ltoz`y_&lQ3pZV)E94#6W>$fp~#f
z0Z)NM3}|!+tUXK;<{tqDw^Rm(0;w>`Fex2Sa~dqqz);Q%b%{inRDdB=5Q&0?E?Av(
zflPsHm^3Wcr*MN(dze5RqYf`ZOM!qdXP6+Gm|&O?wp1D<8pabO7A6)X9wr+k5hfEP
z873Vh6=MuDEldLDetq~9mpp@aI>g68(jbVGhS2!LrkpTgl<^U{Aek_xAX%go3(w_2
za$y2N@?nBO3Sn|VieW54N?}6!>;>{+j6urCIix@#Od-G&<_iQJ1DY)Wa|1waBQOg=
zC^Ce}$1w$|z)~K}@A3=;a+hkDK$u{dT$lpV7>KkoLn)IyLn&*41SDN#GT@&w^H~6y
zFe9L9HAI!BT9q%J^?}fpdK#b!deHK&)D+N2ejb9W37NnLH7g)<YgPKH8i~cppzfGv
zv4W}wxN--L<brt+hLwV<2DG=RS**!)ixsR0Jbr(R&)LU6*ww|+Gd{%M+tu$DA5!Pd
z+cmPvz%MnkBqOy*0acv>Xh{XCQqU@r;?$BVe$eVf&`O)M{L;J>D}`HJ2<PA8DMj*3
z2xvaA0JIdMr1%yGc+FLOes-0FPkth3Vo*U9vYrsS>`}G2O3gnnrxGEYSeBTXlbDo~
zs-OXF5v8UmsHSLEvFd?(;#C^KrAfJ&-~|vMO;9z(3ZR8;ux3?qrLAhpEndgcl8pSK
z%qs92jVgAh)Wo9HA_dU+Ed#@WA_tH|Gg3jbfW^1iL1CR=S^`>On44G;4_X<MT2!pb
ziWn<E?_h$ep(1e46Vz)g@&$J!p@S5+SU_!GKX9`YGX2O23NO&|jFek!Y2d#7EuQkk
zoE+FFMo}(Ue^F|2X--LT6%Ta99@x*Cj76aF<|-pdw;pbit!jz_#4HdCWSXt2o?%)s
zY`LGUYO$v5Ep|}1Ix{c*7I#u&ab~h}eqLH;dJ(7@b&D0;LcYc0l$a8bSd^HXT9R6H
zi#@X#JP&Y-H8(pYv#2N$)J+CWdVnW8A!7pU<%vaknR)5pd4eKP^-%;GS1t+%sf_>;
zp!tzoY>;94TkIj3xvBZ3B}JgY%v)^5;1~q=o{K<3YoN(kkhdXy{CJRd&{#rI0s{ks
zrXsitQj`M{1&!>0gA*KDMS0*LODxEY&rYo@3Iy@^K!F3vWT5WGEdk`D2@)v+71*~}
zOA?E-iy?6f8nV2_0iXG(1X)xEBI-c~vVsP0DsFLsLKig9QB(pRcL1eq$ZAta5&+GY
zfyW(g@uii5R#(QC<i~?7xy1(I7uA4_%m5Lf<N}R+=(xizc4&0pg2g*{(xO<Afq_8{
z4B#UXn2aJ&8{-xWXsJ`tECvP!aI4;t8PvG`BF4bVbDc%}5{vkZ%nJsIS6Pyt@QGXy
zRlUrocAd}Z0-w_wwF`!hm$jT4-0yP>-4Jr=V86pBe4S6>5}(2X@ymRg7dSL;a0_4O
zmcGa>eVtqO61VIP5#<FQ3#={(>0wd(KvaH#&Q(#p2EQBPiVOU%iW^;E5xK!4be%=w
zB8$WVkqs;tSR}5nnBHI!fea!nFxjATfko;Hi}@4S;DOc(*DEYGcX-4mR9xm!Z*aZC
z&edVsTs6V<3cKVT4!(ZAPQDA`_D6&dgdUbU5qgCq_<^25gX?WYwTm3G9qf0+loz;P
z7Sp*Ps=Ffeg0L}YNQAear;}$w`iz<@y7mWnF6;W9sJrT)aX~cm3P;ur4w!7+ikb@n
z5m#*^E{H~6<B0mm&Y-0Jg^Pie8#1P0wa57Y>u#?T+*epa9`MU8P+y_GLh^!w@dZAU
z2KO5Rf(@QGc=;OKZb(QqxZV*I1x@W=7F2BTy2HuWFViJ6BYjQj`r1{sJ3=q(J74E?
zxytEsg6&E`(hU*$@61erjBH;SK;#2X!H;4L)((u{M7gE7K8k>t7X{2Fu+I=(z`4Tu
zgD?ZHXup4_{~ZDO8v<fCB;;?1N#BrC29YxAANUz~Wj-@-@bY~SU=Wm;A-aJ30>92D
zK@MKsk3t}mK8P}KihpL{mg4#%!62@@!0wuuQHR?NEsGsuSG622@~C&XPY9jieM84+
zz3)oj)&3WGG&|fUgwM#n&o6dEKypUlRKAIv4+O+!C{E>`zy@6{@IXX%M)?g9=^3Fn
zL=+cT-w;t<P<{g<CN;--0rzDYoe#Y1f<oVzIeGa$@-v7Vf0qY&^*X1^7Y9ZL5sB$`
zlk6@FD=)~pDs0f;^MQ?lQvft{#y>@PLg-|v8yvzDB5!aAOi;VQAvS~O28ZZ`>Khz_
z6HGtwbAU$EJ_s?0$SvTzDy-MwbAv_TI*as07U?-I^Sx$yEhyhmctytY3X2tVWa<Wo
z%?%F08ytK$I7Du6h<xK_V`cmKHI$KCit9T&$W7nDk?`v}r^|ItmtV!8S?=SCqP_yG
z$IUo=Y&nnH>G_xnozQW#^s(hUrOM$ez<S0MByq-;+n1O3EC)#BtN^#K0_uVWP;Uu5
z8Uvc%XkfrT3#!kk%%I5(8Fc}5;*0V@g#~CZ65px?c18w<Vo=Wv)Q4wc6ah_Ni*$s5
zDM;rV(WU~gM}w?MvjWdwf(mJfH1^InViFP2{0ag&lc`E51T+MskeXLg1X_`unOCCc
zr^#H@0xC0^i%Ro~Kt&OF1On^|NFl|XoRe8JkAZ;!>}pUuxq;yc3un7$lV?v#n?G3P
zEspqjP+1lquc>y6Jw84qKRG`B7FT>cq#TWpF9L;T5vV%{9&s*e0tJ&ThyYEqfvccf
zLhu2Z5<Q5%VsPC9scx9^iy`$NJE)e<$xJE&4N%--E2%61)oGw!MG+`yAij}6UNi{W
z1W*8~Uo!Laz*XKY&h*q0AIQKpM|?b}Z5AI7sWU+%E4O%ET-_W)eL~`W{asvr5L{>f
zP`{9(P>{33Km@3PTm)(nLuy%2%7av{nIKtkV1fb;Jw!Qda`RJ4b5iY!Rx>bw)*vwy
zpJiZR_`uA_$oP?ooss3M5Cfy~V+O9<4BWRF_--?B-UhSpGuYo{5WUMFahE~nF$2$S
z2A;bN<_|apu5(IV;*^?UahX%4f$f2iZUg@f0l5a=8v?=&yf^p+8@O+<b2hMiV384w
zXKdj8V8bjZ)WG|dM}SfAs~RgK+gAb5l8UcfplR_sMh1VzV8#o<ahLt#Z)W7&;E?&u
z%#_K<_JNJTnK6LzhFAEFu!tKDZr{O!Mqgc+nHWVra51p(bW~komb}Tr-sbv|nSn(L
GoGburthlcL

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/bill_token_compression.cpython-314.pyc b/prompt_bench/__pycache__/bill_token_compression.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4b8529ce3d09137618a5ac25ded82d68666fa89
GIT binary patch
literal 7734
zcmdPq<K<#tU|>+zypd@s$iVOz#DQU62!ru+4kH6Y149r)2}2x15Thrf2U7`?Jc!NY
z$y~x5BwxZ3%Ob!K%23Lr$56`TX28Huz!1wEzzxxlOvW+?Kutv!4P!82gz#gT1Na~;
zWYUBQ!V6<CX7Xe5Hez7lWRPPhWh!7O;Rs?DX9!{uXUGvK;S6FGX9!{gv$=xU#TkM)
zz-;ayPH~1HE-;%Xh+CW?hzHE(4dNAN2;u{?`GWYx8G;1BZ2llYafTovFk2u<Sezk9
z1k4r;5*23%5(Be^g2crcf+WCf;UGzIh9D_0TO>$YoFPaC%odI1j^&Bvjpd8wj}?d&
zj1`I%junaJiWQCJH0CW43z8LQ2$BP<6c1ujW+-Kn2m2|LK~tg1$|t|LI48BZSU0mc
zL!l(KqC_D%KewPLwYWGlKTjbozevG3KQA51Ps~wB%FM|DtJBkDyv3cEmzQ6XSdy8a
zSL~Mz3R@5c1tJRr0|PSy1LJ1}22h-aF~l)hv@kHFFf%a7Fa$DYFa|LOF$FOPG3hfY
zGpuBJ2@3gJEFk-DF&CE<-C`?BEh#O^Tgjlwc#AD9zbH4cq!?tj(k*BGjQreG{i4j|
zjLcO1l>Cyk%$(F>{esGpjQl+Pf};G~f|B^8)V$;jeUMw@OY*Z*^Wu>_rB_gSizhxF
z>h#q3_#z$#1_oya28LoOuw%b7urLaI1Q83EKY*we%wXPUkjKEj1TjFE72-?Q&u(Ci
zF(5H87GQ7_V_+y}Vqho|3S$gl1`DDP;R>+SR>0sb0ZD0L49X0ej8#TKsRcQS$*Bs7
zd6f#uiN%?D=?eL23dJRfC8-K|iMgr83gww4844wtB{``e1*v+POt<)gLmWd~;{zN+
zLR^FVf^RVwmnLa47qKxgFx+A<NGvHyEy}yaT?8>YH#M)M800E71%)C|{<$TZ2MXkz
z%&OFQuto7;i;9F{L8Aor;d2GOiySf?>^Jzu`l~yuXINk6*X?5Y$jqRq|A3pn!Mg~Q
z>%c(-iY$<aNlFMsAk{^j3=9mKj76XV0}|(87lLC6On8B!N)GIv?+i?g@r)nA<c#DG
zV0u9^gpY6w$Q>XIk1i9iW<+!aFoC2|u_6N~iHb9XF_?e?3RHM8XfjtB1f}NYm!*Po
zNp51XLRwLNu0mdEZfa3xvO-Blera)HUP`e-acV(gQDRAcQL$c?h(=6GwV{r2t%kjo
zPE1O*ajmAdCOC{>7J_^&49YA{V0VQv1i(TMrh<Wi0pw;77h7TqVhCb{B`0MDO{QCn
zI=4U+YkE<BX~8XaXsl~8-eS#7EJ@A)2df%5SZ{II<Rs=Mr6k(jQY|hi$}EV_E6q(x
zEdu43+{9u%o1FaQ#GGO~J(w~dQ0Pm59lAqwzw}P&-Lls${VrPiohZH#5_ZKh931W|
znQk!^r4|V=FfgoS1SdjdJB6{>RHVqjzyOX~h~ZDTdHc<}%q|FNUepf15E*-!JMIEY
z9N2Jh;K70j6nI3JG{hw^e~=du3Ct6mz&sfj2!j%sC*ulXPy+L0M7RYMFCfegD-VLe
z;X_OU3u8c11@a5X93&jXYz`GwX3%7*ihw3R$6#kqPlb&9qRguNypqHm-J;T*RE3<(
zywqZaq|(fs5=hD{%}YrwDo)NXN-fq=NJ%Wt0MV(1rHMJkItuwk3W>!fsYRK^*`Q<^
z7gMYi9Ur4>8>1ClZLCupQ>>*@1d0n#vPsKHOfS}CE|O<pU;xMJEl%H1pAb(UPe0cp
zP#KRLy<(8)MYt{=<htS_H3kL-aM;R#g9j1AD~wi@>@nJJv(x4Zx5ot*4@Ah)FqT6=
zu?#EmnHZHpk*W-dV`WGbD<j+iixE&<Ff%Z)eg^rafdP9~1r;1f*^#*_2v(veB<SiU
zBq*fj>VhHzRHWyn=w{|Y3-m+<P+6aos!&`2D*lV}6-qKvD-}}m^VCZe!1Y*WRjNXM
zN=i<pUKNwB?kz@zm5fCoFJMMNa(+%uVnK0gd`f<4Qch|-$iCF#B5ei+2C&CL1$zU-
z18)9)n@*b<EHjcXb1Pk7Q9}5bh9Mt`8uD78kk?ue49Z<vD}up1ggam%4==opz=;Pb
z*WfI?(TeV5XK0ux6qV)`gQ`?S3RNi2$Sg^Pgu4cqD%MdbNlYr%RLIOL$yY#)8Xbk4
z)WkASy_}a?4#{+xc_oR-C3;mH(Qz@sF?q4tMVg?j0xCr?B1Z}yIhlDN-SG&^i}V;6
z7{K8p3ic*6k4(^>QM|zAGPmXh7EMIZ&@hVPP@_m26e-#>ia}ANy`UJ(L%4%_QREGe
zqLPfF)KuO4BHi5lB2aCcSDcz$T9R3ossIo2l>G8M1#sLX<s{~1>w<z3QS<6mvBl(p
z%CRaYF0LZ1@gM?^2e1M0AOnhv3>g?0z}`oV0nHg<3qme)Yh7T`Lin79F_4TL1I&!-
z9~qb#)n_Pw08tB+!90XJFk&DHoO(#hBn8M-5%x^Q9K?i@saUGKgF%f3NQqUfkeQpC
znv$7VlA2Sgkd&GRin_$S6otgJlGGwt#3>|aBo-wmm!uXIE9B=Xq?V-?Rf20Sy($(3
z?U=k<j9gVLF?kBw*dvX<q$o2N998kDDe0-jMWzf44B)_02m2Y8W7KDuED*WOt=8aj
z2hx(5028^uqJ{`L8pdEIC<Z|ZuYm#7PIUn{BU~64D1&m53*!oKjpKr)89{kb=N*(<
zUX)pqs*sQnoSLksU}&V5kf2apQVFVDQj<X)HieAT#FWgu^kRj?Vo*J!0L^H*1&PTe
zAbqaR3Wi1r33^pB8upo*#i_|LdNIXX8Zjx_(TTcMj=E8?_L?zzRcyho&I&Px*dt54
zI3vHPBsDL-7-DIBZeme(YEf~K1p@;EIDEvABkh8a;ReecDVMpOFR(b%C64kyaRjPC
zA#r2|D%s3tFoR;qYymTvhj0f*E+e}t@`2=<g2bZKypoL6;?!b=#G?Gtyc7j+fGH&A
z6l5gAx)nKzNvS!-3OSkCp!n2C)J#YKwcQdDGz^V2K@lVrqoDzf69Zk#SZ&Q1%_=5b
zQNmlAS6-A@5D&JyxX7A;fdL!{Xc3{lLUaSmWp2|8ET)J6pkZbyMvVv)P|%w|DjX9?
zg=2zn2P`7stuaXdn{aCkTgM7C3W3yGW2th7wy{exK;f+bD!|m$6-p`#Qj1ed6bei8
zOHvh}=~$t(I5kBfGY_1B+ynd}!y}OK3cV_(gamK{x{66%y+{kx96)a=i$Ge+P_yH~
zW)~OPfx-fWLCTREX-Sv46|Zw^UgXwXp|XMLGPm&s7Gp%H&@gr?K(0Y#6HQR;Xo5yZ
zm>4xdqa#d=NX-(A*deK{><VuJBqW6D1?xG3O0JT8g@lCAVCRGcP=#NdSe6QD4})tE
zP&_5)=jP_;DI{k?Mx*qq*dTguF^2{_V-I_z5s%X1<oLwoqWrwd+#*mP9PC}x7Ba^I
z)yv!(7g#jt65h4Q;SC#&0_6r4MgdT6U||$MxC0j6@M^;bT&4yw2{5>cGB6Y{V$T<0
zjEF&l0tRn!q%kPwDsMm7a1c0Ymn9Zu=9d<OB0(=$FCjr66gLVWmO^nsYEBNg9w`C$
zR}_*Gi$M7%G&msvG=7+?SH&C}tf0wK#Tu%o5Uf|lTB@f|tOw!+>nVVE#d-?h7}8_{
z4;0*Dheky)s12e99iI|Gj8Byo!y^ln@4;aO8a!xVcr0uV8k-XCuj#Cr;l3dBGQT!>
zbV|g6exp+@$Wh0{r~%3<8Z(?hHHyXpXD|;>)RA4I1j4fotaDRRo)2$77o-+t=BE@Z
zXe1=)>FFgT=qP|0dI<@d3W#PjwD$>73~E2?RU7Hl-eT0lUbzdxo6n#WP*9v&Tm%}w
z0S5qj+c|iF%4Kf#3oPmgztga|nuQz(9E=hl88{dvW(0o#Q44~>JcK)7*#};kfJV3)
zklMlm3~t=uY{aMt8V!WHyMV!)7nWtPjmeon%>@tX9&s!v$f;DwK^|;Jbo#(mOj3Sk
zPHIs>4rq`UX|x(t-hsxkA!F`bTtT3&E2Pa_Qk0li4618D6_8a*Vo9P^g0sJGK#*&2
zu&2LYd~k?sKyU&`GQTJ#wMYk)lk*h7HBK>C4y5&`Us9Bq3Ch069boXFCa6?R%gjs6
zQ7B3+F3l;?<I-fhC5U1EEmp9Bu)NDsT#{OVl5vG#o{0x}BOWxwUlhQ=zyOXTWpGLL
zorghCse|PvzwiW??kaGO6;uKZO;~kWb=zEE5eG+>rui*)$DG8Z#N5PNY>qjJ#o39s
z*d4(GV2QUl9E-9O^NJITZ*e&%=47Vj7v*Ip-r{i1&&e-JOv%5+?VO*N2Wo>RmzLb(
za7oQcEKe*-y~Xa9lV6mXl6Z^VJvF~5Ju~qZn@3`KVrJ$oR?n2gjQm?1o}j`lKePB2
zyJucXW@29AEf&xG^2A$g-Vp0Jyi@Z^N|UoIZ*ltMmu41&m9Y9IX6B{d;_yu@s?15u
zOS#4Cn^;_&n4D2soLW*+e2c>uG<%Vrn0JfQH#09UwK%^d@fNplW^pkH6%=HGR1_EI
zmlkE-V)q3N@Z}}m;_ypNDgyhO%`deqF(t8z*DtkP!6PxZpg1G5D7A_U#Pv!oDo(A0
zuzgc2GL!SGI6&f&`9;}Pe17>wB^e6NiADK2nR$s-JP^K1Vm8PDEdCjp`L{UyvvU$N
z@<D;@UzD1jpLdHVAT=+qxH6|KF)uT*iYF)|KP6Scvl!&DD!$<SQWO&*e5i?>A*mqW
z6{n`&Vhu^HNG!g^5?Yd&af>}HwJ0|~ujCd-SY}arCMc@7!V`-#GV{_)^7E>A!&8e(
z6yQ>v;hDwB`FX{edAHcZEAw+R^U|xh14>hiO7azgGL!RfvACBe=2r1Jf=A&K^Av&;
zbMq6cL|igKNi(?wG}7aopHrHfl$ls17#a*U8R~^%O^I9V@$o77$?@^GxZ>l}N=r(M
zK(j)i+6O$|d5aA^wGw=b9h8(ab5d`yr4}bA7Np+d@^ts}4{~*O40bKz2et1&Z3gf_
zHh8QPJlX~x(E$%CfP1Roo)5Uy4Q}Rvn;S)-Y7AU<7Wslq0c8)+peuMH20XB802`~%
z%}*)KNwq6#WME(b6-3477#J8nFf%eT-ehoi%AoX^f%5~41s78T+s7hChET?6#>;}y
z7ek^>m`*U7ZZ*+rM$-JunVBnCFU#p|VA{^Rk@vE&-2v9iLT(pBqAm(XH}HLBV__8d
z$_JWO`O3w_=*b8ol|h6Sh|vDZ#muPwm4}JZ1uSC*5;Or3nqRq~IyFA<FtAGBV3E4P
zB6ovD;s%TG4HoGeEP`ORB$yPx!6JHtMe>6*pD5D>2Ep%29E=h_Kb0~u2*ofKgW55Z
I&72Hb03D5_)Bpeg

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/build_finetune_dataset.cpython-314.pyc b/prompt_bench/__pycache__/build_finetune_dataset.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..16b511842fda7ebc03aa44bf1b4e49a6f237fb65
GIT binary patch
literal 6320
zcmdPq<K<#tU|?u?dn5A`KLf*K5C?`?Aq>XP??5UTf*48|;uwM$JsCZiN|@w9Y$i|U
z66QFDASO?i5|%iIAZAZi54I9EupEmgy9Y-J2bj&|$yve~%Mu_0F%g+mWQgT9VT6d3
z@Wh=c;SFLHX9!{wXUGvK;R|9HX9(f|v-xA$6d8gzVQRrVE)*WzoFE=!mLOhnh9EwW
z&K$-PfgpZyh9ChDuS77GJ4nzXf`K80i-AFgAy!b4!31JGgFHhJlQI}<3MH~IGB7xm
zX6B?QBr2q3=B4VEl;&mTr7L&^`}_GQq$HLk7N?ddq!s1oDkLSABxfiTr52W^7MCb!
zE994!6qJ@Iq-Ex$7VB|wdF5y36)Tivq$=bWWu|B5CFa1@LJZR=t}HG|%~jA=C@oGc
zQpim$E>28OE!I>h&n(FRYXsZC1vM9{DY3XXv$!NNuS6j^Ker$!wInk?uUJzdsZt@i
zw74WcH$F2(p(J0SpeR43G&xlvQNcMQvBcL$x45J-CzT6k3DiHurI{s(Nja$sY57IS
z-qqvMWW2?ln3tDdk_fiIPm}Q$OF&{th9=`JPDhA%YDzLF20<7Uk}M1i49pA+jGq<2
z=_ZUJj>)2hfgyz%6yAZ18H_=UK}<o+K`i=A$_$#UFPRt^7;do?B$i|pF@u<FMX4pF
zMR`@CDVfP7(ZwZ2Itn?N#U;@oZfxvI22I9WY-#yLxrrskAS;z_IqPTS=ceixWhQ52
zrs}8Umw-cFzo4=tBR@~SpeR4Lpd>yiH7_|sKM540@u2uDDa}ibheo4bLFFx;_;{!{
zQ{&@{co-NM#26SDilxDR_|Cw?DEtvb%wYKdqAn<!fw`YS9tQg!!~kJ-i0@fHt1vP!
zG%)Bh6flM{1b`e0l10LxP%wvzTQkNpmNJzx$HUWN0aF;00E1fq1499G7;^w9V372J
zn6Ok^z!Juy4iaEsU`Pjtv9~M(LkuVuz@h<cU<!p$WC&w{<(&f7FxDVu9Vvu@0=6*L
zAQohiAXa2v0eg617@Hac1A})E0|O_6977Nr2%11$DbEnbsLY_ipv?ex7ZWJ%GnwQW
zWEteaFoaQ=!J1i?A(K&)y-GhIv8Xr|EmvgbmE<c_!_%@AJYUr6{bDUGNz=7h$#{z+
zH7_|oB{MJm7AIWgEtaJGl*(Hiuq5uM$#RP&zaTa57He@yQD(s{maO9Zyj!d}`H3mT
znjA%-7`w$@lv-SxQ&N13Eh8~6B`5V3M^R#Vd`@Ow>Mahiu7cE*TWm$C$@xVoMM4Y=
z3`L;AteAs=fk90H0*bgnsh1aIY&^6uC@zwNC8P#$LVBR8-r#<Nleb^8Q*wrThvaom
zl`EVoE7)#J$aQ$!5SO1`H?i)rxO#`jePQXF0upybC8tMCidw*NSyZ#b?S_QhjOwcr
z+8v%Z#ARosO|4sybyeK3!{dgc<^<2nJaQlT86@SuGc$0heh^~d5pMANF3iBCdW};B
z%KcRgO4f57#U1Tf5881%@pFPxE;J1?fKm(z`L+m@uE2o@&bCFMps3;lWl~6<EiNgF
zE#hQgV9;bN0#!1Q%nA-9aP|Tds-QduN_q_p-x(x8c}#*)c!tRb5PN~&M-WxS%fP?@
zb|@@`g2I`Zfr0h&6DG>CSPV45GBAWO#W9+I3L*vu1_1_FMmJRkhH@qbh9Z+NmH=o)
z2(unU!!sXi7%M!HLo%NN149fbXh6ys0zjbxW+4bghA>um=3@(EL(6>ZVQc{)A0jk>
zSwSrN3@{fKaD;JSRRcFS1{Bj^eHP^m3@MtR>=(la7GPjt2oQv^5Ofe*crhVUO+ZP6
zfq_Au!Fw_T0}j>fNbcke<HYJt4n2flxWc&LAt*_NJ2}IP5e1F+bq0not~dtd;t8vb
zTnJZTmFEuPfrl=47&qKSQbf3j7uiLwjNXb24B;EY*g*xPE2Fmtw20&j;tS$KxSXUS
zlE2CpQbd9q0<Z=Kq#=M&PQn`o@yYplC8>EOwR%PTpb|>}M1ab!TO38H#Rd6!#i_Tr
zi%SwqN{i!@^HWl*6oRue3kpE39Mxh44N&2ypqip-r2tW*pjuoc3@YN-lQZ%&lT(YU
z6mh7}%U6IZxy24Gg>SJ#9dnDJN(G0u)ZBuSN(HDoKTXaeQIKt%sd=TjsYQt;sYRd~
zxkw!33ki@6b9!pYEq0HPkbro9?^|p+`RVDYMYq_?6N^ACHBBB!;Uo!C4=Q4Aaf5sm
zpI4fjlv-2-s@RKUKytDm0u(GoiXaxqi$%&H7PxQ%Wh7V$4=U%u1=uYCa4C<}@G8<}
zU|;}i&;-}}59AcE7W8*i^;VQ^D7>y}d67r4!<(cce|pu#ss&mrk}iV_eSY!&n$DUT
zzL)v6)}&wIH@zbuHl1%G-vxQc1C|$}ldngoUyM$_kWqR$y6lQT`Aq?d8^Y4lZ6?|*
zU|Yd-Sy;Qn<%XEl^o)raGb&doT^7^raKA4s1vkU#faeu~Xpkl`*%^sbv!>@w%v%t-
zf$6fC@pUoti(=+GI1d<I7IQ<@<$9p<ia^{g0f`%m8WTLP@W_2sXHc_()JR&88c7>k
zBSE;oib1h6*O}W@j`gsnBZsRT>k%U*S2@<Ba@?-^oK;GYCa*rI_D;-<2d930Sly}z
zs>XAwjKQMuW|k=yCZ?tqDVB!G7KWAvmWC;&#%Tr?DdrYwmT4(w@ere+nq(n7eT<eM
z*vwljo_=or;5r9ZIf801aOJ22uE%jVYJ*sV*n-%DID$BXxb#_-88o@U73D2nn6u+S
zE!`@2c-uJ|)SA{&D5)$+Ez<KZ0JX9;)OB@X%GGrgGE#F2Y}K7mdKuunudW$;iwEL;
zh<~cQ2pJ1jtqW0&W;8?)(jfqu%ncEMxR;>85XEpK-7vaLPz9Q?w>We1)8lhe%TjZy
z^bqa^H}p|L0pf3;{B#AdVs*_}a3kXui(h_TD#50O1E^`?3XZMs44RCIj32?|4dJK{
z%pmRu4hG>^#t)oeHXnmf4C4oWFk6H{!0v-6m?_4<#`RGg#Dug$p!FZP)`X@A*3Sye
zpjJo>SP(=6K-&=@HVi8=gfW8~{7^Z0<OVvZ0SZ$HrGuEm;5DQ?Lky@H1(pe8fVUi2
zkec||OkjzDw;~XYeOMhw(0<l1czZ~mA%+)hIRgVj7$e+%Rs#03A=wXammus9V+w$`
zM_{JoXqm8s@{>6{<l-0#*y0!p*u$6tKxH*TGnfU+cR}1R)mS=K9APX0po#^o8bQEX
zbOH=+MbNh2tT5I9P;G-y1ZIW72O$c$!?@FUKrMtY_BcizcqlP26tH`%GB5=3>M?|I
z`7;Lb1@Q+7gmLRL`7!D<7Vv~|1c1stuxSV)22@FbxdEVh3CuzeiVR^qL4rX-FrUHV
zK_1i&!(v*HFp>&3G}p0tmq1%3JV87`Jcw2afjAWjPYPp4v;u>82zB#(G@+e5(JB|n
zXbPyrg^i^^yWgNOi>&-iP^As;119FBpf+>BeR{nreN~Ob;^dOd+*HkC1yv1j!H|~-
z<v|!$3aT2=R)=P>Cetleup)3Dq)NgkKM~YjgxOOJ8NpF4t`Y*tq^2mSroiQ@q(Ne!
z<`7av57!_Hl7whLk`B>iy2W0QSd^MqQhbXewIZ{)BtAd;7GpW03FZgxI^JR_%Fju?
z#R+e%6@gk0Zkmj@cvAC<ON&zD6N{5GGjB0+Rq2Hn<(H&_T$Wmq2pZ}s1`X_hnrOwK
z_8P<urFpra3L-T{Q<MJ|JE$!L>J@V*B^GBUJLl)6Wu_Ntff`LLnR#jX;BM(H=A6_#
zaJ%Ie8^p!8SaY*eGK(PXF4oMF)ZF4C4Ui_*@}kU=RB+Sl7HdjrZb7joZ;=70jbsQS
zj6j4jNFfKT+PcM!6ezdYp>Dgy4s~%6D6J#<(YFNQ!2oNt-eQM&7L={j)YK4-Fh~=O
zB{wlMugI5yfdO372ZEbjU!)jVd9JgFUt$rTk$J%&@hVHw6Be#^??&$n0$MA4udrC%
z;g^{adzoLm!Q&20LS;$v3XR3NS6EEoYIRrCTw$@fBc!yz=CY7MgEw5Q`WoRC(U&zX
zudrA>VBx>cB6g8Q>^h6gMHZO_AsbvSu*h6tvAn^@-{1}=9&n0W=ajt2DLF%V1^Wd~
z$?Kd3S2ztexZP0JUT(M0?wYdkMIQMM&l?Kb%lQ}bZ{WPFV0D2<_6EPgC4P+?0^&0a
zr}9i-zbPQ`fsH{>`hrZ%jEoC1F)PG2NbktJ;2Cv6Bl?0&%m-#BalQ`s4{Qv)!u>v-
zK66CoOU;s6;J!okiloC89>*IzLLlK8B3F3iZtw_CDD3s=a{nmKpke}Qm>GVNVPNHk
z1dzi4^$QX4*H{w1%QA2oUgtFURSXLI!=g^?uC}a4ZMofeQAZ3wMKZWi1S+o@7_c{r
z^cj^IG?~GTAaM0v1S)9>*4{aw+8b27g9Zke7)3rZFfodBgn%hXU5qFi!NZLV;1K~U
zaD7jxE=H7ch%zz=<V>b2p%73zOd&O|q^MG%AU`v&M9)u?`4%g<VRDPPs1%aq!0rdT
z1Ckh-lXEhQf*2SW!0rZxS_8uq7S49hCeNOfHh-|nTO9H6pfnpFuPJnkJw84qKRG`B
z7FT?HT4@O=zsDDW!V{dyitIp{i5=8Z%*jjwkFVTfE2#u^&5A&6kfH#PJZE}pi4UaH
z!x0}3D*WQ(!I`{B6O<uALr>uB4bCKB*P%O`!zMRBr8Fnit|*FufdSOkEuO-_!0>^Y
zk&*Eu6DuRjS3U+t<;M)%w;A~EGDzHIka^6&^MF&}I;YenPN^9dmpN4$*dB24Hn4wX
z<6#v3DhC?Ev0#W}Ok%vjq4SxUDUOltBO5~kV+!L94%^SnObK9qJYzEB4G#6s%uMl&
tY#-Pd92wmizk^#`Un3Zq7)3sCF|hD-R9#_~yvf4e=K7JDfkg@&gaG*sZ`=R?

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/compression.cpython-314.pyc b/prompt_bench/__pycache__/compression.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fade9b9b585b38cae908b918a71ea9bae1587290
GIT binary patch
literal 3884
zcmdPq<K<#tU|?uezmd6slY!wehy%kM5C-GtQw$6Y4GcjHB@A&4L5!Y^9!w=n@*p;o
zCvypN5N8QXEQ<g`C_^ce9z!XUn*jqu0YfZv05?QGG8xMpz>Ca>u)`Qk7$K}!<^Vnj
z3z;-wg7Cr^jG6qHyp0$bI2q&^N|_26N;ra;#TkNF#2In~N;rd9#TkOwz-+D{c5#Lv
z4ltWLh)J2Dlt~_}Ba=astIEnJzqmLjwYXR}vp7ScB(<VMAvr&{peVJtI5R&_AuYd1
z!8t!K9m-G4QAo<n$pNd=(`3BGotT%GUy@jonV(nemke?_2!ou+!oa}5%)r3-Spghk
zVGMCh7A*`6Da;HEG7N!?8H_=UK}<o+K}`Bg$_y)6UV{8}iv?u=E#~5qqFZc5sU@XF
zc`F$-8E>(r<rn29mK1}`R=Q=OpOK%Ns$Z0uoROKTpORmamYI`UtY1)Bl98XMUr>~v
zTTl|8l$w{Ep^xMfy@JYHJn`{R_ol|j7x6GKFgP<XFceFHUHF}Wg;C%mh*-e<0Yt4}
z2J=3Hd;|6xhylW^5U;U*b^~jS0f~XJ0E3$t14B6z14EHe7-Il4SP+E>SAa!e0fV;$
zB=W)-lo>P`tBitD3vv>ZQxy{PDix9wi!<}m74p**ic1npQWf$Nb5n~I$}>wc6iPBn
za#BGGQuQ>MZt(?&IEJ{!2RMd=xCZ$J-(oH<P10m8Vq;)nxW!(OSW=Q&ly{4}2x4?@
zYF<e($W>|z3PqqKc}p}86tX#)RjKh{i{il+6$!(FMhWc0=L&ikIb=H6Z}5xtS9ey=
zu)fT%+r{#cnL$zi0XKhxcM&KdgM$bZLm&^66#GRW)kT~P3=Eo#MW8$giD<A3!LbA;
zyg*SU2X@bQ1}4UM#*bifM)C(Ry&xIFN4N##4iJV%mkC%iBDw;YK+>pKkpYx0#TmjF
zOh5s}zyOLI<|>1r)ZF~CR8ZE)O)OSOE6UGR$SciFEy_$*D9Ok#El$i!DOM;>El4a%
zEXgk_)~gcHh)Jn7)G@Bru(#5QNvSrj)zsDmhY`#|kgtV7Im8L<t}uoGSm?o2FfcHH
z+zjGkOH4rwL5#5Eq|Bhnbc<2v7Kma^FUl`1xWx{Qbxp=wthtFL$r<2aRRag>Ee@NU
z#N4EmM7vw6#U(|V1@U>Mxk;%-@yYqQxrxPkHaYppi8;k~dN5@^pwO29J9LNWe(9ak
zyJfFi`dzg2J5hWgB<zZ1I5^xjnQk!^r4|W5q7sw{k?j=5VpEYk0|Ns%Y9WR{;pXi(
z>oU6_q<K+0{6b{xW$w5OEOB7N!GQ-0B2eHFUAz#N!2Cg8gp~zCj1nIigcv1e1b+Zg
z3xdHsggZcS0>bRDvfu#|sA3={afLA;sRH=}WDXJzVm6107BGY{1b}Qnk_9n?Sb|t#
z5nq688ukRu7Q~83&P1qZ58@z6J!cRXN$R;tRL>K{OOp9~LHs1C7eF;1N0<u+F~Pzd
zYn%un<Z;HEaF7Vhi~@!r2>}K-Q3i$rM(j3*F$ReuRC|j<YKs_9ISEPxpdt#I8;FQg
zu^@4jFaeeR7^Z|VU~7`ViXdeMP01>E$AW^KN`)NcMnic<W=U#s0i^CqQAo<q%t<XO
z$N|+`NENU`Nj_5Bp-Ln!rdTUFK1SCzMk}`3Sf@6oSWBe{R0x2|tF)ZN^x`TeUEN!Z
z3RN7@aWTO$d9m76Y%zHtrBzH^TvaRz+A(>z7`dugV)7KUt9W9fHKOBUVq>*5V`8hA
zVhpQfH0(1qi&K+h^kRy&G-6V;qZ4(j9Cf2&?KNZcs@Q^EofTpXtAt`SG@ud&x|Xrp
znlYMHObH29OzP@YY@vF=dd_;cm_vh|tC&NB6{^@`^s0??YHu;>X|hzYhUzH<>s7Iq
z>M0cKfq21s3Lsvwo`NQO5vZyHmxQ-CeM5ahJbgU<T#G=(3%JMwSFyKP!6l+56STfg
zOfJgLtIRD1Wn(pH4J`x<!gx@_D<0H9D$-(LU;vj^DvY2)2T^9OFj`Tv$7sLJPMa&-
z9t|!xxcU2SI&EgK%t*e>t<>Oh2U56B(4JAez~wTxCPGAWM%aRo%iLNB5%n1+3q&q+
ztKk#TUtqdI<ubQET+Ia`!wr@@QZ92lBMGUm5Z%CXncEcEJxQ0j6|Zw^UgXwXp|XML
zGPf~8l4F7DWp0fIm)pYTpcaR4e@$o24EF`0m-)59Z4MEOC){!~N-lG&!0nizIU{(1
z%4KeKkca}**&xqbby{`XTwoCgm)n}=x7ZzX5|a{h6K}CO<|GzpC*ERrEXu6P&r7_;
z;aHTNm{*)we2dFDF()%EzbG#=@fL@3eolT-VoLrkZs+{Gywv29%;eINTO2N_If><o
zMX9&g-E#7aGE)+7vAd_{7o}$=-eU7eEKkhLyv6F7l9-Wyi^DS~Co?ZUv-lRfXI@HX
zVqW4c7SH_h#9M6M5bHR+Q}aqnld~&tar)$!W)_2$u=*xu=B3`^@J%eL%t_2kxy9?7
zSX`W#oKaewT2fMci^CVx_)SmDyT$37nU|MZoL`c7i`zG|xEO>A3Nk?|ii`70i!yJq
z`{w7Bfb8Y)OHC>Q`<l%!wJb3uv5MC(wOqj?F}I*NBeN*AiVMW`N-Zi*t%R_BQ!6r)
z^Q$;O;*t49*;Rag`9&oe3eJf|`8k<+iB&uhzDr^@$N?<=8JYRFIQ+A75;O8af$U$D
znx3C`izgs8FR!>Vrz|lqGqH*%C?h{5Rl&0u<gqHg;QUe)6Cr%4iJT#+Am0_Irru%=
zNv%jMzQqz+l9+LeJuI~-H$SiB7DrfSQF<mQs<^@vi!(Cw(o6F5s(8awi%S&XQk>zL
z#mV`3#hH1x*uyLHb2IbOtGEM7Q;SOS6@oI8^KY@ZmnP;`@i~IqbBTEh!HK!~iB%#l
znV{^MTmou_JLl(=<|bt(Rtbg%LrsQyp;(jW7JGbrN`7*D{4K8d__WfJ(jrj*0+frv
zrNAvVa3ekV7CR^}XXd2dVoNPfPAo{h#pUVl=O5(i>=^7?#LvLM04^0E<pU^>gGxeh
zvmD%tGJv(*a`RJ4b5iY!q8S(%Ks7*dG6Ms{2WCb_#+wWdPZ^XRGjM)jvEX8AVEb6a
z$PmgH&3IWb`eI1b3DXHi)2$|2%}AP`IWuzw>t#8;4NTj4H}YN<wmZOjS;*~TNYq8a
m=mx&8Y%GidU->|d?C)Gcj1oUT$ukJWFcyPa(v!^`6<7edMtwN|

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/container.cpython-314.pyc b/prompt_bench/__pycache__/container.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..13b408d29788570e026bd455d13646e5ba899c47
GIT binary patch
literal 4144
zcmdPq<K<!i0oxmyja&>2k3no0W`-~rKbJ8uFf=d(F_bXGF$6JsGI}tTFv)}1OrFdo
z%yA4sOr9(yEV0Z15VIiKprj&0ESm`<gj2#E#9YD=#8Sc;#464Z#3s&=BT&K>#4gSd
z!~te=2XTrs1aX1cJV8v#44T|k`Y!p&*{MYe$@zIDiJ5t+MG85YX{pJT$vLSCxrup+
z>8ZJ?c_j*I`9%t4K0dyBnvA!&6Z7)&OA<>m^Ye=Rs<_H>a&mQ(QuC5Csw6;ceGs9W
zUyz!Ym}ymJpl4{QXOIkXA_#+A3i1Xs0|Vn{9k9p47~+^LS{N8om>C#k7y=nH7=svt
zn1YytSb|uCn1a}X*n>ENIQ3bT88o?GGBGeP++xkmPf5+W#avucbc>}Rzo_IEb7o%2
zEl#j-d`f1~EwS{1()ire-29@-_|lThoXje)b8oSx<>V)p++r(AEh#O^yT#&{pO?Cl
zL6h+oTUvfmZemF>$c;+3%=9zzb5r$;GLthhQ}t8wOVToPQj7HqDoZl*^Yjaf@^cGH
z;=x|lhliV9LFFx;_;_g8q{hb=2{JG+@G&qj6gz|c`JF+V(TnjTn0&y^_kk6}{lLb+
z&G&&F%;aDY5dOdkW^yseDt+JvGkF-;xIXfNn4dv`mkc66n1z9XL4<*Ufti7U_477H
za1w%sTMS4ZjDuJ~;TOil!w|$_#1zCC#>m4E#AU=30}4lo3hp4DFa{n5Bc>qUFoqz$
z7*?<_0|P@CGb~{R@dpX$i4?HJu)*X4IAJUV9V8gWU;;H)o*{-CCSw9+$TP(7K$#2y
zpm2e4ptK@G7)y{)kWi3tkcc_RcMJ>+1*~DL0Rm73NK_nyML7dQiY6$<1c`>R1_&WZ
zLYV=gPzDkOa|_771#B_mFsU$jCdyzW;7hSE)&L2ZJ_L==wjgmGDTGQy7zIfvGiXXC
z$}%!A1eYWhl_(^F^B7WIEKV&d%gjqxD9K1wNY5-w%~JrUaXl_B$D;IND=q~E1&D~1
zf=6k3dS+g_TVir5L`WeevnVyWB)_OqAulmERY9XDH7Btovn*AiBp;#zlvOnKz=nWw
zk(Gi+esPHchzU}Xl$n<Tkp$ZbQVdg(SdsyAB*=BRt<Fp>h8Tf8KUyic6(uHv3KE6<
zGzIs7Pz6Yy1zBHOoT{K<plhh9$90P>1zbqoVlFDpt76hksbbUB1^KB;T30tEwJb9^
z)i$pzGbJ-oFF8L~KfR#THZdosic42Fvmn_vBfq$$ib=Puio;4D?33auCf$N6Rx1kw
z1A{7dU0twX6$eyOze-qF7ZmQPDG(WmO%l4g=>?^_5claKl_^#Hy1KcE6;QP~sd=|p
zObjf|s?@+y3JM-jxd{ud)FOrQ%#sX9_**Hc7Kga4WWL3hoLEp&T9g`}Us_U7T5^k}
zB(<XC7He`wYI1g!f?Hx{PHGA$Op3v&1l2q%g(@jj5e2Za)D)2MR(>x*na<BollK;%
zv%g=6qo<#1P`sa`uj?(YFdrY^cu!wPch@3N&c4N#lb@cRT6BvgGcPUw7H4ruenEU$
zPEPJEuHw?9f};H7)Z*eIP_DYg1t~z2^HWl9u@#r3q!tz3Vl6Hy$}G6W6I7a4l9`+8
zT2z!@1eVM%Ezx8z0+lO8><kPHMWC{y2viB&Vo%P`%}vZp0Tsx_r8y<Hm~)HMi$RK1
zR8&+H6cma;dH)s{*h65a6luW<)%)N=^@9Qfr{E0^-Wwb|H#h|DaERUDP`$w+0^)Lu
zbZAeAxWFL?=J0o@O<?WdyTc)LgG2BJm(T>$3F;R(q;7D?f^{q1;o!c&qjZ@=`38sN
z4Gz8!nxgz{4enob7+AU6y&JtR2w3b;y~5&fhlRJr`wp*oe_U7G4EGH#J4#NNUf~UF
zaJ#|Id!1e4BD=&4$1CizHv|keh;5hMD0|(|<)Wd>Wka_M2JRR5JUW=~@JY=uzRV|o
zfkXZd3m3#_ofT>8b64hG*K@q6=XhDq`GE6PJ&$WFo<*Qi4W;S?6|dl`QwHpN>{X{e
zqcX!v<|0rLS_F#xB3@9agGyXY#v*=Dg#@nUz+nrnq`-s?NJ1EF>~{t(MzfC~VuA^n
zf;a?GgfTF1z-k^PaLt3LaRQ*t8f3*mjIf$So*@S0EU;t%D9wRc2tttoRP)DxOa}|<
zL0SQ9=1^0K($5~mfn)*;xE(>737kP(K^#HcNT#r1m;!bmh`{P&9)ypBc$FD6`Kok-
zOY#d867y0Nic)j)L8Wj;Dx|mvHzaZsi?R`ggkF_6NO=Kf@lgb-^KY?$@@9yeCQ}ip
zDk=iiF1MJ9a;unh({8cnrIwWE7iHh#O35rv&d<wBO)j~`mQ<9PlAc<ngi%!F7ZjwX
zAh|2WPm{Gs4wPc#L4+cR0Ok22P?9SGr6O=@fTSJ;kSvG*r=B8k>Ujc7)|yvXwC=F*
zwfi;sP4JkJwj}R@u<3!63qj#mSt1bPDGOZI=v@%DJfU(SEcz--3{>U@r{Dz3896Il
zHfZeeyTIXnLtOd>pYT_97FM<|T<}b3a*f3l>>ToPNfD?83icDeoZ$(|8De0+eP`ff
zOkw;8CTFlfXo&rwlmNq^0u0<Ni$l*Gp!^F{1*H`k^caFT{6URgMo{91H+>kw7y{s#
z1*({VfdSg|F$6Vz2sBk#!Wgji83I7%0m48q3)V0~YMihtgIoZLaIgvlflq${V;G}4
zRB4JH5pHA)V?@|Vz(4FrnTl1JAqdnZ;H)wWPb|t)$ON|^bTd*D%PJM1byaGyf<~%d
zx}Ji6PEKNOqNYM(QK~{wX<lAtUb<e0TM?-FSEcBjUz(Gmke6SgP*|E;R0(c|zzqP^
zp?+0Tpr#32Od%z;BsIAtHN}ccwYbXDIX|yBGbOc10hA}fITm7_f<|#^O1?sIWpPPr
zZgNQuSY9C?>Xf9^wEUt}1$f@i%uCl~uHu3;V|0siGpkf}b-@nOP0r6PC@o3VO)MxV
zwk^m^(Sf=o9^3>H)zyXcU2Kz!%XIScGg1>%Qj0V>iV!(h36x7gS^5@xd14XB_eIJe
zAr%mz#=yX!$yB5P>R53?O-?N?2BlP3{mTb#h{S{1aA`%UsYT`t3=H5*(Fo2IPaxId
zEsh9KCgl~p!6*EMla-IH!R-SN0|y^cwRnevub;1z?}E714!8ZjJAJR)_+PZ~zibnD
zg(K)D2j2|=vFW@Md9Mp7UldTjETG!pd7oVXuE%6U<`oVHI5+7UNAgEj1`a`R{?p{W
z#U3A@lAjzOe~T+VKCKkooQf|3dE*v4s9lqpmkth+Tb${sB|eab4o5sV4CCV=1s=GB
zlLZBe7Ki|qYhb^EO9-$v;8O1vhfQvNN@-52U6CyV0|TfsEe0_@Ff%eT-efR+%AoX^
zf$uhh-~&#9>zq=TIHhJ-T;^11V0$1a+rW2&SG|GjD;uao_cex*i_z@66sSxA8xH_;
CJFBq(

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/downloader.cpython-314.pyc b/prompt_bench/__pycache__/downloader.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5d449901bda49b10cf53365f4c84e3eba068b74c
GIT binary patch
literal 4501
zcmdPq<K<#tU|>+pxth6$gMr~Ohy%mS5C-Gte+&!^4GcjHB@A&4L5!Y^9!w=n@*p;o
zCvypN977P3Crb%S977PZC#wfr2^(0B#gpBGql5#@X7c1L;f!MlV)f+m;4a|?i?Mm~
zc<`3+$}_|=2gpEdLM9a%V);!NAtEILLG0oTK^)=?IRYhuL7d_YL0n+AP!P8`Ll6&`
zEgZxv&Je^0W{bqKDKZ4X^#=(UGX)8XGXx2NWOEoxM1zFI8G=MWyb`fk{vc6{2nL1}
zE(Qh}hFCF01`~+24Dt*?Ov+%aDOM%xQJS8fnV0UCn4GGRo1c=JqmYtco|luKn37tg
zr^$GWJ25XWza+6FGe57`Zzba`mVm^P3{A#coQ@Fj)D%s|TY|-Ti3P<O`6cl%&6<q2
z_?=Sok~4A>i?W^b^U^ZYlR^FlVURo67#J9s85kHptAJx6j3JK6qJ@DWg&E}9K*kKl
zAjTl3Am$*ZAeJCjeP(5bm25AW7#J9Cu@t2i<lka0E-AXj33hLMN@me5wxZOM(xSW~
z76t}}l?<AUx7gD1i*gf7ib3`%-7?qD$j?pHFUm~L$V}Bw$uCLE%t<ZQFQ_cZ$j{R+
zD9X<*D2Y!3IaeR%fz%?sg34Pw@$pdqr^d$@2{AA*fN-%Q*wNn^m>88lf`}Q$A3)R!
z2(`fkEchAZ&t#CJK@1QEB|T;a2G-ANVEr*5$AQEd!WdzRB8)+Y8!QASlo>P`tIUJI
zep4vPNL9$mPfpBHNXaZpO)kkVs#GXQEXhzv%P&$$R6veMP#EbIfvnSHDgv2T#LK|I
zPz-X5np%+{C>#aAM#V#d5M)e|D9m>t`38n3-24+byX|L$T;*20z@k_r%)r1vSrlrr
z6@juP#6dg^3=Cjb74d<b!;+MrpHsxoz`&r%SR?>)EGTf4z-|SHJD3m$Nx%Z1nbGhg
z12dx`DDasX4MBm=%xDM-d}c;Nh;u<61_vYq0|O{&fCIk@E%3t`O`z%un8KI>K%oZH
z1Epa($C^<cDv}}vN~iJ+F|1GlhA^f8b{HE$!*s%;7aXCw&Kar6*$SCy3W?AxmyuYk
zkeE}HnwV0lkd&I5hsc8|dYUZYn7PH4T9H{?QhbX!F|YC#duB;$QA%c!CNm^7LD74Q
z1r&|NAor`ODS$)nmOy4PEQ*U#i&OJTiewoW7{I}(4GxAU+|n~#E_3TNxZL38@3-!>
z?zX+oZE%6xU{3G?k>xTAWfsd_mNmG*VgLzHP^5q`$cH3n;UZ2@oD+&;kOScvOpsCR
zBZDBL*bLzhAZi7K+8_cJgg6NrcOVxrK%K<;`4iZ4hzy1t$1$J~0xL&|!sAsE6t6L$
zv;tOvElz_N!<b+xMxG&zNtuCwdZutD6R4f?3^AZU0Gl1g5Ch7Z5H=Gmg#<C1LwzJq
z$Xu2%22^)wvQ~AvKud455&@jg6-x4vN)d<<ye!e<;tI~rEGP!6fR%!vL<%Z*(A2^c
zD<n-SB<7_kB<JUqBxdFnD}c*ZJ+3MVUvPB-OV<#kRtl=cRnjm=X6B_sasWtJLDx<}
zwOEts7CWf;iqA~B#R(~+QZkFGL}6MKlJj#5a#BlDL0UA~z<C3lsBf|5<fo^n7TsdW
z%uCBJ0wskaP$7eoMYtd)VrCRRn2#aZrAU>5fdQNn)4(a|3m1cs(gKysf<_HqPuRt0
zuv}-?xWuk;hl8)5yOaBZh~5USD;(B0_$4oJNIqfVYWHsRz968xqT~vT!yOjU8v-JC
zghVG~P1gU)%FN34g@b{W8=^#gg~$~ay&K%37g$6g$r+TpKp2!PK*<nXNh*LHfwPii
z(PvU-&}0RduD95d!L@A>s5F9>t$z7=sRYYbLr~c&1-9rr12dyOsBG1rA^!oyUJ(N3
zAzTP@9SDPpKX9QM2G$tH5C9TI!vYL$5)2Flj7S+zAOPeyG<Ar?>@CH>z{w!T5X7j=
zpvhEa36K2LvecqVNRm;=$t*5OO;O0q1E*MsuXPkk@(V!8JSo4VBtKWrPm}o;8#wV6
zgQFB&<7hG!f$}@J<b>3T(9)6zo(K|ia*99&Bsfsyz<zrmAU2(M3U3F?9S*SxCD&zj
zFUsm(<Iwxe%pfQS4wxz~a0^1OBtJLj7K^8!n?G6AB}))%5F4n)qsb1AP_SF8?BLC<
zXix)8N1>#$Ahk%(zW~%Q)5u88DX>)sNr3zw;_vGN%8qH7>EO($t{Dr;O6l=Asb#4-
zReA`cic5;Hn&gw8t^ii7t{DqXLq!_I6y4^aBm`;Od}rWiRQ?DeZt!@0VCH93e!y@0
zft8<8`2!mR8`np6enw?*sG&5FKxr17oT3;(ZSxp-0ttYYiEsf>>z*MD+)6~0mthP6
zpahAmh=Bp#?ghm;NGe?hRK^D}hcWOl7%>$v#ej+mkOV^j2be-36dA(cWpf5&7()QO
z%tj~+Vu6+3){OCtrA(#F@o-xUm}5Yt5Lj^lsHp>HAqYi=FlLzU0#Mwu2C*X57NE8m
zSaA@WK0^eH6C(>l0c#AXEd~}1V}<FJX9!|dW>8?zW`O&X3FOaACV2)~26-^_(XeKg
zWyoaIWUn%YXQ{-T97u*LM$1v))C_9AL(`I8mA<M*VsUawW^Srxv4W}wIECaTLU|B|
zm4d29ZfbFHVtT43s4Qm%D+0IZs$?Mj0C1XANXbtvR>;dQQ2^HqRtmS6ijw>wg%sB<
zc2H5CnU{WxJ1Ma^GZ~`q7JFuKJg9QH#R^XRw|JZqQvwo;5_3~aK*fH3L2BMDc2Mri
z$xOP%0_ws*3PDgt)?@?cqar;}W0M`~!don0<Cu#Q%Wnz5y&DfHN{T_rLQPFUK>=Di
zu;eCY<`vm7Fff4Ac`LY7_`=1&%5$AX{1S`!jLZuLiC0;Y9&iix+jZJq=a#<2Eqz18
zV1w8OjtfGT9qf1bgs<}{T;fw$Aby!o^8$zF15W;a=}zehA=f#ju5e1tNV&r&+Mm;v
zGsEOEpF#)ocV-4I=`U;y66zPlbyo;q6xY4LB65dC;DVsyH5R4soD5vj*Eywr6@${(
zL1l3#Db_<$+)i4YD8&va<ACcBP;az>0ec;y4=QJwA;k?SjS`pLJwe$WloT5nKwTjb
zP_IX%BLqxA@-{e)LJ3d{2%NXAzyU`nZzI}NNGTlTOr|QK5K!5t0BX%vDiq{r=9PfT
z`65$L)G`;9LgEOVl)$clw1k<Hb25vZ7#JA9t_HQ28yKFjaJG9kdG@5V`GZy7;)st2
zMRI(+ruZ%P`1q9k<oNhoT=DT~r6r|BpdKJ7G>eQtWuXPgHg-@$A}2Em-0!@_R#I7z
znU`J!DuW=d;m?5duG12eQ{yvAlfbQ#TT+mIryg>@Qx956fl9zzoaw10K9I%?M|?ae
zW5vf8DS>PS_0hns9Y}2kO4;BP3HBMfmpN>5^HWN5QtgU-7#J8pjf&zT1_p)?%#4hT
zHyM<lGAKP};JeMhcb7rpE`!Wt2A;bNx=$I*9&id==ajm{DK*35GN(!d+gCOwMy0P@
z%#4O#c?227zG{FP2Yd{Ej6sYSg5oaw#@}#o`wlAEzp5}XihST=VBzVgy231ZlZCy_
M^&>L_ixfC;0VJZKUH||9

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/finetune_container.cpython-314.pyc b/prompt_bench/__pycache__/finetune_container.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e525721b3f018788d9f926439f06da4f658c72fd
GIT binary patch
literal 10114
zcmdPq<K<#tU|_J*xS1Ix#lY|w#DQS}2!rvn5fcML149r)2}2x15Thrf2U7`?Jc!NY
z$y~x5#}LHi$x^}+#}LHq$?CyY!UmRO@nrYlDB%FJnLIg5IO7<CSUtHsxJ$U@8Dg0O
zBp{|ElZp(nye5ngkrKWjwi5mz_7Z_0juOFGHbsUYPPm*<5SKVZ5Vtr(jzEcU5KpX7
z5N{A)5PuwVkU$($kYJEdkZ_zrkVuedkXVqoK1Yy*I75&mNOcZViAa!?I75&$h*u&S
zBqPocBnxJX#c~GdLF`5*6&Zr$g5=F%u9AqA2rx#Lhp<f`6hn}LI75&k$UK-xi4=Yv
zV4o?$d<Nzz!+AnMd~wWiOhH0%3PGYl;z26L+(D}13_)rj8*&)oc1Yv5BS>AGAxHzH
z2d+bgfDTP@h9E5z9kM~%;tWALAh8m;Sl%FAiwFjW6fOn^8HQLnMFyD3@(e*t%3!Ri
zS7qmtpPZdqq>!ASSCW{Sms+HdlbM#9T$!Acs*szQmzbWKo0?amkd|Mh5Smw<lV6gd
zkd~R3s#{W;mzkHYr^$GWJ25XWza+6FGe57`Pm}Q$OF&{th9=`JPDhA%YKkV~ExzQ8
z)a2~=^n%j(w4&71D&C~boE%+{NhPIusZ}B<T&tYKlGNgoD)oZOl8pR3{eq(W+=7z$
zq}06R41I`u(=u~X_2An1^sCZ}^>g!6Qge#+Gt!blNdbgGQO?A`z`)GF!1!5)0hC3;
z7~+^LS{N8om_fl3$e6(x#2Cb+&#26>lKCY_?Jc&V)RNMoyjv`O`FW`;88jJhv8Ck~
z<tCOCgN#(VWv`!+pPQ;*l$o57nW~?XUjlMVu|77p!W<Y64_&>2%3D0~@z5YkjgK$l
zV_;wqV_;w?76!ZTI|DbP@kbCbAp}f)26-YGM8Gg7#7C^3e}Q$xz{D8>nBhz~BZx7E
z1;#M}`Hz8tL7pLo4JH=A0b?O(MTQ`zAm$*J7;wP@5)WcUm=eUM#~#EU#1X`44z;g<
zA&en_2c!-a$1zxxGccs^fkHZntAH_vA0{8h2+Kejj0D`zjj$Qv{vaM@22I{y%1))3
zIVlPy8L7yLQUQ`g6f$!Y(^K`T<iLtD^U_h&fF-RIREux1rGRt5E!HHEVZWGk)2f(s
zOKvghg}AL`y2VnGT2XR~6`Xvl6x|Xtb5c_jO7a!JiZM;B;`apE3YIPb8Skgbaf>Y{
zKRrFQ=oU+6URwSwJ~vN4*N{*@*LY7~M|am-T*akH1x5MEsl~;&n2SpDZt=VLJA1nZ
zxq14y#s@ftc--QGq{!s_l+;^1L8W;mnYpR1MMe2VnoOY7T3nh_a*I7TwYWGjJ+&AV
z#|jEXybKHsx46Nsj0gL*NEw#U(!j~)2@6-dccb?O0fQ}iS6CeH@QU}xb;aG_6r5l_
z!)1y729rH<CxkC>_}<_Zyul~@g`I_ut-<XB7Xt_1b#{r1>=H8^udvJB5Hjsxzr!ar
z!~8Oz@&yj%J1|2Pm)KonF)9K@_$`i%wD{!2<c!o?0%eIgnJM6+BEGmFC$l7d)=UuC
zX@83?wIDw^qxcqAQesJRMtpH*Rq8F?oYcf3P%#r<lvt9QuInuG`jMHI{VmR%{G!D8
zqQt!HTYR~R74gNXh4DG5dFdq?nG6C947WIo6U$QL)6+}S+)#=FF-XQ?{Oke_0qjLV
z5OWYy5K9nK5Ni+{B$)?s1aSqi1#t&)1n~rMK<cp|0ex;|22H^tQ1-dSlag4HSe#lC
zUyxXmQ3T2rx4804OA1O$;!`q<ic}aF7>ZOu5yG05lb={pqy}O$XXcd@se`06K!hfU
z&;k+KAX%2A{QR6EP*yJj<-#Iv1_lOA#v)KIgOo$y7zURfU;<=E@g%UnzB7a~GP*N<
zgisHJ#6GZs1wODb2#S7Shp;&q_=P`kLfBjk;xZq&A#5H7UV#t15H=r!pvVV)2wQ+b
zMDl|mge}A%ApAiX!WLl=mG~eEVT&;ch<p%-uq7DSxIRjP+2B+FFTp^*k%vSC>t_}g
zNSPb}Dq3NM1C)kUR|O1VjCkc4!?2coF#Vt)1{s+y2rh>h!x(rNjF<|zVpu_<ARNYp
zD2>7x1K2@gs5poTR3e&#@)o501Vs#33CtFGhA<|)u4D>hBF5w(7Er=NDtW;rZ5R^|
zLlBn{QxInuBM(CmH<-o1!w|${#1sQc6JWQ%l4g(~Qc24U^IMP*k|+yYR2WH=6)q}*
zB+3RC6-5$dhl`3KiE_Y1^<)dU!#H7KpCSYb`!MbRL9jznh#+y89(jfsA(&KvD2#=m
zgCvMnDH+Cqs4WPXDiy{Ym!bnt4GhHVln!Gg+7_8G7NXV4hOrW@RxXSkNiC>|0|yxP
z#(Nld5L1wRkOI8s<_Y5okOFH!A)qz4G$_`B6tSy;<|0{`M&w*XAjFlB!!1ZznL$$}
zF_npdA*eJDqcTS{ow&Fhi_(j&xD*r=6p#yCD+Q1I;t~Z=*$b+f(OUyv!Tx?eFb#TO
z-H5UoS#NnpYEdfK{*oe4Q#eHd+@e${&&<hDNJ>=z)ha0v17I~8vi6dE1&`A7^vt|;
zx5VUBs9tcrr=XFPnU|uQn_rq&0%<)YmgQ%rC={jYrsS9B<>V)(Wag!7LX1YQBCQnM
ziV~ASt!st+G_W@mGE#F=6!J?Ut#X8Vh<->tYNg;;nwykb1kwZc4XFJCk%A~gRI^qJ
z0jWj0DXC?d$*Br(wP1M#P&Euuk5Uy|DfmEZW(82q4DKC(f<3>WBr`X&Dzylz2Ubm6
zDfr|EIVvQkBo>sU7Ab&gZiouh+S^LOH?bl!w=`FwIJK}eH7_|;0aC3)EC59csLuh8
zLQrIYt9UDg@Ql=wjMO4f+$ZJ~=PRUE6yz6`C?qPlyN9|d6qY9Dm1I_>LSs{pt4i1f
zQd=wJ<%5E-G%v+UAw-ku7JETrQEFaE@hy(jip=7Y`26f5P;pcQO5s&(y1IFZxv5ps
zy3nAq%`3}H$xPHs&d=3PFDSK5%*m<Z($&o@NVd($FD|KK(k-i!w9+ri&o9x}11AIh
z3`p`wOH59!Qn%7C&o9a@E=WvH)rX`<{lfCpJY8^4sJJvYH?as5l2tOu3ZcnfFRM5|
zFUP7Vzlu{=7b;dIfn*?545F@zM^_hOgKkP@QI#5!I*2fKi@9}m%Mx>R!R@pv4qaVH
z>H!%BP8+(Qv{A*PtD93)#jUFgYLe-KBDP9ES2s7YLbo`zP!|$=AZbu^>4I8hRdT^4
ziA5!#<Ou2=LHm)2?q`*Nf&w&ttUwuEwYW+|K_M(LM*-{*D+L8rJ%cn=RggM=a1#rx
zOhL66B;pEgL_$SUKq5|{<|H^BTPdi5MZifB<Wi7XDQ-oeBC|@}4biDZI7T70A`_Hj
z%QH(d6hO^y1$2eE1v#lDsd@^&puQ)hgaD;O)nY$Q{#)!tsm1v@WvRE=GmGOvy~JCB
zZkai$e)%PC`K5U&;3oVn*4*rr%%WSo#U=R#@t`09b%<~AIs5yCIC}cI2F3e1`nncL
zgW815#U(|z*b)m0Qu9)ZBtcC@P|;lk>ezx4X%VPhRiprFDe@NSg5*J?C5YxHxZR1f
z$yuZXvV%Q2KQ}iqFQrHk)F%b?B2?f&0oJeJD+a|O+_gn^3=9n52Iw6|P<!r!8H0$z
zbz$|3!s?fWH5+_x2ufcURK6&vd|6Pn!RrCH_;qgii`??pxfL&QE8Y-MU%|7W?t+jR
zs3#%6fc-L`#sv<I2P}NoSwt?fh|CCC;c|gR<O+-79TveB{|Efy*ZJiy^2=Z5S8VXO
z!NSw-*XTFHWQ9tD-xU`94{Qvaf;TvLZ*U0Q;SjsQp?ZTu<OT=N4Q}BMtqUT$7dZ65
zJkbuF3u3kxIPAbY@eaKU5+)ZoOu<@&Z*VBx0O>Wj!6ABwgZl!H%w-PQ8yrG+IJi69
zy18#~h=EvM-TXH=_&_Y*%N$Y=r5&E#d^b3xK!SdkIix>W%ki@{xPNzGWZ)3I!NK3p
z*U2}b_6mn8qU#0r6|^6ww7>_Mt9C)dVu$fn4ZABW_V8|%(gLq5Ec!@Xw<|2#NL(~o
z&nql?Paqw;8SX1oHl$wRwP|p>!On}^g%h#f;db4|_o9vO1#7<xLjIs=!0gaj?y$PX
z;s$BTgBt4~466A-O=6;kSBgN*YJ%OEI#8+u<;Vtx?+h%Av5X(V<b)Ck4Y40&FAReQ
zGME_{SU+z9_k9QqCcuXs<QWjd3IQN9VCF$-$Ph>jsCNez(PM@*%wY{DqV%%|aUhw%
zf^I?(r!s>k*DtN$lKcXN#5_=YAUD4Z(gFb$1Q=zb9;oolFDSrSc!KMzTP&cWB*aaV
z=@wsdVnIo1QEEJ-oG$_m=-y%~$}JLMU|{gmWW`#DSb+)-P<Im?*pP0fB}fcJfaAvz
z9Mov3n6KTh$!~(kjI<?r7lcg@q+AFJzseGEhXp2{vcP4H-UVUH6Dk+NqOY^WfK5l~
zo)evvG?~HOZgB6oimSM!NTEi-FF!ApVCrfGr7qYw8yBPIM+PoN%?VXt3gRAcWJ3v1
zf(0k76=44&B`uIkp^9LXA_Hg~5j<)JA8*rR4FW;7Aa--87<i-%OLBv@x4~nQK^)4U
z@ichSgW13U5(V|15dvVA4w!@x$_$#ERbD~h0ZfIW)MU`mZBBlAu|ir=elECai#1{C
zDC8G`Lr@_z4csa!D$N6pyXZj^6vzlr3#cS9Gv^kQsX>UFCUcQ9C{2ii2vD-}(_}-c
zh`?zGR2$u5D=taNFD(JnsYOMajF5^2RD3`Osdz!ABkB@w1_lOjJo$n{9a?;W#-+?=
zSS$!xV|RhW>V~*9bXba$6+A4(gE}mAlVA7-w_v|*r|k^0`L;7{uX1Z#V9@}_aFrtV
znjSIM4I0yC$w<v9ATMzeSI$jCPKiv6LLV8J7==1Yz!cb>@bMB*#DdZrI3<GW`v!&>
zQ0Rfgk%#mdl^Hadia`BqKTSsPU>`U;fDMCWVo<^_0ufU|mV-tx8W_H?F|Z1>`GQqd
z$wG<=eNY+!wL;=in~~B`X>85ZTP&V_ZvH4C21*s+n!y7ckvK=&zylu8kv6U%?jRn-
zFa~Ir2sTF)B%u!)^pyl>{afr%r&XE5XBnbF^A0)+C6xuKMSA`PpdOP3C>m{1+IHaH
zpt@#k5vXZY<w}I^a7ec>AKbbF=OJ(>3D%(inFVV5RCy6$7D`7IM{f~iAZW0#Dhy#D
zc-RolZ|X?xb9Eh1r?9|Q9o|>O(MJRs4jO%|GC>%gnOA~lG$hzUpdBs+NXs9j6*Qhx
zWkpykQjZecSpYY{K?Z<^I;(6D2H@~mP7&NkC_PP(5ukz6Dm{b|xSS7f=YuqX23D&q
z2y609tU&L4g0zE%WUGP@+ChV}Xkn(Vs|)Ys=<Dj{<s-Oozc_-rryy0}uBp0aENCb@
zJw7M3EHww&OT{HcXr@DA#3w&p0jwD0CQt?@ZftlCD8ILZbK!ReSw^;xAmRqE%Lisz
zMz#k6p&wXf8QDH?G4Mw+e&7Z%c^JfV89(rXn0ySpj*K7pK}-P#L2t$nf*__4gGd15
z2VoFXgh9aWgD8k4#vtm;_(2@Rlwc4@V*DTpVoHJJr9mti(2%gKEF&AZv`GdvF~Efw
z0|Nu7p8+o5O2DopRMm!Yfht?1;aK?K9bz~(22_26%@1P;V+>;oV-8~pV+~^qV-Mp9
z;|yXphgPNX3_&c)44SM}TA<M<P|*i#cV*@kXQreoB*NyC5F=4l`l=d<#mS&~7|mh@
zRSj^QfQARaJP5-|K~)1fC!<-c$#jbqtOz`SugOJv@61n=<rX_=9w{>~{T6ppVsU1&
zbADc0W_l6G@8BMoCU;RFs5%CfY(#hZf<S2l6cuU+0I4oO!ye#n<!q1=NSp7A5(6vG
zbr$hUEaEdVFBl|VWl6fjB6NjC<PM9_4N;jJ!m>96C2vS--ryGnvBi{c2ua@%SG^%5
z{auus6&mrN+6#n1kpr#S2+z(ESFP>^ITcjJfw~V&j3S`=RHP#XOhHl|$Wj=FTF&~J
zV6_VJJ*Zj*HG$EqRVPrGgNQvK%R#vkQmqQL`9rJ(`4xmg)<UhMmVXa}tc3ZOjZyp~
z0~@0_$iHli;t<P0mclTo5em*_&;~8cQSfF2sCk;E2O9K^0XY<`F94(q%t8>L-VxGJ
zJVGs&rmZ4F9AgkOY;{HkBO#N+7!W20ff_X|RR+Ns`Q;=uXZ8H5)cx`mpp96RNm_Uw
zR!9R4!GPO(pn)AtmLgEY^A;<(`EZLRH8~^y7K>{|W(jEiAJXtC289=-(OTpVigXZh
z2owVr;8N=g8v~zocRaX*-BfpngSVfni|c~0%@q#YJAA_ZSzTE(60h(nT;Nc+!@}9_
z)#TMtc8x_05=|hZK^PRqpx^{IoInFR4Gh>DPM{SF#N~-IAQ!^Y2oob0C^K+%gn%iC
z<seI87-~7;JW(YS0%~a~q~?_rRVozZXXcgYftG(TCl(Z-WszIV$vK%tpcXCIEuezA
zf#C@Ydz&lR{#zXJ@wthadGYa@^0(OI<5TjJ<Ku5}#mA?Wf;+GAMIc8Ng@S?{6eOU5
z+LDZ%%p}N6D_cn=s7G7`N~cAjn&Xx%WG#js^12Z{c+7(f%v+r4sU<#;X?c$Lcu<iY
z9}npcgZnO^@wOs4(14hLi>sSss82||hg-a}qqB!Aq-_lv@+txs2at3F4veBCkQ;45
z1Sr74rDqYSXn>>_Pzaz04Tnu`eoARhs$EeY0|Nsn2^6<8GBA8#W@Kc%$>8#oLFq9A
z-)#oLy9^R{8Dt(a@H}O(c)%%eom1)(r_>CK%bY3=Y!3t#8u)GqsyFc65VCIIzbPz!
zK|<rQu;v8@fv;@bjK&{i!1J&lI2gp#5OcorN*~~JzQQ7iIbU%J#GJ2;0%FcrOad|I
zD=m+h^A(r*4w>`)TEYYxvH8l!#i;o~ih-S{J-aFUg1FTcHtPoF4{QuftnJc`(#^78
zn3x!aJ~J~g@qYlZK5)Th9=dy9@X5aHo^vxI<_3rAXJ)2IMz#-Z3^9y3j5qR&ZaBN#
z@b$Y96n4YG>4tysjg-tA4sPE-Z40PrpjL(hBiuNUMIulsCPon?i@q?iF^WTF*cipX
e3NbNqec)nX;pwQl!Yp|clr%pwGq6a3(<cDwS=oF5

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/main.cpython-314.pyc b/prompt_bench/__pycache__/main.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..00a7f4b16786e07a558a25e8e6adedb7188ee2ac
GIT binary patch
literal 10303
zcmdPq<K<#tU|^Uw{c2`}Gy}t95C?`?APmOOK8y?u4GcjHB@A&4L5!Y^9!w=n@*p;o
zCvypN977P3Crb$nm}V_u1=DOLY;g=h%%1EX93>ncoF$xK^(>xT9^56|U^c5Kj|XoF
zFPP2b$ydS`#}LHk$?qXhBH$rdBIqGhA_SIW_Z0RJDG>p)IXp!@#7e}#Y)(&c4~Y^9
zd4^b)03(P?kx4~{SSb@mh)9Wa5SKVZ5Vtr(jzEb_5RW)R5HFZ58^kBh5X28=%LNID
zGXx2O+48a6iVQ(QF#TYjFpL)@V$2*QD$Woj22z{DSfUUlF3u1n0pgV?#!3ZAT0}4~
zq;N4X$S}kzDl(Wr9Kj&Z5X7Vm#+p)9#?C&T3aNP|MU@H#`I&ho3TgR83MCn-3I#>^
zxdkN(NvV0s8M%o?*_nCi3dNPhC8@c3nvA!&6Z7)&OA<>m^Ye=RG?{J*g=7?^CZ+`B
z=jXUqq$Zb^<QLuINi2>}&d)8#Ni9iD(PX^E5|CJup~-lQ(-ERKHAR#87GH8kYI1gb
zdO>M?T2X51Ew18{#G;b;vYedUTb#uu`2}F6CgUxE%;Nam{FKz3_=2L;;?%qnO~zaN
zPB7Ow=jWwmrfV|Z;tKQe@paD0OwB7v28B8ZgZvFjL(B{ejGq-4Kxrt9A&$wSg@GZ3
z85BB!j2VnUj6qC6%t0*rOv((JtS^}u7#MDGX66-?mc*xI78S9A_-sX~C8b4qzqoQT
zi%X(G-ickwpvicPEiJz&H?gD`WSP<}L;Z~W+*JLd%;b#BRQ;6vlC;d6)MEXD%94!y
zJbg&G#)HFEKQ}QmPp_cz7EgRUG(c11<BLQY7#PGE7#NDBz;6A{z{V*25kxFt`2eC;
zNP&5uLH+`J62t&ukRzEH7+61Nfi=c}+yfG42xACf1~X8IAVyeHg3$$xVT|ffHR*z&
zpb26MW8h&hVk%&Y0htb#3uA(*&tME=RA$g*uF`hP%u7*7%*j#EE2$_^0Q*=WGY_1S
zz=5ccl3A3RT#{c@saM6S1yWQc?w60OIxW96F9oDWllc}4D1dLVr03)(-4b-m%t`gj
zFL49OyA~DY7ilsV@q?m+9TJwsx7c%2i;EM}Q;R{KR8vqW5&=mIq+}K+=a;1x#Y5E<
z$-)8_loc8np704xu$*o;(QbkIWnrz$eA*4}_ql~`h-k0yTw#4d$h?F74xju2_RD-4
z7dSL-a0@l~6^Su0Fo1&`7PNc}3=H6O1u+tLx(Z?qVhdsqVhiF3VhQ35;tJvp;?ZYU
zX3*p<0-14(Eg76>i+Dgz=Z3gAz96wA1CsPuic$;mZ!s5_6y4&3WP_B<qWHYT+|*k<
z5Pp7XNkM7JE$))k+=A4i#FEmY)LX1+Ir)htMFI>A3{^rUr3E>u(MkFFIXVhp@z^3E
z1_lOA#v)-*Vgva|2^@0Z1PCTTnWfkdoS42dNHR)(1Q9oQ#6B=fGD<!W6#c*|$td}O
zgMpjx11E^Z#ULv2fg8l)VGtJozzbsWF$jr&;0Lh;7}z8}3Q96cLV^*L#X#u^lr`BQ
z!N~gg7r2NIV+;Vvpy2|xa5o)pgkS-C49pCM0FWsNDKHCB<P~s8GlVe)fNTNFAP7*j
zfp`U+VGIGBAQmbPpB%;-#ApsmSPTpd1zch50Z1-@sSV?T<p_BOV%-$Rp#!e+AZ8SB
z$ADrU%n1OcZZHc$1TlrHg>joeeJRfn#2&_N%%seqzz_q9U9dtnhLk8!o+aK5A!u%h
zbmL(NVm4wz31uE6mw{3W*e(PS#1g3%g5<Ig9&8~L#2Uf|Dn}6E6vP(7ZOl~4B+H=8
zkjY@pEX$C|sL4@f5mcI|kf>0cnU|getA+Fwg1`lDv4Tc%X>xLEaj}j<YEEK7acW9@
zacXjYUP`g1o+e|FDkz;xJHzT6D+SeJ1$_{anWvztXOvc4#io}EDnY8G-4Zi%Qd1Br
z64Odji=c`G!KDnS1_W6Js`%VOG`ViEfO8v5NoH>9EzaEhy!?{<yv*cVoS=#?z9hAx
z<Q504y1T_yUX)pq3K3<?$xlyDExN^$nU|J-i_^6tIkf;(ao*xgg)udGi{u#?7>Ypo
ztw<5XQU(z!AOhs6TO6Pg6>L8@B%gzehFh%Q+VU2xxPUmKD7CmCKd(6T7CSVIZgGJ<
z4c1c3%fP^(rlz8zqM`r+;4FWOJHDti4_Z(bSu!v%fSgkN0-W_fh%g99U+0&<$S>dE
zaYIP%s*q-b_Z=RAe!nii%RDj-t{<4VS><ksDP9-Tz9^=BSxmQs`-ZUObo+_+3#?Cg
zPq4o%9MQpXgG2Z_hulRDxfvB#I5h4EiA~p=q<2|JX+h{!A*~MfI~;ud+@0JPL<~2W
z95BDa;r)S+fk$A1c!%u;7KtBUco}#^zc8?}%3)}{A*#3_YXjQ_74xg2<{eyjIQXt}
zNL=KQxFBh^gXIMK6^?)#975MQWG`~aUQjUHps_*ff}G724%-|2A`{X(>Mn7}e&A+h
zmHSl;O53X))t$r`4v9G`I$JRxwq$g+Vn!+ML3s^a+*^P{hN$8mTG$8i2Jr>)>vJeG
zXbOOfd`Ogoa($6BD53>Hgd&Jg0uhK50IGPwX}d@bTsb7?=OvdG6{Y4SSKeaI%!8Ki
z{E+fJGp|HPAv3RpaN%wPD)p1V{`k(|%*ZJF5ln)McM$ghulNU65CdAkgPD*L9?XOk
z@n9yTj0ZCX7=%PW2!feH3~Ztwg+WZz0w3fbXh5=le!>iHk1+}`gtC`1=`oZtx#==6
z6qbasW2*v?3npw$8dz}-Ys5g>ci!3z3}NhkOy2qo44e#d3<Vqo>`2WScryq|j009s
zp%l`bVVrQ2#X&`F3>&N<#8!C(F@{evfmR*z3}GBFz3Gxf=w%9HGJ#fa@(e+O$_#M~
z1zd3q1>AZJ1w1kEsv`iDfMAY*(nu8_Zw$OL31bUlHV4)63=9m`jPZ=6Or^~6@LoXy
zUl@k~LnuEq4&)ga3i!kL0ziopYATG10ks;yoG^wk{xGI6<}j8p)*u#hX!YvH<gEw|
zXMqC#7*J~#qFMkJrUDFZ&I}9%f?<LIpmr`;7D2$`u$+m3p+KlWIE*Ji5+Ms?g~9tl
z@(f`@u#ipR0flTBR~(}bsGx%?F5vREVqgg4Mib@sc7?bzh!q48F-2_XhVi1L4w3NH
zI#3%yRDoy=C|`q^3}HMlzlVt;r{MyzFp)S0iz%>vT9{~<2(r8{V-Q<`co2ISQxHd(
zNDyb3Xb@KzR}gm?cMwmQSP*ZRco1J0n?6T@L>NmDKeEmO$uP+PP=gn2KZ1yngRuiZ
zMLdiHr4<>%B;uHY1k9l+59VrlhVa#(=0+)#JVPl{0edC`l*OOPpunKb01N+gCQ$fi
zGRZT@GRT9W&vIzhE>yJ<T(#%qfNIv<f|6o|#Pr0>yy6l>b)O6B;DP!81&Kw8IXS60
zdR$y(K0dw*Nr@%N8L7nz@S?9op(wSmG_|;-SRpg7B(*3nF(;=|N1-@hp|~_DH?yP!
zRBh)b=2a>rmMG-sC8sK67IPJ6rsrj*WhN))mE=?^q$L)E>im+7#5{$f(!4y7j*^Vj
zT!rG)qD+u+dR$fd!P%Jw1t1yK6u7g?GfOfQQY$ix!InVkV{pG&wYW;eFTW%Mq`o9y
zAtfIw3hFTDCRW6k=NDzC78Pr<V5{T((xGv{0G7SQQ=XWU18d&g;!G?7HS9}LQ*Lp>
zS{W&~*wVnwm|Mb$W$E!bi6x*a0j@>1B%>(5G(7{<g@yDdisK7Xi=gsF)}Y1`Pkc#c
zZf0J(URH5_9;hdqnU@0UTQj``Ii|=B)ISg`(g0OEY+xT3-(t>5%`4Ia)lm8%LK8%2
zfe27RcZ&@Y{NN@;5va9#i>)ZNxHPBa7F%LLL26#gE#~6V+#+3&i7X&XZ?UG7<`xud
zN<peaP>uonzX(zPfm%Rd=iXw2_~RBk$fV4?^jqx3p!i8mDRKn4zzJk3CnOv)Q;TnL
zL4pu8qHv2N6*?{fZe-nJPb&rWkcw}yK^V8#p)JcIbC4mBz=yV<iX1>f+(==3iwhC9
zx7Z*-c#9iCLz-Ejt~;ce1#4$PT3Zkj(&pj^4+4M&S0E!BMX?MF4B%S%Jh&J1QI0`X
z=Q3a9LiZVJ2h5IJAGE$|;&<IR?4ohlb>oQsvW~Ka?hWo2_#*G{2~JS&&Y2UuKzw%0
zRX)uI_xtR8@CKFZf$}RHq0hO6;38TpT&{2!-ryJR;C>(=*x-4Cm#@L?hOB&p=MzEE
z>2j0gE(<C)c-`TYUcr5x)8s0r$qtT>VhjrEpGCQaxju?8D5y{1{vgc2E86eh>3>H+
z`i6km4FTyJqLMe{b#KUO-jGrMz|X)d^NoRnm+zwxgM#`8Q3g(d4-DMGTwf#@#FZDA
zUlY^raJwO|I=^;i?d<xCJTe{b6T)xsh+gNBxyU0kBm4@F>V1B(8v>Fu0;lp#;(Q<=
zHbZeL_awHDybR(x-=!J2OuuL_h)7Jgn`C!cSb0I#Rbhh$p9cbxR|S+BJnsmJPRN|B
zx4`nMkWPd54PDC}j#qSTCrHkSxhAN2z_`Kd0SDg%mKz*mGk9)r2v3NF5&{#{Zg9xX
zsJ_9WzC!8-hv<ar4}zS0Yz=N7L>PqS7sy=|(r@s-!NPx?Md~7p)EtxfR<o=Yq-_Yi
zB5i(!#o__C$OUeh3oJ4}KV>p9@JBKJ{3ORM%=Mj_fy?wdr^&BkP)2Fha2I9S#O5x_
za+rzLU7qzYyQ;es$6*~u5qEjk<5D1@<MQ0@`kW|@P7X-tnDH|xA2u-HZFI5(u?4Z~
zvnVrYa)29|x7d=wLt{mtUMqOm1Tvn$1u3?`V_TrM*ew>n{Jd0x0|HH;HlrD|&1lBx
z%lMH2MBd<${=f`kJm44pzzSk~U}F#z{lE@paxk!QedGi&A?-j=K>;dWKp0d@gNLj{
zSU~MSq#-MKtE_+-sY?xNJA(8f;ULBsXv>3vA&ePTV}&sy)#vbzJ*;gZ4{A-Z#4!}G
zhA{-d+foQa1sGfz-P{=%3fN*mE(A-2Cj@{-YQSs+0c)edYd}cb4qAUQFkovz1u=!O
z!Su;9c$+gYgsY*{-RxoP0if;(!Wu9uh#53O39Fk?y7}0`g%#NrL^})-2GR^M@b*_2
zTNp!t1lSrBB8&l>ufrGuKqVZCN(P1?Hgiys&%nSy&}|$cNFgB25CiJ>fK3a*>WUDC
z08pn0tO7v<al*m^OM8|hgd+e{b0Cz1Ss@Gopk5T1jUa-!U@c>Lh8R#z1xtl+gfNG&
zg|LONhcE<y>Nv0{f(T&<KyL6sC4#tNEn!d#wrEzQCrVqCB{B+y&l<!7f=H<q-eN|?
zlq;jR7o@F9ATRL3(m%l%;0t#}*crs53>r$3fqH>~jUhz_)RIFn1vEqfQvjud*pcH=
zmcf<LdmaOPIEO&XuoTiVRA9iCHsM1;{8c89DTP$<XfnLcR7gxN$}cVk4?2U}jl~Ly
zc`2|)nqHL{c)(Zzsoe$|1uCwRg*WLm^72a*Qu535a`F>XQd2ZRqd_4nnQpNcBo?LS
zl@x>844K6x@%h<Ra<;a%3h>zmQ2P#SB}j*Yt*xyl%Pm&0z%7=7{Gt-j@DOOGA|<ov
zmKbPiBR4fSzo;_4v?MbpvkE+GQl$zRfl?^RR{#&<D1h6!pxGDIVjTr=vnDeyy-FA?
z3|5hv0&7k(6@l7{x7a~LQTe5ynGg<e^D;5BM3WU~>&dT53dI)+uy!QK2USwY!)7T8
zH3|^-St+QdXo`bJ&XF2@9-!71sL;K|2KIJw5vU9;$^f;K*vk`(KyB$;thw2snG;ai
zTLh}Yz>Y4;1gYT(D$N5q9z4)iWC$`1)Qv3y&0Bz4ZJ8zUMX8A?mA6F7a&mIx!QL+|
z0JT+9^Gi#>?Ig&62&fUO$z2o=G6B@lElL2fK#j;-{3ZD%i8+WFs9QV`0Z5Y>5=!6!
zHc+xgv>%H>6{VV*8l<5Hn@ivYjgG;SUQr1H0|U4!Tmo*Wec@r?m!DC28PxK+!@||>
z-RONmKx2*aiuBbwJ2<bfI6Ywzy22vzKuo;B|Aw##sHGw{op&m42g@CP`2{T3)yyuc
znO)~Mzr=5ThexR2uhZ{>wABumD?E-jc|;zFD_#}X=-|1*A#$BV>LQ2K0+S6Y7dWJ@
zaF{=VjhUHjNV&pc{e(lXhx-E)C#UEg9<du@Qa41Ur$<kWz9FS>T}tbsl-3P(-RtTu
z7u8+9a<cOBeGy{d<cAEoX|6E2!eQ`%iJw#Aj-d1cvE|YWr8lH)&)b-HUC{Napz8^-
z8v<h21r#p|D6TNOuI+YF+wFpY;uQh+J1WLEM5JzrNZ*i@y`ijrLs9pJg4%Tjql*eg
zaK;yY4ppIx0*VtjKL{}hDqI!NnZSQTK<27|+612Ok_<v_j9+9Jc*Xj?KYBAV2+Do&
zV`O0Eh6JI`6&781c<QXkzsBP8<BKkXfXo*LCXgqEAkD=KvMvWwuJCx@<`Mb8%ET%9
z>pK_7*z1C>zrjZLdjBd0wdxO9>blu89k$hUw`Mw`<|yi}!G6@5!`+(cn7yLAD(i6-
zMi8mN?QX$++!!Q&+?vOOowbS!9PxT3`MEi_*dXnuTP&V_ZvH5(G*Auz4-JB<1Olxz
z&`b~qXckDHRhdDP8{AR@H_oa;;FF`^`9&RtlFEYAB0a~V^wQkayb_I!)SLoabr;xV
z8mL2Dl9&m~ZwiokHqg`>v=D?$!>Mb=g7Zg}9d@Jr!GqCIgF$nepdu;6-`59Zc3NgS
z*c6Z<psZEpM1&#!;F&1Ij32nzg7gB5)iq;papvTw$LFM$rRG%WA&e_7DT4VH#YsN-
z=?Y-QAUA-Tszr&QJPsO!!Z&rb8`M$-6%P#z-x<Uhtv`Z@8~n*1n8g^aAMkj6U=?Gu
z2DMUy89%Utm>diOb{{xFEG|%cm0OI_8q!>4f!1{(3RLESo2yU289xRj2F3yK1|OIU
zCKMUMm_gIZutthJXdV_zLk(8V!<&%csyB!kI`hhcG{^`lN5N(z2t|f47FeYZnvcac
z`+~y;mM})poJ;|!Ho%+22v-EL!rXwRDaINDZ#V~lVi2JX%u-|sgX=C}3j#w#(<BDo
z5DwzhXNX{PVq{?`U=L#ofH#xChJcA6_8|5k4n%k(nz!KvVN3`!gV;dL9lXO<Hju`N
zCRddWXxIue@KCG(?e{C>mgbaX7UZNV`1tr1E0kp>Lh5f&3#2%)EL8!T-1VyTRW%Ze
zlR=f8X0d{*1~?^yCUU?$2*XN2RRcPMty!$ebc+?N2s|rWrQiu#f`F8lQu0%a6+jIa
z@NkTkLX`|;?E^TQDxk~WVk%1V3n@y5=NO(_?4ao=(AWugQetstGDP<+w#;HsU+@+y
zxV*W=<CK^ZkXV$Mn_7}ubc;Q+I36?sb&DmxAT{q6JE$bg$xOP%0%|xxdX{-08$i{f
zCI`460~a}v+PDHF1!`H|VgVb%T$EUTO8{J^g2z4}9n@k_(pH03ypZt`7SQsDq7DWI
z25@FR2JUu#;bUOsxy~YfiA8)y<^_Yqt1L+mxJ9mWOJC%czRoRsiCgxDh{=Y?4c-@o
z96%HJ!q@o}F7YWW5Wmc)d4WUo2Df0pU8mi3Zs|+h(l<m5Hi&KDxFBSSMdbrd{(k9B
z=?Nj%Ii;>}O3g^Q!zbFG)0H#B<T9T^2Q#Q+Fa3p$K|=kaxb6z!i{iQ$SVV5H@LgvS
zxyT|iBV>ik1s0JjEQU{51TP3Ft*E-jV)dPuflK;2r_`@vP-Ewih`6&n>tT6rXSD7<
zs3ZYbB%m<ERgvg}*Ihs=4p5dNu28%JDilHa2~;RDF^YU-U}6;M2mw=&!Va8`paiI&
z4leAhz#&hlu#15gl(3>eo*@Y2Or|QK5Kt|Kyv|6^Pm{T*9@G|OE-K9fM>2Tu0qhD$
z^fM>tWES->Fff2!4JvaQ7@n|jwtF^t_N27=gH_(*h>r)QlK6N{rCaRr@hSPq@$t8~
z;^QHsdhzi^pwKMx1tq~65CQ7j6*YtG6+(<9>p@f(7lC{X8MR~wExpLeOoEJ-u$5GT
z27!w}vpo=3%R-j(=t0T_$Z{UN<orBPWt>`61ga+>jb2dm_m&(s)hV!^M-jO7d`k+O
zB53m()F{0rk4*u%fsDL%gfl(0#3vs-<IE8cULg`64{5rCW&<Dtv!H=Sa3dBH@Ss3O
z4}A`s-29Z%oK(A_nG6gJplPGxi3|)3AD9^#8E-OJK4nmP%)ot{f$uh$yw6~NmqFq#
zgUn+Fp63ky7a9ETGFabbFuTiO_JC91I;YenPN^9dmpN4$*uJu{F$#Ybl4O+pY5|%X
z{OZF58XEdo#>n8u7{quXDDJXv{LRqF3sFgzLz8bfxP1pz%3qC`7)3sCF|hD-R9#_~
Ryvf4e=K7JDfkg_O3;-^Mz#{+v

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/models.cpython-314.pyc b/prompt_bench/__pycache__/models.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..18f651ce56e9c90e3bcbe5cb35d25e8c75703ba6
GIT binary patch
literal 1023
zcmdPq<K<#tU|{$;{c7e>Mh1q*APx+(LKuvnEf^RW8W@5YN*Ll8f*3s+J(x<E<UwpE
zPi7C65*B#|Q3geZAZBrfAeLAb6K06M64oGAWd=>QDxHAJl*GJ}%w&b!{FKz3VuiH)
zB88;XyyT4B#G-74<ovv}%=FTt#FEVXJUvauTil6xdHE$^Zm}lgEl#Jz;#6Od&SZ$e
z5E5z&<L3^r>tY#77=su}nBq7}m{k~p7)w}!m||IjnAI2<7=l<z*n(JNS%cWXJoXay
zAdXnpAWkrktArznJC-$w2h8Iw;RN&ez&!pEF0e`g5HF6Ugd5Bg1o47|N_fCLVK7gm
zgf~c3nL$(R7QYkBXU<@cRT+om7wG1smZj$4^0Y!uequ^$ib7gZey&1@zpsy86=zOn
zaY=M>Nm1-AHb|&d@#$Bk73)Jd`Wb1rn2Sq_ZgGP7@hO=_nGW&{47Zpw^Ga^96yz6`
zq@O(l0&nbZv8LtZCzjk2OD`ym&rQwEFRF|$Ey>KutO5sdIwUw57;bTwq~;c+7A2OH
z7NutDFfuUQVlT<eP0cSYxy7BFpO;)(RFs;RT$$Oz%)oF<q%0>VH@>(ev8bf9ARel2
zC4-+P-z|>#_`Jm2)cE*YT=DU_`6;D2AU02Yd|_!~4pfFeK0Yn8sJJ92GcPqSKR*5z
zdwhIKesX;LE&lj;r1+1IFXCWeU?>8m(jp!Zix))jfe3yOA;7@Ea7#2E<dTxi<oLvr
zlA_F{(vsBT`1m401_p-DAn)BW*3Zb#P1P^TOwPzm)lbPUNz2ShE!HonEXl~v(=RB>
z&n+m42Pa8r0P7W07J<?~m;kw;IGBNfp`GC-i|qp*(aS8NH$+t%JUfanv#8z>5NUAf
zP`=C}azjPq0*llP*UKy#HzZ{myeEiWW|6reEY{%O5qz0N?1s2RgZBjC%PbN%6qGNp
zNX$^a&Z1l-3GxNVDnCuOA~BF}xZ>l}N<onjA78`-65uF+W}qTaq6a$(>^F#BDX<b7
wNI=^a$ucl7FfuSO6obS+Ff%eT-efR(%AoX=LGBA17o*CA%x?@_j4EKg0H<Ifb^rhX

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/summarization_prompts.cpython-314.pyc b/prompt_bench/__pycache__/summarization_prompts.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c12799bbe18d08c443df79de7662d935f37c7e0a
GIT binary patch
literal 2025
zcmdPq<K<#tU|_J(xshqX&cN^(#DQT(DC0990|P??Ll8p=Ll9#LV-S-vgC=un2O9%J
zWPYhaVo|C>qC!q;dS-D>Vo7FMszPF3Voqgoi9%{cNl{{QNoHQULP35`W^$!MacNR<
zNn&1dszO>(ey)OZeqMS}YH@L9eqLgZLQ-Z<jzURlMTs64S7d%^kwR8}l0s&&LP@?t
za(-?BNTEU^L{(;9Nxnj&LP~00ajK3&UTSGcQDTllaY<2Wa!F}XYKlT}X>M*}QKdpj
zMq-IVa$*5Uv{)gvEVZaoAtkf8Br`9$1m-A^6Z7*F9yLr+$jnR5DNO-6xHvUAKQ9Gj
zL~2@EYH~?2#HifN^o$aPq*R5Z(xS}N6ot$@u%A+sOEUBGiuJg-Tq8n)9Gycv{rwbz
zLVa9=t+;d*Jl*~LgIui?$}>`nQWJ|6l5-MEi&Kkr6p~T=pO%>ivKnd=C|C<hi&Aqc
z!R{={Oa}Wfu_QG&HLs*tN1-S+IkO}&r&vd!peQvlHz@~fVrEGq*eMG6X$q+oV4tQd
z<Rq3WBvmTpmF6a;7AYj=<maX8C?w{kC=?XsC#R;Af&wooKQkw_s30e?Bvp?~SHaES
zIW$<o-_J@RzaX^;60c>cMM=fra4H7{Ye_~bBsPLQ9DRHgQu1{a0)qTKJe@p4bQFSI
z14BK7Ty+#2Lqk0LgFK@^OkY<&7aax1fPf(XfFMuD5LX?A{2~R{;1EYAAJ1S9kiEg7
zL2i!Dt_mO%Lp*|99bJO06g<-u;Fgu-mnLVV7AxeI=9FX><fMW_C%F=o3=@lW6ml{_
z2`@1@L!l(2C^a!fp*Xc5u_&=5HK$Tf!6jcIFTX?~IX@>Sv7k5=WN0qPQYTjhXMaEE
zAlDFAD+RyAT(FEnA~@nxQxppF3rayrJ3mhcq(vb&H8~?OFS9ro5{MwDrDPUC(tv_S
zYDGa}UP`fkQEG8XQD$;Uv3_o1W?o5RW?r!-$g<!N$4CV~*U*q4M;|K%zkIL<Akmvv
zl$e{Dm#(Mal3JWxl$n&O01s$TzEDWX2gNbS3t;igl46D8g8aPV{339o%FI>BECDOh
z<KprU4G9PhQE>AQ@^uUWM_NHnA}F~cG6~2`9dL+v1^fG1adG(vxCS|fc!s$uK$38<
z6<4$$IMJl0KteV@4dEnkeoag+DNW4DsRUcAqmZAMssPPT1*t^}Ihml8mYZ0iU}T_B
zo?nzwtdN?RoDs{#<>=<->Kx+gq7dL85bEOy$}k|?!ZY#}(m_F`P@JEeT9T2Om#(8w
zo{_JRlV6-#j4YU61QIV!RY*$BNG!|DF9H=6MXBkam`Y8F<>K;nb@p)d^9=R{nd^~X
z4hoy{{G#k)D}}t&a)q=~aBkC4$W6>kNi0bPWuyFz%%n_E_R&#D%uUTp0p&DM@dM9D
z#U+U)r69HGMTvPOpzM=gl$fidP+U@)QVA-hax=lDnT|qgNwQun7gvD4kEe5_0xTtS
zMf<?hCweiIk`GEJ3MCnt#gJ?TP3bzIVk=J}H#0B42o%1>dJ3V%sS1$T%t_2kFHKAb
z6@vMos0SO7oS%|f46;2q($@*(0R4a<e`i;h&>%-21%E%ENGq=B$kbv`-t)@`Ck;?3
z3%9qRC^I*)C^M&0AyJ_ywKzYg6cQvUsl}P;dEnv&oNp7$6N^&wQj3cfQc{z1K$$Ev
zKTn}Nvm`?yFCVGcfE1wiv0Pj}u72(z9tt6jLGG?0Rtkou2D(P3u!K>PUy_)kr{I*T
zP*hrykpnU}F)6>aL?OAf1XPEBaz$QoW=W+&epzY}D6k81QcJ)N(5p%f1{e65RgkQk
zmY<W8Uk)nAu~adM$;tUeppq68wUwZXCNmFGbwJB-Cr=+Ag%H<>5G$@~P#%d-&d)1J
z%`2(((`33O9USWG>lox21x~Z^!I8lsuD<aBLH@o0A?T8!!LC8^A+EjwK8_)-D;Yk6
z>eE|J`WgATsrp5k$r+ic`YHJ(X_+~x#rg%6B^mj7`UOS#xdkQhNvV0s8Tyb~EVBw6
z=J61zV!eXOTO2mI`6;D2sdh!|3=9mQdb(JQfq~%zGb1D82PPT$SjGzs(jRP?<%KRW
LNEfj(FfafB1(~lc

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/vllm_client.cpython-314.pyc b/prompt_bench/__pycache__/vllm_client.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f19e179c4b831c8616d7f6a4754ab9c6d21a62ad
GIT binary patch
literal 4687
zcmdPq<K<#tU|?7}{c2_<2Lr=n5C?`?APmOOWef}q4GcjHB@A&4L5!Y^9!w=n@*p;o
zCvypN977P3Crb%S977PZC#wfr2^&<7y@WlMIY0nn3Noq45X))82oWja3SueY7G+Rm
z2x1jy2x2o~f{OD5F)1@>vR7&N7o_Gndg><U=N2TEWG3aLDkSG*rskC>q~#YWl==Ah
zsuwFb26*aeGT!1&%*)F!Ni50C&nx!RWW2=^oSKuC4l$6yAsNa5Q*2<8f$?)4*mJQA
zC5%A~B}{PwCCovLB`iTqLCircL99V+LG1d>K^)=?L7d_YIRZIMC9FYQ;tWCDAYKVu
z5Kj<q5ML0#K2wl@I75&iNHmA3ggr<|oFPaU#4F(l5)o$z5(Tq4gT%xcg2cgWt{{mL
z?jT8J22H73Twy*wzRqB8RZR{_%*j?L$yZ1O`%a-awWut$NTDn<Q6aOWSOGIQK%VE~
zax6+Ow&GGyP*BLoFD|iy=mjzLz=8$&MKD1S6CzlWnVXtlT4JRTkXoc$lv-GtT3n(4
z6;#N~Qz%YN&d*CJ*5kUx0y60qXHI@{Vh)(e0x~7jL7su(7CTf&rVb+mLoz5{K^PRi
z91IK$%nS^SpEbaN9L5mGWYNOFkiyKsAj1&In86st2oGo$a8R=-GiY+W1f_u@Pz>E-
zE-oo50vU6QIWw=Mh?9YV;TBs_YDsBP-Ypit{Jhka44RC$*wXTgauZ96LG~)$ve3`S
z&rQ`Y%1qA4Ow~`xFG<VHNiEhds4U6I&(kj`%Fit*iBC$+OU}?Q%gM=&ha@Mxg34Pw
z@$t|Ulo}s@OB@j?ddL!z3=9m#`d}Y@XJBFtXZ#2z7chSS(>sJA^oe8$eIX_RqTn+q
zNWkF(VlXo>Fo3+s%)r3=*#~S|3`iV|13)1FW+4bgh9Jf;MjnPBrZ6TR1|ya*<{)Ns
zsJbwQJSdBSAqW(PtX101MX8A;sS1g(?2??HmzSDclA3~%w)CplGfGMdtn~G7F<NOd
z-Qq|}EKZFtEy@9hx1T2SEmn|x#Vs~S61~L^4Kq!aTP($?Iceay0!I^AM=_}6P*YJ+
zDG~z37e{=2W?p7VeEcn8ln{jof<sdg?Efd?GSh1&)vPGrP_iLyhvSZv9bp%AT~4H5
z5fAHN>EkI9Wk5?`AbY^+O98AOcly!?l_ji2++gSACRW6kCuWuu@iH(l6!C!weh>jF
zsWcgj1VPaYPDx<r7YT#pL>L$tWI+;AV4J=(@Ukj=1Q832KY*weCSV@KiSVdkU|@hc
zk@s^KBd8E16vZac_zq*#fwDkU0Ta>sm@I@C7*di!8BCfXj3EGIKgb9q9Kepmfii;_
zVFhvla~N{~D91r%V3azPks<*yI|f{BfP?}-p$K9i;UFfMY4Qv~%*qVX3`p(=r3oap
zAf_Ti3@Cs>Oa_Eb?;22I1}Aw|Bjy5@7;&%y1_p*O7MQ9GMg@i#P!xituvIo}3@I!i
z7t1rqGWfV;GFUUqGGsDpvQ?P|<mcol=$9Gl=jNxR<`gTG=9OgTD3oNR!iwC?VuhmA
z#FR>f{32MXs8_{>&`~7<s(#Q_`&G#x3+LsRKut+ZD@iR<xW!nk$#aVZRA%1d%+1fs
zFUil#OfHfJB~9k^)RJ3VnZ@zNrOC;u#l^SSa`MyDQ;Tk~Wag#i7lE?MExwSV#Jplq
z>FZillwWj<wKyj=wcwU;kgKChWPE_Xk59a(Ux;f^n4`}vo)Aa@4_2wkS|kHX%AmY*
ziz6j9F(oH6FZC8jQEG8PeqM3vE#}<f^kP;91_m`X1qB6g;=jcO$|&*RP`D+ElzS1v
z;9M~eoGYFPi%++kWOrFuc|pciVZ9EHJA6X@d0lyz`Q#QzT;bFFz{JKYdP7=%zRgUV
z>(bg6rL|Z1T$Z++z;Q!Z`ns^%bz!v&!fJO!q^5gM^uC~Ac16Verij!BRt6FEFI)_~
zg8g1yURT7muJLH!5YSl>vBGOZ;srj74(2<2QZtM%^T}V}kpJ<8lR-rCy0H31Vf8Nz
zjJ%>Z1w=kDGxCc5Dh4H<9Xd{03<p(3owOJZX^A>BF&}1RbY^0{#a)t`Taa3mSW;S)
z3TrMf+~NWi6eaoDsd>ej3<79H4=DYEiylxuZD7Dz^f19%5kVY5O!}<K44RyfVu%e=
z5f$-(BAykT1dEKo?6jQx#F8RoP+WoX7NmqCR5*d0QEUi~hVKkKtXdyI#Ejw(AZmp%
zm^#1;rY=OrK<JEYup&sA1*(ofc?eW?fpR~%TKWezFNiUWDTpbIF^D;gIfx~UMW3aB
z6)8W%bb@q4aS&@5Qw%62f%#$Zvc&|dRvuI`fhs?+Jc0<|M6hA3Ahs~pAa+<qSHKp=
z762;7VbV|<R&L5Ogt1{Okzn!#>|yLd96F#<9I7*p0ht%XiOf@G(B!JJ3r@{TQAkvP
z#22XY1eE}w=4ehTxTUF(n3tjeX_J6U4_Jm$C`qj-(JL|oMWiW+07Wl2UaRCmW@hH4
zBN?h%te~NqqL7@CSX8W8#gAqOs4<&WoS%1#Jvk#kGdZ>R77NI9P4*&Cxm*NlU)^HP
zNzH?lBP<2^#U-}{iV`!6Q{&U}i{gt*5=%;pi!2!!7&JK`#Q@kvV7I}Yb&I_qu`(w=
zF{MZkln_}`5=#<`L5V?4O-)4wUM6rr{ho?apTh*f39%ZSa6Ygx@QO?by}=_gA?*f_
z<P7T@JQ6dsK5()Mb9JzP;bGw9@8|C1z93?{p>$930kz%PS2(<G2#Zg*nP_ueSmmOy
z$^})k9pM**RW1v=c5vL_5V+2vc#%W#3WxFye)0a=&f4z!4wf7I!V^4u>t_^R<yTyw
zc9mcA0*59fNrUQe5C%mwC|QHEE2s#>m0k52l^Had!Pyg%>4<6;Sb>@aphiLi1E@JD
z3u^4iPACCW2#0_i0m4v+@O}nq134rBB#MRup!oz@7?y(N8G=C0WU3N#&dD!M1*bTV
zkdOdqGf&S?lL?XtSd&5WD;dGj4Q?8%fy?wFS5V{%AQk3dg&_A7gX-o6h6fxx{XCsK
z*Eysva!6g{kU{u@vfu>ys)$fQW``P_BA{>-nPCE^5DtNb49G#?q6$=+fPzz*L6fmc
z$~6yE)q<+><orBPMp4L3%u7s9Ez$$qU*ra|1f&-dB)2%@<5NLe;^S|LAO#Fu6znKa
zv#EjM0l#nuH^LzxLqLuJwX?tp3{<^>9D=K>gWMElNi0e)zQvZGl$DxXLPC;r0y!U4
zhCz~?C@645XQYAp8=@<~Ats7&A;@(g3`%+Ipw5OGICF+E1i;)5l7(W7R3?Wtl_})s
zDWq0pmgxCuGJ?~SCKEWB75Rc(2C_*_3!K<)am2@i6k;^~A%b9!fQoZSqT}l1f;RIt
z8NrFzPm>2^LSAAns6)mTAD^3_Qknx|^Tfv&mL}#vW%%Rc(=v;SOF%7}y!`n1TkP@i
zDf!9q@kOBKNs$4l^mPOgptN7)1!95n-7V30aM75V9G_THQk0ogT9R5E9}h_*pxy@9
z4@IDw3`~I1ZgDUJ14A3bM<zB_jt>H$?%#rJP{4;X?kIuK7ec~81wlCDR}NlQg%5H(
ztXe0SAysaCGPrX7D#OGo`;~)<RpdJd6DuV8z!3(vMU%HE43tH=;^WgwK~0kQ_##k{
z-eL!}1~c>0i<CjqY$cTiAPzWJft!Y$>8T|?;09w+5Xg(*szDpX0{Z~udWbEcY<`Qw
z1`?QdMWD(YlopE385kHoFf%eT-ek~w%AoX^f$ug0_gx0@#|%6VI0deAN?qcVnqhI7
aQ>B6Jftch42I22)CXAw=8B7=<=?wr^G2Q+E

literal 0
HcmV?d00001

diff --git a/prompt_bench/__pycache__/vllm_container.cpython-314.pyc b/prompt_bench/__pycache__/vllm_container.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ed66520b0400f43c289bca09e5014dcab27f961a
GIT binary patch
literal 3102
zcmdPq<K<#tU|`tUcr%lMgMr~Ohy%mS5C-GtECvRK28JMp5{5X2AVyC{52g|(c@Ue)
zlevUBjv<K2lcj_umN@`y7DN|}RAh){Ghu}AO4x&#OE`j9N;rd9#TkOw#2In~O1Og9
z#TkM)z-;ayCS?Xq&MJME{N(J^B8BAqypqJsywoCvoXoV;<jUlnRE6Bcyu|d>+|;}h
zg|z%4g)$!>Up-C6Til6xdHE%YC7Jno#eP*>WjQ&yx=E>d$r)7=Ahte;(9JJM%}dO*
zDl^bCwA3?52006aL9PQiotc4w@v{!tvtbNzOcpH+3@OYE3^ELXj2VnUj6qC6%t0(c
ztU*jcY(eZn96_A=tjY|UTrZgz7#MD`=H{oQ=G<Z~E-AXjQjlL%a*H`LujCddSU5f<
zv*?ysdO>M?Zfb6RQDuB-NoG!F71+7ASkrRy6H9Kf6{VJx7UkVy@ypLkUCE%yc#AD9
zzbH4cq!{EzrCZke8Tq-X`bC+^8JVg2DfuO7nK`M&`URCG8Tono1x5L}1tsxdFM~ZB
z4-Y)Og34Pw@$t|AN{x>%5@cXt;A3E5D0T*W_B(?%qZi{xF!_L+?*l7{`+<#to9_cV
zn90E)ApC(7%;aK_Rr<gUX7Vtwaed?kF+YPsFd0OEFbe|%g9rly12Y2y>*sBZ;Isn`
zycm!?7zeR}0x^t<harf=h$)COjFE>Sh|7p61{9bO72H8QVGKMBModAxVGKchF|1%=
z1_p*OW>|^};tvwg6DeScVS~v9aKcy!I!G{#!31iqJVOjOOvVJtkY|YDfif8aK;Z)8
zKxsvWFqR;pAfX`PAQ5wr?-&>u3RuHf0|cN7kf=BYi*g2r6iraF2@(xs4G=<-gfas}
zp$sGn<`$5D3)o`BVNzl6+>^mbz?WiStN{`*eFz$#Z9(EXQV5lZFba}TX3&&Olx1XK
z2rfx1Dp5!TXEdY?S)5u_mYJ8XP?C|Vke*qVnx_Cx=z3gSjz#IkR$K}S3J?)11&`A7
z^vt|;x5VUBh>$``W>IQ#Nq$kKLSABSs)9yQYEEKFW?8C2Nj^jcD8Fdxfeis=B`XDw
z{NfS?5EG;%DKjqxA_=w=q!^|mu_OcLNRaDrTb-F&3^4+GrnFLUD@sfTl_m=LX$tNE
zp$d?U3$nhnI8{NzK-W-HkLwm&3b>@Y#avXHSH+~8QpKjL3-VKyw61PSYFTD-s%>6b
zW=dwFUUGh}etJQvZDLMN6_>7VW<j!TMt*Tg6_ajR6^E5R*eAtROu7YCtX38V1_o8^
zy1HP&Dh{ZmewDDUE-2hnQy?-Bn<R8~(+f&<A@0*fDp;!cb#-$SE1+s~QuA)Hm>5`^
zRjGla6cjw5!V?x;sYMFqnI##J@V8P>Ee>(hWWL3hoLEp&T9g`}Us_U7T5^k}B(<XC
z7He`wYI1g!f?Hx{PHGA$Op3v&1l2q%g(@jj5e2Za)D)2MR(>x*na<BollK;%v%g=6
zqo<#1P`sa`uj?(YFdrY^cu!wPch@3N&c4N#lb@cRT6BvgGcPUw7H4ruenEU$PEPJE
zuHw?9f};H7)Z*eIP_DYg1t~?7^HWl9u@#r3q!tz3Vl6Hy$}G6W6I7a4l9`+8T2z!@
z1eVM%Ezx8z0+lO8><kPHMWC{y2vif?Vo%P`%}vZp0hP+dr8y<Hm~)HMi$RK1R8&+H
z6cma;dH)s{*h65a6luZ=)%)N=^@9Qfr{E0^-Wwb|H#h|DaERUDP`$w+0^)LubZAeA
zxWFL?=J0o@O<?WdyTc)LgG2BJm(T>$3F;R(q;7D?f^{q1;o!c&qjZ@=`38sN4Gz8!
znxgz{4enob7+AU6y&JtR2w3b;y~5&fhlRJr`wp*oe_U7G4EGH#J4#NNUf~UFaJ#|I
zd!1e4BD=&4$1CizHv|keh;5hMD0|(|<)Wd>Wka_M2JRR5JUW=~@JY=uzRV|ofkXZd
z3m3#_ofT>8b64hG*K@q6=XhDq`GE6PJ&$WFo<*Qi4W<4B6|dm>QwHpN?DeNUqcVdg
za}lTrEdoV;5icmzK_#vxV-Y{7LIPKH;IIW(QeeUcBq0no_B#U?quECgF~I~(K^%f8
z!WclU7)Z^d1g?1yHBJDuJ%g+`h!Iwk$TP%%oCTH)0HrxF3qdF{fU5r(4w#4@q$$8=
z4mFi1{p>*;NG7m=8xy3Nz!}69#1X`eWC|OGDKIB8VD&K%!pA|p$_$!(Rl30?`2`Az
zc_|7-sk!-}QaB?OQrv@E6S;{+*@!|yuSy)Gya2QKC<4{_w^%@VGsI1ksR&es6-k1c
zModMyRZO~Rx7hPiOUm<$vTt#vWELmq=jEj)m)v4YD#}brPpwkIC@S&`3Q|*$+?C>|
z$yy`}N-=UELIFg8@_dmrhy_YT;M4#~J@Ozi5CKj-Mc~x)1eUBdudry{Vc~1{Yx0}m
zF(YkB-UVUP11T4R!mqMKAjDG^xUA8;AZ&R;<w98WRhAg2%neS#36?W*R=8}?*yDGB
z!~2G~^bJ1Yuk0+WY+tzGnbPDMiz(PSnmo7I<Kt8EljGxWamB}{m4b`Y_##k-xy24D
z*D~|ci$I>a#hIR3;sYt@IO5|$)ku6i#KT}8f^rtPlqmxFs|eM@w>WHa^HWN5QtgV&
z7#J8p`KZ{Ofq~%zGb1D8O$O7a3`&m~_--=@KHwC%&M9??Q)-6AWlog_wg-Z;4SY9v
V)f>3JvVq!i-(wiL7|p;=2LOPL-hKc8

literal 0
HcmV?d00001

diff --git a/prompt_bench/batch_bill_summarizer.py b/prompt_bench/batch_bill_summarizer.py
new file mode 100644
index 0000000..b8b08f3
--- /dev/null
+++ b/prompt_bench/batch_bill_summarizer.py
@@ -0,0 +1,238 @@
+"""Submit an OpenAI Batch API bill-summarization job over compressed text.
+
+Reads the first N bills from a CSV with a `text_content` column, compresses
+each via `bill_token_compression.compress_bill_text`, builds a JSONL file of
+summarization requests, and submits it as an asynchronous Batch API job
+against `/v1/chat/completions`. Also writes a CSV of per-bill pre/post-
+compression token counts.
+"""
+
+from __future__ import annotations
+
+import csv
+import json
+import logging
+import re
+import sys
+import tomllib
+from os import getenv
+from pathlib import Path
+from typing import Annotated
+
+import httpx
+import typer
+from tiktoken import Encoding, get_encoding
+
+from python.prompt_bench.bill_token_compression import compress_bill_text
+
+_PROMPTS_PATH = Path(__file__).resolve().parents[2] / "config" / "prompts" / "summarization_prompts.toml"
+_PROMPTS = tomllib.loads(_PROMPTS_PATH.read_text())["summarization"]
+SUMMARIZATION_SYSTEM_PROMPT: str = _PROMPTS["system_prompt"]
+SUMMARIZATION_USER_TEMPLATE: str = _PROMPTS["user_template"]
+
+logger = logging.getLogger(__name__)
+
+OPENAI_API_BASE = "https://api.openai.com/v1"
+
+
+def load_bills(csv_path: Path, count: int = 0) -> list[tuple[str, str]]:
+    """Return (bill_id, text_content) tuples with non-empty text.
+
+    If `count` is 0 or negative, all rows are returned.
+    """
+    csv.field_size_limit(sys.maxsize)
+    bills: list[tuple[str, str]] = []
+    with csv_path.open(newline="", encoding="utf-8") as handle:
+        reader = csv.DictReader(handle)
+        for row in reader:
+            text_content = (row.get("text_content") or "").strip()
+            if not text_content:
+                continue
+            bill_id = row.get("bill_id") or row.get("id") or f"row-{len(bills)}"
+            version_code = row.get("version_code") or ""
+            unique_id = f"{bill_id}-{version_code}" if version_code else bill_id
+            bills.append((unique_id, text_content))
+            if count > 0 and len(bills) >= count:
+                break
+    return bills
+
+
+def safe_filename(value: str) -> str:
+    """Make a string safe for use as a filename or batch custom_id."""
+    return re.sub(r"[^A-Za-z0-9._-]+", "_", value).strip("_") or "unnamed"
+
+
+def build_request(custom_id: str, model: str, bill_text: str) -> dict:
+    """Build one OpenAI batch request line."""
+    return {
+        "custom_id": custom_id,
+        "method": "POST",
+        "url": "/v1/chat/completions",
+        "body": {
+            "model": model,
+            "messages": [
+                {"role": "system", "content": SUMMARIZATION_SYSTEM_PROMPT},
+                {"role": "user", "content": SUMMARIZATION_USER_TEMPLATE.format(text_content=bill_text)},
+            ],
+        },
+    }
+
+
+def write_jsonl(path: Path, lines: list[dict]) -> None:
+    """Write a list of dicts as JSONL."""
+    with path.open("w", encoding="utf-8") as handle:
+        for line in lines:
+            handle.write(json.dumps(line, ensure_ascii=False))
+            handle.write("\n")
+
+
+def upload_file(client: httpx.Client, path: Path) -> str:
+    """Upload a JSONL file to the OpenAI Files API and return its file id."""
+    with path.open("rb") as handle:
+        response = client.post(
+            f"{OPENAI_API_BASE}/files",
+            files={"file": (path.name, handle, "application/jsonl")},
+            data={"purpose": "batch"},
+        )
+    response.raise_for_status()
+    return response.json()["id"]
+
+
+def prepare_requests(
+    bills: list[tuple[str, str]],
+    *,
+    model: str,
+    encoder: Encoding,
+) -> tuple[list[dict], list[dict]]:
+    """Build (request_lines, token_rows) from bills.
+
+    Each bill is compressed before being turned into a request line.
+    Each `token_rows` entry has chars + token counts for one bill so the caller
+    can write a per-bill CSV.
+    """
+    request_lines: list[dict] = []
+    token_rows: list[dict] = []
+    for bill_id, text_content in bills:
+        raw_token_count = len(encoder.encode(text_content))
+        compressed_text = compress_bill_text(text_content)
+        compressed_token_count = len(encoder.encode(compressed_text))
+        token_rows.append(
+            {
+                "bill_id": bill_id,
+                "raw_chars": len(text_content),
+                "compressed_chars": len(compressed_text),
+                "raw_tokens": raw_token_count,
+                "compressed_tokens": compressed_token_count,
+                "token_ratio": (compressed_token_count / raw_token_count) if raw_token_count else None,
+            },
+        )
+        safe_id = safe_filename(bill_id)
+        request_lines.append(build_request(safe_id, model, compressed_text))
+    return request_lines, token_rows
+
+
+def write_token_csv(path: Path, token_rows: list[dict]) -> tuple[int, int]:
+    """Write per-bill token counts to CSV. Returns (raw_total, compressed_total)."""
+    with path.open("w", newline="", encoding="utf-8") as handle:
+        writer = csv.DictWriter(
+            handle,
+            fieldnames=["bill_id", "raw_chars", "compressed_chars", "raw_tokens", "compressed_tokens", "token_ratio"],
+        )
+        writer.writeheader()
+        writer.writerows(token_rows)
+    raw_total = sum(row["raw_tokens"] for row in token_rows)
+    compressed_total = sum(row["compressed_tokens"] for row in token_rows)
+    return raw_total, compressed_total
+
+
+def create_batch(client: httpx.Client, input_file_id: str, description: str) -> dict:
+    """Create a batch job and return its full response payload."""
+    response = client.post(
+        f"{OPENAI_API_BASE}/batches",
+        json={
+            "input_file_id": input_file_id,
+            "endpoint": "/v1/chat/completions",
+            "completion_window": "24h",
+            "metadata": {"description": description},
+        },
+    )
+    response.raise_for_status()
+    return response.json()
+
+
+def main(
+    csv_path: Annotated[Path, typer.Option("--csv", help="Bills CSV path")] = Path("bills.csv"),
+    output_dir: Annotated[Path, typer.Option("--output-dir", help="Where to write JSONL + metadata")] = Path(
+        "output/openai_batch",
+    ),
+    model: Annotated[str, typer.Option(help="OpenAI model id")] = "gpt-5-mini",
+    count: Annotated[int, typer.Option(help="Max bills to process, 0 = all")] = 0,
+    log_level: Annotated[str, typer.Option(help="Log level")] = "INFO",
+) -> None:
+    """Submit an OpenAI Batch job of compressed bill summaries."""
+    logging.basicConfig(level=log_level, format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+
+    api_key = getenv("CLOSEDAI_TOKEN") or getenv("OPENAI_API_KEY")
+    if not api_key:
+        message = "Neither CLOSEDAI_TOKEN nor OPENAI_API_KEY is set"
+        raise typer.BadParameter(message)
+    if not csv_path.is_file():
+        message = f"CSV not found: {csv_path}"
+        raise typer.BadParameter(message)
+
+    output_dir.mkdir(parents=True, exist_ok=True)
+
+    logger.info("Loading %d bills from %s", count, csv_path)
+    bills = load_bills(csv_path, count)
+    if len(bills) < count:
+        logger.warning("Only %d bills available (requested %d)", len(bills), count)
+
+    encoder = get_encoding("o200k_base")
+    request_lines, token_rows = prepare_requests(bills, model=model, encoder=encoder)
+
+    token_csv_path = output_dir / "token_counts.csv"
+    raw_tokens_total, compressed_tokens_total = write_token_csv(token_csv_path, token_rows)
+    logger.info(
+        "Token counts: raw=%d compressed=%d ratio=%.3f -> %s",
+        raw_tokens_total,
+        compressed_tokens_total,
+        (compressed_tokens_total / raw_tokens_total) if raw_tokens_total else 0.0,
+        token_csv_path,
+    )
+
+    jsonl_path = output_dir / "requests.jsonl"
+    write_jsonl(jsonl_path, request_lines)
+    logger.info("Wrote %s (%d bills)", jsonl_path, len(request_lines))
+
+    headers = {"Authorization": f"Bearer {api_key}"}
+    with httpx.Client(headers=headers, timeout=httpx.Timeout(300.0)) as client:
+        logger.info("Uploading JSONL")
+        file_id = upload_file(client, jsonl_path)
+        logger.info("Uploaded: %s", file_id)
+
+        logger.info("Creating batch")
+        batch = create_batch(client, file_id, f"compressed bill summaries x{len(request_lines)} ({model})")
+        logger.info("Batch created: %s", batch["id"])
+
+    metadata = {
+        "model": model,
+        "count": len(bills),
+        "jsonl": str(jsonl_path),
+        "input_file_id": file_id,
+        "batch_id": batch["id"],
+        "raw_tokens_total": raw_tokens_total,
+        "compressed_tokens_total": compressed_tokens_total,
+        "batch": batch,
+    }
+    metadata_path = output_dir / "batch.json"
+    metadata_path.write_text(json.dumps(metadata, indent=2))
+    logger.info("Wrote metadata to %s", metadata_path)
+
+
+def cli() -> None:
+    """Typer entry point."""
+    typer.run(main)
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/bill_token_compression.py b/prompt_bench/bill_token_compression.py
new file mode 100644
index 0000000..9118ea7
--- /dev/null
+++ b/prompt_bench/bill_token_compression.py
@@ -0,0 +1,162 @@
+"""Lossless-ish text compression for Congressional bill text."""
+
+from __future__ import annotations
+
+import re
+
+STATES = (
+    "Alabama",
+    "Alaska",
+    "Arizona",
+    "Arkansas",
+    "California",
+    "Colorado",
+    "Connecticut",
+    "Delaware",
+    "Florida",
+    "Georgia",
+    "Hawaii",
+    "Idaho",
+    "Illinois",
+    "Indiana",
+    "Iowa",
+    "Kansas",
+    "Kentucky",
+    "Louisiana",
+    "Maine",
+    "Maryland",
+    "Massachusetts",
+    "Michigan",
+    "Minnesota",
+    "Mississippi",
+    "Missouri",
+    "Montana",
+    "Nebraska",
+    "Nevada",
+    "New Hampshire",
+    "New Jersey",
+    "New Mexico",
+    "New York",
+    "North Carolina",
+    "North Dakota",
+    "Ohio",
+    "Oklahoma",
+    "Oregon",
+    "Pennsylvania",
+    "Rhode Island",
+    "South Carolina",
+    "South Dakota",
+    "Tennessee",
+    "Texas",
+    "Utah",
+    "Vermont",
+    "Virginia",
+    "Washington",
+    "West Virginia",
+    "Wisconsin",
+    "Wyoming",
+    "Puerto Rico",
+    "Guam",
+    "American Samoa",
+    "District of Columbia",
+    "US Virgin Islands",
+)
+STATE_PATTERNS = [(re.compile(re.escape(state), re.IGNORECASE), state) for state in STATES]
+
+
+def normalize_state_names(text: str) -> str:
+    """Replace any casing of state names with title case."""
+    for pattern, replacement in STATE_PATTERNS:
+        text = pattern.sub(replacement, text)
+    return text
+
+
+def strip_number_commas(text: str) -> str:
+    """Remove commas from numeric thousands separators."""
+    return re.sub(r"(\d{1,3}(?:,\d{3})+)", lambda match: match.group().replace(",", ""), text)
+
+
+def strip_horizontal_rules(text: str) -> str:
+    """Remove ASCII horizontal-rule lines built from underscores, dashes, equals, or asterisks."""
+    return re.sub(r"^\s*[_\-=\*]{3,}\s*$", "", text, flags=re.MULTILINE)
+
+
+def collapse_double_dashes(text: str) -> str:
+    """Replace ``--`` em-dash stand-ins with a single space so they don't tokenize oddly."""
+    return text.replace("--", " ")
+
+
+def collapse_inline_whitespace(text: str) -> str:
+    """Collapse runs of horizontal whitespace (spaces, tabs) into a single space, leaving newlines intact."""
+    return re.sub(r"[^\S\n]+", " ", text)
+
+
+def collapse_blank_lines(text: str) -> str:
+    """Collapse three-or-more consecutive newlines down to a blank-line separator."""
+    return re.sub(r"\n{3,}", "\n\n", text)
+
+
+def trim_line_edges(text: str) -> str:
+    """Strip spaces immediately before and after newline characters on every line."""
+    text = re.sub(r" +\n", "\n", text)
+    return re.sub(r"\n +", "\n", text)
+
+
+def shorten_section_markers(text: str) -> str:
+    """Rewrite ``Sec. 12.`` style section headings as the more compact ``SEC 12``."""
+    return re.sub(r"(?i)sec\.\s*(\d+[a-zA-Z]?)\.", r"SEC \1", text)
+
+
+def unwrap_parens(text: str) -> str:
+    """Strip parentheses around short alphanumeric labels like ``(a)`` or ``(12)``."""
+    return re.sub(r"\(([a-zA-Z0-9]+)\)", r"\1", text)
+
+
+def strip_typeset_quotes(text: str) -> str:
+    """Remove the `` and '' typeset quote markers used in the GPO bill format."""
+    return text.replace("``", "").replace("''", "")
+
+
+def normalize_usc_acronym(text: str) -> str:
+    """Collapse ``U.S.C.`` to ``USC`` to save tokens on the common citation."""
+    return text.replace("U.S.C.", "USC")
+
+
+def normalize_us_acronym(text: str) -> str:
+    """Normalize the various ``U.S.``/``U. S.`` spellings to the bare ``US`` form."""
+    for acronym in ("U. S.", "u. s.", "U.S. ", "u.s. "):
+        text = text.replace(acronym, "US ")
+    return text
+
+
+def collapse_ellipses(text: str) -> str:
+    """Collapse runs of two-or-more periods (``...``, ``....``) down to a single period."""
+    return re.sub(r"\.{2,}", ".", text)
+
+
+COMPRESSION_STEPS = (
+    strip_horizontal_rules,
+    collapse_double_dashes,
+    collapse_inline_whitespace,
+    collapse_blank_lines,
+    trim_line_edges,
+    shorten_section_markers,
+    unwrap_parens,
+    strip_typeset_quotes,
+    normalize_usc_acronym,
+    normalize_us_acronym,
+    strip_number_commas,
+    collapse_ellipses,
+    normalize_state_names,
+)
+
+
+def compress_bill_text(text: str) -> str:
+    """Apply lossless-ish whitespace and boilerplate compression to bill text.
+
+    Runs every transform in :data:`COMPRESSION_STEPS` in order, then strips
+    leading/trailing whitespace from the final result.
+    """
+    for step in COMPRESSION_STEPS:
+        text = step(text)
+    return text.strip()
diff --git a/prompt_bench/compresion_test.py b/prompt_bench/compresion_test.py
new file mode 100644
index 0000000..f246f14
--- /dev/null
+++ b/prompt_bench/compresion_test.py
@@ -0,0 +1,241 @@
+"""Run two interactive OpenAI chat-completion sweeps over bill text.
+
+Reads the first N bills from a CSV with a `text_content` column and sends two
+sweeps through `/v1/chat/completions` concurrently — one with the raw bill
+text, one with the compressed bill text. Each request's prompt is saved to
+disk alongside the OpenAI response id so the prompts and responses can be
+correlated later.
+"""
+
+from __future__ import annotations
+
+import csv
+import json
+import logging
+import re
+import sys
+import time
+import tomllib
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from os import getenv
+from pathlib import Path
+from typing import Annotated
+
+import httpx
+import typer
+
+from python.prompt_bench.bill_token_compression import compress_bill_text
+
+_PROMPTS_PATH = Path(__file__).resolve().parents[2] / "config" / "prompts" / "summarization_prompts.toml"
+_PROMPTS = tomllib.loads(_PROMPTS_PATH.read_text())["summarization"]
+SUMMARIZATION_SYSTEM_PROMPT: str = _PROMPTS["system_prompt"]
+SUMMARIZATION_USER_TEMPLATE: str = _PROMPTS["user_template"]
+
+logger = logging.getLogger(__name__)
+
+OPENAI_API_BASE = "https://api.openai.com/v1"
+DEFAULT_MODEL = "gpt-5.4-mini"
+DEFAULT_COUNT = 100
+SEED = 42
+
+
+def load_bills(csv_path: Path, count: int) -> list[tuple[str, str]]:
+    """Return up to `count` (bill_id, text_content) tuples with non-empty text."""
+    csv.field_size_limit(sys.maxsize)
+    bills: list[tuple[str, str]] = []
+    with csv_path.open(newline="", encoding="utf-8") as handle:
+        reader = csv.DictReader(handle)
+        for row in reader:
+            text_content = (row.get("text_content") or "").strip()
+            if not text_content:
+                continue
+            bill_id = row.get("bill_id") or row.get("id") or f"row-{len(bills)}"
+            version_code = row.get("version_code") or ""
+            unique_id = f"{bill_id}-{version_code}" if version_code else bill_id
+            bills.append((unique_id, text_content))
+            if len(bills) >= count:
+                break
+    return bills
+
+
+def build_messages(bill_text: str) -> list[dict]:
+    """Return the system + user message pair for a bill."""
+    return [
+        {"role": "system", "content": SUMMARIZATION_SYSTEM_PROMPT},
+        {"role": "user", "content": SUMMARIZATION_USER_TEMPLATE.format(text_content=bill_text)},
+    ]
+
+
+def safe_filename(value: str) -> str:
+    """Make a string safe for use as a filename."""
+    return re.sub(r"[^A-Za-z0-9._-]+", "_", value).strip("_") or "unnamed"
+
+
+def run_one_request(
+    client: httpx.Client,
+    *,
+    bill_id: str,
+    label: str,
+    bill_text: str,
+    model: str,
+    output_path: Path,
+) -> tuple[bool, float, str | None]:
+    """Send one chat-completion request and persist prompt + response.
+
+    Returns (success, elapsed_seconds, response_id).
+    """
+    messages = build_messages(bill_text)
+    payload = {
+        "model": model,
+        "messages": messages,
+        "seed": SEED,
+    }
+    start = time.monotonic()
+    record: dict = {
+        "bill_id": bill_id,
+        "label": label,
+        "model": model,
+        "seed": SEED,
+        "input_chars": len(bill_text),
+        "messages": messages,
+    }
+    try:
+        response = client.post(f"{OPENAI_API_BASE}/chat/completions", json=payload)
+        response.raise_for_status()
+        body = response.json()
+    except httpx.HTTPStatusError as error:
+        elapsed = time.monotonic() - start
+        record["error"] = {
+            "status_code": error.response.status_code,
+            "body": error.response.text,
+            "elapsed_seconds": elapsed,
+        }
+        output_path.write_text(json.dumps(record, ensure_ascii=False, indent=2))
+        logger.exception("HTTP error for %s/%s after %.2fs", label, bill_id, elapsed)
+        return False, elapsed, None
+    except Exception as error:
+        elapsed = time.monotonic() - start
+        record["error"] = {"message": str(error), "elapsed_seconds": elapsed}
+        output_path.write_text(json.dumps(record, ensure_ascii=False, indent=2))
+        logger.exception("Failed: %s/%s after %.2fs", label, bill_id, elapsed)
+        return False, elapsed, None
+
+    elapsed = time.monotonic() - start
+    response_id = body.get("id")
+    record["response_id"] = response_id
+    record["elapsed_seconds"] = elapsed
+    record["usage"] = body.get("usage")
+    record["response"] = body
+    output_path.write_text(json.dumps(record, ensure_ascii=False, indent=2))
+    logger.info("Done: %s/%s id=%s in %.2fs", label, bill_id, response_id, elapsed)
+    return True, elapsed, response_id
+
+
+def main(
+    csv_path: Annotated[Path, typer.Option("--csv", help="Bills CSV path")] = Path("bills.csv"),
+    output_dir: Annotated[Path, typer.Option("--output-dir", help="Where to write per-request JSON")] = Path(
+        "output/openai_runs",
+    ),
+    model: Annotated[str, typer.Option(help="OpenAI model id")] = DEFAULT_MODEL,
+    count: Annotated[int, typer.Option(help="Number of bills per set")] = DEFAULT_COUNT,
+    concurrency: Annotated[int, typer.Option(help="Concurrent in-flight requests")] = 16,
+    log_level: Annotated[str, typer.Option(help="Log level")] = "INFO",
+) -> None:
+    """Run two interactive OpenAI sweeps (compressed + uncompressed) over bill text."""
+    logging.basicConfig(level=log_level, format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+
+    api_key = getenv("CLOSEDAI_TOKEN") or getenv("OPENAI_API_KEY")
+    if not api_key:
+        message = "Neither CLOSEDAI_TOKEN nor OPENAI_API_KEY is set"
+        raise typer.BadParameter(message)
+    if not csv_path.is_file():
+        message = f"CSV not found: {csv_path}"
+        raise typer.BadParameter(message)
+
+    compressed_dir = output_dir / "compressed"
+    uncompressed_dir = output_dir / "uncompressed"
+    compressed_dir.mkdir(parents=True, exist_ok=True)
+    uncompressed_dir.mkdir(parents=True, exist_ok=True)
+
+    logger.info("Loading %d bills from %s", count, csv_path)
+    bills = load_bills(csv_path, count)
+    if len(bills) < count:
+        logger.warning("Only %d bills available (requested %d)", len(bills), count)
+
+    tasks: list[tuple[str, str, str, Path]] = []
+    for bill_id, text_content in bills:
+        filename = f"{safe_filename(bill_id)}.json"
+        tasks.append((bill_id, "compressed", compress_bill_text(text_content), compressed_dir / filename))
+        tasks.append((bill_id, "uncompressed", text_content, uncompressed_dir / filename))
+
+    logger.info("Submitting %d requests at concurrency=%d", len(tasks), concurrency)
+
+    headers = {"Authorization": f"Bearer {api_key}"}
+    completed = 0
+    failed = 0
+    index: list[dict] = []
+    wall_start = time.monotonic()
+    with (
+        httpx.Client(headers=headers, timeout=httpx.Timeout(300.0)) as client,
+        ThreadPoolExecutor(
+            max_workers=concurrency,
+        ) as executor,
+    ):
+        future_to_task = {
+            executor.submit(
+                run_one_request,
+                client,
+                bill_id=bill_id,
+                label=label,
+                bill_text=bill_text,
+                model=model,
+                output_path=output_path,
+            ): (bill_id, label, output_path)
+            for bill_id, label, bill_text, output_path in tasks
+        }
+        for future in as_completed(future_to_task):
+            bill_id, label, output_path = future_to_task[future]
+            success, elapsed, response_id = future.result()
+            if success:
+                completed += 1
+            else:
+                failed += 1
+            index.append(
+                {
+                    "bill_id": bill_id,
+                    "label": label,
+                    "response_id": response_id,
+                    "elapsed_seconds": elapsed,
+                    "success": success,
+                    "path": str(output_path),
+                },
+            )
+    wall_elapsed = time.monotonic() - wall_start
+
+    summary = {
+        "model": model,
+        "count": len(bills),
+        "completed": completed,
+        "failed": failed,
+        "wall_seconds": wall_elapsed,
+        "concurrency": concurrency,
+        "results": index,
+    }
+    summary_path = output_dir / "summary.json"
+    summary_path.write_text(json.dumps(summary, indent=2))
+    logger.info(
+        "Done: completed=%d failed=%d wall=%.1fs summary=%s",
+        completed,
+        failed,
+        wall_elapsed,
+        summary_path,
+    )
+
+
+def cli() -> None:
+    """Typer entry point."""
+    typer.run(main)
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/containers/__init__.py b/prompt_bench/containers/__init__.py
new file mode 100644
index 0000000..dc58a44
--- /dev/null
+++ b/prompt_bench/containers/__init__.py
@@ -0,0 +1 @@
+"""Prompt benchmarking system for evaluating LLMs via vLLM."""
diff --git a/prompt_bench/containers/__pycache__/__init__.cpython-314.pyc b/prompt_bench/containers/__pycache__/__init__.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a4bfe27b7766bf40b257d2c78dc7b9d16452be1d
GIT binary patch
literal 234
zcmdPq<K<#tU|_g*`&Ons0|Ucj5C?`Cp^VQUB@GNg3?&RfjLHm}OjQ;EMfte}B??KY
zdC3{MiAC9&dFcwpmBl5gxe96dMGC29i8-Z-B_L5BAKzkyvdlz<G9MpbJwHvxTkP@i
zDf!9q@hcfVgDkk^pr4VSo2p-wnVgZCs-Kcyl9rj1TC87CS(1^Tr(XcJDIRQ-esX?Z
zNn&PRYEiL%e0*kJW=VX!UP0w84x8Nkl+v73yCOCQ1_qF`i#Zq=7(OsFGBVy~uq$F=
HU|;|M2#Z64

literal 0
HcmV?d00001

diff --git a/prompt_bench/containers/__pycache__/finetune.cpython-314.pyc b/prompt_bench/containers/__pycache__/finetune.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b621b3e94a1ccebd6e352a096ae25c2447b433c2
GIT binary patch
literal 8029
zcmdPq<K<#tU|_g*`&Op8FayJ55C?`?Aq>XP983%h4GcjHB@A&4L5!Y^9!w=n@*p;o
zCvypN977P3Crb%S977PZC#wfr2^(0B#gpBGql5#@X7c1L;f!MlV)f+m;4a~oXNYAE
zkbszuOe!+O@|rM0L`wLA*h=_=*h>V0I7$R#*%TRqIN@?aL0sYtLEPdDIRYiZK|HZS
z`iw!m;tWB2AdwuV5|JQ&afToP5U)fuNKl+1NC?api{%W^gP4y@Dl!BK2Z@-&Y?g?X
z2rx#Lhp<f`6hn}xI75&a$UK-xi4=YvVAqSoTo2|+z<EMJlEy4SQsN9j(jYT)7~!T$
z<2N-(Mw}r?7NiHRLxzA3IdO&{c@!P8K?>pwL5d);61iC3ASH_k28I+a1_l|1SUE)o
zn91@CK}^bEtf^dO=aQeCom!-joS#>cn3<Paq>z)DmYQ6doRg}Mo0ylFo|>DQSE7)X
zU!)M4SDceylA(~6nU|_tQks{Um#(MDc#AtRFE76&u_QA;uh>tM@fJ%!Vo8Q3<1J1{
zh<Iv>CgUx><c!qh?D+J8()hHZ)YK~8q|BTgU64s7rFp4UA}Cy|oWzpU;*u&`{fzwF
zRQ;mN<c!Qz{gnKYw9K5;V*P^3l8pR3{eq(W+=7z$q}06R41I_%K=OKUL;3Wp(u(zS
z^HWlDiuE(nl0iuVgh5fy#K6G7%)r3-S%v|W9l{vmm@HZt7*d!)ffdM@!5G9C#H7!t
z%&?OAB}nZpwxZOM(xSXuEPnZUsVf;Y8E>(r<rn29mK1}GRJ!Fryj$TxU91mtt6o9n
zEuQ#zXh^2U#~1N2FffQQFfbGggB|#tft%6zBZ!y~0;WELe31+yV3-r)CDzZsz&c`J
z;tT=Ia3-7)#2CW@<CuUv$iToL&k(}~6AR#gu@JN(Ll9FCa}Y}mxRe2j2eBed31ZV@
z4`L7E2;ww{+E>63#t^^*QiqD;7%a*e7*hB^K^??Zz!<|1lMiEr<)jQo0`BKV*o<(0
z5RWp0Chsq0r_#)v6orzEROGa(07)YXnYoGSsd`m%U`3gE=_qQzl2!_;#kbf}z!~Ef
zYZAz?Urf4bRZO}iw;1(8+*UH(Vkt?jD7nQ7PSsV4Zi$&WsVNF2`3hjgm?l>7dxC5Q
zOP7F*_tWIK#g>zwo}OBCizPEJE&mpuo2Q>^NT{D{yr-|DyX!5k;?ksoqWt94;^JG(
zMWuPS_+9*+y<LOcJbhf_0~|v<ZgD}9WO9B=>Mfq2(!7$)+*H@1qWmIFCQx!MF3l;q
z#h#m5T%4GmS`3O~1%)DB1_p*(++bJ6gZ)~h3`=Nf;AHcJg{$4W(ffjc!4|zMERJ`0
z#rxyB;%;yXPB5S0vP6G_$sV~A!WTGvZ}1A<;1mAB&cesm;P!!wfrIZlyTnCyi5ZSp
z*kx}BnRc+>;ggzSewk1C0*CS)n4yYG?5?pG6@eoB7Dq-}d~zZv1VK3ngh9ywl<vS8
zQv>WA>=`qNIfyBUC5S1AHHb~0MVUd9y$Gc57EelINn&woNqj+KNk$PU8Q$W`FD)r3
zEs0ObEGklAU|=W$Ws@RM3NGSiU|`T>ECQuaNG1k{4mjt536Sz)3$Qc3Gng~FGkye<
z4}`=%u!6WB*cb#wKd^(D91Q%zA2`8GE(SKPkK7<8*q`t`3UZDhERRkA*TP{80Wg1q
z{0_yia=L&aj1jLqV;I)F4b!g<H7{KdoYNS?7<d?rm<pI<pltyLhA?JCehXs^V25fz
zqJo$}dEOk9dLShPDEPqgFk9pq!kF;7k|~Ud7?XooK(UEbwt&l$FeV;`ATA@OAkHvG
z9)=)pFpGhQA&AF_DFzgCV7CPE2Jr>)2MOp27O=#CN=~q704TJ<ECdlG2=lQ#0|Avn
zVGM|pg@9V&Fh(S`LNNORL|`lgt;i4tO1UCIqVRH(HH<Yt450$Xf|irg;Mfzxt_B*T
zk}y5UF-pMA;>d0el2B&QluUGBWMBv?&BG`<;Z>F%7nfsEda)Ikf`Wnqa&EIy@W?MN
zQ2=E;P&tTR_Id^T`}x2$=z(=3GA6R#@{H7?RIvReMWFUbiUPO-S18ZS$x%p3RVYp@
zOHF|o04qO`wU^{8c$B86XXd55B_^jr^@2+o1&yT4ycFHs{L;J<NLig&mY<oTP?V~h
zl3$*elb@K9nU}5!F}f@<Co=`yq=_#s$jL0RQgACuOa?V^6!O!+-cZO$%}G(nFNHLX
z5bE`~s)Su2rI12iK1jASFU3kBM3d<jdqHARYF<h4EsoTR%;J*x{Olr7N-2_MU|^_X
z)78yO%uTJ5*40f(Ez3+!waqKbOvy~tOU}>LPcJC7P0Y!u;?mX4EJ(J^$S*FbV$v<E
zlC;t<%Fi#+*8}@dKLg_Pw8Z4pDs?OU^8BLg;)2BFRDDQL>lc=%=IMf4TE(Tgxrs%Y
zRjEZ)GRO*{F{+nUoS&CtRg_=FsjCYWtCB!65Gn>ySH+{N3$Z~rC9|kX4M`nD7`w%C
z!6k`BCFm6}Jf&3$C@4S!(h8K=REt3({@~IaETEuT>{bNIHdX3wh!!bQLpHS{6BN_s
znI#ztph{8!U14rPPHIW2o`Nr^i3mwqptP%6?5D|li@hkdI6tQ>^%i?(aXhGDc}vhO
zGbhzAzr-!SG%p2Q(cWUs%}&WIy2V>ul3x%HYs}r^bN2TOarE?a4T|@3^mQ$g2Gu*D
zELtQ5Vu6~R;7Bi$2XPfZ)eu{e8i)-lvLV%!5~!kPPtMQHP0ULvQUtXGL5(vN6%_?o
zHO^NI3P8BEMMew^4B$G;ixJeO{UF02qHtYU{i3k?Wns+*pBsYG*9Da?3MyX~RBiBj
zz%72ATmB-q{B>@{OWcY#MATRCEU3F6WCp6Z<rlDD=F_;qq49u)?>dXfMHZ16AuC)i
zu!vk?F}%Yf*y8_yU;H}1{6&8G%lwKB9yeHc+Wi{+W|*u{Y4E$kqW^)7fm84X2k#9I
zfjb;xH#k&paERRC;JLvq+@W<rME3%R9+)TEp>sjZ_5z0;m?z$$cR|AB0*5JBi|`E&
zr5hl<1|O7#_}LoVzi2S9azk4tU{^q!DM|}`P`O@LSoEJjS}il&SEy`Ay~1nL;C6$Z
z7rA{RV!gxdx{dEe8{Z4oeiwxNL7v8Jtyu1`y2j!Lsl`F{GzfzVT2O5WZli!=vVj46
z8wJ#PC<4`}1lt*LpvVO!<OYWC3@nVXj32?|gc1l1u^(hF41*E^GXn$b=S|?o34xX}
zyiG07fM_!ZfXslI2c;qH`xsD53M`_>45^c0^%PP1*@HNcOkhDbA&66%L6hs3R&Ysv
zfkI*)sQAszFM|~Lp!@^vS0Zw;UX>h3Z2``50$hgPVgcpA5I0SxTYSlh1tq0Lsqv7q
zrwBAOaf_)aw+K`h`)RTkVatdHpv(tq4}t?5(hk%IiGc`k{5XPx8qqoiCpx}%zb3y4
z9y8LG<XsRpJ&<xCDEul*#2prxc*+8oHF_6>El;Ri2#dbX5(74!ynd)AGq{NhZoXD=
z6_*q#)F^<uq6AY{DkycqI+0wAnjaas7&RwUfhmZ4z>y6lKnWI{v{r!qi<GoLi5{v5
zMkz9Yddc7}A-prG#~K8JY(ebiP%&^f5KD4{HgCW^?jR0jP-hXI^k6nHfJ8x!b%X$z
zr2{4*gffFBXO&kFxO=Wpl$s10uE@zxFIGq^%FhM2B(Nqd9fkZNa0n`7rh#kfqS8F@
zkOnkCfs6pv$|Z@JIk%Wh4MN;BnTyOpX+j)CfRdG;CR-7x2!Isk;4}m((QmO8m!#yE
zmVoKhq9RR3NcjyaKA=4?UXbaClG~nvfdL#(zTi-Y7GI!Fm)Q)91tDwfE^t`g5SNDb
zxj0$DeJ&o<KG#it;Tzn7{kEO9GtB1O&a}PCt#N@x102Iuir6bi#P|+q9ET+%HK%~Q
z#7SH^SB9JtnHYsWGB7a;b(DZ9ush*hB~ZkI(i=D>g6hl$h8R%jfy9xAu^5#ZG?|J(
z&3r#iMsQCSoE^Z1K{7EY;TM63Qjq1K&PxNs7d8e~fi_>TswzY5<2IlM4t#Vb9>gn7
zErB+7%<yP|6gpTNJhxap{oMRf0vMFC!4(N8J>#lKK=}*QHG&MT1aaxJDl=$ugG+;3
z>`<3gnZpO$qCvxNItnF~1*t`P{so{ms|F}$ZBbfD;P$w>W^56t#Zl!-gzj)i!#p3{
zP6B5ulm<G;EKuX4%8LlIP`U~@+Ux3?v9~yL^3&sUQp-|vs`L=X7MB!Z^`B3Ex&l}+
z$St6#Ca#-b14<co;Eea3L6DK{BZ#=c>+*qFkdf^J2ZLZ3;|ER<laGNvlJNsSh$+Az
zVD~`~#1aDa_Jsu**}%yu8CvFn6Dp|81E*lf$O@sdG>jQknj&?z;oWpZS33q&K7$Pp
zV+dmmV+vwMRL()5fe_XzEl~drxx~xNE6z+wRY-)5f5BVWdR6+W8i~cppm8J3Vg*$V
zaNvP@Az&VaVWps|0UblqEY@VY#R^sg9yHNpMr*YCX|mj62Muav=B3}_PD(7!Om@!C
zOUq0z0(k}8KGkF?as?HipkxPW=(>S|9~5kAYHDhbObhA|fy>ltkQ^j$e34*a<+;ux
zeu+hVM&<>B#H%bxcUXk3u!!7Y5xOBNb3<76hM?qkb{1A>M1YD55C#Pnv?w7w*h^eF
zHUZ=+P?-X1uQ4%-fC?~?jubEjNd+KFVHj#T>t}-Hm?;AT1E?GWwK>qsF*8u0frx&P
z<)Fk3DaVA`{2^9?{0hP#YoS(B%fHh=R>J(t#wh-gfsIid<X<*Mafsz0OJNukmEcql
zZ9%{s1uwTj?SV8s(4a;P$f00;0U%vq7J>jZN0A0=5NbjB3ZV?lQe=o@3}S{&`eZN?
zGC7O^VR8_t7GbF}2+qhaC!zhI=U1ifm#+YAHJ}Xn!gH8H8mOxXu3SMKP)(L1P)&b}
z6<j#qVo6QT$iKznT9H`-nofXJ9mSyVg0vEftU-|uBBp|305TH!g^htvx;q}+qiL$U
z!@=9n)x~u|*yaj{?HxYh{;aO78Hrc;6fSTm++pEt_iFO$D7(fY28kw+(I5;8GEi`W
zs~%7T23OTXd>>{$$c3;p!o<i0$_!i`Az%t(Iml8NhFVTIPgDtofa)=Y)Vz|SN`->_
z%)Amk&>RzUVnG2~7P-ZooRe7;&cMI`b_=MWY+!i8!rtZzw*MAKe0*+VW?p=}ru;4T
z`1q9k<oNhoT=DT~rQqH|d=bb|MV_D_2L%aew5B8@Co>5$jLcS23F?9rfzoMF0H|-S
z1eu1?L!O4xgU5Wa9!M*w*t^A<o?7Aq8R_SUj|Y{i@$ryO2)M-v9vqMZnJD1m>gE{g
z6B6&?7Vqrn?BNP&(SW-3Mc^_4l6b%&QWOSqs3C{|g*v#jECQ7ekVFFt2K4aZu*uC&
zDa}c>D@tNuU;w3qVkJffh7Zh)jEpxKT%Iy0J!as$%^-M}LE<ih%wq<grwq0aI0deA
zN?qcVnqhI7Q>B6JfuKSI-wi?a2EH3YferjOg~cyOXj~T7yucvvm5rOx_=5~+-1`Fu
zgP7WP@M!qg5=Kyu_A4J3qvi)G26mqI?56As;#ODKtQ(j=urV;Pwo5lkH_LuuVqz5f
z%*?>V{{h7Mzy+6i=<a=k!}>EblLsT)M>d8?##qK191fqEnIak4KCm&wFy=7caB%wu
zs*IufLDjMvTtCQU5vU9kqX?48Uzpe!#i256jN)H~m>9V}a51p(bW~komb?i{Iv<%C
KSfq+T(-i>z3b`);

literal 0
HcmV?d00001

diff --git a/prompt_bench/containers/__pycache__/lib.cpython-314.pyc b/prompt_bench/containers/__pycache__/lib.cpython-314.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9c8dd10d6dc2f8022156b1d1b5cdc84279cb1c32
GIT binary patch
literal 1450
zcmdPq<K<#tU|_g*`&Q-~CI*JbAPx*OLl}&ogBTbX8W`djf*3s+JQzzD<w0yFPo@&4
zIEEl5Pv#QlSf&6Dh-zd~ks+4Vgb^ZA!WP6V&Je^R&X6Ne!XCt=%%I8o5+tR`c#AtR
zFE76&u_QA;uh=gcqydCMl1vN?49pA+jGtw|P6%U&W3p&rU`SzRV31)5WXxa;Vhm!^
zXH;g;WPS-!dyB0owWPEt?-q++eqQQI22I9WY-#yLxrrskAS0D-S?g!y=ceixWhQ52
zrs}8Um!xIpq!#NJRF-7q=jj&|<>wZZ#3!ZZC1>a-=jW9qX6B_973=3@Cg~Ma-r|Xm
zhq^R1KE8;Xfq{XOfq|h|4D7b=41A0!j32?|3>FCe8RUm#5COyN5D&3_j$;IcX$(x9
zApqojI1j>5WYA*>;_wG~k}-%Wh}oP4B3{4{#t;ByLqs5C9D_wU14D`-C~#ufAYu#*
z0U$@hI8Zu>C5#~e9P>~CC>6j9Wgt-|P__xwh4KtRtjZu4@IfVzD17=07{eIVp=wj~
zh;SoY7$d??0{&r#r89`@KrYnetTGEvEXq^JOjB?V2-VF<O)RTaC@9KLPAx7@EmqJ-
z)l1h?@XyIf%uUo(NGwWKC@Rg%%gjsH3vttAzQvcESWr@0lp3F3T2fG2a*L%TwW8z}
zYjQ?va(0!XbAD+~ib7s~i9%s%YEdP~0))|43aZ6^RZ{K&p$IXBl+=>c<dW1BD=yXI
zDo^M9yyDE1)FOrAlKg^#%)E4{LliWMOH=X{iYtptQgf3_a=`Km`A|nDrKaT<r7D2a
zXKrFqc4l6>CUX^6URh>JW}<F!Zf2FLt}fU?y2<&u1*Ijax`_n^#kK{RDLPP($LA&H
zrdEmS>O!)GZE|s$PF{XSYGO)iktWA2uHw=psLET+MWuPSxF8uSIX@-!7F$k!dU|Tn
zE%x%nB2YlxVk<65Ni8b6#adialvx1g=9iXeGJ&#TacNG;El#Lesl~;h)T5wK1WI(b
z_`snUpI%TJpH`HbS|kn2N{!&G^n_QuKdvk87DvPlap@bpf;aetzi_hhu{F4T;9=n4
zyUs3gkzHbj;}v$<I~;ude4Tt3#I1I??f2d3d)>zWqK*G$o4_j^K{q-0ZU~4?=bgxV
zT|oJwfbwMl)dtV|>;iB-CL1!Za5%uZN!K`%Ke94#2o~`$Fff3^B0fH?6r2R&i$G=J
zEq0LqGxO4m1Q{3@ZgHlkmiRydgd-jttnu+hA`A=+VDA)x%0sY85HEAs<mRW8=A_yc
zDKIcFfC{5x6$S=|56p~=jCUE79y9RWW)OV9DR7-r>Jq2a42#R0Dh+Jk*+69q*c1R8
CN>NGx

literal 0
HcmV?d00001

diff --git a/prompt_bench/containers/finetune.py b/prompt_bench/containers/finetune.py
new file mode 100644
index 0000000..cc20ae6
--- /dev/null
+++ b/prompt_bench/containers/finetune.py
@@ -0,0 +1,165 @@
+"""Docker container lifecycle management for Unsloth fine-tuning."""
+
+from __future__ import annotations
+
+import logging
+import subprocess
+from pathlib import Path
+from typing import Annotated
+
+import typer
+
+from python.prompt_bench.containers.lib import check_gpu_free
+
+logger = logging.getLogger(__name__)
+
+CONTAINER_NAME = "bill-finetune"
+FINETUNE_IMAGE = "bill-finetune:latest"
+DOCKERFILE_PATH = "/home/richie/dotfiles/python/prompt_bench/Dockerfile.finetune"
+DEFAULT_HF_CACHE = Path("/zfs/models/hf")
+
+
+def build_image() -> None:
+    """Build the fine-tuning Docker image."""
+    logger.info("Building fine-tuning image: %s", FINETUNE_IMAGE)
+    result = subprocess.run(
+        ["docker", "build", "-f", DOCKERFILE_PATH, "-t", FINETUNE_IMAGE, "."],
+        text=True,
+        check=False,
+    )
+    if result.returncode != 0:
+        message = "Failed to build fine-tuning image"
+        raise RuntimeError(message)
+    logger.info("Image built: %s", FINETUNE_IMAGE)
+
+
+def start_finetune(
+    *,
+    dataset_path: Path,
+    output_dir: Path,
+    hf_cache: Path = DEFAULT_HF_CACHE,
+) -> None:
+    """Run the fine-tuning container.
+
+    Args:
+        dataset_path: Host path to the fine-tuning JSONL dataset.
+        output_dir: Host path where the trained model will be saved.
+        hf_cache: Host path to HuggingFace model cache (bind-mounted to avoid re-downloading).
+        validation_split: Fraction of data held out for validation.
+    """
+    dataset_path = dataset_path.resolve()
+    output_dir = output_dir.resolve()
+
+    if not dataset_path.is_file():
+        message = f"Dataset not found: {dataset_path}"
+        raise FileNotFoundError(message)
+
+    output_dir.mkdir(parents=True, exist_ok=True)
+    stop_finetune()
+
+    hf_cache = hf_cache.resolve()
+    hf_cache.mkdir(parents=True, exist_ok=True)
+
+    command = [
+        "docker",
+        "run",
+        "--name",
+        CONTAINER_NAME,
+        "--device=nvidia.com/gpu=all",
+        "--ipc=host",
+        "-v",
+        f"{hf_cache}:/root/.cache/huggingface",
+        "-v",
+        f"{output_dir}:/workspace/output/qwen-bill-summarizer",
+        "-v",
+        f"{dataset_path}:/workspace/dataset.jsonl:ro",
+        FINETUNE_IMAGE,
+        "--dataset",
+        "/workspace/dataset.jsonl",
+        "--output-dir",
+        "/workspace/output/qwen-bill-summarizer",
+    ]
+
+    logger.info("Starting fine-tuning container")
+    logger.info("  Dataset:    %s", dataset_path)
+    logger.info("  Output:     %s", output_dir)
+
+    result = subprocess.run(command, text=True, check=False)
+    if result.returncode != 0:
+        message = f"Fine-tuning container exited with code {result.returncode}"
+        raise RuntimeError(message)
+    logger.info("Fine-tuning complete. Model saved to %s", output_dir)
+
+
+def stop_finetune() -> None:
+    """Stop and remove the fine-tuning container."""
+    logger.info("Stopping fine-tuning container")
+    subprocess.run(["docker", "stop", CONTAINER_NAME], capture_output=True, check=False)
+    subprocess.run(["docker", "rm", "-f", CONTAINER_NAME], capture_output=True, check=False)
+
+
+def logs_finetune() -> str | None:
+    """Return recent logs from the fine-tuning container, or None if not running."""
+    result = subprocess.run(
+        ["docker", "logs", "--tail", "50", CONTAINER_NAME],
+        capture_output=True,
+        text=True,
+        check=False,
+    )
+    if result.returncode != 0:
+        return None
+    return result.stdout + result.stderr
+
+
+app = typer.Typer(help="Fine-tuning container management.")
+
+
+@app.command()
+def build() -> None:
+    """Build the fine-tuning Docker image."""
+    build_image()
+
+
+@app.command()
+def run(
+    dataset: Annotated[Path, typer.Option(help="Fine-tuning JSONL")] = Path(
+        "/home/richie/dotfiles/data/finetune_dataset.jsonl"
+    ),
+    output_dir: Annotated[Path, typer.Option(help="Where to save the trained model")] = Path(
+        "/home/richie/dotfiles/data/output/qwen-bill-summarizer",
+    ),
+    hf_cache: Annotated[Path, typer.Option(help="Host path to HuggingFace model cache")] = DEFAULT_HF_CACHE,
+    log_level: Annotated[str, typer.Option(help="Log level")] = "INFO",
+) -> None:
+    """Run fine-tuning inside a Docker container."""
+    logging.basicConfig(level=log_level, format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+    check_gpu_free()
+    start_finetune(
+        dataset_path=dataset,
+        output_dir=output_dir,
+        hf_cache=hf_cache,
+    )
+
+@app.command()
+def stop() -> None:
+    """Stop and remove the fine-tuning container."""
+    stop_finetune()
+
+
+@app.command()
+def logs() -> None:
+    """Show recent logs from the fine-tuning container."""
+    output = logs_finetune()
+    if output is None:
+        typer.echo("No running fine-tuning container found.")
+        raise typer.Exit(code=1)
+    typer.echo(output)
+
+
+def cli() -> None:
+    """Typer entry point."""
+    app()
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/containers/lib.py b/prompt_bench/containers/lib.py
new file mode 100644
index 0000000..b1ba5c4
--- /dev/null
+++ b/prompt_bench/containers/lib.py
@@ -0,0 +1,23 @@
+from __future__ import annotations
+
+import logging
+import subprocess
+
+logger = logging.getLogger(__name__)
+
+
+def check_gpu_free() -> None:
+    """Warn if GPU-heavy processes (e.g. Ollama) are running."""
+    result = subprocess.run(
+        ["nvidia-smi", "--query-compute-apps=pid,process_name", "--format=csv,noheader"],
+        capture_output=True,
+        text=True,
+        check=False,
+    )
+    if result.returncode != 0:
+        logger.warning("Could not query GPU processes: %s", result.stderr.strip())
+        return
+    processes = result.stdout.strip()
+    if processes:
+        logger.warning("GPU processes detected:\n%s", processes)
+        logger.warning("Consider stopping Ollama (sudo systemctl stop ollama) before benchmarking")
diff --git a/prompt_bench/containers/vllm.py b/prompt_bench/containers/vllm.py
new file mode 100644
index 0000000..33e7e31
--- /dev/null
+++ b/prompt_bench/containers/vllm.py
@@ -0,0 +1,70 @@
+"""Docker container lifecycle management for vLLM."""
+
+from __future__ import annotations
+
+import logging
+import subprocess
+
+logger = logging.getLogger(__name__)
+
+CONTAINER_NAME = "vllm-bench"
+VLLM_IMAGE = "vllm/vllm-openai:v0.19.0"
+
+
+def start_vllm(
+    *,
+    model: str,
+    port: int,
+    model_dir: str,
+    gpu_memory_utilization: float,
+) -> None:
+    """Start a vLLM container serving the given model.
+
+    Args:
+        model: HuggingFace model directory name (relative to model_dir).
+        port: Host port to bind.
+        model_dir: Host path containing HuggingFace model directories.
+        gpu_memory_utilization: Fraction of GPU memory to use (0-1).
+    """
+    command = [
+        "docker",
+        "run",
+        "-d",
+        "--name",
+        CONTAINER_NAME,
+        "--device=nvidia.com/gpu=all",
+        "--ipc=host",
+        "-v",
+        f"{model_dir}:/models",
+        "-p",
+        f"{port}:8000",
+        VLLM_IMAGE,
+        "--model",
+        f"/models/{model}",
+        "--served-model-name",
+        model,
+        "--gpu-memory-utilization",
+        str(gpu_memory_utilization),
+        "--max-model-len",
+        "4096",
+    ]
+    logger.info("Starting vLLM container with model: %s", model)
+    stop_vllm()
+    result = subprocess.run(command, capture_output=True, text=True, check=False)
+    if result.returncode != 0:
+        msg = f"Failed to start vLLM container: {result.stderr.strip()}"
+        raise RuntimeError(msg)
+    logger.info("vLLM container started: %s", result.stdout.strip()[:12])
+
+
+def stop_vllm() -> None:
+    """Stop and remove the vLLM benchmark container."""
+    logger.info("Stopping vLLM container")
+    subprocess.run(["docker", "stop", CONTAINER_NAME], capture_output=True, check=False)
+    subprocess.run(["docker", "rm", "-f", CONTAINER_NAME], capture_output=True, check=False)
+    subprocess.run(
+        ["docker", "network", "disconnect", "-f", "bridge", CONTAINER_NAME],
+        capture_output=True,
+        check=False,
+    )
+    logger.info("vLLM container stopped and removed")
diff --git a/prompt_bench/downloader.py b/prompt_bench/downloader.py
new file mode 100644
index 0000000..8710b9e
--- /dev/null
+++ b/prompt_bench/downloader.py
@@ -0,0 +1,75 @@
+"""HuggingFace model downloader."""
+
+from __future__ import annotations
+
+import logging
+from pathlib import Path
+from typing import Annotated
+
+import typer
+from huggingface_hub import snapshot_download
+
+from python.prompt_bench.models import BenchmarkConfig
+
+logger = logging.getLogger(__name__)
+
+
+def local_model_path(repo: str, model_dir: str) -> Path:
+    """Return the local directory path for a HuggingFace repo."""
+    return Path(model_dir) / repo
+
+
+def is_model_present(repo: str, model_dir: str) -> bool:
+    """Check if a model has already been downloaded."""
+    path = local_model_path(repo, model_dir)
+    return path.exists() and any(path.iterdir())
+
+
+def download_model(repo: str, model_dir: str) -> Path:
+    """Download a HuggingFace model to the local model directory.
+
+    Skips the download if the model directory already exists and contains files.
+    """
+    local_path = local_model_path(repo, model_dir)
+
+    if is_model_present(repo, model_dir):
+        logger.info("Model already exists: %s", local_path)
+        return local_path
+
+    logger.info("Downloading model: %s -> %s", repo, local_path)
+    snapshot_download(
+        repo_id=repo,
+        local_dir=str(local_path),
+    )
+    logger.info("Download complete: %s", repo)
+    return local_path
+
+
+def download_all(config: BenchmarkConfig) -> None:
+    """Download every model listed in the config, top to bottom."""
+    for repo in config.models:
+        download_model(repo, config.model_dir)
+
+
+def main(
+    config: Annotated[Path, typer.Option(help="Path to TOML config file")] = Path("bench.toml"),
+    log_level: Annotated[str, typer.Option(help="Log level")] = "INFO",
+) -> None:
+    """Download all models listed in the benchmark config."""
+    logging.basicConfig(level=log_level, format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+
+    if not config.is_file():
+        message = f"Config file does not exist: {config}"
+        raise typer.BadParameter(message)
+
+    benchmark_config = BenchmarkConfig.from_toml(config)
+    download_all(benchmark_config)
+
+
+def cli() -> None:
+    """Typer entry point."""
+    typer.run(main)
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/finetune.py b/prompt_bench/finetune.py
new file mode 100644
index 0000000..3bcea4a
--- /dev/null
+++ b/prompt_bench/finetune.py
@@ -0,0 +1,214 @@
+"""Fine-tune Qwen 3.5 4B on bill summarization data using Unsloth.
+
+Loads a ChatML-style JSONL dataset (system/user/assistant messages),
+applies QLoRA with 4-bit quantization, and saves the merged model
+in HuggingFace format. Designed for a single RTX 3090 (24GB).
+
+Usage:
+    python -m python.prompt_bench.finetune \
+        --dataset output/finetune_dataset.jsonl \
+        --output-dir output/qwen-bill-summarizer
+"""
+
+from __future__ import annotations
+
+import json
+import logging
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Annotated
+
+import tomllib
+import typer
+from unsloth import FastLanguageModel
+from datasets import Dataset
+from transformers import TrainingArguments
+from trl import SFTTrainer
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class LoraConfig:
+    """LoRA adapter hyperparameters."""
+
+    rank: int
+    alpha: int
+    dropout: float
+    targets: list[str]
+
+
+@dataclass
+class TrainingConfig:
+    """Training loop hyperparameters."""
+
+    learning_rate: float
+    epochs: int
+    batch_size: int
+    gradient_accumulation: int
+    max_seq_length: int
+    warmup_ratio: float
+    weight_decay: float
+    logging_steps: int
+    save_steps: int
+
+
+@dataclass
+class FinetuneConfig:
+    """Top-level finetune configuration."""
+
+    base_model: str
+    lora: LoraConfig
+    training: TrainingConfig
+
+    @classmethod
+    def from_toml(cls, config_path: Path) -> FinetuneConfig:
+        """Load finetune config from a TOML file."""
+        raw = tomllib.loads(config_path.read_text())["finetune"]
+        return cls(
+            base_model=raw["base_model"],
+            lora=LoraConfig(**raw["lora"]),
+            training=TrainingConfig(**raw["training"]),
+        )
+
+
+def _messages_to_chatml(messages: list[dict]) -> str:
+    r"""Convert a message list to Qwen ChatML format.
+
+    Produces:
+        <|im_start|>system\n...\n<|im_end|>
+        <|im_start|>user\n...\n<|im_end|>
+        <|im_start|>assistant\n...\n<|im_end|>
+    """
+    parts = []
+    for message in messages:
+        role = message["role"]
+        content = message["content"]
+        parts.append(f"<|im_start|>{role}\n{content}<|im_end|>")
+    return "\n".join(parts)
+
+
+def load_dataset_from_jsonl(path: Path) -> Dataset:
+    """Load a ChatML JSONL file into a HuggingFace Dataset.
+
+    Each line must have {"messages": [{"role": ..., "content": ...}, ...]}.
+    Pre-formats into a `text` column with the Qwen ChatML template applied,
+    which SFTTrainer consumes directly.
+    """
+    records = []
+    with path.open(encoding="utf-8") as handle:
+        for raw_line in handle:
+            stripped = raw_line.strip()
+            if stripped:
+                entry = json.loads(stripped)
+                records.append({"text": _messages_to_chatml(entry["messages"])})
+    logger.info("Loaded %d examples from %s", len(records), path)
+    return Dataset.from_list(records)
+
+
+def main(
+    dataset_path: Annotated[Path, typer.Option("--dataset", help="Fine-tuning JSONL")] = Path(
+        "output/finetune_dataset.jsonl",
+    ),
+    validation_split: Annotated[float, typer.Option("--val-split", help="Fraction held out for validation")] = 0.1,
+    output_dir: Annotated[Path, typer.Option("--output-dir", help="Where to save the merged model")] = Path(
+        "output/qwen-bill-summarizer",
+    ),
+    config_path: Annotated[
+        Path,
+        typer.Option("--config", help="TOML config file"),
+    ] = Path(__file__).parent / "config.toml",
+    save_gguf: Annotated[bool, typer.Option("--save-gguf/--no-save-gguf", help="Also save GGUF")] = False,
+) -> None:
+    """Fine-tune Qwen 3.5 4B on bill summarization with Unsloth + QLoRA."""
+    logging.basicConfig(level="INFO", format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+
+    if not dataset_path.is_file():
+        message = f"Dataset not found: {dataset_path}"
+        raise typer.BadParameter(message)
+
+    config = FinetuneConfig.from_toml(config_path)
+
+    logger.info("Loading base model: %s", config.base_model)
+    model, tokenizer = FastLanguageModel.from_pretrained(
+        model_name=config.base_model,
+        max_seq_length=config.training.max_seq_length,
+        load_in_4bit=True,
+        dtype=None,
+    )
+
+    logger.info("Applying LoRA (rank=%d, alpha=%d)", config.lora.rank, config.lora.alpha)
+    model = FastLanguageModel.get_peft_model(
+        model,
+        r=config.lora.rank,
+        lora_alpha=config.lora.alpha,
+        lora_dropout=config.lora.dropout,
+        target_modules=config.lora.targets,
+        bias="none",
+        use_gradient_checkpointing="unsloth",
+        random_state=42,
+    )
+
+    full_dataset = load_dataset_from_jsonl(dataset_path)
+    split = full_dataset.train_test_split(test_size=validation_split, seed=42)
+    train_dataset = split["train"]
+    validation_dataset = split["test"]
+    logger.info("Split: %d train, %d validation", len(train_dataset), len(validation_dataset))
+    training_args = TrainingArguments(
+        output_dir=str(output_dir / "checkpoints"),
+        num_train_epochs=config.training.epochs,
+        per_device_train_batch_size=config.training.batch_size,
+        gradient_accumulation_steps=config.training.gradient_accumulation,
+        learning_rate=config.training.learning_rate,
+        warmup_ratio=config.training.warmup_ratio,
+        weight_decay=config.training.weight_decay,
+        lr_scheduler_type="cosine",
+        logging_steps=config.training.logging_steps,
+        save_steps=config.training.save_steps,
+        save_total_limit=3,
+        eval_strategy="steps",
+        eval_steps=config.training.save_steps,
+        load_best_model_at_end=True,
+        bf16=True,
+        optim="adamw_8bit",
+        seed=42,
+        report_to="none",
+    )
+
+    trainer = SFTTrainer(
+        model=model,
+        tokenizer=tokenizer,
+        train_dataset=train_dataset,
+        eval_dataset=validation_dataset,
+        args=training_args,
+        max_seq_length=config.training.max_seq_length,
+        packing=True,
+    )
+
+    logger.info(
+        "Starting training: %d train, %d val, %d epochs",
+        len(train_dataset),
+        len(validation_dataset),
+        config.training.epochs,
+    )
+    trainer.train()
+
+    merged_path = str(output_dir / "merged")
+    logger.info("Saving merged model to %s", merged_path)
+    model.save_pretrained_merged(merged_path, tokenizer, save_method="merged_16bit")
+
+    if save_gguf:
+        gguf_path = str(output_dir / "gguf")
+        logger.info("Saving GGUF to %s", gguf_path)
+        model.save_pretrained_gguf(gguf_path, tokenizer, quantization_method="q4_k_m")
+
+    logger.info("Done! Model saved to %s", output_dir)
+
+
+def cli() -> None:
+    """Typer entry point."""
+    typer.run(main)
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/input/1.txt b/prompt_bench/input/1.txt
new file mode 100644
index 0000000..ca816cb
--- /dev/null
+++ b/prompt_bench/input/1.txt
@@ -0,0 +1 @@
+how many oceans are there in the world
\ No newline at end of file
diff --git a/prompt_bench/input/2.txt b/prompt_bench/input/2.txt
new file mode 100644
index 0000000..579812e
--- /dev/null
+++ b/prompt_bench/input/2.txt
@@ -0,0 +1 @@
+whos the president of the united states
\ No newline at end of file
diff --git a/prompt_bench/input/3.txt b/prompt_bench/input/3.txt
new file mode 100644
index 0000000..88f52f8
--- /dev/null
+++ b/prompt_bench/input/3.txt
@@ -0,0 +1 @@
+whats the greatest country in the world
\ No newline at end of file
diff --git a/prompt_bench/input/4.txt b/prompt_bench/input/4.txt
new file mode 100644
index 0000000..bc2cd10
--- /dev/null
+++ b/prompt_bench/input/4.txt
@@ -0,0 +1 @@
+was/is the usa the greatest country in the world
\ No newline at end of file
diff --git a/prompt_bench/main.py b/prompt_bench/main.py
new file mode 100644
index 0000000..2d6a725
--- /dev/null
+++ b/prompt_bench/main.py
@@ -0,0 +1,215 @@
+"""CLI entry point for the prompt benchmarking system."""
+
+from __future__ import annotations
+
+import json
+import logging
+import time
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from pathlib import Path
+from typing import Annotated
+
+import typer
+
+from python.prompt_bench.containers.lib import check_gpu_free
+from python.prompt_bench.containers.vllm import start_vllm, stop_vllm
+from python.prompt_bench.downloader import is_model_present
+from python.prompt_bench.models import BenchmarkConfig
+from python.prompt_bench.vllm_client import VLLMClient
+
+logger = logging.getLogger(__name__)
+
+
+def discover_prompts(input_dir: Path) -> list[Path]:
+    """Find all .txt files in the input directory."""
+    prompts = list(input_dir.glob("*.txt"))
+    if not prompts:
+        message = f"No .txt files found in {input_dir}"
+        raise FileNotFoundError(message)
+    return prompts
+
+
+def _run_prompt(
+    client: VLLMClient,
+    prompt_path: Path,
+    *,
+    repo: str,
+    model_dir_name: str,
+    model_output: Path,
+    temperature: float,
+) -> tuple[bool, float]:
+    """Run a single prompt. Returns (success, elapsed_seconds)."""
+    filename = prompt_path.name
+    output_path = model_output / filename
+    start = time.monotonic()
+    try:
+        prompt_text = prompt_path.read_text()
+        response = client.complete(prompt_text, model_dir_name, temperature=temperature)
+        output_path.write_text(response)
+        elapsed = time.monotonic() - start
+        logger.info("Completed: %s / %s in %.2fs", repo, filename, elapsed)
+    except Exception:
+        elapsed = time.monotonic() - start
+        error_path = model_output / f"{filename}.error"
+        logger.exception("Failed: %s / %s after %.2fs", repo, filename, elapsed)
+        error_path.write_text(f"Error processing {filename}")
+        return False, elapsed
+    return True, elapsed
+
+
+def benchmark_model(
+    client: VLLMClient,
+    prompts: list[Path],
+    *,
+    repo: str,
+    model_dir_name: str,
+    model_output: Path,
+    temperature: float,
+    concurrency: int,
+) -> tuple[int, int]:
+    """Run all prompts against a single model in parallel.
+
+    vLLM batches concurrent requests internally, so submitting many at once is
+    significantly faster than running them serially.
+    """
+    pending = [prompt for prompt in prompts if not (model_output / prompt.name).exists()]
+    skipped = len(prompts) - len(pending)
+    if skipped:
+        logger.info("Skipping %d prompts with existing output for %s", skipped, repo)
+
+    if not pending:
+        logger.info("Nothing to do for %s", repo)
+        return 0, 0
+
+    completed = 0
+    failed = 0
+    latencies: list[float] = []
+
+    wall_start = time.monotonic()
+    with ThreadPoolExecutor(max_workers=concurrency) as executor:
+        futures = [
+            executor.submit(
+                _run_prompt,
+                client,
+                prompt_path,
+                repo=repo,
+                model_dir_name=model_dir_name,
+                model_output=model_output,
+                temperature=temperature,
+            )
+            for prompt_path in pending
+        ]
+        for future in as_completed(futures):
+            success, elapsed = future.result()
+            latencies.append(elapsed)
+            if success:
+                completed += 1
+            else:
+                failed += 1
+    wall_elapsed = time.monotonic() - wall_start
+
+    attempted = completed + failed
+    avg_latency = sum(latencies) / attempted
+    throughput = attempted / wall_elapsed if wall_elapsed > 0 else 0.0
+    timing = {
+        "repo": repo,
+        "wall_seconds": wall_elapsed,
+        "attempted": attempted,
+        "completed": completed,
+        "failed": failed,
+        "avg_latency_seconds": avg_latency,
+        "throughput_prompts_per_second": throughput,
+        "concurrency": concurrency,
+    }
+    timing_path = model_output / "_timing.json"
+    timing_path.write_text(json.dumps(timing, indent=2))
+
+    return completed, failed
+
+
+def run_benchmark(
+    config: BenchmarkConfig,
+    input_dir: Path,
+    output_dir: Path,
+) -> None:
+    """Execute the benchmark across all models and prompts."""
+    prompts = discover_prompts(input_dir)
+    logger.info("Found %d prompts in %s", len(prompts), input_dir)
+
+    check_gpu_free()
+
+    total_completed = 0
+    total_failed = 0
+
+    for repo in config.models:
+        if not is_model_present(repo, config.model_dir):
+            logger.warning("Skipping (not downloaded): %s", repo)
+            continue
+
+        model_output = output_dir / repo
+        model_output.mkdir(parents=True, exist_ok=True)
+
+        logger.info("=== Benchmarking model: %s ===", repo)
+
+        stop_vllm()
+        try:
+            start_vllm(
+                model=repo,
+                port=config.port,
+                model_dir=config.model_dir,
+                gpu_memory_utilization=config.gpu_memory_utilization,
+            )
+        except RuntimeError:
+            logger.exception("Failed to start vLLM for %s, skipping", repo)
+            continue
+        logger.info("vLLM started for %s", repo)
+        try:
+            with VLLMClient(port=config.port, timeout=config.timeout) as client:
+                client.wait_ready(max_wait=config.vllm_startup_timeout)
+                completed, failed = benchmark_model(
+                    client,
+                    prompts,
+                    repo=repo,
+                    model_dir_name=repo,
+                    model_output=model_output,
+                    temperature=config.temperature,
+                    concurrency=config.concurrency,
+                )
+                total_completed += completed
+                total_failed += failed
+        finally:
+            stop_vllm()
+
+    logger.info("=== Benchmark complete ===")
+    logger.info("Completed: %d | Failed: %d", total_completed, total_failed)
+
+
+def main(
+    input_dir: Annotated[Path, typer.Argument(help="Directory containing input .txt prompt files")],
+    config: Annotated[Path, typer.Option(help="Path to TOML config file")] = Path("bench.toml"),
+    output_dir: Annotated[Path, typer.Option(help="Output directory for results")] = Path("output"),
+    log_level: Annotated[str, typer.Option(help="Log level")] = "INFO",
+) -> None:
+    """Run prompts through multiple LLMs via vLLM and save results."""
+    logging.basicConfig(level=log_level, format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+
+    if not input_dir.is_dir():
+        message = f"Input directory does not exist: {input_dir}"
+        raise typer.BadParameter(message)
+    if not config.is_file():
+        message = f"Config file does not exist: {config}"
+        raise typer.BadParameter(message)
+
+    benchmark_config = BenchmarkConfig.from_toml(config)
+    output_dir.mkdir(parents=True, exist_ok=True)
+
+    run_benchmark(benchmark_config, input_dir, output_dir)
+
+
+def cli() -> None:
+    """Typer entry point."""
+    typer.run(main)
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/models.py b/prompt_bench/models.py
new file mode 100644
index 0000000..c722aba
--- /dev/null
+++ b/prompt_bench/models.py
@@ -0,0 +1,30 @@
+"""Pydantic models for benchmark configuration."""
+
+from __future__ import annotations
+
+import tomllib
+from typing import TYPE_CHECKING
+
+from pydantic import BaseModel
+
+if TYPE_CHECKING:
+    from pathlib import Path
+
+
+class BenchmarkConfig(BaseModel):
+    """Top-level benchmark configuration loaded from TOML."""
+
+    models: list[str]
+    model_dir: str = "/zfs/models/hf"
+    port: int = 8000
+    gpu_memory_utilization: float = 0.90
+    temperature: float = 0.0
+    timeout: int = 300
+    concurrency: int = 4
+    vllm_startup_timeout: int = 900
+
+    @classmethod
+    def from_toml(cls, config_path: Path) -> BenchmarkConfig:
+        """Load benchmark config from a TOML file."""
+        raw = tomllib.loads(config_path.read_text())["bench"]
+        return cls(**raw)
diff --git a/prompt_bench/summarization_prompts.py b/prompt_bench/summarization_prompts.py
new file mode 100644
index 0000000..bfdd5a5
--- /dev/null
+++ b/prompt_bench/summarization_prompts.py
@@ -0,0 +1,34 @@
+SUMMARIZATION_SYSTEM_PROMPT = """You are a legislative analyst extracting policy substance from Congressional bill text.
+
+Your job is to compress a bill into a dense, neutral structured summary that captures every distinct policy action — including secondary effects that might be buried in subsections.
+
+EXTRACTION RULES:
+- IGNORE: whereas clauses, congressional findings that are purely political statements, recitals, preambles, citations of existing law by number alone, and procedural boilerplate.
+- FOCUS ON: operative verbs — what the bill SHALL do, PROHIBIT, REQUIRE, AUTHORIZE, AMEND, APPROPRIATE, or ESTABLISH.
+- SURFACE ALL THREADS: If the bill touches multiple policy areas, list each thread separately. Do not collapse them.
+- BE CONCRETE: Name the affected population, the mechanism, and the direction (expands/restricts/maintains).
+- STAY NEUTRAL: No political framing. Describe what the text does, not what its sponsors claim it does.
+
+OUTPUT FORMAT — plain structured text, not JSON:
+
+OPERATIVE ACTIONS:
+[Numbered list of what the bill actually does, one action per line, max 20 words each]
+
+AFFECTED POPULATIONS:
+[Who gains something, who loses something, or whose behavior is regulated]
+
+MECHANISMS:
+[How it works: new funding, mandate, prohibition, amendment to existing statute, grant program, study commission, etc.]
+
+POLICY THREADS:
+[List each distinct policy domain this bill touches, even minor ones. Use plain language, not domain codes.]
+
+SYMBOLIC/PROCEDURAL ONLY:
+[Yes or No — is this bill primarily a resolution, designation, or awareness declaration with no operative effect?]
+
+LENGTH TARGET: 150-250 words total. Be ruthless about cutting. Density over completeness."""
+
+SUMMARIZATION_USER_TEMPLATE = """Summarize the following Congressional bill according to your instructions.
+
+BILL TEXT:
+{text_content}"""
diff --git a/prompt_bench/tools/build_finetune_dataset.py b/prompt_bench/tools/build_finetune_dataset.py
new file mode 100644
index 0000000..e3594b8
--- /dev/null
+++ b/prompt_bench/tools/build_finetune_dataset.py
@@ -0,0 +1,114 @@
+"""Build a fine-tuning JSONL dataset from batch request + output files.
+
+Joins the original request JSONL (system + user messages) with the batch
+output JSONL (assistant completions) by custom_id to produce a ChatML-style
+messages JSONL suitable for fine-tuning.
+"""
+
+from __future__ import annotations
+
+import json
+import logging
+from pathlib import Path
+from typing import Annotated
+
+import typer
+
+logger = logging.getLogger(__name__)
+
+HTTP_OK = 200
+
+
+def load_requests(path: Path) -> dict[str, list[dict]]:
+    """Parse request JSONL into {custom_id: messages}."""
+    results: dict[str, list[dict]] = {}
+    with path.open(encoding="utf-8") as handle:
+        for raw_line in handle:
+            stripped = raw_line.strip()
+            if not stripped:
+                continue
+            record = json.loads(stripped)
+            custom_id = record["custom_id"]
+            messages = record["body"]["messages"]
+            results[custom_id] = messages
+    return results
+
+
+def load_completions(path: Path) -> dict[str, str]:
+    """Parse batch output JSONL into {custom_id: assistant_content}."""
+    results: dict[str, str] = {}
+    with path.open(encoding="utf-8") as handle:
+        for line_number, raw_line in enumerate(handle, 1):
+            stripped = raw_line.strip()
+            if not stripped:
+                continue
+            record = json.loads(stripped)
+            custom_id = record["custom_id"]
+            response = record.get("response", {})
+            if response.get("status_code") != HTTP_OK:
+                logger.warning("Skipping %s (line %d): status %s", custom_id, line_number, response.get("status_code"))
+                continue
+            body = response.get("body", {})
+            choices = body.get("choices", [])
+            if not choices:
+                logger.warning("Skipping %s (line %d): no choices", custom_id, line_number)
+                continue
+            content = choices[0].get("message", {}).get("content", "")
+            if not content:
+                logger.warning("Skipping %s (line %d): empty content", custom_id, line_number)
+                continue
+            results[custom_id] = content
+    return results
+
+
+def main(
+    requests_path: Annotated[Path, typer.Option("--requests", help="Batch request JSONL")] = Path(
+        "output/openai_batch/requests.jsonl",
+    ),
+    batch_output: Annotated[Path, typer.Option("--batch-output", help="Batch output JSONL")] = Path(
+        "batch_69d84558d91c819091d53f08d78f9fd6_output.jsonl",
+    ),
+    output_path: Annotated[Path, typer.Option("--output", help="Fine-tuning JSONL output")] = Path(
+        "output/finetune_dataset.jsonl",
+    ),
+    log_level: Annotated[str, typer.Option(help="Log level")] = "INFO",
+) -> None:
+    """Build fine-tuning dataset by joining request and output JSONL files."""
+    logging.basicConfig(level=log_level, format="%(asctime)s %(levelname)s %(name)s: %(message)s")
+
+    logger.info("Loading requests from %s", requests_path)
+    requests = load_requests(requests_path)
+    logger.info("Loaded %d requests", len(requests))
+
+    logger.info("Loading completions from %s", batch_output)
+    completions = load_completions(batch_output)
+    logger.info("Loaded %d completions", len(completions))
+
+    output_path.parent.mkdir(parents=True, exist_ok=True)
+    matched = 0
+    skipped = 0
+
+    with output_path.open("w", encoding="utf-8") as handle:
+        for custom_id, messages in requests.items():
+            assistant_content = completions.get(custom_id)
+            if assistant_content is None:
+                skipped += 1
+                continue
+
+            example = {
+                "messages": [*messages, {"role": "assistant", "content": assistant_content}],
+            }
+            handle.write(json.dumps(example, ensure_ascii=False))
+            handle.write("\n")
+            matched += 1
+
+    logger.info("Wrote %d examples to %s (skipped %d unmatched)", matched, output_path, skipped)
+
+
+def cli() -> None:
+    """Typer entry point."""
+    typer.run(main)
+
+
+if __name__ == "__main__":
+    cli()
diff --git a/prompt_bench/tools/count_tokens.py b/prompt_bench/tools/count_tokens.py
new file mode 100644
index 0000000..fdc05de
--- /dev/null
+++ b/prompt_bench/tools/count_tokens.py
@@ -0,0 +1,97 @@
+"""Sum token usage across compressed and uncompressed run directories."""
+
+from __future__ import annotations
+
+import json
+import logging
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Annotated
+
+import typer
+
+logger = logging.getLogger(__name__)
+
+
+@dataclass
+class UsageTotals:
+    """Aggregate usage counters for a directory of run records."""
+
+    files: int = 0
+    errors: int = 0
+    prompt_tokens: int = 0
+    cached_tokens: int = 0
+    completion_tokens: int = 0
+    reasoning_tokens: int = 0
+    total_tokens: int = 0
+    per_file: list[tuple[str, int, int, int]] = field(default_factory=list)
+
+
+def tally_directory(directory: Path) -> UsageTotals:
+    """Return aggregated usage stats for every JSON record in a directory."""
+    totals = UsageTotals()
+    decoder = json.JSONDecoder()
+    for path in sorted(directory.glob("*.json")):
+        text = path.read_text().lstrip()
+        record, _ = decoder.raw_decode(text)
+        totals.files += 1
+        usage = record.get("usage")
+        if not usage:
+            totals.errors += 1
+            continue
+        prompt_tokens = usage.get("prompt_tokens", 0)
+        completion_tokens = usage.get("completion_tokens", 0)
+        total_tokens = usage.get("total_tokens", 0)
+        cached_tokens = (usage.get("prompt_tokens_details") or {}).get("cached_tokens", 0)
+        reasoning_tokens = (usage.get("completion_tokens_details") or {}).get("reasoning_tokens", 0)
+        totals.prompt_tokens += prompt_tokens
+        totals.completion_tokens += completion_tokens
+        totals.total_tokens += total_tokens
+        totals.cached_tokens += cached_tokens
+        totals.reasoning_tokens += reasoning_tokens
+        totals.per_file.append((path.name, prompt_tokens, completion_tokens, total_tokens))
+    return totals
+
+
+def log_totals(label: str, totals: UsageTotals) -> None:
+    """Log a one-block summary for a directory."""
+    counted = totals.files - totals.errors
+    average_total = totals.total_tokens / counted if counted else 0
+    logger.info("[%s]", label)
+    logger.info("  files          : %d (with usage: %d, errors: %d)", totals.files, counted, totals.errors)
+    logger.info("  prompt tokens  : %d", totals.prompt_tokens)
+    logger.info("  cached tokens  : %d", totals.cached_tokens)
+    logger.info("  completion tok : %d", totals.completion_tokens)
+    logger.info("  reasoning tok  : %d", totals.reasoning_tokens)
+    logger.info("  total tokens   : %d", totals.total_tokens)
+    logger.info("  avg total/file : %.1f", average_total)
+
+
+def main(
+    runs_dir: Annotated[Path, typer.Option("--runs-dir")] = Path("output/openai_runs_temp_1"),
+    log_level: Annotated[str, typer.Option("--log-level")] = "INFO",
+) -> None:
+    """Print token usage totals for the compressed and uncompressed run directories."""
+    logging.basicConfig(level=log_level, format="%(message)s")
+
+    grand = UsageTotals()
+    for label in ("compressed", "uncompressed"):
+        directory = runs_dir / label
+        if not directory.is_dir():
+            logger.warning("%s: directory not found at %s", label, directory)
+            continue
+        totals = tally_directory(directory)
+        log_totals(label, totals)
+        grand.files += totals.files
+        grand.errors += totals.errors
+        grand.prompt_tokens += totals.prompt_tokens
+        grand.cached_tokens += totals.cached_tokens
+        grand.completion_tokens += totals.completion_tokens
+        grand.reasoning_tokens += totals.reasoning_tokens
+        grand.total_tokens += totals.total_tokens
+
+    log_totals("grand total", grand)
+
+
+if __name__ == "__main__":
+    typer.run(main)
diff --git a/prompt_bench/vllm_client.py b/prompt_bench/vllm_client.py
new file mode 100644
index 0000000..b7d9045
--- /dev/null
+++ b/prompt_bench/vllm_client.py
@@ -0,0 +1,68 @@
+"""OpenAI-compatible client for vLLM's API."""
+
+from __future__ import annotations
+
+import logging
+import time
+from typing import Self
+
+import httpx
+
+logger = logging.getLogger(__name__)
+
+READY_POLL_INTERVAL = 2.0
+
+
+class VLLMClient:
+    """Talk to a vLLM server via its OpenAI-compatible API.
+
+    Args:
+        host: vLLM host.
+        port: vLLM port.
+        timeout: Per-request timeout in seconds.
+    """
+
+    def __init__(self, *, host: str = "localhost", port: int = 8000, timeout: int = 300) -> None:
+        """Create a client connected to a vLLM server."""
+        self._client = httpx.Client(base_url=f"http://{host}:{port}", timeout=timeout)
+
+    def wait_ready(self, max_wait: int) -> None:
+        """Poll /v1/models until the server is ready or timeout."""
+        deadline = time.monotonic() + max_wait
+        while time.monotonic() < deadline:
+            try:
+                response = self._client.get("/v1/models")
+                if response.is_success:
+                    logger.info("vLLM server is ready")
+                    return
+            except httpx.TransportError:
+                pass
+            time.sleep(READY_POLL_INTERVAL)
+        msg = f"vLLM server not ready after {max_wait}s"
+        raise TimeoutError(msg)
+
+    def complete(self, prompt: str, model: str, *, temperature: float = 0.0, max_tokens: int = 4096) -> str:
+        """Send a prompt to /v1/completions and return the response text."""
+        payload = {
+            "model": model,
+            "prompt": prompt,
+            "temperature": temperature,
+            "max_tokens": max_tokens,
+        }
+        logger.info("Sending prompt to %s (%d chars)", model, len(prompt))
+        response = self._client.post("/v1/completions", json=payload)
+        response.raise_for_status()
+        data = response.json()
+        return data["choices"][0]["text"]
+
+    def close(self) -> None:
+        """Close the HTTP client."""
+        self._client.close()
+
+    def __enter__(self) -> Self:
+        """Enter the context manager."""
+        return self
+
+    def __exit__(self, *args: object) -> None:
+        """Close the HTTP client on exit."""
+        self.close()
diff --git a/pyprject.toml b/pyprject.toml
new file mode 100644
index 0000000..e69de29