Prompt Pipeline ve Versiyonlama: CI/CD ile Otomatik Akış

Prompt pipeline nedir ve prompt versiyonlama neden üretim konusu?

Bir LLM uygulamasında çıktı kalitesini çoğu zaman sadece model değil; prompt pipeline (promptun tasarlanması, test edilmesi, yayınlanması ve izlenmesi) ve prompt versiyonlama (kimin, neyi, ne zaman değiştirdiğini izlemek) belirler. Üretimde “küçük” bir prompt değişikliği bile davranışı ve maliyeti etkileyebileceği için, değişikliklerin ölçülmesi ve gerektiğinde hızlı geri alınması kritik hale gelir.

Bu yaklaşım yazılım ekiplerinin bildiği CI/CD pratiklerine benzer: değişiklik kontrollü doğrulanır, ölçülür ve dağıtılır. Prompt tarafında tek bir endüstri standardından söz etmek zor; bu nedenle aşağıdaki akış, ürününüze göre uyarlanacak bir referans iskelet olarak düşünülmelidir.

Temel kavramlar: şablon, versiyon, run ve eval

Prompt şablonu (template): Değişken alanlar içeren, tekrar kullanılabilir prompt metni. Örn: {customer_tone}, {policy_excerpt}.
Versiyon: Aynı şablonun belirli bir anlık görüntüsü (ör. v1.2.0 veya bir commit/hash).
Run (çalıştırma): Belirli bir prompt versiyonu + belirli girdiler + belirli model/parametrelerle üretilen çıktı.
Eval (değerlendirme): Run çıktısının hedef metriklere göre ölçülmesi (otomatik metrikler, insan değerlendirmesi veya karma).

Üretimde “Hangi prompt versiyonu hangi istekte hangi modelle hangi çıktıyı verdi?” sorusu; debug, karşılaştırma ve geri dönüş (rollback) için temel sorudur. Bu yüzden “version & track” yaklaşımı ve model çeşitliliğiyle test etme önerileri, prompting rehberlerinde özellikle vurgulanır (Hugging Face dokümantasyonu: LLM prompting guide).

Üretime dönük prompt yapılandırma ilkeleri (resmi rehberlerden)

Pipeline kurmadan önce prompt içeriğinin test edilebilir ve sürdürülebilir olması gerekir. OpenAI’nin prompt engineering rehberi; talimatları netleştirme, çıktıyı istenen formatta açıkça tarif etme, promptu bölümlere ayırma ve parametreleri kontrollü yönetme gibi pratikleri öne çıkarır (OpenAI – Prompt engineering best practices).

Pratik çıkarım: Versiyonladığınız şey sadece “metin” değil; promptun bölümleri (talimat, bağlam, çıktı formatı, örnekler), değişken sözlüğü ve hedef davranış tanımı olmalıdır.

Referans prompt CI/CD akışı (tool-agnostic)

Prompt CI/CD için tek bir standart olmasa da, pratikte sık kullanılan bir iskelet aşağıdaki gibidir:

Aşama	Hedef	Otomasyon fikri	Çıkış
1) Tasarım	Şablonlaştırma, kapsamı netleştirme	Şablon kuralları, değişken sözlüğü	Yeni prompt taslağı
2) Versiyonlama	Değişikliği izlenebilir kılma	Git + tag/hash	vX.Y.Z veya commit id
3) Statik kontroller	Basit hataları erken yakalama	Lint + çıktı şeması kontrolü	Geçti/Kaldı raporu
4) Eval (test)	Kaliteyi ölçme	Regresyon seti, karşılaştırmalı skor	Metrik tablosu
5) Deney (A/B)	Gerçek trafik etkisini görme	Feature flag, kademeli dağıtım	Karar: tut/geri al
6) Yayın	Güvenli dağıtım	Canary + rollback eşiği	Prod prompt versiyonu
7) İzleme	Drift ve beklenmedik davranışı yakalama	Logging + alarm + örnekleme	Uyarılar ve aksiyon listesi

Promptları “kod gibi” yönetmek: repo yapısı ve versiyon stratejisi

Önerilen depo (repo) yapısı

/prompts
- support_reply.md (insan-okur prompt)
- support_reply.config.json (değişkenler, çıktı şeması, notlar)
/eval
- regression_cases.jsonl (test girdileri ve değerlendirme notları)
- scoring.py (metrik/kurallar)
/configs
- models.yaml (model adı, temperature, max tokens vb.)

Versiyon numarası mı, içerik hash’i mi?

Semantik versiyon (v1.2.0): Ürün ekipleri için okunabilir; majör/minör davranış değişikliklerini ayırmayı kolaylaştırır.
İçerik hash’i: Teknik iz sürme için güçlü; “prompt metni değişti mi?” sorusuna net yanıt verir.

Heuristik: Birçok ekip, okunabilirlik ve izlenebilirliği birlikte sağlamak için semantik versiyon + commit/hash bilgisini birlikte taşımayı tercih eder.

Logging ve metadata: debug, replay ve karşılaştırmanın temeli

Üretimde prompt değiştiğinde bazen iyileşme değil, beklenmedik bir bozulma görülür. Bunu debug edebilmek için run düzeyinde iz gerekir: prompt versiyonu, model/parametreler, giriş-çıkış özetleri ve metrikler. Prompt yönetim araçları bu ihtiyacı ürünleştirir; örneğin PromptLayer dokümantasyonu prompt logging, metadata ve replay gibi kavramları temel özellikler arasında ele alır (PromptLayer docs).

Her run’da tutulması önerilen alanlar

prompt_version (veya hash)
model ve params (temperature, top_p vb.)
input_fingerprint (PII içermeyecek şekilde kırpılmış/anonimleştirilmiş)
output_summary (gerekirse özet/kısmi kayıt)
latency_ms ve hata kodları
app_release (backend sürümü)
experiment (A/B, canary, kontrol grubu)

Not: Log kapsamını; kurumunuzun gizlilik ve uyum gereksinimlerine göre daraltmanız gerekebilir. Bu yazı hukuk tavsiyesi değildir.

Somut örnek artefaktlar: şema, lint kuralı ve log kaydı

Aşağıdaki örnekler araç bağımsızdır; amaç, “prompt pipeline” içinde otomasyona uygun artefaktların nasıl görünebileceğini somutlaştırmaktır.

1) Minimal prompt config (JSON) örneği

{
  "prompt_id": "support_reply",
  "version": "1.2.0",
  "template": "You are a support agent. Reply in {language}. Output JSON with keys: answer, cites.",
  "variables": {"language": "tr"},
  "response_schema": {
    "type": "object",
    "required": ["answer"],
    "properties": {
      "answer": {"type": "string"},
      "cites": {"type": "array"}
    }
  }
}

2) Örnek lint kuralı (CI’da hızlı yakalama)

Kural: response_schema.required alanı boş olamaz ve en az “answer” anahtarını zorunlu kılmalıdır.
Kural: Template içindeki tüm {variable} alanları variables sözlüğünde tanımlı olmalıdır.

Bu tip kontroller, “talimatların net olması” ve “çıktı formatını açıkça tanımlama” gibi pratiklerin üretimde denetlenebilir hale gelmesine yardımcı olur (OpenAI rehberi: best practices).

3) Örnek run log kaydı (metadata ile)

{
  "timestamp": "2026-03-07T10:15:30Z",
  "prompt_id": "support_reply",
  "prompt_version": "1.2.0",
  "model": "<your-model-name>",
  "params": {"temperature": 0.2, "max_tokens": 400},
  "experiment": "canary_5pct",
  "latency_ms": 820,
  "parse_ok": true,
  "error": null
}

Eval seti kurma: regresyon testleri olmadan optimizasyon risklidir

Prompt değişikliklerini güvenle yayınlamak için küçük ama temsil gücü yüksek bir regresyon seti oluşturun. Bu set; sık senaryoları, zor vakaları ve uyum açısından kritik akışları içermelidir.

Başlangıç için “minimum uygulanabilir” eval seti (heuristik)

Örn. 20–50 vaka: en sık kullanım senaryoları
Örn. 10–20 vaka: zor/sınır durumlar
Örn. 5–10 vaka: uyum/güvenlik açısından kritik durumlar

Not: Bu aralıklar bir “başlangıç heuristiği”dir; ürünün risk profiline ve trafik hacmine göre büyütülmelidir.

Metrik seçimi: tek bir puana sıkışmayın

Prompt karşılaştırmaları metrik tanımına çok bağlıdır ve alanda standartlaşmış benchmark/mütabakat eksiklikleri bulunduğu vurgulanır (otomatik prompt engineering survey: arXiv:2502.11560).

Görev başarısı: task-specific (ör. doğru sınıf, doğru alanlar)
Format uyumu: JSON parse edilebilir mi, gerekli alanlar dolu mu?
İnsan değerlendirmesi: yardımcı mı, net mi, ton uygun mu?
Operasyonel metrikler: maliyet, gecikme, hata oranı

A/B testi ve kademeli yayın: prompt değişikliklerini ürün deneyi gibi ele alın

A/B testi, “promptu değiştirdim daha iyi oldu mu?” sorusunu üretim verisiyle cevaplamanın net yollarından biridir. Aynı promptun farklı modellerde farklı davranabileceğini dikkate alarak, deney kaydında model bilgisini birinci sınıf alan gibi saklamak önemlidir (Hugging Face prompting rehberi: prompting).

Basit deney tasarım kontrol listesi

Hipotez: “Yeni prompt, iade politikası sorularında format uyumunu artıracak.”
Başarı metriği: format uyumu % + insan puanı
Koruma metriği: hata oranı, latency, maliyet
Segment: sadece ilgili intent grubu

Kademeli dağıtım yüzdeleri (heuristik)

Örn. önce küçük bir canary dilimi (örn. %5), metrikler stabilse genişletme (örn. %50), sonra tam dağıtım.
Stop/rollback koşulu: Koruma metrikleri kötüleşirse otomatik geri dönüş.

Not: Yüzdeler, ürününüzün risk toleransına göre değişir; burada amaç bir başlangıç şablonu vermektir.

Otomatik prompt optimizasyonu: nerede işe yarar, nerede dikkat ister?

Manuel iterasyonların yanında, promptların otomatik iyileştirilmesine yönelik yöntemler de hızla gelişiyor. Otomatik prompt engineering üzerine bir survey, alanı bir optimizasyon problemi olarak ele alıp farklı teknik sınıflarını tartışır (örn. evrimsel arama, gradyan tabanlı yaklaşımlar, RL benzeri kurulumlar) (A Survey of Automatic Prompt Engineering).

Üretimde daha güvenli otomasyon için pratik sınırlar

Arama uzayını sınırlayın: Otomasyon promptun her yerini serbestçe değiştirmesin; örn. sadece örnekleri veya belirli talimat satırlarını adaylaştırın.
Eval kapısı koyun: Otomatik üretilen her aday, regresyon setinden geçsin.
İnsan onayı eşiği: politika/uyum veya yüksek riskli alanlarda yayın öncesi insan kontrolü ekleyin.
Etiketleme: Otomatik üretilen adayları loglarda açıkça işaretleyin.

Uygulanabilir “ilk 30 gün” planı

Hafta 1: Promptları şablonlaştırın ve tek bir repo altında toplayın. Versiyon kuralını belirleyin.
Hafta 2: Logging alanlarını standardize edin (prompt versiyonu, model, parametreler, deney etiketi). Replay ihtiyacını netleştirin.
Hafta 3: Küçük bir regresyon setiyle başlayın (heuristik aralıkları ihtiyaçlarınıza göre uyarlayın). Format uyumu ve görev başarısı için basit skorlayıcı ekleyin.
Hafta 4: Feature flag + canary ile kontrollü dağıtım yapın. A/B için bir metrik panosu ve stop koşulu tanımlayın.

Sonuç: sürdürülebilir prompt engineering için süreç şart

Prompt pipeline ve prompt versiyonlama; yalnızca “daha iyi yanıt” üretmek için değil, hatayı bulmak, geri dönüş yapmak ve değişikliği ölçmek için gereklidir. Resmi prompting rehberleri (OpenAI, Hugging Face) net talimat/format ve takip edilebilirlik ilkelerini desteklerken; prompt yönetim araçları logging/metadata/replay gibi pratik mekanizmalar sunar. Otomatik optimizasyon yaklaşımları ise araştırmada hızlı ilerlese de, üretimde güvenli kullanım için eval kapıları ve denetimle birlikte tasarlanmalıdır.

Prompt pipeline ve versiyonlama: otomatik optimizasyon akışı