Confiance & Transparence

Pas de surveillance. De la transparence. Chaque décision IA sur Kyzos est auditable, prouvable et défendable — par conception.

Vos prompts passent par Kyzos, jamais autour

Les prompts sont routés vers OpenRouter (fournisseur LLM principal). Kyzos les traite en mémoire pour sélectionner les modèles, exécuter les contrôles qualité et appliquer les budgets. Le texte clair ne quitte jamais le cycle de la requête sauf si vous le stockez.

Mode Zéro-Rétention

Les conversations peuvent être marquées 'zéro-rétention' à la création. Le contenu des messages n'est alors jamais persisté en base. Seul un hash SHA-256 est conservé pour audit forensique. Le texte clair vit dans votre session navigateur uniquement.

Piste d'audit exportable

Chaque orchestration produit une trace d'exécution IA lisible par machine (GET /executions/:id/trace.json) — décisions de routage, scores de critique, chemins de retry, ventilation des coûts, justification de sélection de modèle. Exportable vers votre SIEM, Datadog ou outil de conformité.

Vos données ne servent jamais à l'entraînement

Kyzos n'entraîne ni ne fine-tune aucun modèle avec vos données. La politique d'utilisation d'OpenRouter s'applique au niveau fournisseur — Kyzos ne retient aucun pipeline d'entraînement et n'a aucune incitation à collecter le contenu des prompts au-delà du service de votre requête.

Garanties contractuelles (Proof & Control)

Le Pricing V3 applique des plafonds de budget, des restrictions de mode et des listes de modèles autorisés par plan. Les requêtes qui dépasseraient votre budget sont refusées avec des suggestions explicites — jamais dégradées silencieusement. Chaque refus est journalisé et comptabilisé via métriques Prometheus.

Où vont vos données

Vos prompts → API Kyzos (en mémoire) → API OpenRouter → Fournisseur LLM (OpenAI / Anthropic / Google / etc.).

Les métadonnées (tokens, coût, latence, ID modèle) sont stockées dans notre base PostgreSQL pour l'analytique et la facturation.

En mode standard, le contenu des messages est stocké pour la continuité de conversation. En mode zéro-rétention, seuls les hash SHA-256 sont stockés. Les deux modes ne journalisent aucune donnée personnelle au-delà de votre adresse email.

Aligné avec l'International AI Safety Report 2026

Le rapport de référence 2026 sur la sûreté de l'IA (Bengio et al., février 2026, 220 pages) exige une défense en profondeur sur 7 couches simultanées (Figure 3.7) et documente explicitement que même les modèles flagship laissent passer 25-30 % des prompt injections (Figure 3.9). Kyzos a implémenté les 7 couches en production et vérifié 84 cellules vecteur × surface. 100 % des vulnérabilités critiques (P0) sont bloquées.

Couverture par section AISR 2026

§2.1 Usage malveillant

Vecteurs A (prompt injection) + B (jailbreaks Tableau 3.8) + C (exfiltration) + D (abus d'outils) + sanity H (CSAM, cyberattaques, bio/chim, automutilation)

§2.2 Fiabilité

Hors-scope sécurité applicative (modèles externes OpenRouter/Poe). Mitigation produit : Adversarial Critic Pro+ + RAG grounding pour LEGAL/MEDICAL/RESEARCH/ENGINEERING + mode AUDIT (×8) pour redondance

§2.3 Risques systémiques

RGPD self-serve (export/delete/restore + grâce 30 jours) + plafond budget + exclusion analytics isStaff. Biais = redondance mode AUDIT

§2.4 Perte de contrôle

Vecteurs G (deception, oversight evasion, sandbagging) marqués RESIDUAL_P2 avec mitigation compensatoire : monitoring + audit log + human-in-the-loop

§3.1 Gestion des risques

Threat model + runbook ops (détection / triage / containment / recovery / post-mortem) + registre de dérogations

§3.3 Défense en profondeur (Fig 3.7)

L1 Trust labeling · L2 Filtre entrée · L3 Filtre sortie · L4 Politique outils · L5 Sandbox · L6 Monitoring · L7 Kill switch — les 7 couches en production

§3.4 Défenses spécifiques

Détecteurs dédiés : Tableau 3.8 jailbreaks (encodages/langues/prefilling/role-play/refusal-suppression/GCG/Unicode), Tableau 3.7 sandboxing, scan secrets, allowlist images markdown, détecteur d'extraction de prompt

Box 2.4 Injection indirecte

Sites web / documents / images / webhooks / URLs intégrées — tagging UNTRUSTED via TrustService + vérification signature RAG (HMAC + timing-safe equal)

Cadres de conformité alignés

EU AI Act Art. 9-15

Gestion des risques + transparence + supervision humaine + précision/robustesse/cybersécurité — couverts par L1-L7 + trace exportable par exécution

NIST AI RMF

GOVERN-1.1 (politiques) · MAP-1.1 (contexte) · MEASURE-2.1 (métriques) · MANAGE-2.3 (incidents) — threat model + matrice de couverture + runbook ops + compteurs Prometheus

Loi 25 Québec

Art. 4 (consentement) · Art. 8 (limitation finalité) · Art. 17 (sécurité) · Art. 23 (transparence) — purge PII via @SensitiveField + RGPD self-serve + mode conversation zéro-rétention

PIPEDA

Principle 4.7 (sauvegardes) — chiffrement at-rest + JWT HttpOnly + audit log + scrub PII Sentry

PHIPA Ontario

s.12 (pratiques d'information) + s.16 (accès/correction) — idem PIPEDA + content hash par message pour preuve forensique sans rétention plaintext

OWASP LLM Top 10 (2025)

LLM01-LLM08 BLOCKED · LLM09 (overreliance) = produit (Adversarial Critic) · LLM10 (theft) = NA (modèles externes)

Référence : Bengio et al., International AI Safety Report 2026 (février 2026). Pour les détails techniques, voir notre documentation canonique de baseline sécurité (CLAUDE.md §11 + docs/security/RAPPORT_FINAL.md).

Lire la documentation complète de l'API Voir les briques Preuve & Contrôle →