Gini-Koeffizienten Simulation

Simulation von Gini-Koeffizienten zur Bewertung von Random Noise in logistischen Regressionsmodellen für Credit Risk Modelling.

Die logistische Regression ist ein bewährtes Verfahren für binäre Klassifikationsaufgaben, insbesondere in der Kreditrisikomodellierung zur Schätzung von Ausfallwahrscheinlichkeiten (PD). Bei niedrigen Ausfallwahrscheinlichkeiten und begrenzter Anzahl von Ereignissen können jedoch scheinbare Diskriminierungskräfte auftreten, die eher auf Überanpassung als auf echte Signale zurückzuführen sind.

Methodologie

Diese Studie simuliert Gini-Koeffizienten auf rein zufälligen Datensätzen, um eine Baseline für "Rauschen" in der Modellperformance zu etablieren. Der Gini-Koeffizient, der mit der AUC durch \[\text{Gini} = 2 \cdot \text{AUC} - 1\] verknüpft ist, dient als Performance-Metrik.

Für jede Ausfallwahrscheinlichkeit \(p\) wird ein Basis-Datensatz mit unabhängigen, gleichverteilten Prädiktoren auf \([0,1]\) generiert. Die binäre Zielvariable (Ausfall) wird zufällig über eine Bernoulli-Verteilung zugewiesen.

Aus dem Basis-Datensatz werden Stichproben der Größe \(N\) gezogen. Für jede Anzahl von Prädiktoren \(k \in \{1, \ldots, \#\text{Prädikatoren}\}\) wird eine logistische Regression angepasst und der Gini-Koeffizient berechnet.

Dieser Prozess wird mehrfach wiederholt, um Mittelwert und Standardabweichung des Gini-Koeffizienten zu bestimmen. Diese Statistiken quantifizieren das Grundrauschen, das auf endliche Stichprobengrößen und Überanpassung zurückzuführen ist.

Praktische Anwendung

Die simulierten Werte dienen als Benchmark für die Modellbewertung. Praktiker können beobachtete Gini-Verbesserungen mit diesen zufälligen Baselines vergleichen und so fundierte Entscheidungen über die Aufnahme von Prädiktoren treffen.

Entscheidungsregel: Fügen Sie einen Prädiktor nur hinzu, wenn:

\[\Delta\text{Gini}_{\text{beobachtet}} > \Delta\text{Gini}_{\text{zufällig}} + \text{Sicherheitsmarge}\]

Wichtige Hinweise

Die Simulationen setzen unabhängige Prädiktoren voraus und liefern eine untere Grenze für das Rauschen. In der Praxis verstärkt Multikollinearität zwischen Prädiktoren die Varianz der Koeffizienten und kann zu höheren scheinbaren Gini-Werten führen.

Simulationsparameter

Simulation läuft... Bitte warten.