Acheter des cryptomonnaies Marchés Au comptant FuturesGOLD Épargne Centre d'événements

Plus

La fraude n'est pas seulement une nuisance ; c'est une industrie de 12,5 milliards de dollars. Selon les données de la FTC de 2024, les pertes signalées dues à la fraude ont massivement augmenté. Les systèmes traditionnels basés sur des règlesLa fraude n'est pas seulement une nuisance ; c'est une industrie de 12,5 milliards de dollars. Selon les données de la FTC de 2024, les pertes signalées dues à la fraude ont massivement augmenté. Les systèmes traditionnels basés sur des règles

Construisez un système de défense contre la fraude en temps réel avec Python, XGBoost et BERT

Source : Hackernoon

2025/12/15 04:04

Temps de lecture : 6 min

Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : [email protected]

La fraude n'est pas seulement une nuisance ; c'est une industrie de 12,5 milliards de dollars. Selon les données de la FTC de 2024, les pertes signalées dues à la fraude ont considérablement augmenté, les escroqueries en ligne à l'investissement représentant à elles seules près de la moitié de ce total.

Pour les développeurs et les architectes système, le défi est double :

Fraude à la carte bancaire : Détecter les anomalies dans les données financières structurées (Qui a envoyé de l'argent ? Où ? Combien ?).
Fraude à la communication (Spam/Hameçonnage) : Détecter les intentions malveillantes dans du texte non structuré (liens SMS, hameçonnage par e-mail).

Les systèmes traditionnels basés sur des règles ("Si le montant > 10 000 $, signalez-le") sont trop fragiles. Ils génèrent des faux positifs et manquent les vecteurs d'attaque en évolution.

Dans ce guide d'ingénierie, nous allons construire un Système de Défense à Double Couche. Nous implémenterons un modèle XGBoost à haute vitesse pour la surveillance des transactions et un moteur NLP basé sur BERT pour la détection de spam, le tout enveloppé dans une architecture de microservices native cloud.

Commençons à construire.

L'Architecture : Temps Réel & Native Cloud

Nous ne construisons pas un travail par lots qui s'exécute pendant la nuit. La fraude se produit en millisecondes. Nous avons besoin d'un moteur d'inférence en temps réel.

Notre système se compose de deux pipelines distincts alimentant un moteur de décision central.

La Stack Technologique

Langue : Python 3.9+
Apprentissage Structuré : XGBoost (Extreme Gradient Boosting) & Random Forest.
NLP : Hugging Face Transformers (BERT) & Scikit-learn (Naïve Bayes).
Déploiement : Docker, Kubernetes, FastAPI.

Partie 1 : Le Défenseur de Transactions (XGBoost)

Lorsqu'il s'agit de données financières tabulaires (Montant, Heure, Emplacement, ID de l'appareil), XGBoost est actuellement le roi de la colline. Dans nos benchmarks, il a atteint 98,2% de précision et 97,6% de précision, surpassant Random Forest en vitesse et en fiabilité.

Le Défi : Données Déséquilibrées

La fraude est rare. Si vous avez 100 000 transactions, peut-être que seulement 30 sont frauduleuses. Si vous entraînez un modèle sur cela, il devinera simplement "Légitime" à chaque fois et atteindra 99,9% de précision tout en manquant chaque cas de fraude.

La Solution : Nous utilisons SMOTE (Synthetic Minority Over-sampling Technique) ou la pondération des classes pendant l'entraînement.

Plan d'Implémentation

Voici comment configurer le classificateur XGBoost pour la notation des transactions.

import xgboost as xgb from sklearn.model_selection import train_test_split from sklearn.metrics import precision_score, recall_score, f1_score import pandas as pd # 1. Load Data (Anonymized Transaction Logs) # Features: Amount, OldBalance, NewBalance, Location_ID, Device_ID, TimeDelta df = pd.read_csv('transactions.csv') X = df.drop(['isFraud'], axis=1) y = df['isFraud'] # 2. Split Data X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. Initialize XGBoost # scale_pos_weight is crucial for imbalanced fraud data model = xgb.XGBClassifier( objective='binary:logistic', n_estimators=100, learning_rate=0.1, max_depth=5, scale_pos_weight=10, # Handling class imbalance use_label_encoder=False ) # 4. Train print("Training Fraud Detection Model...") model.fit(X_train, y_train) # 5. Evaluate preds = model.predict(X_test) print(f"Precision: {precision_score(y_test, preds):.4f}") print(f"Recall: {recall_score(y_test, preds):.4f}") print(f"F1 Score: {f1_score(y_test, preds):.4f}")

Pourquoi XGBoost Gagne :

Vitesse : Il traite les données tabulaires beaucoup plus rapidement que les réseaux de neurones profonds.
Sparsité : Il gère les valeurs manquantes avec élégance (courant dans l'empreinte digitale des appareils).
Interprétabilité : Contrairement à un réseau neuronal "Boîte Noire", nous pouvons produire l'importance des caractéristiques pour expliquer pourquoi une transaction a été bloquée.

Partie 2 : Le Chasseur de Spam (NLP)

La fraude commence souvent par un lien. "Cliquez ici pour mettre à jour votre KYC." \n Pour détecter cela, nous avons besoin du traitement du langage naturel (NLP).

Nous avons comparé Naïve Bayes (léger, rapide) à BERT (Deep Learning).

Naïve Bayes : 94,1% de précision. Bon pour le spam simple à bourrage de mots-clés.
BERT : 98,9% de précision. Nécessaire pour l'hameçonnage "contextuel" (par exemple, les e-mails socialement conçus qui ne ressemblent pas à du spam).

Plan d'Implémentation (BERT)

Pour un environnement de production, nous affinons un modèle Transformer pré-entraîné.

from transformers import BertTokenizer, BertForSequenceClassification import torch # 1. Load Pre-trained BERT model_name = "bert-base-uncased" tokenizer = BertTokenizer.from_pretrained(model_name) model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2) def classify_message(text): # 2. Tokenize Input inputs = tokenizer( text, return_tensors="pt", truncation=True, padding=True, max_length=512 ) # 3. Inference with torch.no_grad(): outputs = model(**inputs) # 4. Convert Logits to Probability probabilities = torch.nn.functional.softmax(outputs.logits, dim=-1) spam_score = probabilities[0][1].item() # Score for 'Label 1' (Spam) return spam_score # Usage msg = "Urgent! Your account is locked. Click http://bad-link.com" score = classify_message(msg) if score > 0.9: print(f"BLOCKED: Phishing Detected (Confidence: {score:.2%})")

Partie 3 : Le Flux de Travail "Arrêt Dur"

La détection est inutile sans action. La partie la plus innovante de cette architecture est la Logique d'Intervention.

Nous ne nous contentons pas de consigner la fraude ; nous interceptons le parcours de l'utilisateur.

Le Flux de Travail :

L'utilisateur reçoit un SMS : "Mettre à jour le mode de paiement."
L'utilisateur clique : Le clic est acheminé via notre Microservice.
Scan en Temps Réel : L'URL et le corps du message sont notés par le modèle BERT.
Point de Décision :

Sûr : L'utilisateur est redirigé vers la passerelle de paiement réelle.
Fraude : Une alerte "Arrêt Dur" apparaît.

Remarque : Contrairement aux filtres d'e-mail standard qui déplacent les éléments vers un dossier Indésirable, ce système se situe entre le clic et la destination, empêchant l'utilisateur de jamais charger la charge utile malveillante.

Métriques Clés

Lors du déploiement en production, la "Précision" est une métrique de vanité. Vous devez surveiller la Précision et le Rappel.

Faux Positifs (la Précision baisse) : Vous bloquez un utilisateur légitime qui achète du café. Ils se fâchent et arrêtent d'utiliser votre application.
Faux Négatifs (le Rappel baisse) : Vous laissez un pirate informatique vider un compte. Vous perdez de l'argent et de la réputation.

Dans notre recherche, XGBoost a fourni le meilleur équilibre :

Précision : 98,2%
Rappel : 95,3% (Il a détecté 95% de toutes les fraudes).
Latence : Inférence rapide adaptée au blocage en temps réel.

Conclusion

L'ère de l'examen manuel des fraudes est révolue. Avec l'explosion des volumes de transactions, la seule défense évolutive est l'IA.

En combinant XGBoost pour les données de transaction structurées et BERT pour les données de communication non structurées, nous créons un bouclier robuste qui protège les utilisateurs non seulement contre les pertes financières, mais aussi contre l'ingénierie sociale qui les précède.

Prochaines Étapes pour les Développeurs :

Conteneuriser : Enveloppez les scripts Python ci-dessus dans Docker.
Exposer l'API : Utilisez FastAPI pour créer un point de terminaison /predict.
Déployer : Poussez vers Kubernetes (EKS/GKE) pour des capacités de mise à l'échelle automatique.

\ \

Opportunité de marché

Cours RealLink(REAL)

$0.05583

$0.05583$0.05583

-1.11%

USD

Graphique du prix de RealLink (REAL) en temps réel

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.