Paul Mbwase — Data Scientist & Economist

About

À propos

I am a data scientist and economist with a background spanning statistical consulting, academic research, and software engineering. I work at the intersection of rigorous quantitative methods and production-grade systems — building things that don't just analyse data, but deliver it reliably at scale.

Je suis data scientist et économiste avec une expérience en conseil statistique, recherche académique et ingénierie logicielle. Je travaille à l'intersection des méthodes quantitatives rigoureuses et des systèmes en production — construisant des choses qui non seulement analysent les données, mais les livrent de manière fiable à grande échelle.

My work combines econometric impact evaluation, machine learning, and full-stack data engineering. I design database schemas, build scraping pipelines, train predictive models, and deploy APIs — handling the complete arc from raw data to production endpoint.

Mon travail combine l'évaluation d'impact économétrique, l'apprentissage automatique et l'ingénierie de données full-stack. Je conçois des schémas de bases de données, construis des pipelines de scraping, entraîne des modèles prédictifs et déploie des APIs — gérant l'arc complet depuis la donnée brute jusqu'à l'endpoint en production.

I am an engineer and puzzle-lover — in search of stimulating challenges that push both analytical and technical limits.

Je suis ingénieur et amoureux de puzzles — à la recherche de défis stimulants qui repoussent à la fois les limites analytiques et techniques.

Currently
Actuellement

                    Research assistant at UQÀM — policy evaluation using 
                    administrative microdata (CIQSS). Teaching econometrics 
                    at undergraduate and graduate level.
                

                    Assistant de recherche à l'UQÀM — évaluation de politiques 
                    publiques avec des microdonnées administratives (CIQSS). 
                    Enseignement de l'économétrie aux niveaux bac et maîtrise.
                

Approach
Approche

                    End-to-end ownership — from schema design and data collection 
                    through modelling, API design, and self-hosted production deployment.
                

                    Responsabilité de bout en bout — de la conception du schéma et 
                    la collecte de données jusqu'à la modélisation, la conception 
                    d'API et le déploiement en production auto-hébergé.
                

Looking for
Je recherche

                    An exciting new project — data engineering, applied ML, 
                    or quantitative research roles where rigour and 
                    engineering depth both matter.
                

                    Un nouveau projet excitant — ingénierie de données, ML appliqué 
                    ou rôles de recherche quantitative où la rigueur et la profondeur 
                    technique comptent toutes les deux.
                

Skills & Tools

Compétences & Outils

Programming

Programmation

Python
R
SQL
Matlab
SAS

Data Engineering

Ingénierie de Données

PostgreSQL
SQLAlchemy
Alembic
Playwright
FastAPI
Pandas

Machine Learning

Apprentissage Automatique

Scikit-learn
XGBoost
SHAP
Statsmodels
Plotly / Dash

Infrastructure

Linux / Ubuntu
Docker
Nginx
Cloudflare
Git
systemd

Statistical Methods

Méthodes Statistiques

Econometrics
Économétrie
Impact Evaluation
Évaluation d'impact
Time Series
Séries temporelles
Causal Inference
Inférence causale

BI & Reporting

Tableau
Power BI
Stata
SPSS

Projects

Projets

Active — scraping nightly Actif — scraping nocturne

Data Engineering · ML · API

Ingénierie de données · ML · API

Real Estate Pipeline

Pipeline Immobilier

An end-to-end data pipeline scraping Montreal real estate listings, storing them in a normalized PostgreSQL schema with structured address parsing, dual for-sale/for-rent listing support, and price history tracking. Preprocessed with SQL, modelled with XGBoost, and served via FastAPI. Running on a self-hosted Ubuntu server with automated nightly scraping runs.

Un pipeline de données de bout en bout extrayant des annonces immobilières montréalaises, les stockant dans un schéma PostgreSQL normalisé avec analyse d'adresses structurées, support double vente/location et suivi historique des prix. Prétraité en SQL, modélisé avec XGBoost et servi via FastAPI sur un serveur Ubuntu auto-hébergé avec des exécutions nocturnes automatisées.

Python PostgreSQL Playwright FastAPI SQLAlchemy Alembic XGBoost Dash Docker Nginx

View on GitHub → Voir sur GitHub → Live dashboard ↗ Tableau de bord ↗

11k+

Listings

Annonces

DB Tables

Tables DB

171k

Images indexed

Images indexées

495

Brokers tracked

Courtiers suivis

Steps completed: schema design → scraping pipeline → data preprocessing → EDA → price prediction model → API → dashboard

Étapes complétées : conception du schéma → pipeline de scraping → prétraitement → EDA → modèle de prédiction → API → tableau de bord

Live En ligne

Backend · DevOps

Social Media API

API Réseaux Sociaux

RESTful API deployed on a self-hosted Ubuntu server behind Nginx and Cloudflare Tunnel — no cloud provider, no port forwarding. A hands-on exploration of production server management, process supervision, and zero-trust networking.

API RESTful déployée sur un serveur Ubuntu auto-hébergé derrière Nginx et Cloudflare Tunnel — sans fournisseur cloud, sans redirection de ports. Une exploration pratique de la gestion de serveurs en production et des réseaux zero-trust.

FastAPI Gunicorn Nginx Cloudflare Tunnel systemd

Live demo → Démo en ligne →

In development En développement

Actuarial Science · Statistics

Sciences Actuarielles · Statistiques

Actuarial Models

Modèles Actuariels

Mortality tables, claims reserving, and insurance pricing models — applying the same end-to-end pipeline discipline to actuarial science problems. Coming next.

Tables de mortalité, provisionnement de sinistres et modèles de tarification — appliquant la même discipline de pipeline de bout en bout aux problèmes des sciences actuarielles. À venir.

R Python SAS