Research

Publications

Conference

Feature interventions in SDXL Turbo, SDXL Base, and Flux-schnell image generation

Conference NeurIPS 2025 · Published

One-Step is Enough: Sparse Autoencoders for Text-to-Image Diffusion Models

Applies sparse autoencoders to analyze text-to-image diffusion models, contributing to interpretability methods for modern generative systems.

Co-author Diffusion ModelsSparse AutoencodersInterpretabilityGenerative AI

Paper

Journal

Journal Transactions on Machine Learning Research · 🏅 Featured Certification, 2025

What is the Relationship between Tensor Factorizations and Circuits (and How Can We Exploit it)?

Establishes a rigorous connection between tensor factorizations and probabilistic circuits, unifying model families and exposing new architecture-search opportunities.

Co-first author Probabilistic CircuitsTensor FactorizationsTractable InferenceML

Paper

Workshop

Workshop 6th Workshop on Tractable Probabilistic Modeling, UAI 2023

Unifying and Understanding Overparameterized Circuit Representations via Low-Rank Tensor Decompositions

Unifies overparameterized probabilistic circuit architectures and studies low-rank decompositions as a way to understand and compress expressive layers.

First author Probabilistic CircuitsLow-Rank ModelsTensor DecompositionsPyTorch

Paper

Workshop NeurIPS 2025 ResponsibleFM Workshop

Liminal Training: Characterizing and Mitigating Subliminal Learning in Large Language Models

Supervised student research on characterizing and mitigating subliminal learning behavior in large language models.

Supervisor LLMsResponsible AISupervisionInterpretability

Paper

Workshop AAAI 2026 XAI4Science Workshop

Diffusion Transformers use Sink Registers

Supervised student research investigating sink-register behavior in diffusion transformers.

Supervisor Diffusion TransformersXAIMechanistic InterpretabilitySupervision

Paper