Publications

Yihuai Hong, Dian Zhou, Meng Cao, Lei Yu, Zhijing Jin (2025). The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction.

Lei Yu, Yang Xu (2025). Infinite Mixture Chaining: An Efficiency-Based Framework for the Dynamic Construction of Word Meaning. Open Mind.

Ziwei Ji, Lei Yu, Yeskendir Koishekenov, Yejin Bang, Anthony Hartshorn, Alan Schelten, Cheng Zhang, Pascale Fung, Nicola Cancedda (2025). Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations. arXiv preprint arXiv:2503.14477.

Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda (2024). Robust LLM safeguarding via refusal feature adversarial training. arXiv preprint arXiv:2409.20089.

Lei Yu, Meng Cao, Jackie Chi Kit Cheung, Yue Dong (2024). Mechanistic understanding and mitigation of language model non-factual hallucinations. arXiv preprint arXiv:2403.18167.

Lei Yu, Meng Cao, Jackie Chi Kit Cheung, Yue Dong (2024). Mechanisms of non-factual hallucinations in language models. arXiv e-prints.

Yihuai Hong, Lei Yu, Haiqin Yang, Shauli Ravfogel, Mor Geva (2024). Intrinsic evaluation of unlearning using parametric knowledge traces. arXiv preprint arXiv:2406.11614.

Thomas Jiralerspong, Jin Hwa Lee, Lei Yu, Emily Cheng (2024). Geometric Signatures of Compositionality in Language Models. NeurIPS 2024 Workshop on Compositional Learning: Perspectives, Methods, and Paths Forward.

Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng (2024). Geometric Signatures of Compositionality Across a Language Model's Lifetime. arXiv preprint arXiv:2410.01444.

Lei Yu, Jingcheng Niu, Zining Zhu, Gerald Penn (2024). Functional faithfulness in the wild: Circuit discovery with differentiable computation graph pruning. arXiv preprint arXiv:2407.03779.