Overview

BERTopic is a topic modeling technique that leverages transformers and c-TF-IDF to create dense clusters, allowing for easily interpretable topics while preserving important words in the topic descriptions. It supports various topic modeling techniques including guided, supervised, semi-supervised, manual, hierarchical, class-based, dynamic, online/incremental, multimodal, multi-aspect, text generation/LLM, zero-shot, merge models, and seed words. BERTopic is modular, allowing users to swap out components like embedding models (sentence-transformers, Flair, Gensim, spaCy, USE), dimensionality reduction (UMAP), and clustering algorithms (HDBSCAN). It also provides visualizations similar to LDAvis and allows fine-tuning topic representations using methods like KeyBERTInspired and OpenAI models (ChatGPT) for generating labels, summaries, and keywords.

Common tasks

Topic Extraction Topic Visualization Topic Modeling