【Python】でトピックモデリングを始める: LDAを使った簡単な例

トピックモデリングは、大量のテキストデータから潜在的なテーマ（トピック）を抽出するための重要な技術です。Pythonを使用することで、初心者でも簡単にトピックモデリングを実践できます。本記事では、LDA（Latent Dirichlet Allocation）を使った基本的なトピックモデリングの方法を解説します。

日本では現在、ITエンジニアの人材不足が深刻化しており、
それに伴いエンジニアの需要が急速に高まっています。
プログラミングスキルを身につけることで、以下のような多くのメリットが得られます。
✅ 転職市場での競争力が向上し、収入アップのチャンスが広がる
✅ 副業として活用でき、収入源を増やせる
✅ プログラマーに限らず、IT時代を生き抜く武器になる
もし少しでも興味があるなら、まずはプログラミングスクールの無料体験を試してみるのがおすすめです。

スクール名	特徴	主な学習内容	対象者
	AI・データサイエンス特Python/AIに特化した実践カリキュラム。現役エンジニアの手厚いサポートと「学び放題」制度が特徴。専門実践教育訓練給付金適用可能。	Python, 機械学習, データ分析	AI・データ分析初心者～中級者
	完全マンツーマン指導。オーダーメイドカリキュラムとトリプルサポート体制（講師+コーチ+Q&A掲示板）。挫折率2.1%の継続性。	Web開発, AI, アプリ開発	キャリアチェンジ志望者
	AI/機械学習専門。E資格合格率83.1%。カリキュラムが無期限に閲覧可能。卒業生コミュニティが強み。AI特化の転職サポートあり。	Python, 機械学習, データ分析	AIエンジニア志望者
	転職保証付きの短期集中型スクール。未経験者向けのサポートが充実。	Web開発, プログラミング全般	未経験からのエンジニア転職志望者

トピックモデリングとは？

トピックモデリングは、機械学習の一種で、未分類のテキストデータからトピック（テーマ）を自動的に見つけ出す手法です。これにより、大量のドキュメントや記事を分類し、データの内容を理解しやすくすることができます。

LDA（Latent Dirichlet Allocation）は、トピックモデリングで広く使われる手法であり、各ドキュメントが複数のトピックに属する確率を計算します。

必要なライブラリのインストール

LDAの実装には、以下のライブラリを使用します。まずはインストールしましょう。

pip install gensim numpy pandas nltk

実装例

以下に、LDAを使ったトピックモデリングの基本的なステップを示します。

1. データの準備

サンプルデータとして、簡単なニュース記事のリストを使用します。

import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from gensim import corpora
from gensim.models import LdaModel
import nltk

nltk.download('punkt')
nltk.download('stopwords')

# サンプルデータ
documents = [
    "Python is a great programming language for data analysis.",
    "Machine learning and AI are transforming industries.",
    "Natural language processing enables computers to understand human language.",
    "Deep learning models achieve state-of-the-art results in image recognition.",
    "Big data analysis is a growing field in technology."
]

# ストップワードの削除
stop_words = set(stopwords.words('english'))
preprocessed_docs = []
for doc in documents:
    tokens = word_tokenize(doc.lower())
    filtered_tokens = [word for word in tokens if word.isalpha() and word not in stop_words]
    preprocessed_docs.append(filtered_tokens)

print(preprocessed_docs)

2. コーパスと辞書の作成

Gensimライブラリを使用して、トピックモデリングに必要なコーパスと辞書を作成します。

# 辞書の作成
dictionary = corpora.Dictionary(preprocessed_docs)

# コーパスの作成
corpus = [dictionary.doc2bow(doc) for doc in preprocessed_docs]

print(corpus)

3. LDAモデルのトレーニング

LDAモデルを作成して、トピックを抽出します。

# LDAモデルのトレーニング
num_topics = 3
lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=10)

# トピックの表示
for idx, topic in lda_model.print_topics():
    print(f"Topic {idx}: {topic}")

実行結果

上記のコードを実行すると、各トピックが関連する単語とその重要度とともに表示されます。

例:

Topic 0: 0.100*"data" + 0.090*"analysis" + 0.080*"big"
Topic 1: 0.120*"learning" + 0.100*"machine" + 0.070*"ai"
Topic 2: 0.110*"language" + 0.090*"processing" + 0.080*"natural"