Document-Term Matrix and Term Frequency-Inverse Document Frequency
natural language processing
tfidf
Author
Cheonghyo Cho
문서의 의미를 효과적으로 분석하기 위해서는 단어의 출현 빈도를 수치화하는 것이 중요하다. 이를 위해 사용하는 대표적인 방법으로는 DTM(Document-Term Matrix)와 TF-IDF(Term Frequency-Inverse Document Frequency)가 있다. 이러한 방법들은 문서의 핵심 정보를 추출하고, 자연어 처리 작업에서 문서 간의 유사성을 평가하는 데 유용하다.
Bag of Words (BoW)
Bag of words는 단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법이다. BoW는 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법으로, 주로 어떤 단어가 얼마나 등장했는지를 기준으로 문서의 성격을 판단하는 작업에 쓰인다.
from sklearn.feature_extraction.text import CountVectorizer# 예제 문서documents = ["I love programming.","I love coding.","Programming is fun."]# CountVectorizer를 사용하여 BoW 생성vectorizer = CountVectorizer()X = vectorizer.fit_transform(documents)# BoW 결과 출력print("BoW:")print(X.toarray())print("Vocabulary:")print(vectorizer.vocabulary_)