📗강의노트/핸즈온 머신러닝

[핸즈온 머신러닝] 제 8장 연습문제 풀이


Exercise Part. 8


1. 데이터셋의 차원을 축소하는 주요 목적은 무엇인가요? 대표적인 단점은 무엇인가요?

주 목적 : 알고리즘 속도 향상, 데이터 시각화를 통한 통찰, 메모리 공간 절약

단점 : 정보 손실로 인한 알고리즘 성능 저하, 계산 비용 높음, 파이프라인 복잡도 증가, 변환된 데이터 이해 어려움

2. 차원의 저주란 무엇인가요?

저차원 공간에서는 없는 문제가 고차원에서는 발생한다는 것. 무작위로 선택한 고차원 벡터는 매우 희소해서 과대적합의 위험이 크다. 많은 양의 데이터를 필요로한다.

3. 데이터셋의 차원을 축소시키고 나서 이 작업을 원복할 수 있나요? 할 수 있다면 어떻게 가능할까요? 가능하지 않다면 왜일까요?

완벽하게 되돌리는 것은 불가능. 재구성정도는 가능하지만 완전히는 X

4. 매우 비선형적인 데이터셋의 차원을 축소하는 데 PCA를 사용할 수 있을까요?

가능. 불필요한 차원이 없다면 PCA의 차원 축소는 많은 정보를 잃게 한다.

5. 설명된 분산율 95%로 지정한 PCA를 1,000개의 차원을 가진 데이터셋에 적용한다고 가정한다. 결과 데이터셋의 차원은 얼마나 될까?

데이터셋마다 다름. 1 ~ 950 차원 사이를 가짐 ( 극단적인 데이터 형태로, 완전 일직선, 완전 무작위 )

6. 기본 PCA, 점진적 PCA, 랜덤 PCA, 커널PCA는 어느 경우에 사용될까요?

기본은 메모리에 맞을 때, 점진적은 메모리에 담을 수 없는 대용량 일 때 사용(온라인에도 유용). 랜덤은 데이터셋이 메모리 크기에 맞고 차원을 크게 축소시킬 때 사용. 커널은 비선형 데이터셋에 유용하다.

7. 어떤 데이터셋에 적용한 차원 축소 알고리즘의 성능을 어떻게 평가할 수 있을까요?

정보를 많이 잃지 않았다면 잘한 것. 한 가지 방법은 재구성 오차를 측정하는 것.+ 전처리 단계로 사용하면 성능 측정 가능. 원본 데이터셋과 유사한 성능을 내야함

8. 두 개의 차원 축소 알고리즘을 연결할 수 있을까요?

당연히 가능. PCA로 불필요 차원 줄이고, LLE 처럼 느린 알고리즘을 적용.

9. (3장에서 소개한) MNIST 데이터셋을 로드하고 훈련 세트와 테스트 세트로 분할합니다(처음 60,000개는 훈련을 위한 샘플이고 나머지 10,000개는 테스트용입니다). 이 데이터셋에 랜덤 포레스트 분류기를 훈련시키고 얼마나 오래 걸리는지 시간을 잰 다음, 테스트 세트로 만들어진 모델을 평가합니다. 그런 다음 PCA를 사용해 설명된 분산이 95%가 되도록 차원을 축소합니다. 이 축소된 데이터셋에 새로운 랜덤 포레스트 분류기를 훈련시키고 얼마나 오래 걸리는지 확인합니다. 훈련 속도가 더 빨라졌나요? 이제 테스트 세트에서 이 분류기를 평가해보세요. 이전 분류기와 비교해서 어떤가요?

In [1]:
# 데이터 로드
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784',version=1)
In [2]:
# train, test split
X_train = mnist['data'][:60000]
y_train = mnist['target'][:60000]
X_test = mnist['data'][60000:]
y_test = mnist['target'][60000:]
In [3]:
from sklearn.ensemble import RandomForestClassifier
import time
rnd_clf = RandomForestClassifier(n_estimators=10,random_state=42)
t0 = time.time()
t1 = time.time()
In [5]:
print("훈련시간 {:.2f}s".format(t1-t0))
훈련시간 4.16s
In [6]:
# 평가
from sklearn.metrics import accuracy_score

y_pred = rnd_clf.predict(X_test)
In [13]:
# PCA 적용 95%
from sklearn.decomposition import PCA
pca = PCA(n_components=0.95)
X_train_reduced = pca.fit_transform(X_train)
In [14]:
# PCA 이후 훈련
rnd_clf2 = RandomForestClassifier(n_estimators=10,random_state=42)
t0 = time.time()
t1 = time.time()
In [15]:
print("훈련시간 {:.2f}s".format(t1-t0))
훈련시간 9.69s

훈련 시간이 두 배이상 느려짐. 이 장에서 보았듯이 차원 축소는 언제나 훈련 시간을 줄여주지 못합니다

In [16]:
X_test_reduced = pca.transform(X_test)

y_pred = rnd_clf2.predict(X_test_reduced)


차원 축소를 했을 때 유용한 정보를 일부 잃었기 때문에 성능이 조금 감소되는 것이 일반적임

In [17]:
# 소프트맥스 시도
from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression(multi_class="multinomial", solver="lbfgs", max_iter=2000, random_state=42)
t0 = time.time()
t1 = time.time()
/Users/charming/anaconda3/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:758: ConvergenceWarning: lbfgs failed to converge. Increase the number of iterations.
  "of iterations.", ConvergenceWarning)
In [18]:
print("훈련시간 {:.2f}s".format(t1-t0))
훈련시간 374.56s
In [19]:
y_pred = log_clf.predict(X_test)
In [20]:
# PCA이후 Softmax
log_clf2 = LogisticRegression(multi_class="multinomial", solver="lbfgs", max_iter=2000, random_state=42)
t0 = time.time()
t1 = time.time()
/Users/charming/anaconda3/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:758: ConvergenceWarning: lbfgs failed to converge. Increase the number of iterations.
  "of iterations.", ConvergenceWarning)
In [21]:
print("훈련시간 {:.2f}s".format(t1-t0))
훈련시간 110.94s

속도가 줄어듬!

In [22]:
y_pred = log_clf2.predict(X_test_reduced)

성능이 조금 감소되었지만 애플리케이션에 따라서 4배 속도 향상의 댓가로 적절한 것 같다.

PCA는 속도를 아주 빠르게 만들어 주지만 항상 그런 것은 아니다!

10. t-SNE 알고리즘을 사용해 MNIST 데이터셋을 2차원으로 축소시키고 맷플롯립으로 그래프를 그려보세요. 이미지의 타깃 클래스마다 10가지 색깔로 나타낸 산점도를 그릴 수 있습니다. 또는 샘플의 위치에 각기 다른 색깔의 숫자를 나타낼 수도 있고, 숫자 이미지 자체의 크기를 줄여서 그릴 수도 있다. 잘 분리된 숫자의 군집을 시각화할 수 있을 것이다. PCA,LLE,MDS해보고 비교하기.

In [23]:
# 위에서 이미 불러옴 

mnist.target = mnist.target.astype(np.int)
In [25]:

# 전체 60,000개의 이미지에 차원 축소를 하면 매우 오랜 시간이 걸리므로 10,000개의 이미지만 무작위로 선택하여 사용
m = 10000
idx = np.random.permutation(60000)[:m]

X = mnist['data'][idx]
y = mnist['target'][idx]
In [26]:
# t-SNE로 2D차원을 축소!
from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, random_state=42)
X_reduced = tsne.fit_transform(X)
In [27]:
import matplotlib.pyplot as plt
plt.scatter(X_reduced[:, 0],X_reduced[:, 1], c=y, cmap='jet' )
In [29]:
# 두 개의 숫자에 대하여 
import matplotlib
cmap = matplotlib.cm.get_cmap("jet")
for digit in (4, 9):
    plt.scatter(X_reduced[y == digit, 0], X_reduced[y == digit, 1], c=cmap(digit / 9))
In [30]:
# 두 개의 숫자에 대하여 
idx = (y ==4) | (y == 9)
X_subset = X[idx]
y_subset = y[idx]

tsne_subset = TSNE(n_components=2,random_state=42)
X_subset_reduced = tsne_subset.fit_transform(X_subset)
In [31]:
for digit in (4, 9):
    plt.scatter(X_subset_reduced[y_subset == digit, 0], X_subset_reduced[y_subset == digit, 1], c=cmap(digit / 9))
숫자 4가 두 개의 군집으로 나뉘어져 있습니다. 산점도와 색깔있는 숫자를 쓰기위해 plot_digits() 함수를 만듬.

In [34]:
from sklearn.preprocessing import MinMaxScaler
from matplotlib.offsetbox import AnnotationBbox, OffsetImage

def plot_digits(X, y, min_distance=0.05, images=None, figsize=(13, 10)):
    # 입력 특성의 스케일을 0에서 1 사이로 만듭니다.
    X_normalized = MinMaxScaler().fit_transform(X)
    # 그릴 숫자의 좌표 목록을 만듭니다.
    # 반복문 아래에서 `if` 문장을 쓰지 않기 위해 시작할 때 이미 그래프가 그려져 있다고 가정합니다.
    neighbors = np.array([[10., 10.]])
    # 나머지는 이해하기 쉽습니다.
    cmap = matplotlib.cm.get_cmap("jet")
    digits = np.unique(y)
    for digit in digits:
        plt.scatter(X_normalized[y == digit, 0], X_normalized[y == digit, 1], c=cmap(digit / 9))
    ax = plt.gcf().gca()  # 현재 그래프의 축을 가져옵니다.
    for index, image_coord in enumerate(X_normalized):
        closest_distance = np.linalg.norm(np.array(neighbors) - image_coord, axis=1).min()
        if closest_distance > min_distance:
            neighbors = np.r_[neighbors, [image_coord]]
            if images is None:
                plt.text(image_coord[0], image_coord[1], str(int(y[index])),
                         color=cmap(y[index] / 9), fontdict={"weight": "bold", "size": 16})
                image = images[index].reshape(28, 28)
                imagebox = AnnotationBbox(OffsetImage(image, cmap="binary"), image_coord)
In [35]:
# 색이 입혀진 숫자 출력 
plot_digits(X_reduced, y)
In [36]:
# 숫자 이미지 사용
plot_digits(X_reduced, y, images=X, figsize=(35, 25))
In [37]:
plot_digits(X_subset_reduced, y_subset, images=X_subset, figsize=(22, 22))
In [38]:
from sklearn.decomposition import PCA
import time

pca = PCA(n_components=2,random_state=42)

t0 = time.time()
X_pca_reduced = pca.fit_transform(X)
t1 = time.time()
print("PCA 시간: {:.1f}s.".format(t1 - t0))
plot_digits(X_pca_reduced, y)
PCA 시간: 0.5s.

pca 빠르지만 군집이 너무 뭉쳐있음

In [39]:
# LLE 
from sklearn.manifold import LocallyLinearEmbedding

lle = LocallyLinearEmbedding(n_components=2,random_state=42)
t0 = time.time()
X_lle_reduced = lle.fit_transform(X)
t1 = time.time()
print("LLE 시간: {:.1f}s.".format(t1 - t0))
plot_digits(X_lle_reduced, y)
LLE 시간: 133.1s.

시간도 걸리고 결과도 좋지 않음

In [42]:
# 분산 95% PCA 적용후 LLE
from sklearn.pipeline import Pipeline

pca_lle = Pipeline([

t0 = time.time()
X_pca_lle_reduced = pca_lle.fit_transform(X)
t1 = time.time()
print("PCA + LLE 시간: {:.1f}s.".format(t1 - t0))
plot_digits(X_pca_lle_reduced, y)
PCA + LLE 시간: 37.8s.

결과 비슷하나 시간이 4배 줄어들었음

In [44]:
# MDS : 10000개 많아서 2000개만 시도
from sklearn.manifold import MDS

m = 2000

t0 = time.time()
X_mds_reduced = MDS(n_components=2,random_state=42).fit_transform(X[:m])
t1 = time.time()
print("MDS시간: {:.1f}s.".format(t1 - t0))
plot_digits(X_mds_reduced, y[:m])
MDS시간: 90.2s.

군집이 중복되어보임, 여기서도 PCA먼저 해보자

In [45]:
from sklearn.pipeline import Pipeline

pca_mds = Pipeline([

t0 = time.time()
X_pca_mds_reduced = pca_mds.fit_transform(X[:m])
t1 = time.time()
print("PCA + MDS시간: {:.1f}s.".format(t1 - t0))
plot_digits(X_pca_mds_reduced, y[:m])
PCA + MDS시간: 89.2s.

속도 동일, PCA 도움 안됨

In [48]:
# LDA 시도
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

lda = LinearDiscriminantAnalysis(n_components=2)

t0 = time.time()
X_lda_reduced = lda.fit_transform(X,y)
t1 = time.time()
print("LDA 시간: {:.1f}s.".format(t1 - t0))
plot_digits(X_lda_reduced, y,figsize=(12,12))
/Users/charming/anaconda3/lib/python3.7/site-packages/sklearn/discriminant_analysis.py:388: UserWarning: Variables are collinear.
  warnings.warn("Variables are collinear.")
LDA 시간: 1.7s.

빠르지만 군집이 뭉쳐있음. t-SNE가 제일 좋아보였음. MDS 보단 훨씬 빠르고 결과물도 아주 좋다.. PCA가 속도를 높여줄 수 있는지 확인해 보자

In [49]:
pca_tsne = Pipeline([
    ("pca", PCA(n_components=0.95, random_state=42)),
    ("tsne", TSNE(n_components=2, random_state=42)),
t0 = time.time()
X_pca_tsne_reduced = pca_tsne.fit_transform(X)
t1 = time.time()
print("PCA+t-SNE 시간 {:.1f}s.".format(t1 - t0))
plot_digits(X_pca_tsne_reduced, y)
PCA+t-SNE 시간 132.8s.

결과물에 영향을 미치지 않으면서 PCA 속도가 34% 정도 향상, t-SNE의 승리이다 !
