SVD (SVD와 Latent Factor 모형)

이해하기 쉽고, 장황하지 않은 자료를 기반으로 강의를 진행합니다.

잔재미코딩 소식 공유

좀더 제약없이, IT 컨텐츠를 공유하고자, 자체 온라인 사이트와, 다음 두 채널도 오픈하였습니다
응원해주시면, 곧 좋은 컨텐츠를 만들어서 공유하겠습니다

● 잔재미코딩 신규 강의 사이트

● 잔재미코딩 뉴스레터 오픈 [구독해보기]

● 잔재미코딩 유투브 오픈 [구독해보기]

6. SVD (SVD와 Latent Factor 모형)¶

정방 행렬 ($n x n$) $A$에 대한 다음 식에서

$$ Av = \lambda v $$

$ A \in \mathbf{R}^{M \times M} $
$ \lambda \in \mathbf{R} $
$ v \in \mathbf{R}^{M} $

위 식을 만족하는 실수 $\lambda$를 고유값(eigenvalue)

단위 벡터 $v$ 를 고유벡터(eigenvector)

라고 하며, 이를 고유 분해라고 함

정방 행렬이 아닌 행렬 $M$에 대해서도 고유 분해와 유사한 분해가 가능
이를 특이값 분해(singular value decomposition)이라고 함
$m \times n$ 크기의 행렬 $R$은 다음과 같이 세 행렬의 곱으로 나타낼 수 있음</p>

$$ R = U \Sigma V^T $$

이 식에서

$U$ 는 $m \times m$ 크기의 행렬로 역행렬이 대칭 행렬

$\Sigma$ 는 $m \times n$ 크기의 행렬로 비대각 성분이 0

$V$ 는 $n \times n$ 크기의 행렬로 역행렬이 대칭 행렬

V 와 U 는 직교행렬(orthogonal matrix) 특성

SVD은 R 과 R^T 의 PCA¶

사용자 요인 벡터와 영화 요인 벡터로 사용자/영화별 평점 행렬의 요인 벡터로 분리하자!

SVD 증명

A를 ($m x n$) 행렬이라 할때
$AA^T 는 정방행렬(n x n 행렬)이 되고$
- $AA^T = Q \Lambda Q^T 와 같이 분해될 수 있음$
이 때, $Q$:고유벡터를 열로 가지는 행렬, $\Lambda$:고유값으로 채워진 대각행렬
A는 SVD에 의해 $U \Sigma V^T$ 로 분해 가능
- 그렇다면, $AA^T$ = $Q \Lambda Q^T$
- 이 때 역시, $Q$:고유벡터를 열로 가지는 행렬, $\Lambda$:고유값으로 채워진 대각행렬
SVD 수식을 사용하면,
- $AA^T = (U\Sigma V^T)(U\Sigma V^T)^T = (U\Sigma V^T)(V\Sigma^T U^T) = U(\Sigma \Sigma^T)U^T$
- $A^TA = (U\Sigma V^T)^T(U\Sigma V^T) = (V\Sigma^T U^T)(U\Sigma V^T) = V(\Sigma^T \Sigma)V^T$
- V 와 U 는 직교행렬(orthogonal matrix) 특성을 가지므로, $U^T U = I$ $V^T V = I$
다시 행렬 A의 공분산 행렬 식을 보면,

$$\begin{align*} \Sigma =cov(A)&= \frac{1}{n-1} \sum_{i=1}^n (A_i-\mu)(A_i-\mu)^T = \frac { 1 }{ n-1 } A { A^T } \propto A A^T\\\\ \end{align*}$$
$U$는 $AA^T$ 즉, $A$의 공분산 행렬의 고유벡터
$V$는 $A^T A$ 즉, $A^T$의 공분산 행렬의 고유벡터
$\Sigma \Sigma^T$ 또는 $\Sigma^T \Sigma = \lambda$
- 따라서, singular value (특이값) $σ$ = $\sqrt{\lambda}$

다시 행렬 A의 공분산 행렬 식을 보면,

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 파이썬 데이터 분석 강의 (pandas, 데이터 전처리, EDA)

파이썬으로 데이터 전처리부터 데이터 분석 및 시각화를 실제 데이터로 견고하게 익힐 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

$\Sigma$ 는 공분산 행렬의 고유값의 제곱근(루트)
$\begin{align*} { A }^{ T }A&={ (U\Sigma { V }^{ T }) }^{ T }U\Sigma { V }^{ T }\\ &=V\Sigma { U }^{ T }U\Sigma { V }^{ T }\\ &=V{ \Sigma }^{ 2 }{ V }^{ T }\\ &=V\Lambda { V }^{ T } \end{align*}$

다시 정리 하는 SVD¶

정방행렬이 아닌 A 행렬 (m x n) 에 대해
$U: AA^T$의 고유벡터 (m x m)
$\Sigma : A$의 특이값들을 대각항으로 가지는 대각행렬 (m x n)
- 특이값(singular value)은 $AA^T 와 A^T A$의 고유값의 제곱근
$V: A^T A$의 고유벡터 (n x n)

SVD은 $A$ 와 $A^T$ 의 PCA¶

$ U \Sigma V^T $ 에서 $ \Sigma $ 는 대각행렬로 $ U 와 V^T $의 중복 고유값의 제곱으로 scaler 역할이 됨
따라서, A 행렬 = $U$ $V^T$ 로 행렬 인수분해한 모델로 가정할 수 있음
$U$는 X (사용자 수 x k) 인 사용자 특징(요인) 행렬
$\Sigma V^T$는 Y (영화 수 x k) 인 영화 특징(요인) 행렬
$\Sigma$ 은 scale에 관련된 값이므로 특별히 특징 행렬로 큰 그림을 그릴시에는 무시해도 됨

이를 좀더 모델로 구체화하면¶

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 파이썬 머신러닝 부트캠프 강의

처음 익히는 파이썬 머신러닝 기술을 쉽게 익히며, 실제 kaggle 문제까지 연습해볼 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

$$ r_{ui} = p_u \cdot q_i $$

$p_u$: $U$의 한 행으로 사용자 요인을 나타냄
$q_u$: $V^T$의 한 열로 영화 요인을 나타냄

사용자의 요인을 벡터화¶

\begin{array}{ll} \text{Alice} & = 10\% \color{#048BA8}{\text{ Action fan}} &+ 10\% \color{#048BA8}{\text{ Comedy fan}} &+ 50\% \color{#048BA8}{\text{ Romance fan}} &+\cdots\\ \text{Bob} &= 50\% \color{#048BA8}{\text{ Action fan}}& + 30\% \color{#048BA8}{\text{ Comedy fan}} &+ 10\% \color{#048BA8}{\text{ Romance fan}} &+\cdots\\ \text{Titanic} &= 20\% \color{#048BA8}{\text{ Action}}& + 00\% \color{#048BA8}{\text{ Comedy}} &+ 70\% \color{#048BA8}{\text{ Romance}} &+\cdots\\ \text{Toy Story} &= 30\% \color{#048BA8}{\text{ Action }} &+ 60\% \color{#048BA8}{\text{ Comedy}}&+ 00\% \color{#048BA8}{\text{ Romance}} &+\cdots\\ \end{array}

\begin{align*} p_\text{Alice} &= (10\%,~~ 10\%,~~ 50\%,~~ \cdots)\\ p_\text{Bob} &= (50\%,~~ 30\%,~~ 10\%,~~ \cdots)\\ q_\text{Titanic} &= (20\%,~~ 00\%,~~ 70\%,~~ \cdots )\\ q_\text{Toy Story} &= (30\%,~~ 60\%,~~00\%,~~ \cdots ) \end{align*}

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 딥러닝과 파이토치 부트캠프 강의

처음 익히는 딥러닝과 파이토치 기술을 견고하게 차근차근 익힐 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

\begin{align*} r_{ui}= p_u \cdot q_i = \sum_{f \in \text{latent factors}} \text{affinity of } u \text{ for } f \times \text{affinity of } i \text{ for }f \end{align*}

In [ ]:

import numpy as np
from numpy import linalg as la
np.random.seed(42)


def flip_signs(A, B):
    """
    utility function for resolving the sign ambiguity in SVD
    http://stats.stackexchange.com/q/34396/115202
    """
    signs = np.sign(A) * np.sign(B)
    return A, B * signs


# Let the data matrix X be of n x p size,
# where n is the number of samples and p is the number of variables
n, p = 5, 3
X = np.random.rand(n, p)
# Let us assume that it is centered
# 평균이 0으로 맞춘 후에 (centering 작업 수행) 공분산 행렬을 계산함
X -= np.mean(X, axis=0)

# the p x p covariance matrix
C = np.cov(X, rowvar=False)
print ("covariance matrix = \n", C)
# C is a symmetric matrix and so it can be diagonalized:
l, principal_axes = la.eig(C)
# sort results wrt. eigenvalues
idx = l.argsort()[::-1]
l, principal_axes = l[idx], principal_axes[:, idx]
# the eigenvalues in decreasing order
print ("eigenvalues = \n", l)
# a matrix of eigenvectors (each column is an eigenvector)
print ("eigenvectors = \n", principal_axes)
# projections of X on the principal axes are called principal components
principal_components = X.dot(principal_axes)
print ("principal_components = \n", principal_components)

# we now perform singular value decomposition of X
# "economy size" (or "thin") SVD
U, s, Vt = la.svd(X, full_matrices=False)
V = Vt.T
S = np.diag(s)

# 1) then columns of V are principal directions/axes.
print ("V = \n", V)
assert np.allclose(*flip_signs(V, principal_axes))

# 2) columns of US are principal components
print ("US = \n", U.dot(S))
assert np.allclose(*flip_signs(U.dot(S), principal_components))

# 3) singular values are related to the eigenvalues of covariance matrix
print ((s ** 2) / (n - 1))
assert np.allclose((s ** 2) / (n - 1), l)

# 8) dimensionality reduction
k = 2
PC_k = principal_components[:, 0:k]
US_k = U[:, 0:k].dot(S[0:k, 0:k])
print (US_k)
assert np.allclose(*flip_signs(PC_k, US_k))

print (U)
print (S)
print (V)
# 10) we used "economy size" (or "thin") SVD
assert U.shape == (n, p)
assert S.shape == (p, p)
assert V.shape == (p, p)

특이값 분해 계산¶

In [183]:

import numpy as np
from pprint import pprint
import math
M = np.array([[math.sqrt(3), 2], [0, math.sqrt(3)]])
U, s, Vt = numpy.linalg.svd(M, full_matrices=True)

In [184]:

Out[184]:

array([[ 1.73205081,  2.        ],
       [ 0.        ,  1.73205081]])

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

체계적으로 전문가 레벨까지 익힐 수 있도록 온라인 강의 로드맵을 제공합니다

데이터 분석/과학 로드맵

데이터 분석가와 데이터 과학자 직군의 기본기를 차근차근 쌓을 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

$A^T A$ 의 고유값: $\lambda_1 = 9$, $\lambda_2 = 1$
특이값: $σ_1$ = $\sqrt{\lambda_1}$ = 3, $σ_2$ = $\sqrt{\lambda_2}$ = 1
$\lambda_1 = 9$ 에 대응하는 $A^T A$의 단위고유벡터는 $v_1 = \begin{pmatrix} \frac{1}{2} \\ \frac{\sqrt{3}}{2} \end{pmatrix}$
$\lambda_2 = 1$ 에 대응하는 $A^T A$의 단위고유벡터는 $v_2 = \begin{pmatrix} -\frac{\sqrt{3}}{2} \\ \frac{1}{2} \end{pmatrix}$
$u_1 = \frac{1}{σ_1}Av_1 = \begin{pmatrix} \frac{\sqrt{3}}{2} \\ \frac{1}{2} \end{pmatrix}$
$u_2 = \frac{1}{σ_2}Av_2 = \begin{pmatrix} -\frac{1}{2} \\ \frac{\sqrt{3}}{2} \end{pmatrix}$

$U = [u_1, u_2] = \begin{pmatrix} \frac{\sqrt{3}}{2} \ -\frac{1}{2} \\ \frac{1}{2} \ \frac{\sqrt{3}}{2} \end{pmatrix}$

In [185]:

Out[185]:

array([[ 0.8660254, -0.5      ],
       [ 0.5      ,  0.8660254]])

$V^T = [v_1, v_2] = \begin{pmatrix} \frac{1}{2} \ \frac{\sqrt{3}}{2} \\ -\frac{\sqrt{3}}{2} \ \frac{1}{2}\end{pmatrix}$

In [186]:

Vt

Out[186]:

array([[ 0.5      ,  0.8660254],
       [-0.8660254,  0.5      ]])

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

체계적으로 전문가 레벨까지 익힐 수 있도록 온라인 강의 로드맵을 제공합니다

웹/앱서비스 풀스택 로드맵

웹/앱 백엔드와 프론트엔드 기술과 서버/배포 기술을 포함하여 풀스택 기본기를 차근차근 쌓을 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

$ \Sigma = \begin{pmatrix} 3 \ 0 \\ 0 \ 1 \end{pmatrix}$

In [192]:

np.diag(s)

Out[192]:

array([[ 3.,  0.],
       [ 0.,  1.]])

$ U \Sigma V^T = \begin{pmatrix} \frac{\sqrt{3}}{2} \ -\frac{1}{2} \\ \frac{1}{2} \ \frac{\sqrt{3}}{2} \end{pmatrix} \begin{pmatrix} 3 \ 0 \\ 0 \ 1 \end{pmatrix}\begin{pmatrix} \frac{1}{2} \ \frac{\sqrt{3}}{2} \\ -\frac{\sqrt{3}}{2} \ \frac{1}{2}\end{pmatrix}$

In [197]:

U.dot(np.diag(s)).dot(Vt)

Out[197]:

array([[  1.73205081e+00,   2.00000000e+00],
       [  1.11022302e-16,   1.73205081e+00]])

In [199]:

import numpy as np
from pprint import pprint
M = np.array([[1,0,0,0,0],[0,0,2,0,3],[0,0,0,0,0],[0,2,0,0,0]])

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 파이썬 데이터 분석 강의 (pandas, 데이터 전처리, EDA)

파이썬으로 데이터 전처리부터 데이터 분석 및 시각화를 실제 데이터로 견고하게 익힐 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

In [200]:

U, S0, V0 = np.linalg.svd(M, full_matrices=True)

In [201]:

Out[201]:

array([[1, 0, 0, 0, 0],
       [0, 0, 2, 0, 3],
       [0, 0, 0, 0, 0],
       [0, 2, 0, 0, 0]])

In [202]:

Out[202]:

array([[ 0.,  0.,  1.,  0.],
       [ 1.,  0.,  0.,  0.],
       [ 0.,  0.,  0., -1.],
       [ 0.,  1.,  0.,  0.]])

In [203]:

S0

Out[203]:

array([ 3.60555128,  2.        ,  1.        ,  0.        ])

In [204]:

S = np.hstack([np.diag(S0), np.zeros(M.shape[0])[:, np.newaxis]])

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 파이썬 머신러닝 부트캠프 강의

처음 익히는 파이썬 머신러닝 기술을 쉽게 익히며, 실제 kaggle 문제까지 연습해볼 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

In [205]:

Out[205]:

array([[ 3.60555128,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  2.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ]])

In [144]:

V = V0.T

In [145]:

Out[145]:

array([[ -0.00000000e+00,  -0.00000000e+00,   1.00000000e+00,
          0.00000000e+00,   0.00000000e+00],
       [  0.00000000e+00,   1.00000000e+00,   0.00000000e+00,
         -1.65724537e-17,   0.00000000e+00],
       [  5.54700196e-01,   0.00000000e+00,   0.00000000e+00,
         -8.32050294e-01,   0.00000000e+00],
       [  0.00000000e+00,   0.00000000e+00,   0.00000000e+00,
          0.00000000e+00,   1.00000000e+00],
       [  8.32050294e-01,   0.00000000e+00,   0.00000000e+00,
          5.54700196e-01,   0.00000000e+00]])

In [148]:

print("\nU.dot(S).dot(V.T):"); pprint(U.dot(S).dot(V0))

U.dot(S).dot(V.T):
array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  2.,  0.,  3.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  2.,  0.,  0.,  0.]])

Trancated SVD: S에서 고유값 제곱이 0인 부분들을 없애면 차원 축소가 가능하고, 계산량을 줄일 수 있음¶

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 딥러닝과 파이토치 부트캠프 강의

처음 익히는 딥러닝과 파이토치 기술을 견고하게 차근차근 익힐 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

계산량 축소 $\lambda > 0$ 인 것만 사용하기¶

In [206]:

Out[206]:

array([[ 3.60555128,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  2.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ]])

sklearn의 TruncatedSVD 사용 예¶

In [78]:

from sklearn.decomposition import TruncatedSVD
from sklearn.random_projection import sparse_random_matrix
X = sparse_random_matrix(5, 5)
svd = TruncatedSVD(n_components=2, n_iter=7)  
U = svd.fit_transform(X)
Sigma = svd.explained_variance_ratio_
VT = svd.components_
svd.fit(X)

Out[78]:

TruncatedSVD(algorithm='randomized', n_components=2, n_iter=7,
       random_state=None, tol=0.0)

In [79]:

Out[79]:

array([[ -6.68740305e-01,   1.59597512e-17],
       [  6.68740305e-01,   7.71196423e-17],
       [  5.53282530e-16,  -4.09391498e-17],
       [ -3.30668500e-17,   6.68740305e-01],
       [  6.68740305e-01,   8.96181719e-18]])

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

체계적으로 전문가 레벨까지 익힐 수 있도록 온라인 강의 로드맵을 제공합니다

데이터 분석/과학 로드맵

데이터 분석가와 데이터 과학자 직군의 기본기를 차근차근 쌓을 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

나머지 singular vector value는 0이기 때문에 삭제한다.

In [80]:

Sigma

Out[80]:

array([ 0.63636364,  0.18181818])

In [81]:

VT

Out[81]:

array([[ -0.00000000e+00,   0.00000000e+00,  -4.58037853e-17,
          0.00000000e+00,   1.00000000e+00],
       [ -0.00000000e+00,   5.55111512e-17,   1.00000000e+00,
          0.00000000e+00,   1.58152252e-16]])

본래 U는 5X5, Sigma는 5X5, $V^T$는 5X5
Truncated SVD로 변환: U는 5X2, Sigma는 2X2, $V^T$는 2X5

그러나, 사실 PCA, SVD는 dense matrix에서나 가능한 예!¶

SVD는 dense matrix인 이미지의 차원축소에 많이 사용됨
사용자/영화의 평점 행렬은 평점이 많지 않은 sparse 행렬임!

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

체계적으로 전문가 레벨까지 익힐 수 있도록 온라인 강의 로드맵을 제공합니다

웹/앱서비스 풀스택 로드맵

웹/앱 백엔드와 프론트엔드 기술과 서버/배포 기술을 포함하여 풀스택 기본기를 차근차근 쌓을 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

어떻게 sparse 행렬인 사용자/영화 평점 행렬에 SVD를 사용할까?¶

- 초기 $p_u$, $q_u$를 임의로 정하고, 이를 이용해서 근사 행렬 $Q$를 구한다.

$$ r_{ui} = p_u \cdot q_i $$

$p_u$: $U$의 한 행으로 사용자 요인을 나타냄
$q_u$: $V^T$의 한 열로 영화 요인을 나타냄

어떻게 사용자, 영화 특징(요인)으로부터 계산된 예측 평점의 정확도를 높일 것인가?¶

$r_{ui}$ 를 $Q$라 하고, 실제 평점 $R$과의 차이를 손실 함수로 만들자
- min($R$ - $Q$)

sparse matrix인 평점 행렬에 대해 SGD를 사용한 실제 SVD 구현 예¶

In [44]:

import numpy as np
import surprise  # run 'pip install scikit-surprise' to install surprise

In [47]:

class SVD_SGD(surprise.AlgoBase):
    
    def __init__(self, learning_rate, n_epochs, n_factors):
        
        self.lr = learning_rate  # learning rate for SGD
        self.n_epochs = n_epochs  # number of iterations of SGD
        self.n_factors = n_factors  # number of factors (몇 개의 Latent Factor로 요인 벡터를 만들지를 정함)
        
    def train(self, trainset):
        '''Learn the vectors p_u and q_i with SGD'''
        
        print('Fitting data with SGD...')
        
        # Randomly initialize the user and item factors.
        p = np.random.normal(0, .1, (trainset.n_users, self.n_factors))
        q = np.random.normal(0, .1, (trainset.n_items, self.n_factors))
        
        # SGD procedure
        for _ in range(self.n_epochs):
            for u, i, r_ui in trainset.all_ratings():
                err = r_ui - np.dot(p[u], q[i])
                # Update vectors p_u and q_i
                p[u] += self.lr * err * q[i]
                q[i] += self.lr * err * p[u]
                # Note: in the update of q_i, we should actually use the previous (non-updated) value of p_u.
                # In practice it makes almost no difference.
        
        self.p, self.q = p, q
        self.trainset = trainset

    def estimate(self, u, i):
        '''Return the estmimated rating of user u for item i.'''
        
        # return scalar product between p_u and q_i if user and item are known,
        # else return the average of all ratings
        if self.trainset.knows_user(u) and self.trainset.knows_item(i):
            return np.dot(self.p[u], self.q[i])
        else:
            return self.trainset.global_mean

본 자료와 같이 IT 기술을 잘 정리하여, 온라인 강의로 제공하고 있습니다

퀄러티가 다른 온라인 강의로 차근차근 익혀보세요

처음하는 파이썬 데이터 분석 강의 (pandas, 데이터 전처리, EDA)

파이썬으로 데이터 전처리부터 데이터 분석 및 시각화를 실제 데이터로 견고하게 익힐 수 있도록 꾸몄습니다

자세히 알아보기 모든 강좌 보기

In [48]:

# data loading. We'll use the movielens dataset (https://grouplens.org/datasets/movielens/100k/)
# it will be downloaded automatically.
data = surprise.Dataset.load_builtin('ml-100k')
data.split(2)  # split data for 2-folds cross validation

In [49]:

algo = SVD_SGD(learning_rate=.01, n_epochs=10, n_factors=10)
surprise.evaluate(algo, data, measures=['RMSE'])

Evaluating RMSE of algorithm SVD_SGD.

------------
Fold 1
Fitting data with SGD...
RMSE: 0.9836
------------
Fold 2
Fitting data with SGD...
RMSE: 0.9794
------------
------------
Mean RMSE: 0.9815
------------
------------

Out[49]:

CaseInsensitiveDefaultDict(list,
                           {'rmse': [0.9835875127416468, 0.97936577397899627]})

베이스라인 모형(baseline model)을 사용해서 sparse 행렬에 미리 값을 넣은 후에 SGD를 돌리는 방식도 가능¶

사용자 아이디 $u$, 상품 아이디 $i$, 두 개의 카테고리 값 입력에서 평점 $r_{ui}$의 예측치 $\hat{r}_{ui}$ 을 예측하는 단순 모형
사용자와 상품 특성에 의한 평균 평점의 합으로 나타난다.</p> $$ \hat{r}_{ui} = \mu + b_u + b_i $$
$\mu$는 전체 평점의 평균
$b_u$는 동일한 사용자에 의한 평점 평균값
$b_i$는 동일한 상품에 대한 평점 평균값

SVD (SVD와 Latent Factor 모형)

6. SVD (SVD와 Latent Factor 모형)¶

SVD은 R 과 RT 의 PCA¶

다시 정리 하는 SVD¶

SVD은 $A$ 와 $A^T$ 의 PCA¶

이를 좀더 모델로 구체화하면¶

사용자의 요인을 벡터화¶

특이값 분해 계산¶

Trancated SVD: S에서 고유값 제곱이 0인 부분들을 없애면 차원 축소가 가능하고, 계산량을 줄일 수 있음¶

계산량 축소 $\lambda > 0$ 인 것만 사용하기¶

sklearn의 TruncatedSVD 사용 예¶

그러나, 사실 PCA, SVD는 dense matrix에서나 가능한 예!¶

어떻게 sparse 행렬인 사용자/영화 평점 행렬에 SVD를 사용할까?¶

어떻게 사용자, 영화 특징(요인)으로부터 계산된 예측 평점의 정확도를 높일 것인가?¶

sparse matrix인 평점 행렬에 대해 SGD를 사용한 실제 SVD 구현 예¶

베이스라인 모형(baseline model)을 사용해서 sparse 행렬에 미리 값을 넣은 후에 SGD를 돌리는 방식도 가능¶

SVD은 R 과 R^T 의 PCA¶