Python è‡ªå‹•ã§ã‚¯ãƒ©ã‚¹æ•°ã‚’æ±ºå®šã—ã¦ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã™ã‚‹ã€Œx-meansã€ã¨ã€Œg-meansã€

ã€€ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã€ã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼åˆ†æžã¨è¨€ãˆã°ã€k-meansãŒæœ‰åã§ã™ã€‚ã—ã‹ã—ã€äºˆã‚ã‚¯ãƒ©ã‚¹ï¼ˆåˆ†é¡žï¼‰æ•°ã‚’æŒ‡å®šã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ã“ã®å¯¾ç–ã¨ã—ã¦ã€åˆ†é¡žæ•°ã‚’è‡ªå‹•ã§æ±ºå®šã™ã‚‹ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯ã„ãã¤ã‹å˜åœ¨ã—ã¦ã„ã¦ã€ã€Œx-meansã€,ã€Œg-meansã€,ã€ŒStar Clusteringã€ãªã©ãŒã‚ã‚Šã¾ã™ã€‚
ã€€æœ¬è¨˜äº‹ã§ã¯ã€ã€Œx-meansã€ã¨ã€Œg-meansã€ã®é››å½¢ã‚³ãƒ¼ãƒ‰ã¨å®Ÿè¡Œçµæžœã®æ¯”è¼ƒä¾‹ã‚’è¼‰ã›ã¾ã—ãŸã€‚ã“ã®2ã¤ã¯ã€pyclusteringã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã™ã‚‹ã“ã¨ã§ä½¿ç”¨ã§ãã¾ã™ã€‚

â– ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«æ–¹æ³•

pipã®å ´åˆ

pip3 install pyclustering

Anacondaç’°å¢ƒä¸‹ã®å ´åˆ

conda install -c conda-forge pyclustering

â– åˆ†æžã«ä½¿ç”¨ã—ãŸä¾‹é¡Œãƒ‡ãƒ¼ã‚¿

ã€€scikit-learnã«åŒæ¢±ã•ã‚Œã¦ã„ã‚‹ãƒ¯ã‚¤ãƒ³ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã‚’ç”¨ã„ã¾ã—ãŸã€‚æœ¬æ¥ã¯ã€æ©Ÿæ¢°å¦ç¿’ã®åˆ†é¡žç”¨ã«ç”¨æ„ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆã§ã€èª¬æ˜Žå¤‰æ•°ï¼ˆç‰¹å¾´é‡ï¼‰ãŒ13é …ç›®ã‚ã£ã¦ã€äºˆã‚3ã¤ã«åˆ†é¡žã•ã‚ŒãŸã€Œtargetã€ãŒã‚ã‚Šã¾ã™ã€‚è©³ç´°ã¯æ¬¡ã®ãƒªãƒ³ã‚¯å…ˆã‚’å‚ç…§sklearn.datasets.load_wine â€” scikit-learn 0.24.2 documentation

ã€€æœ¬è¨˜äº‹ã§ã¯ã€åˆ†é¡žã§ã¯ãªãã¦ã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼åˆ†æžã®ãŸã‚ã€æ•™å¸«ãƒ‡ãƒ¼ã‚¿ã¯ä½¿ã‚ãšã«åˆ†é¡žã™ã‚‹ãŸã‚ã€ä¸Šè¨˜ã€Œtargetã€ã‚’ç”¨ã„ãŸåˆ†æžã¯ã—ã¾ã›ã‚“ã€‚ï¼ˆåˆ†æžå¾Œã®æ¯”è¼ƒã ã‘ã«ä½¿ã„ã¾ã™ï¼‰

â– ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®å®Ÿæ–½ä¾‹
å…ˆã«ã€å®Ÿæ–½ä¾‹ã«ã¤ã„ã¦èª¬æ˜Žã—ã¾ã™ã€‚åˆ†æžæ™‚ã«ä½¿ç”¨ã—ãŸèª¬æ˜Žå¤‰æ•°ã®æ•°ãŒ2, 3, 13é …ç›®ã®3ã¤å ´åˆã«ã¤ã„ã¦é †ç•ªã«èª¬æ˜Žã—ã¾ã™ã€‚

ã€€ä¸‹å›³ã¯ã€1ã¤ç›®ã®ä¾‹ã§ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼åˆ†æžã«ç‰¹å¾´é‡2é …ç›®ã ã‘ã‚’ç”¨ã„ãŸå ´åˆã§ã™ã€‚
ä¸‹å›³å·¦ã¯å…ƒãƒ‡ãƒ¼ã‚¿ã§3ã¤ã®ã‚«ãƒ†ã‚´ãƒªã«åˆ†ã‹ã‚Œã¦ã„ã¾ã™ï¼ˆ3ã¤ã®ã‚¯ãƒ©ã‚¹åˆ†é¡žï¼‰ã€‚ä¸€æ–¹ã€ä¸‹å›³ä¸å¤®ã®x-meansã§ã®åˆ†æžçµæžœã¯4ã¤ã«ã‚¯ãƒ©ã‚¹åˆ†é¡žã•ã‚Œã€ä¸‹å›³å³ã®g-meansã®å ´åˆã§ã¯2ã¤ã«ã‚¯ãƒ©ã‚¹åˆ†é¡žã•ã‚Œã¾ã—ãŸã€‚åˆ†é¡žæ•°ãŒç•°ãªã‚‹çµæžœã«ãªã‚Šã¾ã—ãŸã€‚ã—ã‹ã—ã€ãã‚Œã‚‰é›†åˆä½“ã®åˆ†å¸ƒã¯é•å’Œæ„Ÿã¯ãªãå¦¥å½“ã«ä»•åˆ†ã‘ã•ã‚ŒãŸã‚ˆã†ã«ã¿ãˆã¾ã™ã€‚æœ¬æ¥ã¯æ£è§£ãƒ‡ãƒ¼ã‚¿ã¯ã‚ã‹ã‚‰ãªã„ãŸã‚ã€æŠ€è¡“è€…æœ¬äººãŒç”¨é€”ã«å¿œã˜ã¦åˆ¤æ–ã™ã‚‹ã“ã¨ã«ãªã‚Šã¾ã™ã€‚

f:id:HK29:20210503134734p:plain

ã€€ä¸‹å›³ã¯ã€2ã¤ç›®ã®ä¾‹ã§ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼åˆ†æžã«ç‰¹å¾´é‡ã€Œ3é …ç›®ã€ã‚’ç”¨ã„ãŸå ´åˆã§ã™ã€‚
x-meansã¯3ã¤ã«ã‚¯ãƒ©ã‚¹åˆ†é¡žã•ã‚Œã€g-meansã¯4ã¤ã«ã‚¯ãƒ©ã‚¹åˆ†é¡žã•ã‚ŒãŸçµæžœã§ã™ã€‚

f:id:HK29:20210503135319p:plain

ã€€ä¸‹å›³ã¯ã€3ã¤ç›®ã®ä¾‹ã§ã™ã€‚ã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼åˆ†æžã«ç‰¹å¾´é‡å…¨ã¦13é …ç›®ã‚’ç”¨ã„ãŸå ´åˆã§ã™ã€‚
x-meansã¯3ã¤ã«ã‚¯ãƒ©ã‚¹åˆ†é¡žã•ã‚Œã€g-meansã¯7ã¤ã«ã‚¯ãƒ©ã‚¹åˆ†é¡žã•ã‚ŒãŸçµæžœã§ã™ã€‚

f:id:HK29:20210503135610p:plain

ã€€ä¸Šè¨˜3ã¤ã®ä¾‹ã¯ã€ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã«ä½¿ç”¨ã™ã‚‹èª¬æ˜Žå¤‰æ•°ã®æ•°ã‚’å¤‰æ›´ã—ã¦æ¤œè¨¼ã—ã¾ã—ãŸã€‚å®Ÿã¯ã€æœ¬ã‚³ãƒ¼ãƒ‰ã§ã¯å‰å‡¦ç†ã¨ã—ã¦ãƒ‡ãƒ¼ã‚¿ã‚’æ¨™æº–åŒ–ã—ã¦ã„ã¾ã™ã€‚ã“ã®å‰å‡¦ç†ã®æœ‰ç„¡ã§ã‚‚çµæžœã¯å¤‰ã‚ã‚Šã¾ã™ã€‚ä»–ã«ã¯ã€ã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼åˆ†æžã—ãŸã„èª¬æ˜Žå¤‰æ•°é–“ã«æ¡ãŒè‘—ã—ãã“ã¨ãªã‚‹ãƒ‡ãƒ¼ã‚¿ç¾¤ã€ä¾‹ãˆã°ã€å¯¾æ•°ãƒ‡ãƒ¼ã‚¿ç¾¤ã‚„ä½•æ¡ã‚‚å°ã•ã„å°æ•°ãƒ‡ãƒ¼ã‚¿ç¾¤ãªã©ãŒã‚ã‚‹å ´åˆã¯æ¨™æº–åŒ–ã—ãŸæ–¹ãŒå‰ã§ã™ã€‚ã¾ãŸã€å®Ÿå‹™ã«ãŠã„ã¦ã¯å¤–ã‚Œå€¤ãŒå˜åœ¨ã™ã‚‹å ´åˆã‚‚é ã«å…¥ã‚Œã¦ãŠãã€å ´åˆã«ã‚ˆã£ã¦ã¯ãã‚Œã‚‰ã‚’å‰Šé™¤ã™ã‚‹åˆ¤æ–ãŒå¿…è¦ãªã“ã¨ã‚‚ã‚ã‚Šãˆã¾ã™ã€‚

æœ¬ã‚³ãƒ¼ãƒ‰ã¯x-meansã®å ´åˆã®ä¾‹ã§ã™ã€‚g-meansã‚’ä½¿ç”¨ã—ãŸã„å ´åˆã¯ã€xmeansã®ç®‡æ‰€ã‚’gmeansã«ç½®æ›ã™ã‚‹ã ã‘ã§OKã§ã™ã€‚

#!/usr/bin/env python
# coding: utf-8

# In[1]:


from sklearn import datasets, preprocessing
import pandas as pd
from pyclustering.cluster.xmeans import xmeans
from pyclustering.cluster.center_initializer import kmeans_plusplus_initializer
#from pyclustering.cluster import cluster_visualizer
import matplotlib.pyplot as plt

wine_data = datasets.load_wine()
# èª¬æ˜Žå¤‰æ•°ã®ã¿ã‚’pandasãƒ‡ãƒ¼ã‚¿ãƒ•ãƒ¬ãƒ¼ãƒ ã§èªã¿å‡ºã—
df = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)
df


# In[2]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ã®æŠ½å‡º
#X = df[['flavanoids', 'color_intensity']].copy()
X = df[['alcohol', 'flavanoids', 'color_intensity']].copy()
#X = df.copy()

# æ¨™æº–åŒ–ï¼ˆå¹³å‡0, æ¨™æº–åå·®1ï¼‰ã‚¤ãƒ³ã‚¹ã‚¿ãƒ³ã‚¹
scaler = preprocessing.StandardScaler()

# æ¨™æº–åŒ–ã‚’å®Ÿè¡Œã—å¤‰æ•°ã«ä»£å…¥ã™ã‚‹
scaler.fit(X)
scaled_X = scaler.transform(X)
scaled_X


# In[3]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®åˆæœŸæ¡ä»¶
amount_initial_centers = 2 # æœ€å°2ã‚¯ãƒ©ã‚¹ä»¥ä¸Šã«åˆ†é¡žã™ã‚‹
initial_centers = kmeans_plusplus_initializer(scaled_X, amount_initial_centers).initialize()

# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®å®Ÿè¡Œ
xmeans_instance = xmeans(scaled_X, initial_centers=initial_centers, )
xmeans_instance.process()

# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã—ãŸè¦ç´ ç•ªå·ã‚’å–å¾—
clusters = xmeans_instance.get_clusters()
clusters


# In[4]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°æ•°
len(clusters)


# In[5]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã—ãŸé›†åˆä½“ã®å€‹ã€…ã®å€¤ã‚’æˆ»ã™
inversed_X = scaler.inverse_transform(scaled_X)
inversed_X


# In[6]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®é‡å¿ƒã‚’æŠ½å‡ºã™ã‚‹
centers = xmeans_instance.get_centers()
centers


# In[7]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°ã®é‡å¿ƒå€¤ã‚’æˆ»ã™
inversed_centers = scaler.inverse_transform(centers)
inversed_centers


# In[8]:


# æç”»
'''
visualizer = cluster_visualizer()
visualizer.append_clusters(clusters, inversed_X, markersize = 10)
visualizer.append_cluster(inversed_centers,
                          None, marker='*',
                          markersize=20,
                          color='black')
visualizer.show()
'''


# In[9]:


# ã‚¯ãƒ©ã‚¹ã‚¿ãƒªãƒ³ã‚°çµæžœã‚’å…ƒãƒ‡ãƒ¼ã‚¿ã¸ã€Œpredã€ã®åˆ—åã§è¿½åŠ ã™ã‚‹
df_list = []
ABC_list = [chr(ord("A")+i) for i in range(26)]
for my_list, my_label in zip(clusters, ABC_list):
    df_buf = df.iloc[my_list].copy()
    df_buf['pred'] = my_label
    df_list.append(df_buf)
DF = pd.concat(df_list)
DF.sort_index(axis='index', inplace=True)
DF


# In[10]:


# æ£è§£ã®ãƒ‡ãƒ¼ã‚¿ã€Œtargetã€ã‚‚çµåˆã™ã‚‹
df_target = pd.DataFrame(wine_data.target, columns=['target'])

DF2 = pd.concat([DF, df_target], axis=1)
DF2.to_csv('xmeans.csv')
DF2


# In[11]:


import seaborn as sns

y_name = 'pred'
name_list = ["alcohol", "flavanoids","color_intensity", y_name]

# è¡Œåˆ—æ•£å¸ƒå›³
sns.set_context('talk')
ax = sns.pairplot(
    DF2[name_list],
    hue = y_name, # å‡¡ä¾‹ã«è¡¨ç¤ºã—ãŸã„åˆ—åã‚’æŒ‡å®šï¼ˆã‚«ãƒ†ã‚´ãƒªå¤‰æ•°ï¼‰
    palette = 'gnuplot2', # 'tab10' 'magma' 'cool' 'bar' 'gnuplot2'
    kind = 'reg', # ç·šå½¢è¿‘ä¼¼ç·šã‚’è¨˜å…¥
    markers = '.',
    diag_kind = 'kde',
    diag_kws = dict(shade = True),
)
plt.savefig("xmeans_pred.png")
plt.close()


# In[12]:


y_name = 'target'
name_list = ["alcohol", "flavanoids","color_intensity", y_name]

# è¡Œåˆ—æ•£å¸ƒå›³
sns.set_context('talk')
ax = sns.pairplot(
    DF2[name_list],
    hue = y_name, # å‡¡ä¾‹ã«è¡¨ç¤ºã—ãŸã„åˆ—åã‚’æŒ‡å®šï¼ˆã‚«ãƒ†ã‚´ãƒªå¤‰æ•°ï¼‰
    palette = 'gnuplot2', # 'tab10' 'magma' 'cool' 'bar' 'gnuplot2'
    kind = 'reg', # ç·šå½¢è¿‘ä¼¼ç·šã‚’è¨˜å…¥
    markers = '.',
    diag_kind = 'kde',
    diag_kws = dict(shade = True),
)
plt.savefig("xmeans_target.png")
plt.close()


# In[ ]: