Kümeleme Analizi

Birbirine benzeyen gözlemlerin kümelenmesi ” bir araya getirilmesi” benzemeyenlerin dışlanması temel fikrine dayanır.

Kümeleme analizinde

  • Benzerlik
  • Uzaklık ölçüleri baz alınır.

Uzaklık ölçüleri

  • Öklid
  • Manhadden
  • Minkowski

uzaklık öçüleri kullanılır.

Kümeleme analizi

a. Hiyerarşik kümeleme

b. Hiyerarşik olmayan kümeleme olarak iki şekilde sınıflandırılır.

Hiyerarşik kümeleme:

Önceden oluşturulan kümeler kullanılarak sonraki kümeler oluşturulur.

Hiyerarşik kümeleme bölücü ve birleştirici kümeleme olarak sınıflandırılır.

Birleştirici hiyerarşik kümelemede her bir gözlem bir küme olarak ele alınır ve bu kümeler birleştirilerek yola devam edilir. Örnek algoritmalar: En yakın komşu ve en uzak komşu algoritmalarıdır.

Bölücü hiyerarşik kümeleme: Gözlemin tümü tek bir küme olarak düşünüler ve bu büyük küme daha küçük kümelere bölünerek yola devam edilir. Örnek algoritmalar: BIRCH “Hiyerarşiler aracılığı ile dengeli iterative azaltma ve kümeleme” algoritmasıdır.

Hiyararşik olmayan “Ayrıştırıcı” Kümeleme:

Küme sayısı önceden belirlenir. n kadar gözlem önceden belirlenmiş k kümeye ayrıştırılır.

Oluşturulacak kümeler önceden uygulayıcı tarafından belirlenir. Yine minimum ve maksimum mesafe ve küme içi benzerlik kriterleride uygulayıcı tarafından verilmelidir.

Hiyararşik olmayan kümelemede k-mean “k-ortalamalar” ve k-medoids algoritmaları kullanır.

k-mean “k-ortalama” algoritması: Döngüsel bir algoritmadır. istenilen sonuca ulaşılana kadar devam tekrarlar. Eldeki veriler uygulayıcı tarafından k adet kümeye ortalamalarına uygun şekilde ayrıştırılır.

Algoritmanın uygulanmasında öncelikle kümeler ve kümelerin ortalamarı belirlenir, gözlemler ortalamara en yakın olacak şekilde kümelere dahil edilir.

K-medoids algoritması: k-mean algoritmasınından farklı olarak küme merkezi; küme elamanlarının ortalamaları yerine küme merkezindeki elaman baz alarak belirlenir. Böylece küme merkezinin kenara kayması önlenmiş olur. Medyan kullanılır.

RapidMinner Kümeleme Analizi Adımları:

Operatör 1: Read Excel: Veriyi excel formatı ile RapidMiner içerisine almak için kullanılır.

Operatör 2: Filter Examples: Kümeleme “Clustering” kayıp ve boş veriler ile çalışmamaktadır. Bu sebeple boş verileri filitrelemek için kullanılır. Yine kümeleme analizinde integer değerler kullanıldığı için integer olmayan sutunlar devre dışı bırakılır.

Paramete kısmında “conditional class” parametresi “no_missing_attrutube” “boş verileri alma” olarak seçilir. Bu duruma alternatif olarak “Replase Missing Value” operatörü seçilerek ortalama veya en sık tekrarlanan değer ile eksik veriler doldurulabilir.

Operatör 3: Clusterring (k-Means): Kümeleme işlemini yapan operatördür. öncelikle bu opera için parametreler kısmında küme sayısının “k” belirtilmesi gerekir. Küme sayısı büyük olduğunca saha fazla küme ve daha hassa yerleştirme yapılır. Ancak küme sayısının fazlalığı bazen değerlendirmede sorun oluşturabilir.

Algoritmayı çalıştım sonuç kısmına bakıldığında, oluşan kümeler incelene bilir.

Sonuç kısmında Centroid Tablet’de kümeler ve kimlerin içinde ki elemanların ortalama değerleri, Graph kısmında kimlerin büyüklükleri incelenir.

Amaca göre yoğunlaşılmak istenilen kümenin üzerine graph kısmında veya Folder View tıklandığında küme elamaları incelene bilir.

Operatör 4: Filter Example (2): Yoğunlaşılmak istenilen küme elemanlarının incelenmesi için ikince kez “filtre examle” kullanıla bilir bunun için Clustering operatörün cluster (clue) kısmı ile filtre example operaötürğn exa kısmı bağlanı. Parametre kısmına conditional class alanında “atritube_value_filter” seçilir, parametre string kısmına ilgili küme adı “cluster=cluster_numrası” yazılır.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir