We analyse football (soccer) player performance data with mixed type variables from the 2014-15 s... more We analyse football (soccer) player performance data with mixed type variables from the 2014-15 season of eight European major leagues. We cluster these data based on a tailor-made dissimilarity measure. In order to decide between the many available clustering methods and to choose an appropriate number of clusters, we use the approach by Akhanli and Hennig (2020). This is based on several validation criteria that refer to different desirable characteristics of a clustering. These characteristics are chosen based on the aim of clustering, and this allows to define a suitable validation index as weighted average of calibrated individual indexes measuring the desirable features. We derive two different clusterings. The first one is a partition of the data set into major groups of essentially different players, which can be used for the analysis of a team's composition. The second one divides the data set into many small clusters (with 10 players on average), which can be used for finding players with a very similar profile to a given player. It is discussed in depth what characteristics are desirable for these clusterings. Weighting the criteria for the second clustering is informed by a survey of football experts. Cluster analysis, clustering validity indexes, football data, calibrated indexes, large number of clusters
Amac: Guc analizi ile orneklem buyuklugu tahmini tibbi arastirmacilar ve etik kurulu uyeleri tara... more Amac: Guc analizi ile orneklem buyuklugu tahmini tibbi arastirmacilar ve etik kurulu uyeleri tarafindan cogu zaman yanlis yorumlanan bir konudur. Bu calismada, istatistik alani disindan olan arastirmacilarin, orneklem buyuklugu, etki buyuklugu ve istatistiksel guc ile ilgili sorularinin cevaplanmasi amaclanmistir. Yontem: Bu kapsamda, farkli tibbi arastirma duzenlerinde guc analizi gerceklestirmek icin kullanilacak etki buyukluklerinin ne anlama geldigi ve nasil hesaplandigi anlatilmistir. Farkli etki buyukluklerinde, farkli istatistiksel guc duzeylerinde ve %5 istatistiksel anlamlilik seviyesinde bagimsiz gruplar icin t-testi, tek yonlu ANOVA ve Ki-kare testleri icin gerekli olan orneklem buyuklukleri GPower 3.1 programi kullanilarak hesaplanmistir. Bulgular: Farkli istatistiksel testler icin gerceklestirilen guc analizleri, etki buyuklugunun orneklem sayisi belirlemede ne derecede onemli rol oynadigini gostermistir. Gereginden az sayida birim uzerinde deney yapilmasi gercekte var ...
A key issue in cluster analysis is the choice of an appropriate clustering method and the determi... more A key issue in cluster analysis is the choice of an appropriate clustering method and the determination of the best number of clusters. Different clusterings are optimal on the same data set according to different criteria, and the choice of such criteria depends on the context and aim of clustering. Therefore, researchers need to consider what data analytic characteristics the clusters they are aiming at are supposed to have, among others within-cluster homogeneity, between-clusters separation, and stability. Here, a set of internal clustering validity indexes measuring different aspects of clustering quality is proposed, including some indexes from the literature. Users can choose the indexes that are relevant in the application at hand. In order to measure the overall quality of a clustering (for comparing clusterings from different methods and/or different numbers of clusters), the index values are calibrated for aggregation. Calibration is relative to a set of random clustering...
Güç analizi ile örneklem büyüklüğü tahmini tıbbi araştırmacılar ve etik kurulu üyeleri tarafından... more Güç analizi ile örneklem büyüklüğü tahmini tıbbi araştırmacılar ve etik kurulu üyeleri tarafından çoğu zaman yanlış yorumlanan bir konudur. Bu çalışmada, istatistik alanı dışından olan araştırmacıların, örneklem büyüklüğü, etki büyüklüğü ve istatistiksel güç ile ilgili sorularının cevaplanması amaçlanmıştır. Yöntem: Bu kapsamda, farklı tıbbi araştırma düzenlerinde güç analizi gerçekleştirmek için kullanılacak etki büyüklüklerinin ne anlama geldiği ve nasıl hesaplandığı anlatılmıştır. Farklı etki büyüklüklerinde, farklı istatistiksel güç düzeylerinde ve %5 istatistiksel anlamlılık seviyesinde bağımsız gruplar için t-testi, tek yönlü ANOVA ve Ki-kare testleri için gerekli olan örneklem büyüklükleri GPower 3.1 programı kullanılarak hesaplanmıştır. Bulgular: Farklı istatistiksel testler için gerçekleştirilen güç analizleri, etki büyüklüğünün örneklem sayısı belirlemede ne derecede önemli rol oynadığını göstermiştir. Gereğinden az sayıda birim üzerinde deney yapılması gerçekte var olan önemli bir etkinin tespit edilememesine neden olabilirken, çok fazla sayıda örnek üzerinde test yapılması istatistiksel olarak anlamlı fakat gerçekte klinik olarak önemsiz bir etkinin tespit edilmesine yol açabilir. Sonuç: Sonuç olarak, bir araştırma kapsamında beklenen klinik anlamlılığı ortaya çıkarmak için alınması gereken etki büyüklüğü, araştırma hipotezi ile uyumlu belirlenmelidir. Çünkü araştırma sonucunda verilecek kararların niteliği ve klinik anlamlılığı örneklemin hangi etki büyüklüğüne dayanarak seçildiğine bağlıdır.
For mapping football (soccer) player information by using multidimensional scaling, and for clust... more For mapping football (soccer) player information by using multidimensional scaling, and for clustering football players, we construct a distance measure based on players’ performance data. The variables are of mixed type, but the main focus of this paper is how count variables are treated when defining a proper distance measure between players (e.g., top and lower level variables). The distance construction involves four steps: 1) representation , 2) transformation, 3) standardisation, 4) variable weighting. Several distance measures are discussed in terms of how well they match the interpretation of distance and similarity in the application of interest, with a focus on comparing Aitchison and Manhattan distance for variables giving percentage compositions. Preliminary outcomes of multidimensional scaling and clustering are shown.
I present a new idea to map football players information by using multidimensional scaling, and t... more I present a new idea to map football players information by using multidimensional scaling, and to cluster football players. The actual goal is to define a proper distance measure between players. The data was assembled from whoscored.com. Variables are of mixed type, containing nominal, ordinal, count and continuous information. In the data pre-processing stage, four different steps are followed through for continuous and count variables: 1) representation (i.e., considerations regarding how the relevant information is most appropriately represented, e.g., relative to minutes played), 2) transformation (football knowledge as well as the skewness of the distribution of some count variables indicates that transformation should be used to decrease the effective distance between higher values compared to the distances between lower values), 3) standardisation (in order to make within-variable variations comparable), and 4) variable weighting including variable selection. In a final pha...
We analyse football (soccer) player performance data with mixed type variables from the 2014-15 s... more We analyse football (soccer) player performance data with mixed type variables from the 2014-15 season of eight European major leagues. We cluster these data based on a tailor-made dissimilarity measure. In order to decide between the many available clustering methods and to choose an appropriate number of clusters, we use the approach by Akhanli and Hennig (2020). This is based on several validation criteria that refer to different desirable characteristics of a clustering. These characteristics are chosen based on the aim of clustering, and this allows to define a suitable validation index as weighted average of calibrated individual indexes measuring the desirable features. We derive two different clusterings. The first one is a partition of the data set into major groups of essentially different players, which can be used for the analysis of a team's composition. The second one divides the data set into many small clusters (with 10 players on average), which can be used for finding players with a very similar profile to a given player. It is discussed in depth what characteristics are desirable for these clusterings. Weighting the criteria for the second clustering is informed by a survey of football experts. Cluster analysis, clustering validity indexes, football data, calibrated indexes, large number of clusters
Amac: Guc analizi ile orneklem buyuklugu tahmini tibbi arastirmacilar ve etik kurulu uyeleri tara... more Amac: Guc analizi ile orneklem buyuklugu tahmini tibbi arastirmacilar ve etik kurulu uyeleri tarafindan cogu zaman yanlis yorumlanan bir konudur. Bu calismada, istatistik alani disindan olan arastirmacilarin, orneklem buyuklugu, etki buyuklugu ve istatistiksel guc ile ilgili sorularinin cevaplanmasi amaclanmistir. Yontem: Bu kapsamda, farkli tibbi arastirma duzenlerinde guc analizi gerceklestirmek icin kullanilacak etki buyukluklerinin ne anlama geldigi ve nasil hesaplandigi anlatilmistir. Farkli etki buyukluklerinde, farkli istatistiksel guc duzeylerinde ve %5 istatistiksel anlamlilik seviyesinde bagimsiz gruplar icin t-testi, tek yonlu ANOVA ve Ki-kare testleri icin gerekli olan orneklem buyuklukleri GPower 3.1 programi kullanilarak hesaplanmistir. Bulgular: Farkli istatistiksel testler icin gerceklestirilen guc analizleri, etki buyuklugunun orneklem sayisi belirlemede ne derecede onemli rol oynadigini gostermistir. Gereginden az sayida birim uzerinde deney yapilmasi gercekte var ...
A key issue in cluster analysis is the choice of an appropriate clustering method and the determi... more A key issue in cluster analysis is the choice of an appropriate clustering method and the determination of the best number of clusters. Different clusterings are optimal on the same data set according to different criteria, and the choice of such criteria depends on the context and aim of clustering. Therefore, researchers need to consider what data analytic characteristics the clusters they are aiming at are supposed to have, among others within-cluster homogeneity, between-clusters separation, and stability. Here, a set of internal clustering validity indexes measuring different aspects of clustering quality is proposed, including some indexes from the literature. Users can choose the indexes that are relevant in the application at hand. In order to measure the overall quality of a clustering (for comparing clusterings from different methods and/or different numbers of clusters), the index values are calibrated for aggregation. Calibration is relative to a set of random clustering...
Güç analizi ile örneklem büyüklüğü tahmini tıbbi araştırmacılar ve etik kurulu üyeleri tarafından... more Güç analizi ile örneklem büyüklüğü tahmini tıbbi araştırmacılar ve etik kurulu üyeleri tarafından çoğu zaman yanlış yorumlanan bir konudur. Bu çalışmada, istatistik alanı dışından olan araştırmacıların, örneklem büyüklüğü, etki büyüklüğü ve istatistiksel güç ile ilgili sorularının cevaplanması amaçlanmıştır. Yöntem: Bu kapsamda, farklı tıbbi araştırma düzenlerinde güç analizi gerçekleştirmek için kullanılacak etki büyüklüklerinin ne anlama geldiği ve nasıl hesaplandığı anlatılmıştır. Farklı etki büyüklüklerinde, farklı istatistiksel güç düzeylerinde ve %5 istatistiksel anlamlılık seviyesinde bağımsız gruplar için t-testi, tek yönlü ANOVA ve Ki-kare testleri için gerekli olan örneklem büyüklükleri GPower 3.1 programı kullanılarak hesaplanmıştır. Bulgular: Farklı istatistiksel testler için gerçekleştirilen güç analizleri, etki büyüklüğünün örneklem sayısı belirlemede ne derecede önemli rol oynadığını göstermiştir. Gereğinden az sayıda birim üzerinde deney yapılması gerçekte var olan önemli bir etkinin tespit edilememesine neden olabilirken, çok fazla sayıda örnek üzerinde test yapılması istatistiksel olarak anlamlı fakat gerçekte klinik olarak önemsiz bir etkinin tespit edilmesine yol açabilir. Sonuç: Sonuç olarak, bir araştırma kapsamında beklenen klinik anlamlılığı ortaya çıkarmak için alınması gereken etki büyüklüğü, araştırma hipotezi ile uyumlu belirlenmelidir. Çünkü araştırma sonucunda verilecek kararların niteliği ve klinik anlamlılığı örneklemin hangi etki büyüklüğüne dayanarak seçildiğine bağlıdır.
For mapping football (soccer) player information by using multidimensional scaling, and for clust... more For mapping football (soccer) player information by using multidimensional scaling, and for clustering football players, we construct a distance measure based on players’ performance data. The variables are of mixed type, but the main focus of this paper is how count variables are treated when defining a proper distance measure between players (e.g., top and lower level variables). The distance construction involves four steps: 1) representation , 2) transformation, 3) standardisation, 4) variable weighting. Several distance measures are discussed in terms of how well they match the interpretation of distance and similarity in the application of interest, with a focus on comparing Aitchison and Manhattan distance for variables giving percentage compositions. Preliminary outcomes of multidimensional scaling and clustering are shown.
I present a new idea to map football players information by using multidimensional scaling, and t... more I present a new idea to map football players information by using multidimensional scaling, and to cluster football players. The actual goal is to define a proper distance measure between players. The data was assembled from whoscored.com. Variables are of mixed type, containing nominal, ordinal, count and continuous information. In the data pre-processing stage, four different steps are followed through for continuous and count variables: 1) representation (i.e., considerations regarding how the relevant information is most appropriately represented, e.g., relative to minutes played), 2) transformation (football knowledge as well as the skewness of the distribution of some count variables indicates that transformation should be used to decrease the effective distance between higher values compared to the distances between lower values), 3) standardisation (in order to make within-variable variations comparable), and 4) variable weighting including variable selection. In a final pha...
Uploads
Papers by Serhat Akhanlı