Skalowanie wielowymiarowe

badania statystyczne

Skalowanie wielowymiarowe może być używane do wizualizacji danych biologicznych w celu analizy i zrozumienia relacji między różnymi obiektami biologicznymi. Przykładowo, dane biologiczne mogą obejmować sekwencje DNA, profile ekspresji genów, interakcje białek lub charakterystyki populacji biologicznych.

 

Do czego służy skalowanie wielowymiarowe?

Skalowanie wielowymiarowe to metoda wizualizacji danych, często wykorzystywana w naukach biologicznych, ale nie tylko. Dzięki niej możliwe jest zwizualizowanie obiektów, których położenie wyznacza wiele współrzędnych. Umożliwia przeskalowanie – rzutowanie wektorów wielowymiarowych na dwuwymiarowe przy jednoczesnym zachowaniu odległości pomiędzy obiektami. Im punkty symbolizujące dane obiekty leżą bliżej siebie na wykresie, tym są one do siebie bardziej podobne pod względem badanej cechy (Hout M.C et al., 2012). Za pomocą skalowania wielowymiarowego można określić np. stopień pokrewieństwa pomiędzy różnymi osobnikami. W tym wypadku składowymi współrzędnych są położenia określonych genów w genomie danego osobnika. Dzięki temu każdy osobnik będzie symbolizowany na wykresie przez jeden punkt, na powstanie którego składać będzie się wiele różnych współrzędnych.

 

Jak wykonać skalowanie wielowymiarowe?

Skalowanie wielowymiarowe można wykonać w oparciu o macierze niepodobieństw Jaccarda, które w przypadku danych dotyczących określonych genów, będą zawierały informacje o ich występowaniu w tych samych regionach genomu u poszczególnych osobników. Chcąc wygenerować współrzędne punktów można wykorzystać np.  funkcję cmdscale z pakietu stats w języku R. Funkcja ta pobiera dane z macierzy niepodobieństw Jaccarda i na ich podstawie zwraca zbiór punktów, w taki sposób, że odległości pomiędzy poszczególnymi punktami równe są miarom niepodobieństw pomiędzy osobnikami (RDocumentation Powered by DataCamp, 2023). Następnie, posługując się bibliotekami ggplot2data.table i dplyr w języku R, można wygenerować wykresy na podstawie wcześniej przygotowanych współrzędnych.

 

Jak interpetować otrzymane wyniki? 

Analiza wykresu powstałego dzięki wykorzystaniu skalowania wielowymiarowego nie jest trudna. Im punkty leżą na wykresie bliżej siebie, tym dane, które symbolizują są do siebie bardziej podobne. Wizualizacja danych za pomocą skalowania wielowymiarowego nie musi ograniczać się jedynie do przedstawienia kilku punktów na wykresie. W artykule C. Wang et al. (2010) stwierdzono, iż mapy statystyczne zmienności genetycznej populacji, oparte na genotypach, często przypominają mapy geograficzne pobierania miejsc próbek.

 

Skalowanie wielowymiarowe jest niezwykle pomocne w naukach biologicznych przy określaniu pokrewieństwa pomiędzy osobnikami. Interpretacja wykresów jest bardzo łatwa, dlatego jest ono chętnie wykorzystywane. Do jego wykonania można zastosować pakiety w językach R lub Python. Trzeba jedynie pamiętać o ich zainstalowaniu. Wykonanie analizy można również zlecić ekspertom z Centrum Badawczo-Rozojowego Biostat

 

 

 

Źródła:

  1. Hout M.C, Papesh M.H, Goldiger S. D., Multidimensional scaling, 2012
  2. C. Wang, i in. „Comparing Spatial Maps of Human Population-Genetic Variation Using Procrustes Analysis”, Statistical Applications in Genetics and Molecular Biology, vol. 9, issue 1, 1-22, 2010
  3. RDocumentation Powered by DataCamp, stats(version 3.6.2), cmdscale: Classical (Metric) Multidimensional Scaling
Najczęściej zadawane pytania
(FAQ)
Do czego służy skalowanie wielowymiarowe?

Skalowanie wielowymiarowe to metoda wizualizacji danych, która jest często wykorzystywana wielu dziedzinach. Pozwala zwizualizować obiekty, których położenie jest określane przez wiele współrzędnych. Skalowanie wielowymiarowe umożliwia rzutowanie wektorów wielowymiarowych na dwuwymiarowe, zachowując jednocześnie odległości między obiektami. 

Jak wykonać skalowanie wielowymiarowe?

Skalowanie wielowymiarowe można wykonać na podstawie macierzy niepodobieństw Jaccarda. Aby wygenerować współrzędne punktów, można użyć funkcji cmdscale z pakietu stats w języku R. Funkcja pobiera dane z macierzy niepodobieństw Jaccarda i zwraca zbiór punktów, w którym odległości między punktami odpowiadają miarom niepodobieństw między osobnikami. Następnie, korzystając z bibliotek ggplot2, data.table i dplyr w języku R, można wygenerować wykresy na podstawie wcześniej przygotowanych współrzędnych.

Zobacz także

Tagi

analiza statystyczna
Biostat. More than statistics.

ul. Kowalczyka 17
44-206 Rybnik

Tel: (+48) 32 42 21 707
Tel. kom.: (+48) 668 300 664
e-mail: biuro@biostat.com.pl

24h Sondaż Profesjonalne analizy statystyczne