Przydatność wybranych miar podobieństwa dla danych binarnych do analiz wielocechowych w badaniach molekularnych

Dariusz R. Mańkowski

d.mankowski@ihar.edu.pl
Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin, Zakład Nasiennictwa i Nasionoznawstwa, Instytut Hodowli i Aklimatyzacji Roślin — Państwowy Instytut Badawczy w Radzikowie (Poland)
https://orcid.org/0000-0002-7499-8016

Zbigniew Laudański


Katedra Ekonometrii i Statystyki, Wydział Zastosowań Informatyki i Matematyki, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie (Poland)

Monika Janaszek


Katedra Podstaw Inżynierii, Wydział Inżynierii Produkcji, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie (Poland)

Abstrakt

W pracy przedstawiono możliwości wykorzystania ośmiu miar podobieństwa genetycznego w analizie danych binarnych, będących matematycznym obrazem żeli elektroforetycznych uzyskiwanych w badaniach molekularnych. Scharakteryzowano miary zgodności (Gowera), Jaccarda, Nei’a i Li (Dice’a), Hamanna, Ochiai, współczynnik Y Yule’a, współczynnik Q Yule’a oraz zero-jedynkowy odpowiednik współczynnika korelacji Pearsona (phi 4-point correlation). Na przykładzie analizy porównawczej 14 odmian marchwi jadalnej (Daucus carota L.) przedstawiono wykorzystanie tych miar w analizach wielocechowych — analizie skupień metodą UPGMA oraz analizie głównych współrzędnych PCoA. Przedstawiono i omówiono wyniki przeprowadzonych analiz oraz opisano różnice pomiędzy nimi. Porównano istniejące w literaturze miary podobieństwa dla danych molekularnych pod względem zgodności wyników uzyskiwanych z analiz statystycznych.


Słowa kluczowe:

dane binarne, analizy molekularne, miary podobieństwa, PCoA, analiza skupień, marchew jadalna

Backhaus K., Erichson B., Plinke W., Weiber R. 2000. Multivariaten Analysemethoden. Eine anwendungsorientierte Einführung. Springer, Berlin.
Google Scholar

Caliński T., Harabasz J. S. 1974. A dendrite method for cluster analysis. Communications in Statistics, vol. 3: 1 — 27.
Google Scholar

Chudzik H., Karoński M. 1979. Skupianie obserwacji metodą k-średnich. Roczniki AR w Poznaniu, Algorytmy Biomedyczne i Statystyczne, 78: 133 — 152.
Google Scholar

Davis L. G., Dibner M. D., Battey J. F. 1986. Basic methods in molecular biology. Elsevier Sci. Publ., New York: 42 — 43.
Google Scholar

Díaz-Perales A., Linacero R., Vázquez A. M. 2002. Analysis of genetic relationships among 22 European barley varieties based on two PCR markers. Euphytica, 129: 53 — 60.
Google Scholar

Dice L. R. 1945. Measures of the amount of ecologic association between species. Ecology, 26: 297 — 302.
Google Scholar

Duda R. O., Hart P. E. 1973. Pattern Classification and Scene Analysis. New York: John Wiley & Sons.
Google Scholar

Goodman M. M. 1972. Distance analysis in biology. Syst. Zool.: 174 — 186.
Google Scholar

Gower J. C. 1966. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53: 325 — 338.
Google Scholar

Gower J. C. 1971. A general coefficient of similarity and some of its properties. Biometrics, 27: 857 — 874.
Google Scholar

Gower J. C. 1985. Measures of similarity, dissimilarity and distances. In: Klotz S. et al. (ed.), Encyclopedia of statistical sciences. Vol. 5. Wiley & Sons, New York, USA.
Google Scholar

Gower J. C., Legendre P. 1986. Metric and Euclidean properties of dissimilarity coefficients. J. Classification, 3: 5 — 48.
Google Scholar

Guilford J. 1936. Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
Google Scholar

Guthridge K. M., Dupal M. P., Kölliker R., Jones E. S., Smith K. F., Forster J. W. 2001. AFLP analysis of genetic diversity within and between populations of perennial ryegrass (Lolium perenne L.). Euphytica, 122: 191 — 201.
Google Scholar

Hamann U. 1961: Merkmalsbestand und Verwandtschafsbeziehungen der farinosae. Ein Beitrag zum System der Monokotyledonen. Willdenowia, 2: 639 — 768.
Google Scholar

Harabasz J. S., Karoński M. 1977. Dendrytowa metoda analizy skupień. Roczniki AR w Poznaniu, Algorytmy Biomedyczne i Statystyczne, 57: 135 — 148.
Google Scholar

Hotelling H. 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24: 417 — 441, 498 — 520.
Google Scholar

Huang X.-Q., Wolf M., Ganal M. W., Orford S., Koebner R. M. D., Röder M. S. 2007. Did modern plant breeding lead to genetic erosion in European winter wheat varieties? Crop Sci., 47: 343 — 349.
Google Scholar

Jaccard P. 1908. Nouvelles recherches sur la distribution florae. Bull. Soc. Vaud. Sci. Nat., 44: 223 — 270.
Google Scholar

Janaszek M. 2008. Identyfikacja cech korzeni marchwi jadalnej z wykorzystaniem komputerowej analizy obrazów. SGGW, Warszawa, rozprawa doktorska.
Google Scholar

Kaczmarek Z., Czajka S., Adamska E. 2008. Propozycja metody grupowania obiektów jedno i wielocechowych z zastosowaniem odległości Mahalanobisa i analizy skupień. Biuletyn IHAR, Nr 249: 9 — 18.
Google Scholar

Karoński M. 1971. Algorytm grupowania populacji w rozkładach metodą krok po kroku. Roczniki AR w Poznaniu, Algorytmy Biomedyczne i Statystyczne, 4: 30 — 33.
Google Scholar

Kenkel N. C. 2006. On selecting an appropriate multivariate analysis. Canadian Journal of Plant Science, 86: 663 — 676.
Google Scholar

Krzanowski W. J. 2004. Biplots for multifactorial analysis of distance. Biometrics, 60: 517 — 524.
Google Scholar

Lance G. M., Williams W. T. 1967. A general theory of classificatory sorting strategies. Hierarchical Systems, Computer Journal, 9: 373 — 380.
Google Scholar

Laudański Z., Mańkowski D. R. 2007. Planowanie i wnioskowanie statystyczne w badaniach rolniczych. IHAR Radzików.
Google Scholar

Lienert G. A., von Eye A. 1986. Yule-Coefficients for Second- and Higher-Order Associations. Biometrical Journal, 28: 539 — 545.
Google Scholar

Liu F., von Bothmer R., Salomon B. 2000. Genetic diversity in European accessions of the barley core collection as detected by isozyme electrophoresis. Genetic Resources and Crop Evolution, 47: 571 — 581.
Google Scholar

Manimekalai R., Nagarajan P. 2006. Interrelationships among coconut (Cocos nucifera L.) accessions using RAPD technique. Genetic Resources and Crop Evolution, 53: 1137 — 1144.
Google Scholar

Mc Queen J. B. 1966. Some methods for classification and analysis of multivariate observations. Proc. Fifth Barkeley Symposium on Mathematical Statistics and Probability Theory. Barkeley University of California Press, vol.1: 281 — 287.
Google Scholar

Moncada K. M., Ehlke N. J., Muehlbauer G. J., Sheaffer C. C., Wyse D. L., DeHaan L. R., 2007. Genetic variation in three native plant species across the State of Minnesota. Crop Sci., 47: 2379 — 2389.
Google Scholar

Nei M. 1978. The theory of genetic distance and evolution of human races. Jpn. J. Hum. Genet., 23: 341 — 369.
Google Scholar

Nei M., Li W. H. 1979. Mathematical model for studying genetic variation in terms of restriction endonucleases. Proc. Natl. Acad. Sci. USA, 76: 5269 — 5273.
Google Scholar

Ochiai A. 1957. Zoographic studies on the soleoid fishes found in Japan and its neighboring regions. Bull. Japan Soc. Sci. Fish., 22: 526 — 530.
Google Scholar

Rafalski A. 2004.Semi-specyficzny PCR w badaniach genetyczno-hodowlanych roślin. Monografie i Rozprawy Naukowe IHAR, Nr 23.
Google Scholar

Rao C. R. 1964. The use and interpretation of principal component analysis in applied research. Sankhyã, A26: 329 — 358.
Google Scholar

Reif J. C., Melcinger A. E., Frisch M. 2005. Genetical and mathematical properties of similarity and dissimilarity coefficients applied in plant breeding and seed bank management. Crop Science, 45: 1 — 7.
Google Scholar

Sarle W. S. 1983. Cubic Clustering Criterion. SAS Technical Report A-108, Cary, NC: SAS Institute Inc.
Google Scholar

SAS Institute Inc. 2009. SAS/STAT 9.2 user’s guide. Second edition. SAS Institute Inc., Cary, NC, USA.
Google Scholar

Siatkowski I., Goszczurna T., Szabelska A., Zyprych J. 2010. Coefficients of dissimilarity and similarity with application. Colloquium Biometricum, 40: 13 — 23.
Google Scholar

Sieczko L. 2003. Kryteria wstępnego przecięcia dendrogramu w hierarchicznej analizie skupień. Colloquium Biometryczne, 33: 249 — 258.
Google Scholar

Sneath P. H. A., Sokal R. R. 1973. Numerical taxonomy. Freeman, San Francisco.
Google Scholar

Sokal R. R., Michener C. D. 1958. A statistical method for evaluating systemic relationships. University of Kansas Science Bulletin, 38: 1409 — 1438.
Google Scholar

Takezaki N., Nei M. 1996. Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA. Genetics, 144: 389 — 399.
Google Scholar

Timm N. H. 2002. Applied multivariate analysis. New York, USA: Springer-Verlag Inc.
Google Scholar

Pobierz


Opublikowane
12/29/2011

Cited By / Share

Mańkowski, D. R., Laudański, Z. i Janaszek, M. (2011) „Przydatność wybranych miar podobieństwa dla danych binarnych do analiz wielocechowych w badaniach molekularnych ”, Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin, (262), s. 155–173. doi: 10.37317/biul-2011-0014.

Autorzy

Dariusz R. Mańkowski 
d.mankowski@ihar.edu.pl
Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin, Zakład Nasiennictwa i Nasionoznawstwa, Instytut Hodowli i Aklimatyzacji Roślin — Państwowy Instytut Badawczy w Radzikowie Poland
https://orcid.org/0000-0002-7499-8016

Autorzy

Zbigniew Laudański 

Katedra Ekonometrii i Statystyki, Wydział Zastosowań Informatyki i Matematyki, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Poland

Autorzy

Monika Janaszek 

Katedra Podstaw Inżynierii, Wydział Inżynierii Produkcji, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Poland

Statystyki

Abstract views: 89
PDF downloads: 59


Licencja

Prawa autorskie (c) 2011 Dariusz R. Mańkowski, Zbigniew Laudański, Monika Janaszek

Creative Commons License

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.

Z chwilą przekazania artykułu, Autorzy udzielają Wydawcy niewyłącznej i nieodpłatnej licencji na korzystanie z artykułu przez czas nieokreślony na terytorium całego świata na następujących polach eksploatacji:

  1. Wytwarzanie i zwielokrotnianie określoną techniką egzemplarzy artykułu, w tym techniką drukarską oraz techniką cyfrową.
  2. Wprowadzanie do obrotu, użyczenie lub najem oryginału albo egzemplarzy artykułu.
  3. Publiczne wykonanie, wystawienie, wyświetlenie, odtworzenie oraz nadawanie i reemitowanie, a także publiczne udostępnianie artykułu w taki sposób, aby każdy mógł mieć do niego dostęp w miejscu i w czasie przez siebie wybranym.
  4. Włączenie artykułu w skład utworu zbiorowego.
  5. Wprowadzanie artykułu w postaci elektronicznej na platformy elektroniczne lub inne wprowadzanie artykułu w postaci elektronicznej do Internetu, lub innej sieci.
  6. Rozpowszechnianie artykułu w postaci elektronicznej w internecie lub innej sieci, w pracy zbiorowej jak również samodzielnie.
  7. Udostępnianie artykułu w wersji elektronicznej w taki sposób, by każdy mógł mieć do niego dostęp w miejscu i czasie przez siebie wybranym, w szczególności za pośrednictwem Internetu.

Autorzy poprzez przesłanie wniosku o publikację:

  1. Wyrażają zgodę na publikację artykułu w czasopiśmie,
  2. Wyrażają zgodę na nadanie publikacji DOI (Digital Object Identifier),
  3. Zobowiązują się do przestrzegania kodeksu etycznego wydawnictwa zgodnego z wytycznymi Komitetu do spraw Etyki Publikacyjnej COPE (ang. Committee on Publication Ethics), (http://ihar.edu.pl/biblioteka_i_wydawnictwa.php),
  4. Wyrażają zgodę na udostępniane artykułu w formie elektronicznej na mocy licencji CC BY-SA 4.0, w otwartym dostępie (open access),
  5. Wyrażają zgodę na wysyłanie metadanych artykułu do komercyjnych i niekomercyjnych baz danych indeksujących czasopisma.

Inne teksty tego samego autora

1 2 3 > >>