Przydatność wybranych miar podobieństwa dla danych binarnych do analiz wielocechowych w badaniach molekularnych
Dariusz R. Mańkowski
d.mankowski@ihar.edu.plPracownia Ekonomiki Nasiennictwa i Hodowli Roślin, Zakład Nasiennictwa i Nasionoznawstwa, Instytut Hodowli i Aklimatyzacji Roślin — Państwowy Instytut Badawczy w Radzikowie (Poland)
https://orcid.org/0000-0002-7499-8016
Zbigniew Laudański
Katedra Ekonometrii i Statystyki, Wydział Zastosowań Informatyki i Matematyki, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie (Poland)
Monika Janaszek
Katedra Podstaw Inżynierii, Wydział Inżynierii Produkcji, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie (Poland)
Abstrakt
W pracy przedstawiono możliwości wykorzystania ośmiu miar podobieństwa genetycznego w analizie danych binarnych, będących matematycznym obrazem żeli elektroforetycznych uzyskiwanych w badaniach molekularnych. Scharakteryzowano miary zgodności (Gowera), Jaccarda, Nei’a i Li (Dice’a), Hamanna, Ochiai, współczynnik Y Yule’a, współczynnik Q Yule’a oraz zero-jedynkowy odpowiednik współczynnika korelacji Pearsona (phi 4-point correlation). Na przykładzie analizy porównawczej 14 odmian marchwi jadalnej (Daucus carota L.) przedstawiono wykorzystanie tych miar w analizach wielocechowych — analizie skupień metodą UPGMA oraz analizie głównych współrzędnych PCoA. Przedstawiono i omówiono wyniki przeprowadzonych analiz oraz opisano różnice pomiędzy nimi. Porównano istniejące w literaturze miary podobieństwa dla danych molekularnych pod względem zgodności wyników uzyskiwanych z analiz statystycznych.
Słowa kluczowe:
dane binarne, analizy molekularne, miary podobieństwa, PCoA, analiza skupień, marchew jadalnaBibliografia
Backhaus K., Erichson B., Plinke W., Weiber R. 2000. Multivariaten Analysemethoden. Eine anwendungsorientierte Einführung. Springer, Berlin.
Google Scholar
Caliński T., Harabasz J. S. 1974. A dendrite method for cluster analysis. Communications in Statistics, vol. 3: 1 — 27.
Google Scholar
Chudzik H., Karoński M. 1979. Skupianie obserwacji metodą k-średnich. Roczniki AR w Poznaniu, Algorytmy Biomedyczne i Statystyczne, 78: 133 — 152.
Google Scholar
Davis L. G., Dibner M. D., Battey J. F. 1986. Basic methods in molecular biology. Elsevier Sci. Publ., New York: 42 — 43.
Google Scholar
Díaz-Perales A., Linacero R., Vázquez A. M. 2002. Analysis of genetic relationships among 22 European barley varieties based on two PCR markers. Euphytica, 129: 53 — 60.
Google Scholar
Dice L. R. 1945. Measures of the amount of ecologic association between species. Ecology, 26: 297 — 302.
Google Scholar
Duda R. O., Hart P. E. 1973. Pattern Classification and Scene Analysis. New York: John Wiley & Sons.
Google Scholar
Goodman M. M. 1972. Distance analysis in biology. Syst. Zool.: 174 — 186.
Google Scholar
Gower J. C. 1966. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53: 325 — 338.
Google Scholar
Gower J. C. 1971. A general coefficient of similarity and some of its properties. Biometrics, 27: 857 — 874.
Google Scholar
Gower J. C. 1985. Measures of similarity, dissimilarity and distances. In: Klotz S. et al. (ed.), Encyclopedia of statistical sciences. Vol. 5. Wiley & Sons, New York, USA.
Google Scholar
Gower J. C., Legendre P. 1986. Metric and Euclidean properties of dissimilarity coefficients. J. Classification, 3: 5 — 48.
Google Scholar
Guilford J. 1936. Psychometric Methods. New York: McGraw–Hill Book Company, Inc.
Google Scholar
Guthridge K. M., Dupal M. P., Kölliker R., Jones E. S., Smith K. F., Forster J. W. 2001. AFLP analysis of genetic diversity within and between populations of perennial ryegrass (Lolium perenne L.). Euphytica, 122: 191 — 201.
Google Scholar
Hamann U. 1961: Merkmalsbestand und Verwandtschafsbeziehungen der farinosae. Ein Beitrag zum System der Monokotyledonen. Willdenowia, 2: 639 — 768.
Google Scholar
Harabasz J. S., Karoński M. 1977. Dendrytowa metoda analizy skupień. Roczniki AR w Poznaniu, Algorytmy Biomedyczne i Statystyczne, 57: 135 — 148.
Google Scholar
Hotelling H. 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24: 417 — 441, 498 — 520.
Google Scholar
Huang X.-Q., Wolf M., Ganal M. W., Orford S., Koebner R. M. D., Röder M. S. 2007. Did modern plant breeding lead to genetic erosion in European winter wheat varieties? Crop Sci., 47: 343 — 349.
Google Scholar
Jaccard P. 1908. Nouvelles recherches sur la distribution florae. Bull. Soc. Vaud. Sci. Nat., 44: 223 — 270.
Google Scholar
Janaszek M. 2008. Identyfikacja cech korzeni marchwi jadalnej z wykorzystaniem komputerowej analizy obrazów. SGGW, Warszawa, rozprawa doktorska.
Google Scholar
Kaczmarek Z., Czajka S., Adamska E. 2008. Propozycja metody grupowania obiektów jedno i wielocechowych z zastosowaniem odległości Mahalanobisa i analizy skupień. Biuletyn IHAR, Nr 249: 9 — 18.
Google Scholar
Karoński M. 1971. Algorytm grupowania populacji w rozkładach metodą krok po kroku. Roczniki AR w Poznaniu, Algorytmy Biomedyczne i Statystyczne, 4: 30 — 33.
Google Scholar
Kenkel N. C. 2006. On selecting an appropriate multivariate analysis. Canadian Journal of Plant Science, 86: 663 — 676.
Google Scholar
Krzanowski W. J. 2004. Biplots for multifactorial analysis of distance. Biometrics, 60: 517 — 524.
Google Scholar
Lance G. M., Williams W. T. 1967. A general theory of classificatory sorting strategies. Hierarchical Systems, Computer Journal, 9: 373 — 380.
Google Scholar
Laudański Z., Mańkowski D. R. 2007. Planowanie i wnioskowanie statystyczne w badaniach rolniczych. IHAR Radzików.
Google Scholar
Lienert G. A., von Eye A. 1986. Yule-Coefficients for Second- and Higher-Order Associations. Biometrical Journal, 28: 539 — 545.
Google Scholar
Liu F., von Bothmer R., Salomon B. 2000. Genetic diversity in European accessions of the barley core collection as detected by isozyme electrophoresis. Genetic Resources and Crop Evolution, 47: 571 — 581.
Google Scholar
Manimekalai R., Nagarajan P. 2006. Interrelationships among coconut (Cocos nucifera L.) accessions using RAPD technique. Genetic Resources and Crop Evolution, 53: 1137 — 1144.
Google Scholar
Mc Queen J. B. 1966. Some methods for classification and analysis of multivariate observations. Proc. Fifth Barkeley Symposium on Mathematical Statistics and Probability Theory. Barkeley University of California Press, vol.1: 281 — 287.
Google Scholar
Moncada K. M., Ehlke N. J., Muehlbauer G. J., Sheaffer C. C., Wyse D. L., DeHaan L. R., 2007. Genetic variation in three native plant species across the State of Minnesota. Crop Sci., 47: 2379 — 2389.
Google Scholar
Nei M. 1978. The theory of genetic distance and evolution of human races. Jpn. J. Hum. Genet., 23: 341 — 369.
Google Scholar
Nei M., Li W. H. 1979. Mathematical model for studying genetic variation in terms of restriction endonucleases. Proc. Natl. Acad. Sci. USA, 76: 5269 — 5273.
Google Scholar
Ochiai A. 1957. Zoographic studies on the soleoid fishes found in Japan and its neighboring regions. Bull. Japan Soc. Sci. Fish., 22: 526 — 530.
Google Scholar
Rafalski A. 2004.Semi-specyficzny PCR w badaniach genetyczno-hodowlanych roślin. Monografie i Rozprawy Naukowe IHAR, Nr 23.
Google Scholar
Rao C. R. 1964. The use and interpretation of principal component analysis in applied research. Sankhyã, A26: 329 — 358.
Google Scholar
Reif J. C., Melcinger A. E., Frisch M. 2005. Genetical and mathematical properties of similarity and dissimilarity coefficients applied in plant breeding and seed bank management. Crop Science, 45: 1 — 7.
Google Scholar
Sarle W. S. 1983. Cubic Clustering Criterion. SAS Technical Report A-108, Cary, NC: SAS Institute Inc.
Google Scholar
SAS Institute Inc. 2009. SAS/STAT 9.2 user’s guide. Second edition. SAS Institute Inc., Cary, NC, USA.
Google Scholar
Siatkowski I., Goszczurna T., Szabelska A., Zyprych J. 2010. Coefficients of dissimilarity and similarity with application. Colloquium Biometricum, 40: 13 — 23.
Google Scholar
Sieczko L. 2003. Kryteria wstępnego przecięcia dendrogramu w hierarchicznej analizie skupień. Colloquium Biometryczne, 33: 249 — 258.
Google Scholar
Sneath P. H. A., Sokal R. R. 1973. Numerical taxonomy. Freeman, San Francisco.
Google Scholar
Sokal R. R., Michener C. D. 1958. A statistical method for evaluating systemic relationships. University of Kansas Science Bulletin, 38: 1409 — 1438.
Google Scholar
Takezaki N., Nei M. 1996. Genetic distances and reconstruction of phylogenetic trees from microsatellite DNA. Genetics, 144: 389 — 399.
Google Scholar
Timm N. H. 2002. Applied multivariate analysis. New York, USA: Springer-Verlag Inc.
Google Scholar
Autorzy
Dariusz R. Mańkowskid.mankowski@ihar.edu.pl
Pracownia Ekonomiki Nasiennictwa i Hodowli Roślin, Zakład Nasiennictwa i Nasionoznawstwa, Instytut Hodowli i Aklimatyzacji Roślin — Państwowy Instytut Badawczy w Radzikowie Poland
https://orcid.org/0000-0002-7499-8016
Autorzy
Zbigniew LaudańskiKatedra Ekonometrii i Statystyki, Wydział Zastosowań Informatyki i Matematyki, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Poland
Autorzy
Monika JanaszekKatedra Podstaw Inżynierii, Wydział Inżynierii Produkcji, Szkoła Główna Gospodarstwa Wiejskiego w Warszawie Poland
Statystyki
Abstract views: 89PDF downloads: 59
Licencja
Prawa autorskie (c) 2011 Dariusz R. Mańkowski, Zbigniew Laudański, Monika Janaszek
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.
Z chwilą przekazania artykułu, Autorzy udzielają Wydawcy niewyłącznej i nieodpłatnej licencji na korzystanie z artykułu przez czas nieokreślony na terytorium całego świata na następujących polach eksploatacji:
- Wytwarzanie i zwielokrotnianie określoną techniką egzemplarzy artykułu, w tym techniką drukarską oraz techniką cyfrową.
- Wprowadzanie do obrotu, użyczenie lub najem oryginału albo egzemplarzy artykułu.
- Publiczne wykonanie, wystawienie, wyświetlenie, odtworzenie oraz nadawanie i reemitowanie, a także publiczne udostępnianie artykułu w taki sposób, aby każdy mógł mieć do niego dostęp w miejscu i w czasie przez siebie wybranym.
- Włączenie artykułu w skład utworu zbiorowego.
- Wprowadzanie artykułu w postaci elektronicznej na platformy elektroniczne lub inne wprowadzanie artykułu w postaci elektronicznej do Internetu, lub innej sieci.
- Rozpowszechnianie artykułu w postaci elektronicznej w internecie lub innej sieci, w pracy zbiorowej jak również samodzielnie.
- Udostępnianie artykułu w wersji elektronicznej w taki sposób, by każdy mógł mieć do niego dostęp w miejscu i czasie przez siebie wybranym, w szczególności za pośrednictwem Internetu.
Autorzy poprzez przesłanie wniosku o publikację:
- Wyrażają zgodę na publikację artykułu w czasopiśmie,
- Wyrażają zgodę na nadanie publikacji DOI (Digital Object Identifier),
- Zobowiązują się do przestrzegania kodeksu etycznego wydawnictwa zgodnego z wytycznymi Komitetu do spraw Etyki Publikacyjnej COPE (ang. Committee on Publication Ethics), (http://ihar.edu.pl/biblioteka_i_wydawnictwa.php),
- Wyrażają zgodę na udostępniane artykułu w formie elektronicznej na mocy licencji CC BY-SA 4.0, w otwartym dostępie (open access),
- Wyrażają zgodę na wysyłanie metadanych artykułu do komercyjnych i niekomercyjnych baz danych indeksujących czasopisma.
Inne teksty tego samego autora
- Zbigniew Laudański, Dariusz R. Mańkowski, Leszek Sieczko, Próba oceny technologii uprawy pszenicy ozimej na podstawie danych ankietowych gospodarstw indywidualnych. Część II. Ocena technologii uprawy , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 244 (2007): Wydanie regularne
- Dariusz R. Mańkowski, Zbigniew Laudański, Postęp biologiczny w hodowli, nasiennictwie i produkcji ziemniaka w Polsce. Część II. Ocena ilościowego postępu hodowlanego i odmianowego na podstawie doświadczeń odmianowych z lat 1957–2003 , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 251 (2009): Wydanie regularne
- Leszek Domański, Dariusz R. Mańkowski, Bogdan Flis, Henryka Jakuczun, Ewa Zimnoch-Guzowska, Wielocechowa analiza różnorodności fenotypowej mieszańców ziemniaka uzyskanych z krzyżowań tetraploid × diploid , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 264 (2012): Wydanie regularne
- Zygmunt Kaczmarek, Dariusz R. Mańkowski, Wprowadzenie do statystycznych analiz wielozmiennych. Część II. Przykład zastosowania , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 259 (2011): Wydanie regularne
- Damian Gołębiewski, Kinga Myszka, Janusz Burek, Dariusz R. Mańkowski, Danuta Boros, Badania zmienności genetycznej i wpływu środowiska na cechy determinujące wartość browarną ziarna rodów jęczmienia jarego włączonych do badań przedrejestrowych w 2011 roku , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 263 (2012): Wydanie regularne
- Maria Prończuk, Jan Bojanowski, Roman Warzecha, Zbigniew Laudański, Badania nad odpornością kukurydzy na zgorzel podstawy łodyg. Część I. Ocena podatności odmian mieszańcowych w warunkach infekcji naturalnej , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 245 (2007): Wydanie regularne
- Dariusz R. Mańkowski, Zbigniew Laudański, Danuta Martyniak, Małgorzata Flaszka, Struktura wielocechowej zmienności odmianowej wiechliny łąkowej (Poa pratensis L.) , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 254 (2009): Wydanie regularne
- Dariusz R. Mańkowski, Zbigniew Laudański, Postęp biologiczny w hodowli, nasiennictwie i produkcji ziemniaka w Polsce. Część IV. Ocena postępu odmianowego pod względem odporności na patogeny , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 254 (2009): Wydanie regularne
- Dariusz R. Mańkowski, Zbigniew Laudański, Postęp biologiczny w hodowli, nasiennictwie i produkcji ziemniaka w Polsce. Część VI. Ocena postępu biologicznego na podstawie doświadczeń odmianowych i badań ankietowych , Biuletyn Instytutu Hodowli i Aklimatyzacji Roślin: Nr 254 (2009): Wydanie regularne