WSTĘP
Systemy biologiczne można postrzegać jako systemy zarządzania informacją, z podstawowym zestawem instrukcji przechowywanym w DNA każdej komórki jako "geny". W przypadku większości genów ich informacje są włączane, gdy są one transkrybowane do RNA, które jest następnie tłumaczone na białka, które tworzą znaczną część maszynerii komórki. Chociaż szczegóły procesu dla poszczególnych genów są znane, bardziej złożone interakcje między elementami nie zostały jeszcze odkryte. Wiemy, że choroby mogą być wynikiem zmian w samych genach, w kodowanych przez nie białkach lub jeśli RNA lub białka są wytwarzane w niewłaściwym czasie lub w niewłaściwych ilościach. Ostatnie postępy w biotechnologii doprowadziły do opracowania mikromacierzy DNA, które ilościowo mierzą ekspresję tysięcy genów jednocześnie i dostarczają migawkę reakcji komórki na konkretny stan. Znalezienie wzorców ekspresji genów, które dostarczają wglądu w biologiczne punkty końcowe, oferuje ogromne możliwości zrewolucjonizowania diagnostyki i medycyny prognostycznej oraz zapewnienia mechanistycznego wglądu w badania oparte na danych w naukach o życiu, obszarze, w którym istnieje duże zapotrzebowanie na postęp, biorąc pod uwagę pilność związaną z chorobami. Jednak analiza danych z mikromacierzy stwarza szereg wyzwań, od zaszumionych danych po przekleństwo wymiarowości (duża liczba cech, mała liczba wystąpień) po problemy bez jasnych rozwiązań (np. mapowania genów w świecie rzeczywistym na cechy lub choroby, które nie są jeszcze znane). Znalezienie wzorców ekspresji genów w danych z mikromacierzy stwarza problemy związane z odkrywaniem klas, porównywaniem, przewidywaniem i analizą sieci, do których często podchodzi się za pomocą metod sztucznej inteligencji. Wiele z tych metod zostało pomyślnie zastosowanych do analizy danych z mikromacierzy w różnych zastosowaniach, od grupowania wzorców ekspresji genów drożdży po klasyfikację różnych typów białaczki. Metody uczenia się bez nadzoru (np. klasteryzacja hierarchiczna) eksplorują klastry w danych i były używane do odkrywania klas odrębnych form rozlanego chłoniaka z dużych komórek B. Metody uczenia się bez nadzoru (np. sztuczne sieci neuronowe) wykorzystują wcześniej określone mapowanie między próbkami biologicznymi i klasami (tj. etykietami) w celu generowania modeli do przewidywania klas. Podejście k-najbliższych sąsiadów (k-NN) zostało użyte do trenowania klasyfikatora ekspresji genów różnych form guzów mózgu, a jego przewidywania były w stanie odróżnić próbki biopsji o różnym rokowaniu, co sugeruje, że profile mikromacierzy mogą przewidywać wynik kliniczny i kierować leczeniem. Sieci bayesowskie zbudowane z danych mikromacierzy rokują nadzieję na wyjaśnienie podstawowych mechanizmów biologicznych choroby
KONTEKST
Komórki dynamicznie reagują na swoje środowisko, zmieniając zestaw i stężenia aktywnych genów poprzez zmianę powiązanej ekspresji RNA. Tak więc "ekspresja genu" jest jednym z głównych czynników determinujących stan komórki lub fenotyp. Na przykład możemy zbadać różnice między komórką normalną a komórką nowotworową, badając ich względne profile ekspresji genów. Mikromacierze określają ilościowo poziomy ekspresji genów w różnych warunkach (takich jak choroba vs. normalna) lub w różnych punktach czasowych. Dla n genów i m wystąpień (próbek biologicznych) pomiary mikromacierzy są przechowywane w macierzy n na m, gdzie każdy wiersz jest genem, każda kolumna jest próbką, a każdy element w macierzy jest poziomem ekspresji genu w próbce biologicznej, gdzie próbki są wystąpieniami, a geny są cechami opisującymi te wystąpienia. Dane z mikromacierzy są dostępne w wielu publicznych repozytoriach online. Ponadto repozytorium Kent-Ridge zawiera wstępnie sformatowane dane gotowe do użycia w znanym narzędziu do uczenia maszynowego Weka. Dane z mikromacierzy stwarzają pewne wyjątkowe wyzwania dla AI, takie jak poważny przypadek klątwy wymiarowości z powodu niedoboru próbek biologicznych (instancji). Badania z mikromacierzy zazwyczaj mierzą dziesiątki tysięcy genów w zaledwie dziesiątkach próbek. Ten niski stosunek przypadków do zmiennych zwiększa ryzyko wykrycia fałszywych relacji. Problem ten jest zaostrzony, ponieważ dane z mikromacierzy zawierają wiele źródeł zmienności wewnątrzklasowej, zarówno technicznych, jak i biologicznych. Wysoki poziom wariancji i mała wielkość próby utrudniają wybór cech. Testowanie tysięcy genów stwarza problem wielokrotnego testowania, co może skutkować niedoszacowaniem liczby fałszywie pozytywnych wyników. Biorąc pod uwagę dane z tymi ograniczeniami, konstruowanie modeli staje się niedookreślone i w związku z tym podatne na nadmierne dopasowanie. Z biologii jasno wynika również, że geny nie działają niezależnie. Geny oddziałują na siebie w formie ścieżek lub sieci regulacji genów. Z tego powodu potrzebujemy modeli, które można interpretować w kontekście ścieżek. Naukowcy z powodzeniem zastosowali metody AI do wstępnego przetwarzania danych z mikromacierzy, grupowania, wyboru cech, klasyfikacji i analizy sieci.
GÓRNICTWO DANYCH Z MIKROMACIERZY: AKTUALNE TECHNIKI, WYZWANIA I MOŻLIWOŚCI DLA PRZETWARZANIA WSTĘPNEGO DANYCH AI
Po uzyskaniu danych z mikromacierzy przeprowadzana jest normalizacja w celu uwzględnienia systematycznych błędów pomiaru i ułatwienia porównań między próbkami. Dane z mikromacierzy mogą zawierać brakujące wartości, które mogą zostać zastąpione przez zastąpienie średniej lub imputację k-NN.
Selekcja cech
Celem selekcji cech jest znalezienie genów (cech), które najlepiej odróżniają grupy instancji (np. choroba vs. normalność), aby zmniejszyć wymiarowość zbioru danych. Kilka metod statystycznych, w tym test t, analiza istotności mikromacierzy (SAM) i analiza wariancji (ANOVA) zostało zastosowanych do selekcji cech z danych z mikromacierzy. W eksperymentach klasyfikacyjnych metody selekcji cech mają na celu zazwyczaj identyfikację odpowiednich podzbiorów genów w celu skonstruowania klasyfikatora o dobrej wydajności. Cechy są uważane za istotne, gdy mogą wpłynąć na klasę; silnie istotne są niezbędne do przewidywania, a słabo istotne mogą tylko czasami przyczyniać się do przewidywania. Metody filtrowania oceniają podzbiory cech niezależnie od zastosowanego konkretnego algorytmu uczenia się. Omówione powyżej metody statystyczne do selekcji cech, a także rankery, takie jak rankery zysku informacji, są filtrami dla cech, które mają zostać uwzględnione. Metody te ignorują fakt, że mogą istnieć redundantne cechy (cechy, które są silnie skorelowane ze sobą i jako takie mogą być użyte do zastąpienia innych), a zatem nie starają się znaleźć zestawu cech, który mógłby działać podobnie przy mniejszej liczbie zmiennych, zachowując jednocześnie tę samą moc predykcyjną. Z tego powodu metody wielowymiarowe są bardziej odpowiednie. Alternatywnie, wrappery traktują algorytm uczenia się jako czarną skrzynkę i wykorzystują dokładność przewidywania do oceny podzbiorów cech. Wrappery są bardziej bezpośrednie niż metody filtrów, ale zależą od konkretnego użytego algorytmu uczenia się. Złożoność obliczeniowa związana z wrapperami jest zaporowa z powodu klątwy wymiarowości, więc zazwyczaj filtry są używane z selekcją do przodu (rozpoczynając od pustego zestawu i dodając cechy pojedynczo) zamiast eliminacji wstecznej (rozpoczynając od wszystkich cech i usuwając je pojedynczo). Podejścia redukcji wymiarów są również używane do wielowymiarowej selekcji cech
Podejścia do redukcji wymiarów
Analiza głównych składowych (PCA) jest szeroko stosowana do redukcji wymiarów w uczeniu maszynowym . Idea stojąca za PCA jest dość intuicyjna: skorelowane obiekty można łączyć w celu zmniejszenia "wymiarowości" danych. Relacje między profilami ekspresji genów w macierzy danych można wyrazić jako kombinację liniową, tak aby zmienne współliniowe były regresowane do nowego zestawu współrzędnych. PCA, jej podstawowa metoda Single Value Decomposition (SVD), powiązane podejścia, takie jak analiza korespondencji (COA) i skalowanie wielowymiarowe (MDS), zostały zastosowane do danych z mikromacierzy i zostały omówione przez Brazmę i Culhane′a . Badania wykazały, że COA lub inne podejścia do redukcji wymiarów z podwójnym skalowaniem, takie jak analiza mapy widmowej, mogą być bardziej odpowiednie niż PCA do dekompozycji danych z mikromacierzy. Podczas gdy PCA bierze pod uwagę wariancję całego zestawu danych, podejścia klastrowania badają odległość parami między instancjami lub cechami. Dlatego te metody są komplementarne i często obie są stosowane w eksploracyjnej analizie danych. Jednak trudności w interpretacji wyników w kategoriach dyskretnych genów ograniczają zastosowanie tych metod.
Klastrowanie
To, co postrzegamy jako jedną chorobę, jest często zbiorem podtypów chorób. Odkrywanie klas ma na celu odkrycie tych podtypów poprzez znalezienie grup przypadków o podobnych wzorcach ekspresji. Klastrowanie hierarchiczne jest metodą aglomeracyjną, która zaczyna się od pojedynczego przypadku i grupuje podobne punkty danych przy użyciu pewnej miary odległości, tak aby dwa najbardziej podobne punkty danych były grupowane razem w klaster, czyniąc je dziećmi węzła nadrzędnego w drzewie. Proces ten jest powtarzany w sposób oddolny, aż wszystkie punkty danych będą należały do jednego klastra (odpowiadającego korzeniowi drzewa). Hierarchiczne i inne podejścia do klasteryzacji, w tym K-means, zostały zastosowane do danych z mikromacierzy. Klastrowanie hierarchiczne zostało zastosowane do badania ekspresji genów w próbkach od pacjentów z rozlanym chłoniakiem z dużych komórek B (DLBCL), co doprowadziło do odkrycia dwóch podtypów choroby. Grupy te zostały znalezione poprzez analizę danych z mikromacierzy z próbek biopsji pacjentów, którzy nie byli wcześniej leczeni. Ci pacjenci byli nadal badani po chemioterapii, a naukowcy odkryli, że dwa nowo odkryte podtypy choroby miały różne wskaźniki przeżywalności, co potwierdza hipotezę, że podtypy miały znacząco różne patologie (Alizadeh i in., 2000). Podczas gdy klasteryzacja po prostu grupuje dane na podstawie odległości parami, gdy informacje są znane a priori na temat niektórych lub wszystkich danych, tj. etykiet, można zastosować podejście nadzorowane w celu uzyskania klasyfikatora, który może przewidzieć etykietę nowych przypadków.
Klasyfikacja (uczenie nadzorowane)
Duża wymiarowość danych z mikromacierzy oznacza, że wszystkie metody klasyfikacji są podatne na nadmierne dopasowanie. Do danych z mikromacierzy zastosowano kilka nadzorowanych podejść, w tym sztuczne sieci neuronowe (ANN), maszyny wektorów nośnych (SVM) i k-NN. Bardzo trudnym i klinicznie istotnym problemem jest dokładna diagnoza pierwotnego pochodzenia guzów przerzutowych. Bloom i inni zastosowali ANN do danych z mikromacierzy 21 typów guzów z dokładnością 88%, aby przewidzieć pierwotne miejsce pochodzenia nowotworów przerzutowych o nieznanym pochodzeniu. Klasyfikacja na poziomie 84% została uzyskana w niezależnym zestawie testowym, co ma ważne implikacje dla diagnozowania pochodzenia raka i kierowania terapią. W porównaniu różnych podejść SVM, wielokategorialne SVM okazały się skuteczniejsze od innych popularnych algorytmów uczenia maszynowego, takich jak k-NN i ANN , gdy zastosowano je do 11 publicznie dostępnych zestawów danych mikromacierzy związanych z rakiem. Warto zauważyć, że wybór cech może znacząco poprawić wydajność klasyfikacji.
Walidacja krzyżowa
Walidacja krzyżowa (CV) jest odpowiednia w badaniach mikromacierzowych, które są często ograniczone liczbą wystąpień (np. próbek pacjentów). W k-krotnym CV zbiór treningowy jest dzielony na k podzbiorów o równej wielkości. W każdej iteracji k-1 podzbiorów jest używanych do treningu, a jeden podzbiór jest używany do testowania. Ten proces jest powtarzany k razy, a średnia dokładność jest raportowana. Niestety, niektóre opublikowane badania stosowały CV tylko częściowo, stosując CV do tworzenia reguły predykcji, wykluczając jednocześnie wybór cech. Wprowadza to stronniczość w szacowanych współczynnikach błędów i przecenia dokładność klasyfikacji. W rezultacie wyniki wielu badań są kontrowersyjne ze względu na wady metodologiczne. Dlatego modele muszą być ostrożnie oceniane, aby zapobiec stronniczości wyboru. Zalecane jest zagnieżdżone CV, z wewnętrzną pętlą CV do wykonywania strojenia parametrów i zewnętrzną CV do obliczania szacunkowego błędu. Kilka badań, które badały podobne problemy biologiczne, wykazało słabe nakładanie się sygnatur ekspresji genów. Brenton i inni porównali dwie listy genów przewidujące rokowanie raka piersi i znaleźli tylko 3 wspólne geny. Mimo że przecięcie się określonych list genów jest słabe, wysoce skorelowana natura danych z mikromacierzy oznacza, że wiele list genów może mieć podobną dokładność przewidywania. Wykazano, że sygnatury genów zidentyfikowane w różnych badaniach nad rakiem piersi z niewielką liczbą wspólnych genów mają porównywalny sukces w przewidywaniu przeżycia pacjentów. Powszechnie stosowane algorytmy uczenia nadzorowanego dają modele czarnej skrzynki, co powoduje potrzebę interpretowalnych modeli, które dostarczają wglądu w podstawowy mechanizm biologiczny, który wytworzył dane.
Analiza sieci
Sieci bayesowskie (BN), wywodzące się z sojuszu teorii grafów i teorii prawdopodobieństwa, mogą uchwycić zależności między wieloma zmiennymi . Friedman i inni wprowadzili wielomianowy model ramowy dla BN w celu inżynierii wstecznej sieci i pokazali, że ta metoda różni się od klasteryzacji tym, że może odkryć interakcje genów inne niż korelacja, gdy jest stosowana do danych ekspresji genów drożdży. Spirtes i inni podkreślają niektóre trudności związane ze stosowaniem tego podejścia do danych z mikromacierzy. Niemniej jednak zbadano wiele rozszerzeń tego kierunku badań. Korelacja nie jest koniecznie dobrym predyktorem interakcji, a słabe interakcje są niezbędne do zrozumienia postępu choroby. Identyfikacja biologicznie znaczących interakcji od pozornych jest trudna, a BN są szczególnie dobrze przystosowane do modelowania stochastycznych procesów biologicznych. Wykładniczy wzrost danych generowanych przez technologię mikromacierzy, a także innych danych o wysokiej przepustowości (np. interakcji białko-białko), wymaga nowych podejść do sztucznej inteligencji, ponieważ paradygmat nauk o życiu zmienia się z redukcjonistycznego na mechanistyczny, skupiający się na systemach.
PRZYSZŁE TRENDY
Odkrycie podstawowych mechanizmów biologicznych, które generują te dane, jest trudniejsze niż przewidywanie i może mieć daleko idące implikacje dla zrozumienia etiologii chorób. Analiza szeregów czasowych (Bar-Joseph, 2004) jest pierwszym krokiem do zrozumienia dynamiki regulacji genów, ale ostatecznie musimy wykorzystać tę technologię nie tylko do obserwacji danych dotyczących ekspresji genów, ale także do kierowania eksperymentami interwencyjnymi i opracowania metod badania podstawowego problemu odróżniania korelacji od związku przyczynowo-skutkowego.
WNIOSEK
Przeanalizowaliśmy metody sztucznej inteligencji do wstępnego przetwarzania, klastrowania, wyboru cech, klasyfikacji i analizy mechanistycznej danych z mikromacierzy. Klastry, listy genów, odciski palców molekularnych i hipotezy sieciowe wytworzone przez te podejścia wykazały już wpływ; od odkrywania nowych podtypów chorób i markerów biologicznych, przewidywania wyników klinicznych w celu ukierunkowania leczenia, a także rozwikłania sieci genów. Z perspektywy sztucznej inteligencji dziedzina ta stwarza trudne problemy i może mieć ogromny wpływ na biologię i medycynę.