Jak wspomniano wcześniej, będziemy używać programu Gephi do wizualnego przeglądania naszych danych sieciowych. Jeśli już pobrałeś i zainstalowałeś Gephi, pierwszą rzeczą do zrobienia jest otwarcie aplikacji i załadowanie danych z Twittera. W tym przykładzie użyjemy sieci ego Drew na Twitterze, która znajduje się w katalogu code / data / drewconway / w tym rozdziale. Jeśli jednak wygenerowałeś własne dane na Twitterze, możesz ich użyć. Nie jest to bynajmniej pełne lub wyczerpujące wprowadzenie do wizualizacji sieci w Gephi. W tej sekcji wyjaśniono, jak wizualnie eksplorować struktury lokalnej społeczności danych ego-sieci na Twitterze. Gephi to solidny program do wizualizacji sieci, który zawiera wiele opcji analizy danych. W tej części wykorzystamy bardzo niewiele z tych możliwości, ale gorąco zachęcamy do zabawy z programem i zapoznania się z jego wieloma opcjami. Jednym świetnym miejscem do rozpoczęcia jest samouczek Gephi Szybki start, który jest dostępny online tutaj: http://gephi.org/
2010 / tutorial szybkiego startu /. Gdy Gephi jest otwarte, ładujesz sieć ego na pasku menu za pomocą Plik → Otwórz. Przejdź do katalogu Drawconway i otwórz plik drewconway_ego.graphml, as
pokazane w górnym panelu na rysunku
Po załadowaniu wykresu Gephi przekaże kilka podstawowych informacji o właśnie załadowanym pliku sieciowym. Dolny panel na ryc. 11-4 pokazuje ten raport, który zawiera liczbę węzłów (263) i krawędzi (6945). Jeśli klikniesz kartę Raport w tym oknie, zobaczysz również wszystkie dane atrybutów, które dodaliśmy do tej sieci. Szczególnie interesujące są atrybuty węzła HC *, które są hierarchicznymi etykietami partycji klastrowych dla pierwszych 10 nietrywialnych partycji. Pierwszą rzeczą, którą zauważysz, jest to, że Gephi ładuje sieć jako duży bałagan losowo rozmieszczonych węzłów, przerażające „sieciowe kłębowisko”. Wiele informacji o strukturze społeczności w sieci można wyrazić przez bardziej świadome rozmieszczenie tych węzłów. Metody i algorytmy umieszczania węzłów w dużych, złożonych sieciach są czymś w rodzaju chałupy; jako taki istnieje ogromna liczba sposobów, w jakie możemy zmienić rozmieszczenie węzłów. Do naszych celów chcemy, aby węzły z większą liczbą współużytkowanych połączeń były umieszczone bliżej siebie. Przypomnijmy, że nasza metoda klastrowania polegała na umieszczaniu węzłów w grupach na podstawie ich odległości od siebie. Węzły o krótszych odległościach zostaną zgrupowane razem i chcemy, aby nasza technika wizualizacji odzwierciedlała to. Jedna grupa popularnych metod umieszczania węzłów składa się z algorytmów „wymuszonych”.
Jak sama nazwa wskazuje, algorytmy te próbują symulować sposób rozmieszczenia węzłów, gdyby siła przyciągania i odpychania została umieszczona w sieci. Wyobraź sobie, że zniekształcony bałagan krawędzi między węzłami, które obecnie wyświetla Gephi, są w rzeczywistości elastycznymi pasmami, a węzły są łożyskami kulkowymi, które mogą utrzymywać ładunek magnetyczny. Algorytm kierowany siłą próbuje obliczyć, w jaki sposób węzły łożysk kulkowych odpychają się od siebie w wyniku ładunku, ale następnie są przyciągane przez elastyczne krawędzie. Rezultatem jest wizualizacja, która starannie łączy węzły razem w zależności od struktury lokalnej społeczności. Gephi zawiera wiele przykładów układów wymuszonych. W panelu Układ menu rozwijane zawiera wiele różnych opcji, z których niektóre są wymuszone. Do naszych celów wybieramy algorytm proporcjonalny Yifan Hu i używamy ustawień domyślnych. Po wybraniu tego algorytmu kliknij przycisk Uruchom, a zobaczysz, że Gephi przestawia węzły w sposób wymuszony. W zależności od rozmiaru sieci i używanego sprzętu może to zająć trochę czasu. Gdy węzły przestaną się poruszać, algorytm zoptymalizował ich rozmieszczenie i jesteśmy gotowi do przejścia. Aby łatwiej zidentyfikować społeczności lokalne w sieci i ich członków, zmienimy rozmiar i pokolorujemy węzły. Ponieważ sieć jest ukierunkowaną siecią ego, ustawimy rozmiar węzła jako funkcję stopni węzłów. To sprawi, że węzeł początkowy będzie największy, ponieważ prawie każdy członek sieci podąża za nim, a także zwiększy rozmiar innych wybitnych użytkowników w sieci ego. W panelu Rankingi kliknij kartę Węzły i wybierz InDegree z rozwijanego menu. Kliknij ikonę czerwonego diamentu, aby ustawić rozmiar; możesz ustawić minimalne i maksymalne rozmiary na dowolne. Jak widać w dolnej połowie rysunku 11-5, wybraliśmy odpowiednio 2 i 16 dla sieci Drew, ale inne ustawienia mogą działać lepiej dla Ciebie.
Po ustawieniu wartości kliknij przycisk Zastosuj, aby zmienić rozmiar węzłów. Ostatnim krokiem jest pokolorowanie węzłów według ich partycji społeczności. W panelu partycji, znajdującym się nad panelem rankingów, zobaczysz ikonę z dwiema przeciwnymi strzałkami. Kliknij to, aby odświeżyć listę partycji dla tego wykresu.
Po wykonaniu tej czynności menu rozwijane będzie zawierać dane atrybutów węzła, które uwzględniliśmy dla tych partycji. Jak pokazano w górnej połowie Ryc. 11-5, wybraliśmy HC8 lub ósmą partycję, która obejmuje partycję dla Drew (Drawconway) i siedem innych węzłów w jego sieci ego. Ponownie kliknij przycisk Zastosuj, a węzły zostaną pokolorowane według partycji. Natychmiast zobaczysz podstawową strukturę! Doskonałym sposobem na zobaczenie, jak dana sieć zaczyna pękać na mniejsze społeczności, jest przejście przez partycje hierarchicznego klastra. Jako ćwiczenie sugerujemy zrobienie tego w Gephi poprzez iteracyjne ponowne kolorowanie węzłów przez coraz bardziej ziarniste partycje. Rozpocznij od HC2 i przejdź do HC10, za każdym razem ponownie kolorując węzły, aby zobaczyć, jak większe grupy zaczynają się dzielić. Dzięki temu dowiesz się wiele o podstawowej strukturze sieci. Rycina 11-6 pokazuje sieć ego Drew pokolorowaną HC8, która pięknie podkreśla strukturę społeczności lokalnej w jego sieci Twitter.
Drew wydaje się mieć zasadniczo cztery podstawowe podspołeczności. Z samym Drew w kolorze turkusowym pośrodku widzimy dwie ściśle powiązane grupy w kolorze czerwonym i fioletowym po jego lewej stronie; a dwie inne mniej ściśle powiązane podgrupy po jego prawej stronie są w kolorze niebieskim i zielonym. Istnieją oczywiście inne grupy w kolorze pomarańczowym, różowym i jasnozielonym, ale skupimy się na czterech podstawowych grupach. Na ryc. 11-7 skupiliśmy się na lewej stronie sieci i usunęliśmy krawędzie
aby ułatwić przeglądanie etykiet węzłów.
Szybko przeglądając nazwy Twittera w tym klastrze, jasne jest, że ta strona sieci Drew zawiera dane, które Ner śledzi na Twitterze. Po pierwsze, widzimy bardzo znanych frajerów danych, takich jak Tim O’Reilly (timoreilly) i Nathan Yau (Flowdata) w kolorze jasnozielonym, ponieważ są nieco „własną ligą”. Grupy fioletowe i czerwone są również interesujące, ponieważ oba zawierają hakerów danych, ale są podzielone przez jeden kluczowy czynnik: przyjaciele Drew, którzy są w kolorze fioletowym, są wybitnymi członkami społeczności danych, takimi jak Hilary Mason (hmason), Pete Skomoroch ( peteskomoroch) i Jake Hofman (jakehofman), ale żaden z nich nie jest wokalistą społeczności R. Z drugiej strony, węzły w kolorze czerwonym są wokalnymi członkami społeczności R, w tym Hadley Wickham (hadleywickham), David Smith (revodavid) i Gary King (kinggary).
Co więcej, algorytmowi ukierunkowanemu siłą udało się umieścić te elementy blisko siebie i umieścić te, które znajdują się między tymi dwiema społecznościami na krawędziach. Widzimy Johna (johnmyleswhite) w kolorze fioletowym, ale umieszczonego z wieloma innymi czerwonymi węzłami. Jest tak, ponieważ John jest widoczny w obu społecznościach, a dane odzwierciedlają
- Inne przykłady to JD Long (cmastication) i Josh Reich (i2pi). Chociaż Drew spędza dużo czasu na interakcjach z członkami społeczności danych – zarówno z użytkownikami R, jak i innymi użytkownikami – Drew używa również Twittera do interakcji ze społecznościami, które zaspokajają jego inne zainteresowania. Jednym z zainteresowań jest w szczególności jego kariera naukowa, która koncentruje się na technologii i polityce bezpieczeństwa narodowego. Na ryc. 11-8 podkreślamy prawą stronę sieci Drew, która obejmuje członków z tych społeczności.
Podobnie jak grupa nerdów danych, obejmuje to dwie podgrupy, jedną w kolorze niebieskim i drugą w kolorze zielonym. Podobnie jak w poprzednim przykładzie kolor partycji i umiejscowienie węzła mogą wiele zilustrować ich rolę w sieci. Użytkownicy Twittera na niebieskiej partycji są rozproszeni: niektórzy są bliżej Drew i lewej strony sieci, inni są bardziej po prawej i blisko zielonej grupy. Dalej po lewej stronie są ludzie, którzy pracują lub mówią o roli technologii w bezpieczeństwie narodowym, w tym Sean Gourley (sgourley), Lewis Shepherd (lewisshepherd) i Jeffrey Carr (Jeffrey Carr). Ci, którzy są bliżej zieleni, bardziej skupiają się na polityce bezpieczeństwa narodowego, podobnie jak inni członkowie zielonej grupy. Na zielono widzimy wielu wysokoprofilowych członków społeczności bezpieczeństwa narodowego na Twitterze, w tym Andrew Exum (abumuqawama), Joshua Foust (joshua Foust) i Daveed Gartenstein-Ross (daveedgr). Co ciekawe, podobnie jak poprzednio, osoby siedzące między tymi grupami są umieszczone blisko krawędzi, takie jak Chris Albon (chrisalbon), który jest wybitny w obu. Jeśli eksplorujesz własne dane, jaką strukturę społeczności lokalnej widzisz? Być może struktura jest dość oczywista, jak ma to miejsce w przypadku sieci Drew, a może społeczności są bardziej subtelne. Szczegółowa analiza tych struktur może być bardzo interesująca i pouczająca. Zachęcamy do tego. W następnej i ostatniej części wykorzystamy te struktury społeczności, aby zbudować własny silnik rekomendacji „kto podążać” na Twitterze.