Analiza wykresów społecznościowych

Analiza sieci społecznościowych

Sieci społecznościowe są wszędzie. Według Wikipedii istnieje ponad 200 aktywnych serwisów społecznościowych w Internecie, z wyłączeniem witryn randkowych. Jest to całkowicie uzasadnione: pragnienie interakcji społecznej jest fundamentalną częścią ludzkiej natury i nie powinno dziwić, że ta wrodzona natura społeczna przejawi się w naszych technologiach. Ale mapowanie i modelowanie sieci społecznościowych nie jest bynajmniej wiadomością. W społeczności matematyki przykładem analizy sieci społecznościowych w pracy jest obliczenie liczby Erdősa danej osoby, która mierzy jej odległość od płodnego matematyka Paula Erdősa. Erdős był prawdopodobnie najbardziej płodnym matematykiem XX wieku i opublikował ponad 1500 artykułów podczas swojej kariery. Wiele z tych artykułów miało współautorów a liczby Erdősa mierzą odległość matematyka od kręgu autorów, których Erdős przyciągnął. Gdyby matematyk współpracował z Erdősem na papierze, miałaby liczbę Erdősa równą jeden, tzn. jego odległość do Erdősa w sieci matematyki XX wieku wynosi jeden. Jeśli inny autor współpracowałby z jednym ze współautorów Erdősa, ale nie bezpośrednio z Erdősem, wówczas autor ten miałby liczbę Erdősa równą dwa itd. Metryka ta była używana, choć rzadko poważnie, jako przybliżona miara znaczenia osoby w matematyce. Liczby Erdősa pozwalają nam szybko podsumować ogromną sieć matematyków krążących wokół Paula Erdősa. Erving Goffman, jeden z najwybitniejszych intelektualistów XX wieku i bardzo podobny do Paula Erdősa w naukach społecznych, oparty na ogromnej skali jego wykładów, zapewnia jedno z najlepszych stwierdzeń na temat natury interakcji międzyludzkich:

Kiedy osoby są wobec siebie obecne, mogą funkcjonować nie tylko jako narzędzia fizyczne, ale także jako narzędzia komunikacyjne. Ta możliwość, nie mniej niż fizyczna, jest fatalna dla wszystkich zainteresowanych, a w każdym społeczeństwie wydaje się podlegać ścisłym normatywnym regulacjom, co prowadzi do pewnego rodzaju porządku ruchu komunikacyjnego. —Erving Goffman, z Zachowania w miejscach publicznych: notatki na temat społecznej organizacji spotkań (1966)

„Kolejność ruchu”, o której mówił Goffman, to dokładnie sieć społecznościowa. Produktem ubocznym naszego pragnienia interakcji i kontaktów towarzyskich są wysoce ustrukturyzowane wykresy, które stanowią swoistą „mapę” naszej tożsamości i historii. Serwisy społecznościowe, takie jak Facebook, Twitter i LinkedIn, po prostu zapewniają wysoce stylizowane szablony do angażowania się w to bardzo naturalne zachowanie. Innowacja tych usług nie polega na ich funkcji, ale raczej na sposobie, w jaki zapewniają wgląd w społeczną kartografię bardzo dużej części ludzkości. Dla hakerów takich jak my dane, które ujawniają serwisy społecznościowe, są prawdziwym gejzerem niesamowitości. Ale wartość wykresów społecznościowych wykracza poza serwisy społecznościowe. Istnieje kilka rodzajów relacji, które można modelować jako sieć, a wiele z nich jest również przechwytywanych przez różne usługi internetowe. Na przykład możemy zmapować relacje między widzami na podstawie filmów oglądanych w serwisie Netflix. Podobnie możemy pokazać, jak różne gatunki muzyczne są ze sobą powiązane w oparciu o wzorce słuchaczy korzystających z usług takich jak Last.fm lub Spotify. W bardziej podstawowy sposób możemy również modelować strukturę lokalnej sieci komputerowej – a nawet całego Internetu – jako ogromną serię węzłów i krawędzi. Chociaż badanie sieci społecznościowych jest obecnie bardzo popularne, w dużej mierze ze względu na rozprzestrzenianie się portali społecznościowych, tak zwana „analiza sieci społecznościowych” to zestaw narzędzi, które były używane i rozwijane w ciągu ostatnich kilku dekad. U podstaw badania sieci opiera się na języku teorii grafów w celu opisania połączonych obiektów. Już w 1736 roku Leonhard Euler wykorzystał koncepcję węzłów i krawędzi do sformalizowania problemu mostu w Królewcu

Problem z mostem Königsberg jest wczesnym wariantem podróżnego problem sprzedawcy, w którym musisz obmyślić ścieżkę przez miasto Królewiec w Prusach (obecnie Kaliningrad, Rosja), przemierzając każdy z siedmiu mostów dokładnie raz. Euler rozwiązał problem, przekształcając mapę miasta w prosty wykres z czterema węzłami (sekcje miasta) i siedem krawędzi (mosty).

W latach dwudziestych XX wieku słynny psycholog Jacob L. Moreno opracował metodę badania relacji międzyludzkich zwaną „socjometrią”. Moreno był zainteresowany tym, jak interakcje społeczne ludzi wpłynęły na ich samopoczucie, więc zapytał ludzi, kim są ich przyjaciele, i zaczął mapować tę strukturę. W 1937 r. Antropolog Joan Criswell zastosował metody socjometryczne Moreno do zbadania podziałów rasowych między czarnymi i białymi dziećmi ze szkoły podstawowej. Większość tego, co uważamy za współczesną analizę sieci społecznościowych, stanowi konglomerat teorii i metod z szerokiego zakresu dyscyplin. Pochodzi duża część od socjologii, w tym wybitnych uczonych, takich jak Linton Freeman, Harrison White, Mark Granovetter i wielu innych. Podobnie wiele wkładów pochodzi również z fizyki, ekonomii, informatyki, nauk politycznych, psychologii oraz niezliczonych innych dyscyplin i uczonych. Istnieje o wiele za dużo autorów i cytatów, aby je tutaj wymienić, a napisano tomy, które dokonują przeglądu metod w tym dużym obszarze badań. W tym krótkim wstępie do analizy sieci społecznościowych omówimy tylko niewielką część tego tematu.

To powiedziawszy, co omówimy? Skupimy  się na studium przypadku w sieciach społecznościowych, które prowadzi nas przez cały cykl hakowania danych w celu pozyskiwania danych z sieci społecznościowych, ich czyszczenia i strukturyzacji, a na końcu ich analizy. W tym przypadku skupimy się na najważniejszej „otwartej” sieci społecznościowej dnia: Twitterze. Słowo „otwarte” jest przerażające, ponieważ Twitter nie jest tak naprawdę otwarty w tym sensie, że możemy swobodnie uzyskiwać dostęp do wszystkich jego danych. Podobnie jak wiele serwisów społecznościowych, posiada interfejs API z surowym limitem stawek. Z tego powodu zbudujemy system do wyodrębniania danych z Twittera bez naruszania tego limitu prędkości i bez naruszania warunków usługi Twittera. W rzeczywistości nigdy nie uzyskamy bezpośredniego dostępu do interfejsu API Twittera. Nasz projekt zaczyna się od zbudowania sieci lokalnej lub sieci ego i stamtąd ścieżkami w taki sam sposób, jak obliczana jest liczba Erdősa. W naszej pierwszej analizie zbadamy metody wykrywania społeczności, które próbują podzielić sieci społecznościowe na spójne podgrupy. W kontekście Twittera może to dostarczyć nam informacji o różnych grupach społecznych, do których należy dany użytkownik. Wreszcie, ponieważ ten tekst dotyczy uczenia maszynowego, zbudujemy własny silnik rekomendacji „kto podąża” przy użyciu struktury wykresu społecznościowego Twittera. Postaramy się unikać używania żargonu lub niszowych terminów akademickich do opisywania tego, co tutaj robimy. Istnieje jednak kilka terminów, które warto stosować i nauczyć się. Właśnie wprowadziliśmy termin ego-sieć, aby opisać rodzaj wykresu. Ponieważ wiele razy będziemy odnosić się do ego-sieci, przydatne będzie zdefiniowanie tego terminu. Sieć ego zawsze odnosi się do wykresu struktury społeczności  natychmiast otaczającej pojedynczy węzeł w sieci. W szczególności ego-sieć jest podzbiorem sieci indukowanej przez ziarno (lub ego) i jego sąsiadów, tj. Te węzły bezpośrednio połączone z ziarnem. Innymi słowy, sieć ego dla danego węzła obejmuje sąsiadów tego węzła, połączenia między nasionem a tymi sąsiadami i powiązania między sąsiadami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *