Dzisiaj kolejna odsłona analizy danych komunikacyjnych na Górnym Śląsku. Gdzie tramwaje i autobusy kursują za rzadko? Mieszkańcy których miast nie wykorzystują skierowanej do nich oferty? W oparciu o dane z serwisu jakdojade.pl, zbadamy na ile liczba pasażerów zdeterminowana jest przez liczbę kursów KZK GOP oraz przez czynniki demograficzne.

Pierwsze pytanie jest następujące: czy liczba kursów jakie wykonuje komunikacja miejska jest dostosowana do liczby mieszkańców? Dla każdego przystanku zliczona została łączna liczba kursów jakie dziennie wykonuje na nich KZK GOP. Dane te pochodzą od grupy Koduj dla Polski Silesia. Na potrzeby poniższego wykresu zagregowałem je według rejonów statystycznych podawanych przez GUS, dla których mamy informacje o liczbie mieszkańców.

kursy_ludnosc

Cześć powyższej mapy nie jest interesująca. Dlaczego? Widać na niej bardzo wyraźnie centra miast, gdzie liczba kursów jest bardzo duża. Wynika to oczywiście z faktu, że większość linii tamtędy przebiega. Ciekawsze jest porównanie bardziej peryferyjnych regionów, nieraz bardzo się między sobą różniących.

Zestawmy dane o liczbie kursów i liczbie mieszkańców z wyszukiwaniami w jakdojade. Czy podaż, czyli liczba kursów z danego rejonu, spotyka się z popytem, zapytaniami z jakdojade?

kursy_zapytania

Jak widać liczba kursów w odniesieniu do zapytań w jakdojade dla dużych miast jest mniejsza niż dla mniejszych miejscowości. Może wynika to z tego, że poza centrami miast kursów jest bardzo mało, i dlatego prawie nikt z nich nie korzysta? Analiza dwóch powyższych map potwierdza nasze podejrzenia. Rejony z dużym współczynnikiem kursów do zapytań, to te same rejony, w których liczba kursów jest niska w porównaniu do ludności.

A jak wygląda liczba zapytań w stosunku do liczby mieszkańców? Uwaga, skala kolorów na tej mapie jest logarytmiczna! Niekwestionowanym liderem tego zestawienia jest centrum Katowic.

zapytania_ludnosc

Na końcu zobaczmy czy da się przewidywać liczbę zapytań na jakdojade na podstawie liczby kursów z danego rejonu, jego wielkości i gęstości zaludnienia. Okazuje się, że dostajemy całkiem przyzwoity model statystyczny. Występuje silna zależność pomiędzy liczbą kursów a wyszukiwaniem połączeń. Są oczywiście dwa możliwe związki przyczynowo-skutkowe. Albo na trasach, które są popularne wśród mieszkańców, uruchomionych zostało dużo kursów. Albo na odwrót, tam gdzie uruchomiono dużo kursów, tam mieszkańcy korzystają z transporty publicznego. Żeby zbadać ten fenomen dokładniej, trzeba by wykluczyć z analizy rejony, do których dużo osób dojeżdża tj. centrów kultury, rozrywki czy kampusów uniwersyteckich. Dla całościowych danych, liczba mieszkańców jest nieskorelowana z liczbą zapytań jakdojade.

Szczegóły nieco bardziej techniczne dla osób zainteresowanych. Poniżej znajduje się tabela z dopasowaniem modelu liniowego w R. Tłumaczy on 30% zmienności naszych danych. Jest to bardzo dobry rezultat zważywszy na to, że:

  • agregujemy dane po, nieraz całkiem niemałych, rejonach

  • nie zwracamy uwagi na godzinę, o której zapytanie zostało wykonane

Estimate Std. Error t value Pr(>|t|)