L10 Big Data
L10 Big Data
Društvene mreže
Big Data
Beograd, 2018
Analiza društvenih mreža
Sadržaj
2
Analiza društvenih mreža
Prema proceni IBM-a, 90% podataka proizvelo se u poslednjih tri godine. Na globalnom
nivou količina podataka 2016. godine iznosila je oko 16 ZB.
Postoje razna predviđanja o količini podataka koja će biti u opticaju u skorijoj budućnosti.
Jedno od predviđanja je da će ukupna količina podataka već 2025. godine biti oko 163 ZB što
je oko 10 puta više nego u aprilu 2017. (izvor: https://www.information-age.com/data-
forecast-grow-10-fold-2025-123465538/).
3
Analiza društvenih mreža
4
Analiza društvenih mreža
5
Analiza društvenih mreža
Koliko podataka zapravo pedstavlja Big Data otvoreno je za raspravu ali obično može biti
više PB a za najveće projekte i u opsegu EB.
Big Data se uopšteno odnosi na skupove podataka kojisu toliko veliki po obimu i tako
složeni da tradicionalni softverski sistemi za obradu podataka nisu u mogućnosti da
preuzmu, upravljaju i obrađuju podatke u razumnom vremenskom roku. Sam pojam Big Data
obuhvata i tehnologije i tehnike koje su u stanju da prihvate, čuvaju, distribuiraju, analiziraju
i upravljaju kolekcijom različitih tipova podataka velikih dimenzija. Pri tome termin veliki
(Big) se ne odnosi samo na obim već i na složenost podataka.
6
Analiza društvenih mreža
Big data tehnologije treba da omoguće upravljanje velikom količinom različitih podataka,
razumnom brzinom, u odgovarajućem vremenskom okviru da bi se omogućila analiza tih
podataka u realnom vremenu.
Definicija: Big Data je bilo koji izvor podataka koji ima sledećih 7 karakteristika (7V
svojstvo): Volume-Variety-Velocity-Veracity-Verification-Value-Visibility.
Obim podataka (Volume) – velika količina podataka koja ne može jednostavno da se
čuva, pretražuje, prenosi, analizira i prikazuje.
Raznovrsnost (Variety) – podaci mogu biti u različitim formatima (različiti tipovi
podataka), struktuirani ili nestruktuirani.
Brzina (Velocity) – odnosi se na veliku brzinu kojom se podaci generišu, odnosno,
uvećavaju. U današnjim uslovima, podaci se uvećavaju eksponencijalnom brzinom.
Tačnost (Veracity) – ova karakteristika se odnosi na tačnost generisanih podataka. Velika
brzina generisanja utiče na to da među podacima ima i netačnih. Ova karakteristika se
odnosi i na poverenje i neizvesnost generisanja.
Verifikacija (Verification) – odnosi se na verifikaciju i sigurnost podataka. Proverljivost
podataka je veoma bitna, utiče na poverenje. Sigurnost podataka je trenutno vrlo aktuelna
tema i treba je obezbediti.
Korisnost ili upotrebljivost (Value) – odnosi se na to da li generisani podaci mogu da se
iskoriste za dobijanje upotrebljivih informacija, odnosno za dobijanje informacija pomoću
kojih mogu da se unaprede poslovni procesi. Prikupljanje podataka i čuvanje bez ideje za šta
mogu korisno da se upotrebe nije mnogo svrsishodno.
Vidljivost (Visibility) – ova karakteristika se odnosi na to da se podaci uočavaju. Podaci
mogu da budu dostupni ali da ne budu visljivi svim procesima. Podaci iz različitih izvora treba
da se spolje tamo gde su vidljivi. Sa druge strane, neovlašćena vidljivost može da predstavlja
rizik.
Koncept Big Data sadrži skup povezanih komponenti koje omogućavaju organizacijama
da koriste podatke za praktične protrebe, rešavanje niza poslovnih problema ili unapređenje
poslovanja. Ovaj koncept uključuje:
IT infrastrukturu za podršku Big Data
analitiku koja se primenjuje na podatke,
tehnologiju potrebnu za projekte Big Data,
stvarne slučajeve za koje je potrebno da se koristi Big Data.
Big Data infrastruktura obuhvata:
izvore podataka,
alate i agente (sisteme) za prikupljanje podataka,
7
Analiza društvenih mreža
8
Analiza društvenih mreža
može da se izvrši brzo i jeftino. Ti manji delovi se zatim obrađuju paralelno čime se
umnogome povećava brzina rada. Zatim se rezulati obrade tih manjih delova ponovo
prikupljaju i grupišu zarad dobijanja konačnog rezulata. Taj princip rada je ustvari
implementiran Google-ov softverski model za Big Data procesiranje – MapReduce. Hadoop
sa svojim ekosistemom, slika 10.3.1 čini kompletan okvir za rad sa velikom količinom
podataka.
Kao što je već rečeno, prikupljanje podataka, samo po sebi ne može da bude cilj.
Prikupljeni podaci treba da se obrade i analiziraju.
Big Data analitika može da se odnosi na osnovne aplikacije poslovne inteligencije ili
naprednije, prediktivne analitike. Krajnji cilj Big Data analitike je da se napravi model
pomoću koga će se vršiti predikcija nekih događaja/procesa ili da se napravi sistem koji će
biti podrška u odlučivanju.
Big data analitika je proces koji obuhvata tri osnovne faze:
prikupljanje podataka
analiza podataka,
vizuelizacija podataka.
HACE (Heterogenous, Autonomus, Complex, Evolving) teorema: Big Data počinje od
heterogenih, autonomnih izvora koji produkuju veliku količinu podataka, distribuirane,
decentralizovane kontrole i teži da istraži odnose između podataka koji su kopleksni i koji se
razvijaju.
Prikupljanje podataka obuhvata identifikaciju i filtriranje svrsishodnih podataka. Podaci
kada se preuzimaju sa izvora (Interneta) su: nesređeni, sa greškama, nekonzistentni, nisu u
potpunosti raspoloživi. Zbog toga posle preuzimanja sledi filtriranje (čišćenje). Sledeći korak
9
Analiza društvenih mreža
Procesni okvir Big Data analitike je predstavljen preko tri nivoa u čijem centru se nalazi
platforma za obradu velikih podataka, slika 10.4.2.
Na prvom nivou je fokus na samim podacima, kako im pristupiti i kako vršiti
izračunavanja nad tim podacima. Na ovom nivou treba razrešiti probleme koji proizilaze iz
činjenice da su podaci smešteni na različitim lokacijama, u različitim su formatima i njihova
količina je u stalnom porastu.
Na drugom nivou je fokus na aplikacijama i načinu kako te aplikacije treba da tumače
podatke. Mehanizmi poštovanja privatnosti onoga ko produkuje podatke i mehanizmi
10
Analiza društvenih mreža
deljenja podataka onome ko želi da ih koristi su veoma različiti i u direktnoj su vezi sa svrhom
aplikacije. Osim toga, semantika podataka je nešto što treba da se razmatra i bitno utiče na
krajnje rezultate obrade.
11
Analiza društvenih mreža
drugi izvori informacija su oni koji generišu ljudi kao što su podaci sa društvenih
medija i click stream podaci dobijeni sa raznih sajtova. Osim toga na mreži se
trenutno sve više nalaze mobilni uređaji. Treba reći da ti podaci, između ostalog,
u sebi sublimiraju i karakteristike ljudskog ponašanja.
12