Printer Friendly

Network traffic anomalies identification based on classification methods/Tinklo srauto anomaliju identifikavimas, taikant klasifikavimo metodus.

Ivadas

Didejant tinklo paslaugu svarbai, keliami vis aukstesni reikalavimai paslaugu kokybei garantuoti, todel itin svarbu, kad duomenu perdavimo tinklas veiktu patikimai, saugiai ir nuolat. Duomenu perdavimo srautas gali sutrikti, t. y. nukrypti nuo iprasto pasiskirstymo laike ir sukelti duomenu perdavimo anomaliju (Anukool et al. 2004; Katzela et al. 2005). Anomaliju gali kilti del ivairiu priezasciu. Jos klasifikuojamos i tris apibendrinamasias kategorijas: anomalijas, ivykstancias del antpludzio, anomalijas, susijusias su piktavaliska veikla ir kenksmingu programiniu kodu, bei anomalijas, atsirandancias del fiziniu ar programiniu tinklo infrastrukturos problemu (Barford, Plonka 2001).

Tinklo stebejimo bei isilauzimu aptikimo sistemos privalo aptikti ir identifikuoti galimus nuokrypius nuo iprastiniu tinklo veikimo normu ir uzkirsti kelia potencialioms gresmems. Per velai lokalizuotas ir pasalintas incidentas gali neigiamai paveikti pavienius tinklo elementus, o neretais atvejais--ir didele dali tinklo. Siekiant pagerinti tinklo patikimuma ir valdyma dideles spartos perdavimo tinkluose, siuloma naudoti ismaniasias tinklo stebejimo sistemas, taikancias adaptyviuosius metodus (Miluocheva, Muller 2003).

Dauguma tinklo stebejimo ir valdymo sistemu yra pakankamai tikslios ir patikimos, taciau dazniausiai ju veikimas pagristas tuo, kad pranesimai apie vykstancius gedimus generuojami virsijus nustatytus veiklos rodikliu slenkscius (Lazar et al. 2012). Tokie metodai nera lankstus. Be to, neaptinkamos nezinomos anomalijos. Darbe nagrinejama klasifikavimo metodu taikymo galimybe tinklo anomalijoms aptikti, atliekamas tyrimas taikant sprendimu medzio, neuronu tinklu ir Bajeso tinklo metodus, gauti rezultatai lyginami, nustatomas tiksliausias metodas.

Tinklo duomenu saltiniai ir protokolai

Kompiuteriu tinklo anomalijoms atpazinti reikiami duomenys surenkami is tinklo irenginiu. Duomenys gali buti isgaunami panaudojant tinklo zondus, marsruto parinktuvus, "medaus puodynes" tipo sistemas ir ugniasienes (Markopoulou et al. 2004). Kiekvienas saltinis generuoja duomenis apie ivykius ir juos kaupia.

Egzistuoja du pagrindiniai tinklo srauto stebejimo metodai: aktyvusis ir pasyvusis. Aktyvieji metodai dazniausiai taikomi kokybinems tinklo charakteristikoms, pvz., velinimui ar pralaidumui, nustatyti. Taciau jie gali buti parankus ir reikiamiems duomenims surinkti tiriant anomalijas. Aktyviojo matavimo metodu privalumas yra tai, kad tam nereikia specializuotosios technines irangos, o programine iranga nesudetinga. Taciau reikia atkreipti demesi, kad taikant aktyviuosius metodus siunciami ICMP, TCP ar UDP paketai trikdo tinklo darba, todel gaunami duomenys netikslus, o anomaliju atpazinimo rezultatu paklaida didesne (Landfeldt et al. 2000). Pasyviaisiais metodais tinklo srautai analizuojami naudojant specializuota technine iranga. Kaip pavyzdi galima pamineti marsruto parinktuvus arba tinklo pasiklausymo irenginius, kurie duomenu srauta nukreipia i tinklo stebejimo stoti. Pasyviuju metodu privalumai:

--tinklo srautu stebejimo metu nera siunciami papildomi

duomenu paketai, todel nesutrikdomas stebimo tinklo veikimas;

--surenkama issami informacija apie tinklo protokolo parametrus ir perduodamos informacijos turini, kuria galima efektyviai panaudoti anomalijoms atpazinti.

Ivertinus aktyviuju ir pasyviuju metodu privalumus ir trukumus, buvo nuspresta duomenims surinkti taikyti pasyvuji metoda.

Tinklo irenginiai renka ir kaupia duomenis apie tinklo srauta, taikydami SNMP, CMIP, NetFlow protokolus. SNMP protokolas yra vienas is pagrindiniu tinklo valdymo protokolu, reglamentuotas RFC 6353 standartu. Tai taikomojo lygmens protokolas, skirtas tinklo irenginiams valdyti ir stebeti. Protokolas veikia klientas-serveris principu, jungtims naudoja 161 ir 162 prievadus. SNMP protokolo branduoli sudaro nesudetingu operaciju rinkinys ir taisykles, aprasancios, kaip sios operacijos turi buti vykdomos. Sis protokolas naudojamas marsruto parinktuvams, UNIX bei Windows serveriams valdyti bei duomenims apie tinklo irengini gauti. Pagal SNMP protokola veikiantis tinklas susideda is triju pagrindiniu komponentu: agento, valdytojo ir valdymo informacines bazes, kurioje tinklo irenginys kaupia duomenis apie ivykius. Siuos duomenis galima naudoti tinklo anomalijoms atpazinti. Bendrasis valdymo informacinis protokolas CMIP buvo pasiulytas kaip alternatyva SNMP protokolui. Jis sudetingesnis ir visapusiskesnis nei SNMP protokolas, taciau sunkiau isisavinamas ir valdomas. CMIP protokolas skirtas informacijai perduoti naudojant protokoliniu duomenu (PDU) kintamuosius. CMIP protokolas reglamentuotas RFC 1189 ir RFC 1095 dokumentuose.

Tinklo srauto anomaliju atpazinimo metodai

Anomaliju, arba kompiuteriu tinklo srautu nukrypimu, aptikimas bei prognozavimas yra aktuali tyrimu sritis (Anukool et al. 2004; Roughan et al. 2004). Isanalizavus tinklo srauto anomaliju atpazinimo metodus buvo isskirtos tokios metodu grupes:

--taisykliu metodai;

--klasifikavimo metodai;

--klasterizavimo metodai;

--statistiniai metodai;

--kiti metodai.

Taisyklemis gristi metodai taikomi ziniu sistemose. Remiantis eksperto sudarytomis taisyklemis pateikiamos isvados apie nekorektiska tinklo veikima. Taciau taisyklemis gristos sistemos yra letos ir priklauso nuo ziniu bazes dydzio bei korektiskumo. Jei ivykes konkretus tinklo veikimo nuokrypis nuo iprastiniu normu nera irasytas i ziniu duomenu baze, jis tiesiog nebus identifikuotas. Siems trukumams eliminuoti naudojami neraiskiosios aibes kognityvieji zemelapiai.

Klasifikavimo metodai gristi tuo, kad jie suformuojamas klasifikavimo modelis panaudojant specialias mokymui skirtas einamuju ir anomalija apibudinancias duomenu klases. Toliau tikslingai suformuotas, "apmokytas", modelis taikomas nezinomiems duomenims ar ivykiams klasifikuoti. Klasifikavimo metodai skirstomi i kontroliuojamus ir pusiau kontroliuojamus. Taikant pirmuosius butina tureti ziniu apie einamasias ir anomalias duomenu klases, o taikant pusiau kontroliuojamus--ziniu tik apie einamasias duomenu klases. Klasifikavimo metodu grupei priklauso neuronu tinklai, Bajeso metodas, sprendimu medziai, maksimalios entropijos pagrindu gristi metodai. Klasifikavimo metodu privalumai: gebejimas aptikti dar nezinomas anomalijas, didelis tikslumas, greita klasifikavimo faze.

Klasterizavimo metodu tikslas--sugrupuoti panasius duomenis i klasterius, o nepriklausantys klasteriams duomenys arba labai mazi klasteriai laikomi anomalijomis. Klasterizavimo metodai skirstomi i pusiau kontroliuojamus --tai is anksto sudaromi duomenu klasteriai, apibudinantys normalia sistemos veikla, ir nekontroliuojamus metodus, t. y. tokius, kai atlikus klasterizavima butini papildomi zingsniai klasteriu dydziams bei atstumams tarp ju ivertinti bei anomalijoms priklausantiems taskams nustatyti. Pagrindiniai klasterizavimo metodu trukumai--tai skaiciavimo istekliu imlumas ir sio tipo metodu neveiksmingumas, jei einamieji duomenys nesitelkia i klasterius.

Statistiniai metodai remiasi prielaida, kad einamuju ivykiu duomenys patenka i stochastinio modelio dideles tikimybes zona. Siekiant nustatyti duomenu anomalijas, tikrinama, ar jie priklauso sudarytam modeliui. Duomenys, turintys maza tikimybes verte, laikomi anomaliais. Statistiniai metodai yra dvieju tipu: parametriniai ir neparametriniai. Parametriniuose metoduose einamieji duomenys ir galimos duomenu anomalijos sugeneruojamos is pagrindiniu parametriniu skirstiniu, o parametrai apskaiciuojami modelio formavimo, "apmokymo", metu. Pagal statistinius neparametrinius metodus daroma prielaida, kad modelio struktura nera zinoma is anksto ir nustatoma pagal turimus duomenis. Tokio tipo metodai yra tikslesni nei parametriniai metodai. Pagrindinis statistiniu modeliu trukumas yra tai, kad parametriniai iverciai dazniausiai neatitinka realiu duomenu pasiskirstymo, todel siu modeliu tikslumas labai priklauso nuo pradinio duomenu pasiskirstymo.

Isanalizavus anomaliju aptikimo metodus buvo nuspresta tinklo srauto anomalijoms nustatyti taikyti siuos klasifikavimo metodus: neuronu tinkla, Bajeso tinkla ir sprendimu medzius. Sie metodai yra gana lankstus, anomalijos atpazistamos esant ivairiems tinklo srauto nukrypimams. Atliktas metodu tikslumo tyrimas naudojant ivairius mokymo duomenu rinkinius.

Duomenu surinkimas tirti

Ieskant patikimiausiu anomaliju nustatymo budu buvo analizuojama marsruto parinktuvo fiziniu sasaju apkrova, t. y. ieinantis ir iseinantis duomenu srautas. Pagal SNMP protokola srauto duomenys perduodami i PRTG (angl. Paessler Router Traffic Grapher) tinklo stebejimo serveri, ten apdorojami ir grafiniu pavidalu atvaizduojami. Naudojami du pagrindiniai identifikatoriai, aprasantys marsruto parinktuvo fiziniu sasaju apkrova, t. y. bendras per fizine marsruto parinktuvo sasaja gautas ir perduotas baitu kiekis. 1 pav. pateiktas iprastinis dvieju dienu trukmes marsruto parinktuvo ieinanciu duomenu srautas. Matyti ivairus srauto apkrovos svyravimai tinkle, priklausantys nuo paros meto ir kitu veiksniu. Remiantis tyrime taikomos sistemos duomenimis, srautas laikomas normaliu, jei kinta nuo 100 Mbps iki 500 Mbps.

Atliekant anomaliju aptikimo analize svarbus etapas yra parengti duomenis, nes nuo to priklauso tyrimu rezultatu tikslumas. Tyrimui buvo suformuoti mokymui skirti duomenys ir aktualaus tiriamo srauto duomenys. Rengiant duomenis buvo atlikti sie etapai: duomenu atranka, duomenu strukturizavimas ir duomenu formato keitimas. Analizei reikiami duomenys buvo imami XML formato is tinklo stebejimo serverio ir filtruojami, nes

byloje yra didelis kiekis pertekliniu, siam tyrimui nerikalingu, duomenu.

Tiriant klasifikavimo metodu efektyvuma buvo taikomas "mokymo su mokytoju" metodas, t. y. apibreztos einamuju ir anomaliuju duomenu klases, naudotos modeliui formuoti. Einamuju duomenu rinkinius sudare marsruto parinktuvo, ieinancio, iseinancio srauto ir abieju siu srautu sumos duomenys. Mokymui buvo naudota:

1) dvieju dienu istoriniai duomenys,

2) vienos savaites istoriniai duomenys,

3) dvieju savaiciu istoriniai duomenys,

4) menesio istoriniai duomenys.

Dvieju dienu trukmes einamuju duomenu srautas pavaizduodas 2 pav.

Anomaliems duomenims identifikuoti buvo skaiciuojamas vidutins kvadratinis nuokrypis ir, remiantis ekspertinemis ziniomis, nustatytas leidziamasis nuokrypis. Vidutinis kvadratinis nuokrypis apskaiciuojamas pagal formule

[sigma] = [square root of E[[(X - [mu]).sup.2]]], (1)

cia E--vidurkio funkcija; X--tinklo srauto tiriamoji verte; [mu]--tinklo srauto vidurkis.

Remiantis tyrime naudojamos sistemos nasumo parametrais, leistinu nuokrypiu buvo laikoma 50 Mbps riba. Taip pat buvo laikoma, kad duomenu srautas turi buti didesnis nei 75 Mbps, bet neturi virsyti 900 Mbps. Sios ribos nustatytos remiantis menesio trukmes istoriniais duomenimis. Grafinis toleruojamo nuokrypio atvaizdas pateiktas 3 pav.

Tinklo srauto anomaliju tyrimo modelis

Anomaliju aptikimo galimybems analizuoti buvo sudarytas tyrimu modelis. Jam sukurti buvo naudojama IBM SPSS Modeler programine iranga bei straipsnio autoriu sukurtas programinis komponentas. Modelio komponentu diagrama pateikta 4 pav.

Modeli sudaro tinklo srauto duomenu surinkimo serveris PRTG, duomenu apdorojimo modulis ir skaiciavimu modulis, idiegtas IBM SPSS Modeler aplinkoje.

Skaiciavimu moduli sudaro analizuojamu duomenu filtras, duomenu tipa nusakantis mazgas, funkcinis mazgas, duomenis skirstantis i mokymo ir testavimo, klasifikavimo metoda igyvendinantis mazgas bei duomenu audito ir analizes mazgai (5 pav.). Skaiciavimu modelyje buvo idiegti Bajeso tinklo, neuronu tinklo ir C5.1 metodai. Duomenu nuskaitymas is PRTG serverio vyksta pagal HTTP protokola, o suformuoti duomenys perduodami i skaiciavimu moduli xls failu. Tinklo srautas grafiskai atvaizduotas 6 pav.

Eksperimentinis tyrimas

Eksperimentiniam tyrimui buvo pasirinkti trys klasifikavimo metodai: neuronu tinklas, Bajeso tinklas bei C5.1 metodas, igyvendinantis sprendimu medi. Pirmu etapu buvo formuojamas modelis t. y. skaiciuojami rysiu svoriniai koeficientai. Siekiant nustatyti, kokia itaka modelio tikslumui daro mokymo duomenu rinkinio dydis, buvo atlikti bandymai su skirtingo dydzio duomenu kiekiais (ju gavybos procesas pateiktas ankstesniame skyriuje). Bandymu rezultatai matyti 7 paveiksle.

Analizuojant gautus rezultatus akivaizdu, kad visais atvejais tiksliausiai nuokrypiai identifikuojami C5.1 metodu --tikslumas sieke net 95,5 %. Is gautu rezultatu taip pat matyti, kad didziausias tikslumas naudojant dvieju dienu duomenis (7 pav.).

Suformuotas modelis toliau buvo naudojamas tiriant tinklo srauto anomaliju atpazinimo galimybes. Eksperimentui atlikti buvo naudojami kito laikotarpio tinklo srauto, kurio anomalijos zinomos, duomenys. Buvo tiriami dvieju, septyniu, keturiolikos ir trisdesimties dienu trukmes marsruto parinktuvo duomenys. Anomaliju atpazinimo rezultatai pavaizduoti 8 pav. Analizuojant gautus rezultatus matyti, kad C5.1 metodu anomalijos atpazistamos geriausiai. Keturiu bandymu vidutinis tikslumas yra 86,8 %, o tikimybe, kad atlikti skaiciavimai yra klaidingi, lygi tik 4,03 % (6 pav.). Antrasis pagal tiksluma yra neuronu tinklu modelis, jo tikslumas 62,2 %. Taikant Bajeso tinklo modeli anomalijos aptiktos 61,9 % tikslumu. Skaiciavimu paklaida visais atvejais nevirsijo 0,1 %. Analizuojant rezultatus galima teigti, kad tikslumas taip pat priklauso nuo analizuojamu duomenu kiekio (8 pav.). Didinant duomenu kieki, Bajeso tinklo ir neuronu tinklo metodu tikslumas dideja, o C5.1 metodo mazeja.

Apskaiciuojant tinklo anomalijas buvo matuojama kiekvieno metodo skaiciavimo trukme. Palyginus rezultatus nustatyta, kad C5.1 metodas yra sparciausias.

Isvados

1. Apzvelgus anomaliju aptikimo metodus galima teigti, kad jiems budinga skirtingas tikslumas bei duomenu apdorojimo sparta.

2. Atliktas triju klasifikavimo metodu testavimas parode, kad C5.1 sprendimu medzio metodu tinklo srauto anomalijos atpazistamos tiksliausiai ir sparciausiai. Vidutinis tikslumas siekia 86,8 %.

3. Remiantis tyrimo rezultatais nustatyta, kad tinklo srauto anomaliju atpazinimo tikslumas priklauso nuo analizuojamu duomenu kiekio. Didejant duomenu kiekiui, Bajeso tinklo ir neuronu tinklo metodu tikslumas dideja, o C5.1 metodo mazeja.

http://dx.doi.org/10.3846/mla.2015.796

Literatura

Anukool, L.; Crovella, M.; Diot, C. 2004. Diagnosing networkwide traffic anomalies, in SIGCOMM '04: Proceedings of the 2004 conference on applications, technologies, architectures, and protocols for computer communications, 30 August 3 September, 2004, Portland, Oregon, USA, 219-230 http://dx.doi.org/10.1145/1015467.1015492

Barford, P; Plonka, D. 2001. Characteristics of network traffic flow anomalies, in Proceedings of the 1st ACM SIGCOMM Workshop on Internet Measurement, 1-2 November, 2001, Burlingame 69-73.

Katzela, I.; Schwarz, M. 2005. Schemes for fault identification in communication networks. IEEE/ACM Transactions on Networking, 3: 753-764.

Landfeldt, B.; Sookavatana, P; Seneviratne, 2000. A. The case for a hybrid passive/active network monitoring scheme in the wirel, in 8th IEEE International Conference on Networks: 5-8 September, 2000, 139-147. http://dx.doi.org/10.1109/IC0N.2000.875781

Lazar, A.; Wang, W.; Deng, R. 2012. Models and algorithms for network fault detection and identification: a review, in Proceedings IEEE INFOCOM 25-30 March, Orlando, Florida, USA, 121-125.

Markopoulou, A.; Iannaccone, G.; Bhattacharyya, S.; Chuah, C.; Diot, C. 2004. Characterization of failures in an IP backbone, in 23 Annual Joint Conference of the IEEE Computer and Communications Societies: INFOCOM 2004, 7-11 March, 2004, Hohg Kong, China, 4: 2307-2317. http://dx.doi.org/10.1109/INFC0M.2004.1354653

Miluocheva, I.; Muller, E. 2003. A practical approach to forecast quality of service parameters considering outliers, in 1st Int. Workshop on Inter-Domain Performance and Simulation, 21-21 February, 2003, Salzburg, Austria, 163-172.

Roughan, M; Griffiny, T; Mao, M.; Greenbergx, A.; Freeman B. 2004. IP forwarding anomalies and improving their detection using multiple data sources, in ACM SIGCOMM workshop on Network troubleshooting, 30 August--03 September, 2004, Portland, USA, 307-312.

Donatas RACYS (1), Dalius MAZEIKA (2)

Vilniaus Gedimino technikos universitetas

El. pastas: (1) Donatas.Racys@bite.lt; (2) Dalius.Mazeika@vgtu.lt

Caption: 1 pav. Tiriamo marsruto parinktuvo ieinanciu duomenu srautas

Fig. 1. Incoming network traffic of analyzed router

Caption: 2 pav. Dvieju dienu trukmes einamieji duomenys

Fig. 2. Two days long data used for the learning

Caption: 3 pav. Modeliui apmokyti skirti duomenys

Fig. 3. Model training data

Caption: 4 pav. Anomaliju atpazinimo programinio irankio komponentai

Fig. 4. Components of software tool for anomalies detection

Caption: 5 pav. Tinklo anomaliju tyrimo modelio skaiciavimu modulis

Fig. 5. Computational module of the model used for investigation of network anomalies

Caption: 6 pav. Anomaliju atpazinimo programines priemones ekrano kopija

Fig. 6. Screenshot of software tool for anomalies detection

Caption: 7 pav. Modelio tikslumo tyrimo rezultatai, naudojant mokymo duomenis

Fig. 7. Results of model accuracy investigation with training data

Caption: 8 pav. Anomaliju atpazinimo tyrimo rezultatai

Fig. 8. Results of anomalies detection

----------

Please note: Illustration(s) are not available due to copyright restrictions.
COPYRIGHT 2015 Vilnius Gediminas Technical University
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2015 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Racys, Donatas; Mazeika, Dalius
Publication:Science - Future of Lithuania
Article Type:Report
Date:Jun 1, 2015
Words:2200
Previous Article:Temperature effect to solar power plant /Temperaturos itaka fotovoltinei jegainei.
Next Article:Applying game theory in 802.11 wireless networks/Zaidimu teorijos taikymas IEEE 802.11 tinkluose.
Topics:

Terms of use | Privacy policy | Copyright © 2021 Farlex, Inc. | Feedback | For webmasters |