"Použitie Support Vector Machine na klasifikáciu dát" : Výskum a zber dát (časť 1.)

Moju doterajšiu prácu na projekte s názvom **"Použitie Support Vector Machine na klasifikáciu dát"** by som rozdelila do nasledovných štyroch fáz:

Výskum
Zber dát
Spracovanie a klasifikácia dát
Vyhodnocovanie výsledkov a úspešnosti

V mojom druhom príspevku som sa rozhodla podrobnejšie venovať prvým dvom fázam.

Fáza 1: Výskum

Mala som ideu. Mala som ciele. Aj nadšenie pre vec. Čo som ale nemala, bol spôsob, akým sa k vytúženému výsledku dopracujem. Preto som začala hľadať odpoveď na tú najzákladnejšiu otázku: **Ako to urobiť?** Konkrétne, obzerala som sa na internete po odborných prácach, ktoré pojednávali o rovnakej alebo príbuznej téme ako je tá moja. Musím sa priznať, že som bola prekvapená veľkým množstvom prác (od autorov z celého sveta), ktoré sa zaoberali práve spracovaním akcelerometrických dát.

A sme naspäť pri akcelerometrických dátach. Tieto dáta sú vo svojom "surovom stave" na klasifikáciu nepoužiteľné. Je nevyhnutné ich upraviť, a to metódou, ktorá sa v anglickom jazyku nazýva "**feature extraction**" alebo v preklade extrakcia vlastností (*pozn. autorky, "feature extraction" nie je jedna konkrétna metóda, je to všeobecný názov pre skupinu metód používaných na extrakciu rôznych vlastností z rôznych typov dát*). Táto metóda vezme príliš veľké surové dáta obsahujúce nadbytočné informácie a pretransformuje ich tak, aby boli jednoducho spracovateľné niektorou z klasifikačných metód, v mojom prípade je to SVM. Extrakciou sa vytiahnu z pôvodných dát iba relevantné informácie - vlastnosti - a tie sa potom ďalej použijú.

![alt](http://s23.postimg.org/74cwyomm3/FEgirl.png)

Práve tieto metódy som si potrebovala osvojiť ako nevyhnutnú súčasť tohto projektu. Spomedzi všetkých prác, ktoré som našla, som sa rozhodla vybrať dve, ktoré si naštudujem a použijem vo svojom projekte na extrakciu vlastností z nameraných akcelerometrických dát.

Keďže opisovať tieto dve metódy jednotlivo by zaručene presiahlo znesiteľnú dĺžku tohto príspevku, pridávam linky, na ktorých obe tieto práce nájdete vo formáte .pdf.

**A feature extraction method for realtime human activity recognition on cell phones**. [TU Klik](http://epublications.marquette.edu/mscs_fac/183/)

**Rotation invariant feature extraction from 3D acceleration signals**. [TU Klik](http://www.mirlab.org/conference_papers/International_Conference/ICASSP%202011/pdfs/0003684.pdf)

Fáza 2: Zber dát

Zber akcelerometrických dát prebiehal využitím **smartfónu**. Nutnou podmienkou jeho využitia bola prítomnosť akcelerometra ako jedného zo zabudovaných senzorov. Smartfón (v mojom prípade iPhone docenta Kvasnicu) sme bezdrôtovo pripojili k webovej aplikácii, ktorá bola naprogramovaná tak, aby merala uhly a zrýchlenia pohybujúcich sa zariadení vo všetkých troch osiach x, y aj z. Pre jednoduchú predstavu poslúži obrázok nižšie (presnejší podľa môjho názoru ani byť nemôže).

![alt](http://docs.garagegames.com/it2d/official/content/documentation/Tutorials/iOS%20Series/images/Device_axes.jpg)

Tieto údaje sme merali v čase od uchopenia telefónu do ruky po jeho priloženie k uchu (fiktívne zdvihnutie hovoru). Keďže jedno priloženie telefónu k uchu sa rovná jednému (bez)významnému bodu v mnohorozmernom priestore, tento úkon je treba zopakovať niekoľkokrát (čím viac, tým lepšie), aby sme získali čo najviac dát (bodov) pre tréningové množiny aj klasifikované vzorky.

Rovnako ako viac pokusov potrebujeme aj viac osôb, ktoré by sa do zberu dát zapojili, čím sa vytvorí akási databáza pre biometrickú identifikáciu. Ako príklad podobne fungujúcej databázy spomeniem napr. databázu odtlačkov prstov alebo databázu DNA.

Aby som nezdržovala, konečný výstup z tejto fázy bol .mat súbor, ktorý obsahoval záznamy jednotlivých pokusov zdvíhania fiktívnych hovorov. Na záver pridávam graf, ktorý som vytvorila v Matlabe použitím reálne nameraných akcelerometrických dát. Tento obrázok ukazuje závislosť akcelerácii vo všetkých troch osiach od času pri jednom z mojich pokusov zdvihnutia hovoru.

![alt](http://s29.postimg.org/bn0b0is13/image.png)

Pokračovanie zase nabudúce...

*Ďalší príspevok bude (určite) obsahovať: Spracovanie a klasifikácia dát, vyhodnotenie výsledkov a úspešnosti klasifikácie.*

Kto sa dopracoval až sem, prečítal presne 590 mojich slov a videl tri fascinujúce obrázky. Ďakujem :)