Синтетички подаци генерисани вештачком интелигенцијом, лак и брз приступ подацима високог квалитета?

АИ генерише синтетичке податке у пракси

Синтхо, стручњак за синтетичке податке генерисане вештачком интелигенцијом, има за циљ да се окрене privacy by design у конкурентску предност са синтетичким подацима генерисаним помоћу вештачке интелигенције. Они помажу организацијама да изграде јаку основу података са лаким и брзим приступом висококвалитетним подацима и недавно су освојили Пхилипсову награду за иновације.

Међутим, синтетичко генерисање података помоћу вештачке интелигенције је релативно ново решење које обично уводи често постављана питања. Да би одговорио на њих, Синтхо је започео студију случаја заједно са САС-ом, лидером на тржишту у напредној аналитици и софтверу за вештачку интелигенцију.

У сарадњи са Холандском коалицијом за вештачку интелигенцију (НЛ АИЦ), истражили су вредност синтетичких података упоређујући синтетичке податке генерисане вештачком интелигенцијом које генерише Синтхо Енгине са оригиналним подацима путем различитих процена квалитета података, правне ваљаности и употребљивости.

Да ли анонимизација података није решење?

Класичне технике анонимизације имају заједничко то што манипулишу оригиналним подацима како би ометале проналажење појединаца. Примери су генерализација, потискивање, брисање, псеудонимизација, маскирање података и мешање редова и колона. Примере можете пронаћи у табели испод.

анонимизација података

Ове технике уводе 3 кључна изазова:

  1. Они раде другачије по типу података и скупу података, што их чини тешким за скалирање. Штавише, пошто функционишу другачије, увек ће бити дебате о томе које методе применити и која комбинација техника је потребна.
  2. Увек постоји однос један-на-један са оригиналним подацима. То значи да ће увек постојати ризик за приватност, посебно због свих отворених скупова података и доступних техника за повезивање тих скупова података.
  3. Они манипулишу подацима и на тај начин уништавају податке у процесу. Ово је посебно погубно за задатке вештачке интелигенције где је „снага предвиђања“ од суштинског значаја, јер ће подаци лошег квалитета довести до лоших увида из АИ модела (уношење смећа ће резултирати избацивањем смећа).

Ове тачке се такође процењују кроз ову студију случаја.

Увод у студију случаја

За студију случаја, циљни скуп података био је скуп података о телекомуникацијама који је обезбедио САС и који садржи податке о 56.600 корисника. Скуп података садржи 128 колона, укључујући једну колону која показује да ли је купац напустио компанију (тј. „одбачен“) или не. Циљ студије случаја је био коришћење синтетичких података за обуку неких модела за предвиђање одлива купаца и за процену перформанси тих обучених модела. Како је предвиђање одлива задатак класификације, САС је одабрао четири популарна модела класификације да би направио предвиђања, укључујући:

  1. Случајна шума
  2. Појачавање градијента
  3. Логистичка регресија
  4. Неуронске мреже

Пре генерисања синтетичких података, САС је насумично поделио телекомуникациони скуп података у скуп возова (за обуку модела) и скуп за задржавање (за бодовање модела). Поседовање посебног скупа задржавања за бодовање омогућава непристрасну процену тога колико добро би модел класификације могао да функционише када се примени на нове податке.

Користећи скуп возова као улаз, Синтхо је користио свој Синтхо Енгине да генерише синтетички скуп података. За бенцхмаркинг, САС је такође направио манипулисану верзију скупа возова након примене различитих техника анонимизације да би се достигао одређени праг (к-анонимности). Претходни кораци су резултирали у четири скупа података:

  1. Скуп података о возу (тј. оригинални скуп података минус скуп података о задржавању)
  2. Скуп података који се задржава (тј. подскуп оригиналног скупа података)
  3. Анонимизовани скуп података (засновано на скупу података о возу)
  4. Синтетички скуп података (засновано на скупу података о возу)

Скупови података 1, 3 и 4 су коришћени за обуку сваког модела класификације, што је резултирало са 12 (3 к 4) обучених модела. САС је касније користио скуп података о задржавању да измери тачност са којом сваки модел предвиђа одлив купаца. Резултати су представљени у наставку, почевши од неких основних статистика.

Цевовод машинског учења генерисан у САС-у

Слика: цевовод машинског учења генерисан у САС визуелном рударењу података и машинском учењу

Основна статистика приликом поређења анонимизованих података са оригиналним подацима

Технике анонимизације уништавају чак и основне обрасце, пословну логику, односе и статистику (као у примеру испод). Коришћење анонимних података за основну аналитику тако даје непоуздане резултате. У ствари, лош квалитет анонимних података учинио је готово немогућим да се користе за напредне аналитичке задатке (нпр. АИ/МЛ моделирање и контролна табла).

упоређивање анонимизованих података са оригиналним подацима

Основна статистика при поређењу синтетичких података са оригиналним подацима

Генерисање синтетичких података помоћу вештачке интелигенције чува основне обрасце, пословну логику, односе и статистику (као у примеру испод). Коришћење синтетичких података за основну аналитику тако даје поуздане резултате. Кључно питање, да ли се синтетички подаци могу користити за напредне аналитичке задатке (нпр. АИ/МЛ моделирање и контролна табла)?

упоређивање синтетичких података са оригиналним подацима

Синтетички подаци генерисани вештачком интелигенцијом и напредна аналитика

Синтетички подаци не важе само за основне обрасце (као што је приказано на претходним дијаграмима), они такође обухватају дубоке 'скривене' статистичке обрасце потребне за напредне аналитичке задатке. Ово последње је приказано на графикону испод, што указује да је тачност модела обучених на синтетичким подацима у поређењу са моделима обученим на оригиналним подацима слична. Штавише, са површином испод криве (АУЦ*) близу 0.5, модели обучени на анонимизованим подацима имају далеко најгоре резултате. Комплетан извештај са свим напредним аналитичким проценама о синтетичким подацима у поређењу са оригиналним подацима доступан је на захтев.

*АУЦ: површина испод криве је мера за тачност модела напредне анализе, узимајући у обзир истините позитивне, лажно позитивне, лажно негативне и праве негативне. 0,5 значи да модел предвиђа насумично и да нема предиктивну моћ, а 1 значи да је модел увек тачан и да има пуну предиктивну моћ.

Поред тога, ови синтетички подаци се могу користити за разумевање карактеристика података и главних варијабли потребних за стварну обуку модела. Уноси одабрани алгоритмима на синтетичким подацима у поређењу са оригиналним подацима били су веома слични. Дакле, процес моделирања се може обавити на овој синтетичкој верзији, што смањује ризик од кршења података. Међутим, када се изводе закључке о појединачним записима (нпр. телефонски клијент) препоручује се поновна обука на оригиналним подацима ради објашњења, већег прихватања или само због регулативе.                              

АУЦ према алгоритму груписаном по методи

АУЦ

Закључци:

  • Модели обучени на синтетичким подацима у поређењу са моделима обученим на оригиналним подацима показују веома сличне перформансе
  • Модели обучени на анонимизованим подацима са 'класичним техникама анонимизације' показују лошије перформансе у поређењу са моделима обученим на оригиналним подацима или синтетичким подацима
  • Генерисање синтетичких података је једноставно и брзо јер техника функционише потпуно исто по скупу података и типу података.

Случајеви употребе синтетичких података који додају вредност

Случај употребе 1: Синтетички подаци за развој модела и напредну аналитику

Имати јаку основу података са лаким и брзим приступом употребљивим, висококвалитетним подацима је од суштинског значаја за развој модела (нпр. контролне табле [БИ] и напредна аналитика [АИ & МЛ]). Међутим, многе организације пате од неоптималне основе података што доводи до 3 кључна изазова:

  • Приступ подацима траје годинама због прописа (приватности), интерних процеса или силоса података
  • Класичне технике анонимизације уништавају податке, чинећи податке више неприкладним за анализу и напредну аналитику (смеће улази = смеће излази)
  • Постојећа решења нису скалабилна јер раде другачије по скупу података и типу података и не могу да рукују великим базама података са више табела

Приступ синтетичким подацима: развијајте моделе са синтетичким подацима који су добри колико и прави да:

  • Смањите употребу оригиналних података без ометања програмера
  • Откључајте личне податке и имајте приступ више података који су претходно били ограничени (нпр. Због приватности)
  • Лак и брз приступ подацима релевантним подацима
  • Скалабилно решење које ради исто за сваки скуп података, тип података и за велике базе података

Ово омогућава организацији да изгради јаку основу података са лаким и брзим приступом употребљивим, висококвалитетним подацима за откључавање података и искориштавање могућности података.

 

Случај употребе 2: паметни синтетички тестови за тестирање, развој и испоруку софтвера

Тестирање и развој са тестним подацима високог квалитета су од суштинског значаја за испоруку најсавременијих софтверских решења. Коришћење оригиналних производних података изгледа очигледно, али није дозвољено због (приватности) прописа. Алтернатива Test Data Management (ТДМ) алатке уводе „legacy-by-design” у добијању тачних података теста:

  • Не одражавају производне податке и пословна логика и референтни интегритет нису сачувани
  • Радите споро и дуготрајно
  • Потребан је ручни рад

Приступ синтетичким подацима: Тестирајте и развијајте са синтетичким тестним подацима генерисаним од вештачке интелигенције да бисте испоручили најсавременија софтверска решења која су паметна са:

  • Подаци слични производњи са очуваном пословном логиком и референтним интегритетом
  • Лако и брзо генерисање података помоћу најсавременије вештачке интелигенције
  • Приватност по дизајну
  • Лако, брзо и agile

Ово омогућава организацији да тестира и развија са тестним подацима следећег нивоа како би испоручила најсавременија софтверска решења!

Више информација

Заинтересовани? За више информација о синтетичким подацима посетите веб локацију Синтхо или контактирајте Вим Кеес Јанссен. За више информација о САС-у, посетите ввв.сас.цом или контактирајте кеес@синтхо.аи.

У овом случају употребе, Синтхо, САС и НЛ АИЦ раде заједно како би постигли жељене резултате. Синтхо је стручњак за синтетичке податке генерисане вештачком интелигенцијом, а САС је тржишни лидер у аналитици и нуди софтвер за истраживање, анализу и визуелизацију података.

* Предвиђа 2021. – Стратегије података и аналитике за управљање, скалирање и трансформацију дигиталног пословања, Гартнер, 2020.

синто поклопац водича

Сачувајте свој водич за синтетичке податке сада!