Најдобрите алатки за анонимизација на податоци за усогласеност со заштитата на приватноста
Организациите користат алатки за анонимизација на податоци за отстранување лични информации од нивните збирки на податоци. Неусогласеноста може да доведе до големи казни од регулаторните тела и кршење на податоците. Без анонимизирање на податоци, не можете да ги користите или споделувате комплетите на податоци во целост.
Многу алатки за анонимизација не може да гарантира целосна усогласеност. Методите од минатите генерации може да ги остават личните информации ранливи на деидентификација од страна на злонамерни актери. Некои методи на статистичка анонимизација намалување на квалитетот на податоците до точка кога е несигурна Анализа на податоци.
Ние во Синто ќе ве запознае со методите за анонимизација и клучните разлики помеѓу алатките од претходната и следната генерација. Ќе ви кажеме за најдобрите алатки за анонимизација на податоци и ќе ги предложиме клучните размислувања за нивно избирање.
Содржина
- Што се синтетички податоци
- Како работи
- Зошто организациите го користат
- Како да започнете
Кои се алатките за анонимизација на податоци?
Анонимизација на податоците е техника на отстранување или менување на доверливите информации во збирките на податоци. Организациите не можат слободно да пристапуваат, споделуваат и користат достапни податоци што може директно или индиректно да се проследат до поединци.
- Општи регулативи за заштита на податоците (GDPR). Законодавството на ЕУ ја заштитува приватноста на личните податоци, наложувајќи согласност за обработка на податоците и доделување на поединци права за пристап до податоците. Обединетото Кралство има сличен закон наречен UK-GDPR.
- Закон за приватност на потрошувачите во Калифорнија (CCPA). Калифорнискиот закон за приватност се фокусира на правата на потрошувачите во врска со споделување на податоци.
- Закон за преносливост и отчетност на здравственото осигурување (HIPAA). Правило за приватност воспоставува стандарди за заштита на здравствените информации на пациентот.
Како функционираат алатките за анонимизација на податоци?
Алатките за анонимизација на податоци ги скенираат збирките на податоци за чувствителни информации и ги заменуваат со вештачки податоци. Софтверот ги наоѓа таквите податоци во табели и колони, текстуални датотеки и скенирани документи.
Овој процес ги отстранува податоците од елементите што можат да ги поврзат со поединци или организации. Видовите податоци што ги замаглуваат овие алатки вклучуваат:
- Информации за лична идентификација (PII): Имиња, идентификациски броеви, датуми на раѓање, детали за наплата, телефонски броеви и адреси на е-пошта.
- Заштитени здравствени информации (ПЗЗ): Опфаќа медицинска евиденција, детали за здравствено осигурување и лични здравствени податоци.
- Финансиски информации: Броеви на кредитни картички, детали за банкарска сметка, податоци за инвестиции и други што може да се поврзат со корпоративни ентитети.
На пример, здравствените организации ги анонимизираат адресите на пациентите и деталите за контакт за да обезбедат усогласеност со HIPAA за истражување на ракот. Финансиска компанија ги замати датумите и локациите на трансакциите во нивните збирки податоци за да се придржува до законите за GDPR.
Иако концептот е ист, постојат неколку различни техники анонимизирање на податоци.
Техники за анонимизација на податоци
Анонимизацијата се случува на многу начини и не сите методи се подеднакво сигурни за усогласеност и корисност. Овој дел ја опишува разликата помеѓу различните видови методи.
Псевдонимизација
Псевдонимизацијата е реверзибилен процес на деидентификација каде личните идентификатори се заменуваат со псевдоними. Одржува мапирање помеѓу оригиналните податоци и изменетите, при што табелата за мапирање се чува одделно.
Негативната страна на псевдонимизирањето е тоа што е реверзибилно. Со дополнителни информации, злонамерните актери можат да трагаат до поединецот. Според правилата на GDPR, псевдонимизираните податоци не се сметаат за анонимизирани податоци. Останува предмет на прописите за заштита на податоците.
Маскирање на податоци
Методот на маскирање на податоци создава структурно слична, но лажна верзија на нивните податоци за да ги заштити чувствителните информации. Оваа техника ги заменува вистинските податоци со изменети знаци, задржувајќи го истиот формат за нормална употреба. Теоретски, ова помага да се одржи оперативната функционалност на збирките на податоци.
Во пракса, маскирање податоци често ја намалува алатка за податоци. Може да не успее да го зачува оригинални податоци's дистрибуција или карактеристики, што го прави помалку корисен за анализа. Друг предизвик е да одлучите што да маскирате. Ако се направи погрешно, маскираните податоци сè уште може повторно да се идентификуваат.
Генерализација (агрегација)
Генерализацијата ги анонимизира податоците со тоа што ги прави помалку детални. Ги групира сличните податоци заедно и го намалува нивниот квалитет, што го отежнува разделувањето на поединечни податоци. Овој метод често вклучува методи за сумирање на податоци, како што е просечно или тотализирање за да се заштитат поединечните точки на податоци.
Преголемата генерализација може да ги направи податоците речиси бескорисни, додека недоволната генерализација може да не понуди доволно приватност. Исто така, постои ризик од преостанато обелоденување, бидејќи збирните збирки на податоци сепак може да обезбедат доволно детална деидентификација кога се комбинираат со други извори на податоци.
Пертурбација
Пертурбацијата ги модифицира оригиналните збирки на податоци со заокружување на вредностите и додавање случаен шум. Податочните точки се менуваат суптилно, со што се нарушува нивната првобитна состојба додека се одржуваат севкупните модели на податоци.
Негативната страна на пертурбацијата е тоа што податоците не се целосно анонимизирани. Ако промените не се доволни, постои ризик дека оригиналните карактеристики може повторно да се идентификуваат.
Замена на податоци
Замената е техника каде што вредностите на атрибутите во базата на податоци се преуредуваат. Овој метод е особено лесен за имплементација. Конечните збирки на податоци не одговараат на оригиналните записи и не се директно следени до нивните оригинални извори.
Меѓутоа, индиректно, збирките на податоци остануваат реверзибилни. Заменетите податоци се ранливи на обелоденување дури и со ограничени секундарни извори. Освен тоа, тешко е да се одржи семантичкиот интегритет на некои префрлени податоци. На пример, кога се заменуваат имиња во база на податоци, системот може да не направи разлика помеѓу машки и женски имиња.
Токинизација
Токенизацијата ги заменува чувствителните податоци со токени - нечувствителни еквиваленти без искористливи вредности. Токенизираните информации обично се случајна низа од броеви и знаци. Оваа техника често се користи за да се заштитат финансиските информации додека се одржуваат нивните функционални својства.
Некои софтвери го отежнуваат управувањето и зголемувањето на сводовите за токени. Овој систем, исто така, воведува безбедносен ризик: чувствителните податоци би можеле да бидат изложени на ризик доколку напаѓачот помине низ сефот за шифрирање.
Рандомизација
Рандомизацијата ги менува вредностите со случајни и лажни податоци. Тоа е директен пристап кој помага да се зачува доверливоста на поединечните записи на податоци.
Оваа техника не функционира ако сакате да ја одржите точната статистичка дистрибуција. Гарантирано е да ги компромитира податоците што се користат за сложени збирки на податоци, како што се геопросторни или временски податоци. И несоодветните или неправилно применетите методи на рандомизација не можат да обезбедат заштита на приватноста.
Редакција на податоци
Редакцијата на податоците е процес на целосно отстранување на информациите од збирките на податоци: затемнување, бришење или бришење текст и слики. Ова го спречува пристапот до чувствителни податоци за производство и е вообичаена практика во правните и официјалните документи. Исто толку очигледно е дека ги прави податоците несоодветни за точна статистичка анализа, учење на модели и клиничко истражување.
Како што е очигледно, овие техники имаат недостатоци што оставаат дупки што злонамерните актери можат да ги злоупотребат. Тие често ги отстрануваат основните елементи од збирките на податоци, што ја ограничува нивната употребливост. Ова не е случај со техниките од последната генерација.
Алатки за анонимизација од следната генерација
Современиот софтвер за анонимизација користи софистицирани техники за да се негира ризикот од повторна идентификација. Тие нудат начини да се усогласат со сите прописи за приватност додека го одржуваат структурниот квалитет на податоците.
Генерирање на синтетички податоци
Синтетичкото генерирање податоци нуди попаметен пристап за анонимизирање на податоците додека се одржува корисноста на податоците. Оваа техника користи алгоритми за создавање на нови збирки на податоци кои ја отсликуваат структурата и својствата на реалните податоци.
Синтетичките податоци ги заменуваат PII и PHI со лажни податоци што не може да се проследат до поединци. Ова обезбедува усогласеност со законите за приватност на податоците, како што се GDPR и HIPAA. Со усвојување синтетички алатки за генерирање податоци, организациите обезбедуваат приватност на податоците, ги ублажуваат ризиците од прекршување на податоците и го забрзуваат развојот на апликации водени од податоци.
Хомоморфна шифрирање
Хомоморфна шифрирање (преведена како „иста структура“) ги трансформира податоците во шифриран текст. Шифрираните збирки на податоци ја задржуваат истата структура како и оригиналните податоци, што резултира со одлична точност за тестирање.
Овој метод овозможува извршување на сложени пресметки директно на шифрирани податоци без претходно да треба да го дешифрирате. Организациите можат безбедно да складираат шифрирани датотеки во јавниот облак и да ја нарачуваат обработката на податоците на трети страни без да ја загрозат безбедноста. Овие податоци се исто така усогласени, бидејќи правилата за приватност не важат за шифрирани информации.
Сепак, сложените алгоритми бараат експертиза за правилна имплементација. Освен тоа, хомоморфното шифрирање е побавно од операциите на нешифрирани податоци. Можеби не е оптималното решение за тимовите за DevOps и за обезбедување квалитет (QA), кои бараат брз пристап до податоците за тестирање.
Безбедна повеќестрана пресметка
Безбедно повеќепартиско пресметување (SMPC) е криптографски метод за генерирање на збирки на податоци со заеднички напор на неколку членови. Секоја страна го шифрира својот влез, врши пресметки и добива обработени податоци. На овој начин, секој член го добива резултатот што му е потребен додека ги чува сопствените податоци во тајност.
Овој метод бара повеќе страни да ги дешифрираат произведените збирки на податоци, што го прави дополнително доверлив. Сепак, SMPC бара значително време за да генерира резултати.
Техники за анонимизација на податоците од претходната генерација | Алатки за анонимизација од следната генерација | ||||
---|---|---|---|---|---|
Псевдонимизација | Ги заменува личните идентификатори со псевдоними додека одржува посебна табела за мапирање. | - Управување со податоци за човечки ресурси - Интеракции за поддршка на клиентите - Истражувачки анкети | Генерирање на синтетички податоци | Користи алгоритам за креирање на нови збирки на податоци што ја отсликуваат структурата на реалните податоци и истовремено обезбедуваат приватност и усогласеност. | - Развој на апликации базирани на податоци - Клинички истражувања - Напредно моделирање - Маркетинг на клиентите |
Маскирање на податоци | Ги менува вистинските податоци со лажни знаци, задржувајќи го истиот формат. | - Финансиски извештај - Околини за обука на корисници | Хомоморфна шифрирање | Ги трансформира податоците во шифриран текст додека ја задржува оригиналната структура, овозможувајќи пресметување на шифрирани податоци без дешифрирање. | - Безбедна обработка на податоци - Аутсорсинг за пресметување на податоци - Напредна анализа на податоци |
Генерализација (агрегација) | Ги намалува деталите за податоците, групирајќи слични податоци. | - Демографски студии - Пазарни студии | Безбедна повеќестрана пресметка | Криптографски метод каде повеќе страни го шифрираат нивниот влез, вршат пресметки и постигнуваат заеднички резултати. | - Колаборативна анализа на податоци - Здружување на доверливи податоци |
Пертурбација | Ги менува збирките на податоци со заокружување на вредностите и додавање случаен шум. | - Анализа на економски податоци - Истражување на шема на сообраќај - Анализа на податоците за продажбата | |||
Замена на податоци | Ги преуредува вредностите на атрибутот на податоци за да спречи директна следливост. | - Студии за транспорт - Анализа на образовни податоци | |||
Токинизација | Ги заменува чувствителните податоци со нечувствителни токени. | - Обработка на плаќање - Истражување на односите со клиентите | |||
Рандомизација | Додава случајни или лажни податоци за менување на вредностите. | - Анализа на геопросторни податоци - Бихејвиорални студии | |||
Редакција на податоци | Ги отстранува информациите од збирките на податоци, | - Обработка на правни документи - Управување со евиденција |
Табела 1. Споредба помеѓу техниките за анонимизација од претходната и следната генерација
Паметната деидентификација на податоци како нов пристап кон анонимизација на податоците
Паметна деидентификација анонимизира податоци користејќи генерирани со вештачка интелигенција синтетички лажни податоци. Платформите со карактеристики ги трансформираат чувствителните информации во соодветни, непрепознатливи податоци на следниве начини:
- Софтверот за деидентификација ги анализира постоечките збирки на податоци и ги идентификува PII и PHI.
- Организациите можат да изберат кои чувствителни податоци да ги заменат со вештачки информации.
- Алатката произведува нови збирки на податоци со усогласени податоци.
Оваа технологија е корисна кога организациите треба безбедно да соработуваат и да разменуваат вредни податоци. Исто така е корисно кога податоците треба да се усогласат во неколку релациони бази на податоци.
Паметната деидентификација ги одржува непроменети односите во податоците преку постојано мапирање. Компаниите можат да ги користат генерираните податоци за длабинска деловна аналитика, обука за машинско учење и клинички тестови.
Со толку многу методи, потребен ви е начин да одредите дали алатката за анонимизација е соодветна за вас.
Како да ја изберете вистинската алатка за анонимизација на податоци
- Оперативна приспособливост. Изберете алатка способна за скалирање нагоре и надолу во согласност со вашите оперативни барања. Одвојте време за стрес-тестирање на оперативната ефикасност при зголемен обем на работа.
- Интеграција. Алатките за анонимизација на податоци треба непречено да се интегрираат со вашите постоечки системи и аналитички софтвер, како и со гасоводот за континуирана интеграција и континуирано распоредување (CI/CD). Компатибилноста со вашите платформи за складирање, шифрирање и обработка на податоци е од витално значење за беспрекорните операции.
- Конзистентно мапирање на податоци. Погрижете се анонимизираните зачувани податоци да имаат интегритет и статистичка точност што се соодветни за вашите потреби. Техниките за анонимизација од претходната генерација ги бришат вредните елементи од збирките на податоци. Меѓутоа, современите алатки одржуваат референцијален интегритет, правејќи ги податоците доволно точни за случаи на напредна употреба.
- Безбедносни механизми. Дајте приоритет на алатките што ги штитат вистинските збирки на податоци и анонимизираните резултати од внатрешни и надворешни закани. Софтверот мора да биде распореден во безбедна клиентска инфраструктура, контроли за пристап засновани на улоги и API за автентикација со два фактори.
- Усогласена инфраструктура. Погрижете се алатката да ги складира збирките на податоци во безбедно складирање што е во согласност со прописите GDPR, HIPAA и CCPA. Покрај тоа, тој треба да поддржува алатки за резервна копија и обновување на податоците за да се избегне можноста за прекини поради неочекувани грешки.
- Модел на плаќање. Размислете за непосредните и долгорочните трошоци за да разберете дали алатката е усогласена со вашиот буџет. Некои алатки се дизајнирани за поголеми претпријатија и средни бизниси, додека други имаат флексибилни модели и планови засновани на употреба.
- Техничка поддршка. Оценете го квалитетот и достапноста на клиентската и техничката поддршка. Давателот може да ви помогне да ги интегрирате алатките за анонимизација на податоците, да го обучите персоналот и да ги решите техничките проблеми.
7-те најдобри алатки за анонимизација на податоци
Сега кога знаете што да барате, ајде да истражиме за што веруваме дека се најсигурните алатки маскирајте чувствителни информации.
1. Синто
Syntho се напојува со синтетички софтвер за генерирање податоци што дава можности за паметна деидентификација. Создавањето податоци засновано на правила на платформата носи разновидност, овозможувајќи им на организациите да креираат податоци според нивните потреби.
Скенер напојуван со вештачка интелигенција ги идентификува сите PII и PHI низ сетови на податоци, системи и платформи. Организациите можат да изберат кои податоци да ги отстранат или исмејуваат за да се усогласат со регулаторните стандарди. Во меѓувреме, функцијата за подпоставување помага да се направат помали збирки на податоци за тестирање, со што се намалува оптоварувањето на ресурсите за складирање и обработка.
Платформата е корисна во различни сектори, вклучително и здравството, управувањето со синџирот на снабдување и финансиите. Организациите ја користат платформата Syntho за да создадат непроизводство и да развијат сопствени сценарија за тестирање.
Може да дознаете повеќе за можностите на Syntho до закажување демо.
2. K2view
3. Broadcom
4. Претежно вештачка интелигенција
5. ARX
6. Амнезија
7. Тоник.ai
Алатките за анонимизација на податоци користат случаи
Компаниите од областа на финансиите, здравството, рекламирањето и јавните услуги користат алатки за анонимизација за да останат во согласност со законите за приватност на податоците. Деидентификуваните збирки на податоци се користат за различни сценарија.
Развој и тестирање на софтвер
Алатките за анонимизација им овозможуваат на софтверските инженери, тестерите и професионалците за ОК да работат со реални збирки на податоци без изложување на PII. Напредните алатки им помагаат на тимовите сами да ги обезбедат потребните податоци што ги имитираат условите за тестирање во реалниот свет без проблеми со усогласеноста. Ова им помага на организациите да ја подобрат ефикасноста на развојот на софтвер и квалитетот на софтверот.
Вистински случаи:
- Софтверот на Syntho создаде анонимизирани податоци од тестот што ги зачувува статистичките вредности на реалните податоци, овозможувајќи им на програмерите да испробуваат различни сценарија со поголемо темпо.
- Магацинот BigQuery на Google нуди функција за анонимизација на податоци да им помогне на организациите да споделуваат податоци со добавувачите без да ги прекршуваат прописите за приватност.
Клиничко истражување
Медицинските истражувачи, особено во фармацевтската индустрија, ги анонимизираат податоците за да ја зачуваат приватноста за нивните студии. Истражувачите можат да ги анализираат трендовите, демографијата на пациентите и резултатите од третманот, придонесувајќи за медицински напредок без да се ризикува доверливоста на пациентот.
Вистински случаи:
- Медицинскиот центар Еразмус ги користи анонимизираните алатки за генерација на вештачка интелигенција на Syntho да генерира и споделува висококвалитетни збирки на податоци за медицински истражувања.
Спречување на измама
Во спречувањето на измами, алатките за анонимизација овозможуваат сигурна анализа на трансакциските податоци, идентификувајќи малициозни обрасци. Алатките за деидентификација, исто така, овозможуваат обука на софтверот за вештачка интелигенција за реални податоци за да се подобри измамата и откривањето ризик.
Вистински случаи:
- Brighterion тренирал за анонимните податоци за трансакциите на Mastercard да го збогати својот модел со вештачка интелигенција, подобрувајќи ги стапките на откривање измами, а истовремено намалувајќи ги лажните позитиви.
Маркетинг на клиентите
Техниките за анонимизација на податоци помагаат да се проценат преференциите на клиентите. Организациите споделуваат деидентификувани збирки на податоци за однесувањето со нивните деловни партнери за да ги усовршат насочените маркетинг стратегии и да го персонализираат корисничкото искуство.
Вистински случаи:
- Платформата за анонимизација на податоци на Syntho прецизно го предвиде раздвојувањето на клиентите користејќи синтетички податоци генерирана од база на податоци од над 56,000 клиенти со 128 колони.
Јавно објавување на податоци
Агенциите и владините тела користат анонимизација на податоците за транспарентно споделување и обработка на информации од јавен карактер за различни јавни иницијативи. Тие вклучуваат предвидувања за криминал врз основа на податоци од социјалните мрежи и криминални досиеја, урбанистичко планирање засновано на демографија и правци за јавен транспорт или потреби за здравствена заштита низ регионите врз основа на шеми на болеста.
Вистински случаи:
- Универзитетот во Индијана користеше анонимизирани податоци за паметни телефони од околу 10,000 полицајци низ 21 американски град за да се откријат несогласувањата на патролите во соседството врз основа на социо-економски фактори.
Ова се само неколку примери што ги избираме. На софтвер за анонимизација се користи во сите индустрии како средство за максимално искористување на достапните податоци.
Изберете ги најдобрите алатки за анонимизација на податоци
Сите компании користат софтвер за анонимизација на бази на податоци да се усогласат со прописите за приватност. Кога се лишени од лични информации, збирките на податоци може да се користат и споделуваат без ризици од казни или бирократски процеси.
Постарите методи за анонимизација како замена на податоци, маскирање и редакција не се доволно безбедни. Деидентификација на податоци останува можност, што го прави неусогласен или ризичен. Покрај тоа, минат-ген софтвер за анонимизатор често го деградира квалитетот на податоците, особено во големи бази на податоци. Организациите не можат да се потпрат на такви податоци за напредна аналитика.
Треба да се одлучите за најдобра анонимизација на податоците софтвер. Многу бизниси ја избираат платформата Syntho за нејзините можности за идентификација, маскирање и синтетичко генерирање податоци од највисок степен на PII.
Дали сте заинтересирани да дознаете повеќе? Слободно истражете ја нашата документација за производот или контактирајте не за демонстрација.
За авторот
Менаџер за развој на бизнисот
Улијана Краинска, извршен директор за развој на бизнис во Syntho, со меѓународно искуство во развој на софтвер и индустријата SaaS, има магистерски студии по дигитален бизнис и иновации, од VU Amsterdam.
Во текот на изминатите пет години, Улијана покажа цврста посветеност на истражување на способностите за вештачка интелигенција и обезбедување стратешки бизнис консултации за имплементација на проектот за вештачка интелигенција.
Зачувајте го вашиот водич за синтетички податоци сега!
- Што се синтетички податоци?
- Зошто организациите го користат?
- Случаи за клиент со синтетички податоци за додавање вредност
- Како да започнете