Анонімні дані проти синтетичних даних

Якщо ви анонімізуєте свої дані перед проведенням тестування даних для аналізу даних, діє кілька факторів:

  1. Майже у всіх випадках анонімні дані все ще можна простежити за окремими особами через специфічні та унікальні рядки (наприклад, медичні записи)
  2. Чим більше ви анонімізуєте або узагальнюєте, тим більше даних ви знищуєте. Це погіршує якість ваших даних, а отже, і ваших уявлень
  3. Анонімізація працює по-різному для різних форматів даних. Це означає, що він не масштабується і може зайняти дуже багато часу

Синтетичні дані вирішують всі ці недоліки та багато іншого. Перегляньте відео нижче, щоб побачити, як експерт з аналітики SAS (лідер світового ринку аналітики) пояснив свою оцінку різниці в якості між вихідними даними, анонімізованими даними та синтетичними даними, згенерованими Syntho.

Це відео знято з Syntho x SAS D[N]A Café про синтетичні дані, створені штучним інтелектом. Повне відео шукайте тут.

Едвін ван Унен надіслав оригінальний набір даних Syntho, і ми синтезували набір даних. Але питання було також: «Що станеться, якщо ми порівняємо синтетичні дані з анонімізованими?» Оскільки ви втрачаєте багато інформації в анонімізованих даних, чи станеться це також під час синтезу набору даних? Ми почали з набору даних з телекомунікаційної галузі з 56.000 128 рядків і XNUMX стовпців інформації про відтік компанії. Цей набір даних був як синтезований, так і анонімізований, щоб Едвін міг порівняти синтез із анонімізацією. Потім Едвін почав моделювати за допомогою SAS Viya. Він побудував кілька моделей відтоку на оригінальному наборі даних, використовуючи класичні методи регресії та дерева рішень, а також більш складні методи, такі як нейронні мережі, підвищення градієнта, випадковий ліс – подібні методи. Використання стандартних параметрів SAS Viya під час створення моделей.

Тоді настав час подивитися на результати. Результати були дуже багатообіцяючими для синтетичних даних, а не для анонімізації. Для експертів, які не мають машинного навчання в аудиторії, ми дивимося на область під кривою ROC, яка дещо говорить про точність моделі. Порівнюючи вихідні дані з анонімізованими даними, ми бачимо, що вихідна модель даних має область під кривою ROC 8, що досить добре. Однак анонімізовані дані мають область під кривою ROC 6. Це означає, що ми втрачаємо багато інформації з анонімізованою моделлю, тому ви втрачаєте багато можливостей прогнозування.

Але тоді виникає питання, а як щодо синтетичних даних? Тут ми зробили те ж саме, але замість анонімізації даних Syntho синтезував дані. Тепер ми бачимо, як вихідні дані, так і синтетичні дані мають область під кривою ROC 8, що дуже схоже. Не зовсім однакові через мінливість, але дуже схожі. Це означає, що потенціал синтетичних даних дуже багатообіцяючий – Едвін дуже радий цьому.

Група людей посміхається

Дані синтетичні, але наша команда справжня!

Зверніться до компанії Syntho і один з наших експертів зв’яжеться з вами зі швидкістю світла, щоб вивчити цінність синтетичних даних!