الأسئلة الشائعة

الأسئلة المتداولة حول البيانات التركيبية

مفهوم! لحسن الحظ ، لدينا الإجابات ونحن هنا للمساعدة. تحقق من الأسئلة المتداولة لدينا.

الرجاء فتح سؤال أدناه والنقر فوق الروابط للعثور على مزيد من المعلومات. هل لديك سؤال أكثر تعقيدًا لم يتم ذكره هنا؟ اسأل خبرائنا مباشرة!

الأسئلة الأكثر شيوعًا

تشير البيانات التركيبية إلى البيانات التي يتم إنشاؤها بشكل مصطنع بدلاً من جمعها من مصادر في العالم الحقيقي. بشكل عام ، بينما يتم جمع البيانات الأصلية في جميع تفاعلاتك مع الأشخاص (العملاء والمرضى وما إلى ذلك) وعبر جميع العمليات الداخلية الخاصة بك ، يتم إنشاء البيانات الاصطناعية بواسطة خوارزمية الكمبيوتر.

يمكن أيضًا استخدام البيانات التركيبية لاختبار وتقييم النماذج في بيئة خاضعة للرقابة ، أو لحماية المعلومات الحساسة عن طريق إنشاء بيانات مشابهة لبيانات العالم الحقيقي ولكنها لا تحتوي على أي معلومات حساسة. غالبًا ما تُستخدم البيانات التركيبية كبديل للبيانات الحساسة للخصوصية ويمكن استخدامها كبيانات اختبار أو للتحليلات أو لتدريب التعلم الآلي.

المزيد

يمكن أن يكون ضمان احتفاظ البيانات التركيبية بنفس جودة البيانات مثل البيانات الأصلية أمرًا صعبًا ، ويعتمد غالبًا على حالة الاستخدام المحددة والطرق المستخدمة لإنشاء البيانات التركيبية. يمكن لبعض طرق إنشاء البيانات التركيبية ، مثل النماذج التوليفية ، إنتاج بيانات مشابهة إلى حد كبير للبيانات الأصلية. السؤال الأساسي: كيف يتم إثبات ذلك؟

هناك بعض الطرق لضمان جودة البيانات التركيبية:

  • مقاييس جودة البيانات عبر تقرير جودة البيانات لدينا: تتمثل إحدى طرق ضمان احتفاظ البيانات التركيبية بنفس جودة البيانات مثل البيانات الأصلية في استخدام مقاييس جودة البيانات لمقارنة البيانات التركيبية بالبيانات الأصلية. يمكن استخدام هذه المقاييس لقياس أشياء مثل تشابه البيانات ودقتها واكتمالها. تضمن برنامج Syntho تقرير جودة البيانات بمقاييس جودة البيانات المختلفة.
  • التقييم الخارجي: نظرًا لأن جودة بيانات البيانات التركيبية مقارنة بالبيانات الأصلية أمر أساسي ، فقد أجرينا مؤخرًا تقييمًا مع خبراء البيانات في SAS (الرائد في السوق في التحليلات) لإثبات جودة بيانات البيانات التركيبية بواسطة Syntho مقارنة بالبيانات الحقيقية. قام Edwin van Unen ، خبير التحليلات من SAS ، بتقييم مجموعات البيانات التركيبية التي تم إنشاؤها من Syntho عبر تقييمات التحليلات المختلفة (AI) وتبادل النتائج. شاهد ملخصًا قصيرًا لهذا الفيديو هنا.
  • الاختبار والتقييم بنفسك: يمكن اختبار البيانات التركيبية وتقييمها من خلال مقارنتها ببيانات العالم الحقيقي أو باستخدامها لتدريب نماذج التعلم الآلي ومقارنة أدائها بالنماذج المدربة على بيانات العالم الحقيقي. لماذا لا تختبر جودة البيانات التركيبية بنفسك؟ اسأل خبرائنا عن احتمالات هذا هنا

من المهم ملاحظة أن البيانات التركيبية لا يمكن أن تضمن أبدًا أن تكون مشابهة بنسبة 100٪ للبيانات الأصلية ، ولكن يمكن أن تكون قريبة بما يكفي لتكون مفيدة لحالة استخدام معينة. يمكن أن تكون حالة الاستخدام المحددة هذه تحليلات متقدمة أو نماذج لتعلم الآلة.

"إخفاء الهوية" الكلاسيكي ليس دائمًا الحل الأفضل ، للأسباب التالية:

  1. مخاطر الخصوصية - سيكون لديك دائما
    مخاطرة تتعلق بالخصوصية. تطبيق هؤلاء
    تقنيات إخفاء الهوية الكلاسيكية
    يجعل الأمر أكثر صعوبة ، ولكن ليس كذلك
    من المستحيل التعرف على الأفراد.
  2. إتلاف البيانات - وكلما
    إخفاء هويتك ، كان ذلك أفضل لحمايتك
    خصوصيتك ، ولكن كلما زادت
    تدمير البيانات الخاصة بك. هذا ليس ما
    تريد التحليلات ، لأن
    ستؤدي البيانات المدمرة إلى ضرر
    أفكار.
  3. استهلاك الوقت - إنه حل
    هذا يستغرق الكثير من الوقت ، لأن
    هذه التقنيات تعمل بشكل مختلف
    لكل مجموعة بيانات ولكل نوع بيانات.

تهدف البيانات التركيبية إلى حل كل هذه العيوب. الاختلاف مذهل لدرجة أننا صنعنا مقطع فيديو حوله. شاهدها هنا.

الأسئلة المتكررة

البيانات التركيبية

بشكل عام ، يستخدم معظم عملائنا البيانات التركيبية من أجل:

  • اختبار وتطوير البرمجيات
  • البيانات التركيبية للتحليلات وتطوير النماذج والتحليلات المتقدمة (AI & ML)
  • عروض المنتجات

اقرأ المزيد واستكشف حالات الاستخدام.

توأم البيانات الاصطناعية هو نسخة طبق الأصل تم إنشاؤها بواسطة الخوارزمية لمجموعة بيانات و / أو قاعدة بيانات في العالم الحقيقي. باستخدام Synthetic Data Twin ، يهدف Syntho إلى محاكاة مجموعة بيانات أو قاعدة بيانات أصلية في أقرب وقت ممكن من البيانات الأصلية لإنشاء تمثيل واقعي للأصل. من خلال البيانات التركيبية المزدوجة ، نهدف إلى الحصول على جودة بيانات تركيبية فائقة مقارنة بالبيانات الأصلية. نقوم بذلك باستخدام برنامج البيانات التركيبية الذي يستخدم أحدث نماذج الذكاء الاصطناعي. تُنشئ نماذج الذكاء الاصطناعي هذه نقاط بيانات جديدة تمامًا ونمذجتها بطريقة تحافظ على الخصائص والعلاقات والأنماط الإحصائية للبيانات الأصلية إلى الحد الذي يمكنك من استخدامه كما لو كانت بيانات أصلية.

يمكن استخدام هذا لمجموعة متنوعة من الأغراض ، مثل اختبار وتدريب نماذج التعلم الآلي ، ومحاكاة سيناريوهات البحث والتطوير ، وإنشاء بيئات افتراضية للتدريب والتعليم. يمكن استخدام توائم البيانات الاصطناعية لإنشاء بيانات واقعية وتمثيلية يمكن استخدامها بدلاً من بيانات العالم الحقيقي عندما لا تكون متاحة أو عند استخدام بيانات العالم الحقيقي سيكون غير عملي أو غير أخلاقي بسبب لوائح خصوصية البيانات الصارمة.

اقرأ أكثر.

نعم فعلنا. نحن نقدم العديد من ميزات تحسين وزيادة البيانات التركيبية ذات القيمة المضافة ، بما في ذلك أجهزة الاستهزاء ، لنقل بياناتك إلى المستوى التالي.

اقرأ أكثر.

البيانات الوهمية والبيانات التركيبية المُنشأة بواسطة الذكاء الاصطناعي كلاهما نوعان من البيانات التركيبية ، ولكن يتم إنشاؤها بطرق مختلفة وتخدم أغراضًا مختلفة.

البيانات الوهمية هي نوع من البيانات التركيبية التي يتم إنشاؤها يدويًا وغالبًا ما تستخدم لأغراض الاختبار والتطوير. يتم استخدامه عادةً لمحاكاة سلوك بيانات العالم الحقيقي في بيئة خاضعة للرقابة وغالبًا ما يستخدم لاختبار وظائف نظام أو تطبيق. غالبًا ما يكون بسيطًا وسهل الإنشاء ولا يتطلب نماذج أو خوارزميات معقدة. في كثير من الأحيان ، يحيل المرء أيضًا إلى بيانات وهمية على أنها "بيانات وهمية" أو "بيانات مزيفة".

من ناحية أخرى ، يتم إنشاء البيانات الاصطناعية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي باستخدام تقنيات الذكاء الاصطناعي ، مثل التعلم الآلي أو النماذج التوليدية. يتم استخدامه لإنشاء بيانات واقعية وتمثيلية يمكن استخدامها بدلاً من بيانات العالم الحقيقي عندما يكون استخدام بيانات العالم الحقيقي غير عملي أو غير أخلاقي بسبب لوائح الخصوصية الصارمة. غالبًا ما يكون أكثر تعقيدًا ويتطلب موارد حسابية أكثر من البيانات الوهمية اليدوية. ونتيجة لذلك ، فهي أكثر واقعية وتحاكي البيانات الأصلية في أقرب وقت ممكن.

باختصار ، يتم إنشاء البيانات الوهمية يدويًا ويتم استخدامها عادةً للاختبار والتطوير ، بينما يتم إنشاء البيانات الاصطناعية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي باستخدام تقنيات الذكاء الاصطناعي وتُستخدم لإنشاء بيانات تمثيلية وواقعية.

المزيد من الأسئلة؟ اسأل خبرائنا

جودة البيانات

يمكن أن يكون ضمان احتفاظ البيانات التركيبية بنفس جودة البيانات مثل البيانات الأصلية أمرًا صعبًا ، ويعتمد غالبًا على حالة الاستخدام المحددة والطرق المستخدمة لإنشاء البيانات التركيبية. يمكن لبعض طرق إنشاء البيانات التركيبية ، مثل النماذج التوليفية ، إنتاج بيانات مشابهة إلى حد كبير للبيانات الأصلية. السؤال الأساسي: كيف يتم إثبات ذلك؟

هناك بعض الطرق لضمان جودة البيانات التركيبية:

  • مقاييس جودة البيانات عبر تقرير جودة البيانات لدينا: تتمثل إحدى طرق ضمان احتفاظ البيانات التركيبية بنفس جودة البيانات مثل البيانات الأصلية في استخدام مقاييس جودة البيانات لمقارنة البيانات التركيبية بالبيانات الأصلية. يمكن استخدام هذه المقاييس لقياس أشياء مثل تشابه البيانات ودقتها واكتمالها. تضمن برنامج Syntho تقرير جودة البيانات بمقاييس جودة البيانات المختلفة.
  • التقييم الخارجي: نظرًا لأن جودة بيانات البيانات التركيبية مقارنة بالبيانات الأصلية أمر أساسي ، فقد أجرينا مؤخرًا تقييمًا مع خبراء البيانات في SAS (الرائد في السوق في التحليلات) لإثبات جودة بيانات البيانات التركيبية بواسطة Syntho مقارنة بالبيانات الحقيقية. قام Edwin van Unen ، خبير التحليلات من SAS ، بتقييم مجموعات البيانات التركيبية التي تم إنشاؤها من Syntho عبر تقييمات التحليلات المختلفة (AI) وتبادل النتائج. شاهد ملخصًا قصيرًا لهذا الفيديو هنا.
  • الاختبار والتقييم بنفسك: يمكن اختبار البيانات التركيبية وتقييمها من خلال مقارنتها ببيانات العالم الحقيقي أو باستخدامها لتدريب نماذج التعلم الآلي ومقارنة أدائها بالنماذج المدربة على بيانات العالم الحقيقي. لماذا لا تختبر جودة البيانات التركيبية بنفسك؟ اسأل خبرائنا عن احتمالات هذا هنا

من المهم ملاحظة أن البيانات التركيبية لا يمكن أن تضمن أبدًا أن تكون مشابهة بنسبة 100٪ للبيانات الأصلية ، ولكن يمكن أن تكون قريبة بما يكفي لتكون مفيدة لحالة استخدام معينة. يمكن أن تكون حالة الاستخدام المحددة هذه تحليلات متقدمة أو نماذج لتعلم الآلة.

نعم إنه كذلك. تحتوي البيانات التركيبية على أنماط لم تكن تعلم أنها موجودة في البيانات الأصلية.

لكن لا تأخذ كلمتنا على محمل الجد. أجرى خبراء التحليلات في SAS (الشركة الرائدة في السوق العالمية في مجال التحليلات) تقييمًا (AI) لبياناتنا التركيبية وقارنوها بالبيانات الأصلية. فضولي؟ شاهد ال الحدث كله هنا أو مشاهدة النسخة القصيرة عنها جودة البيانات هنا.

نعم فعلنا. تم تحسين نظامنا الأساسي لقواعد البيانات وبالتالي الحفاظ على التكامل المرجعي بين مجموعات البيانات في قاعدة البيانات.

فضولي لمعرفة المزيد عن هذا؟

اسأل خبرائنا مباشرة.

سياسة

لا نحن لا نفعل. يمكننا بسهولة نشر محرك Syntho في مكان العمل أو في السحابة الخاصة بك عبر عامل الإرساء.

لا ، لقد قمنا بتحسين منصتنا بطريقة يمكن نشرها بسهولة في البيئة الموثوقة للعميل. هذا يضمن أن البيانات لن تترك البيئة الموثوقة للعميل. تكون خيارات النشر الخاصة بالبيئة الموثوقة للعميل "داخل الشركة" وفي "بيئة السحابة الخاصة بالعميل (السحابة الخاصة)".

اختياري: يدعم Syntho إصدارًا مستضافًا في "Syntho cloud".

رقم محرك Syntho هو منصة الخدمة الذاتية. نتيجة لذلك ، من الممكن إنشاء بيانات تركيبية باستخدام محرك Syntho بطريقة مماثلة لـ end-to-end عملية ، Syntho غير قادر أبدًا على رؤية البيانات ولا يلزمها أبدًا معالجة البيانات.

نعم نقوم بذلك من خلال تقرير ضمان الجودة الخاص بنا.

 

عند تركيب مجموعة بيانات ، من الضروري إثبات عدم قدرة المرء على إعادة تحديد هوية الأفراد. في هذا الفيديو، تقدم Marijn تدابير الخصوصية الموجودة في تقرير الجودة الخاص بنا لإثبات ذلك.

يحتوي تقرير Syntho QA على ثلاثة معيار الصناعة مقاييس لتقييم خصوصية البيانات. الفكرة وراء كل من هذه المقاييس هي كما يلي:

  • البيانات التركيبية (S) يجب أن تكون "أقرب ما يمكن" ، ولكن "ليست قريبة جدًا" من البيانات الهدف (T).
  • بيانات الانتظار المختارة عشوائيا (H) مقياس الأداء "قريب جدًا".
  • A الحل الأمثل يولد بيانات تركيبية جديدة تتصرف تمامًا مثل البيانات الأصلية ، لكن لم يتم رؤيتها من قبل (= H).

إحدى حالات الاستخدام التي سلطت عليها هيئة حماية البيانات الهولندية تحديدًا هي استخدام البيانات التركيبية كبيانات اختبار.

يمكن العثور على المزيد في هذه المقالة.

محرك سينثو

يتم شحن محرك Syntho في حاوية Docker ويمكن نشره بسهولة وتوصيله بالبيئة التي تختارها.

تشمل خيارات النشر الممكنة ما يلي:

  • على فرضية
  • أي سحابة (خاصة)
  • أي بيئة أخرى

المزيد.

يمكّنك Syntho من الاتصال بسهولة بقواعد البيانات أو التطبيقات أو خطوط أنابيب البيانات أو أنظمة الملفات. 

نحن ندعم العديد من الموصلات المتكاملة بحيث يمكنك الاتصال بالبيئة المصدر (حيث يتم تخزين البيانات الأصلية) وبيئة الوجهة (حيث تريد كتابة البيانات التركيبية الخاصة بك) للحصول على end-to-end نهج متكامل.

ميزات الاتصال التي ندعمها:

  • التوصيل والتشغيل مع Docker
  • 20+ موصلات قواعد البيانات
  • 20+ موصلات نظام الملفات

المزيد.

بطبيعة الحال ، يعتمد وقت التوليد على حجم قاعدة البيانات. في المتوسط ​​، يتم تجميع جدول يحتوي على أقل من مليون سجل في أقل من 1 دقائق.

يمكن لخوارزميات التعلم الآلي من Syntho تعميم الميزات بشكل أفضل مع توفر المزيد من سجلات الكيانات ، مما يقلل من مخاطر الخصوصية. يوصى بحد أدنى لنسبة العمود إلى الصف 1: 500. على سبيل المثال ، إذا كان الجدول المصدر الخاص بك يحتوي على 6 أعمدة ، فيجب أن يحتوي على 3000 صف كحد أدنى.

لا على الاطلاق. على الرغم من أن الأمر قد يتطلب بعض الجهد لفهم مزايا البيانات التركيبية وطرق عملها وحالات استخدامها بشكل كامل ، إلا أن عملية التوليف بسيطة للغاية ويمكن لأي شخص لديه معرفة أساسية بالكمبيوتر القيام بذلك. لمزيد من المعلومات حول عملية التركيب ، تحقق من هذه الصفحة or طلب عرض.

يعمل محرك Syntho بشكل أفضل على البيانات المنظمة والجداول (أي شيء يحتوي على صفوف وأعمدة). ضمن هذه الهياكل ، ندعم أنواع البيانات التالية:

  • بيانات الهياكل المنسقة في جداول (فئوية ، رقمية ، إلخ.)
  • المعرفات المباشرة و PII
  • مجموعات البيانات وقواعد البيانات الكبيرة
  • بيانات الموقع الجغرافي (مثل GPS)
  • بيانات السلاسل الزمنية
  • قواعد بيانات متعددة الجداول (بسلامة مرجعية)
  • فتح بيانات نصية

 

دعم البيانات المعقدة
بجانب جميع أنواع البيانات المجدولة العادية ، يدعم محرك Syntho أنواع البيانات المعقدة وهياكل البيانات المعقدة.

  • السلاسل الزمنية
  • قواعد بيانات متعددة الجداول
  • افتح النص

المزيد.

لا ، لقد قمنا بتحسين نظامنا الأساسي لتقليل المتطلبات الحسابية (على سبيل المثال ، عدم الحاجة إلى GPU) ، دون المساومة على دقة البيانات. بالإضافة إلى ذلك ، نحن ندعم التحجيم التلقائي ، بحيث يمكن تجميع قواعد البيانات الضخمة.

نعم. تم تحسين برنامج Syntho لقواعد البيانات التي تحتوي على جداول متعددة.

بالنسبة لهذا ، يكتشف Syntho تلقائيًا أنواع البيانات والمخططات والتنسيقات لزيادة دقة البيانات. بالنسبة لقاعدة البيانات متعددة الجداول ، فإننا ندعم الاستدلال التلقائي لعلاقة الجدول والتوليف للحفاظ على التكامل المرجعي.

مجموعة من الناس يبتسمون

البيانات مصطنعة، لكن فريقنا حقيقي!

الاتصال Syntho وسيتواصل معك أحد خبرائنا بسرعة الضوء لاستكشاف قيمة البيانات التركيبية!