ਸਿੰਥੋ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦਾ ਮੁਲਾਂਕਣ, ਪ੍ਰਮਾਣਿਤ ਅਤੇ SAS ਦੇ ਡੇਟਾ ਮਾਹਰਾਂ ਦੁਆਰਾ ਬਾਹਰੀ ਅਤੇ ਉਦੇਸ਼ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਪ੍ਰਵਾਨਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਹਾਲਾਂਕਿ Syntho ਨੂੰ ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਇੱਕ ਉੱਨਤ ਗੁਣਵੱਤਾ ਭਰੋਸਾ ਰਿਪੋਰਟ ਪੇਸ਼ ਕਰਨ 'ਤੇ ਮਾਣ ਹੈ, ਅਸੀਂ ਉਦਯੋਗ ਦੇ ਨੇਤਾਵਾਂ ਤੋਂ ਸਾਡੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੇ ਬਾਹਰੀ ਅਤੇ ਉਦੇਸ਼ ਮੁਲਾਂਕਣ ਦੇ ਮਹੱਤਵ ਨੂੰ ਵੀ ਸਮਝਦੇ ਹਾਂ। ਇਸ ਲਈ ਅਸੀਂ ਆਪਣੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਆਗੂ, SAS ਨਾਲ ਸਹਿਯੋਗ ਕਰਦੇ ਹਾਂ।
SAS ਮੂਲ ਡੇਟਾ ਦੀ ਤੁਲਨਾ ਵਿੱਚ Syntho ਦੇ AI-ਉਤਪੰਨ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਡਾਟਾ-ਸ਼ੁੱਧਤਾ, ਗੋਪਨੀਯਤਾ ਸੁਰੱਖਿਆ, ਅਤੇ ਉਪਯੋਗਤਾ 'ਤੇ ਵੱਖ-ਵੱਖ ਸੰਪੂਰਨ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਸਿੱਟੇ ਵਜੋਂ, SAS ਨੇ ਸਿੰਥੋ ਦੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਅਤੇ ਉਸ ਨੂੰ ਮੂਲ ਡੇਟਾ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਸਟੀਕ, ਸੁਰੱਖਿਅਤ, ਅਤੇ ਵਰਤੋਂ ਯੋਗ ਹੋਣ ਦੇ ਰੂਪ ਵਿੱਚ ਪ੍ਰਵਾਨਗੀ ਦਿੱਤੀ।
ਅਸੀਂ ਟੈਲੀਕਾਮ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਹੈ ਜੋ ਟੀਚੇ ਦੇ ਡੇਟਾ ਵਜੋਂ "ਚਰਨ" ਪੂਰਵ ਅਨੁਮਾਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਮੁਲਾਂਕਣ ਦਾ ਟੀਚਾ ਵੱਖ-ਵੱਖ ਮੰਥਨ ਪੂਰਵ ਅਨੁਮਾਨ ਮਾਡਲਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਅਤੇ ਹਰੇਕ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸੀ। ਜਿਵੇਂ ਕਿ ਮੰਥਨ ਪੂਰਵ-ਅਨੁਮਾਨ ਇੱਕ ਵਰਗੀਕਰਨ ਕਾਰਜ ਹੈ, SAS ਨੇ ਭਵਿੱਖਬਾਣੀਆਂ ਕਰਨ ਲਈ ਪ੍ਰਸਿੱਧ ਵਰਗੀਕਰਨ ਮਾਡਲਾਂ ਦੀ ਚੋਣ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਤਿਆਰ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, SAS ਨੇ ਬੇਤਰਤੀਬੇ ਤੌਰ 'ਤੇ ਟੈਲੀਕਾਮ ਡੇਟਾਸੈਟ ਨੂੰ ਇੱਕ ਰੇਲ ਸੈੱਟ (ਮਾਡਲਾਂ ਦੀ ਸਿਖਲਾਈ ਲਈ) ਅਤੇ ਇੱਕ ਹੋਲਡਆਊਟ ਸੈੱਟ (ਮਾਡਲਾਂ ਨੂੰ ਸਕੋਰ ਕਰਨ ਲਈ) ਵਿੱਚ ਵੰਡਿਆ। ਸਕੋਰਿੰਗ ਲਈ ਇੱਕ ਵੱਖਰਾ ਹੋਲਡਆਊਟ ਸੈੱਟ ਹੋਣ ਨਾਲ ਇਹ ਨਿਰਪੱਖ ਮੁਲਾਂਕਣ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ ਕਿ ਨਵੇਂ ਡੇਟਾ 'ਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾਣ 'ਤੇ ਵਰਗੀਕਰਨ ਮਾਡਲ ਕਿੰਨਾ ਵਧੀਆ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ।
ਇੰਪੁੱਟ ਦੇ ਤੌਰ 'ਤੇ ਟ੍ਰੇਨ ਸੈੱਟ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਸਿੰਥੋ ਨੇ ਇੱਕ ਸਿੰਥੈਟਿਕ ਡੇਟਾਸੈਟ ਬਣਾਉਣ ਲਈ ਆਪਣੇ ਸਿੰਥੋ ਇੰਜਣ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਬੈਂਚਮਾਰਕਿੰਗ ਲਈ, SAS ਨੇ ਇੱਕ ਨਿਸ਼ਚਤ ਥ੍ਰੈਸ਼ਹੋਲਡ (ਕੇ-ਅਨਾਮਤਾ) ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਵੱਖ-ਵੱਖ ਅਗਿਆਤ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਤੋਂ ਬਾਅਦ ਰੇਲ ਸੈੱਟ ਦਾ ਇੱਕ ਅਗਿਆਤ ਸੰਸਕਰਣ ਵੀ ਬਣਾਇਆ। ਪੁਰਾਣੇ ਕਦਮਾਂ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਚਾਰ ਡੇਟਾਸੈੱਟ ਹੋਏ:
ਡੇਟਾਸੈਟਸ 1, 3 ਅਤੇ 4 ਦੀ ਵਰਤੋਂ ਹਰੇਕ ਵਰਗੀਕਰਨ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਕੀਤੀ ਗਈ ਸੀ, ਨਤੀਜੇ ਵਜੋਂ 12 (3 x 4) ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਸਨ। SAS ਨੇ ਬਾਅਦ ਵਿੱਚ ਗਾਹਕ ਮੰਥਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਵਿੱਚ ਹਰੇਕ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਹੋਲਡਆਊਟ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
SAS ਮੂਲ ਡੇਟਾ ਦੀ ਤੁਲਨਾ ਵਿੱਚ Syntho ਦੇ AI-ਉਤਪੰਨ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਡਾਟਾ-ਸ਼ੁੱਧਤਾ, ਗੋਪਨੀਯਤਾ ਸੁਰੱਖਿਆ, ਅਤੇ ਉਪਯੋਗਤਾ 'ਤੇ ਵੱਖ-ਵੱਖ ਸੰਪੂਰਨ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। ਸਿੱਟੇ ਵਜੋਂ, SAS ਨੇ ਸਿੰਥੋ ਦੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਅਤੇ ਉਸ ਨੂੰ ਮੂਲ ਡੇਟਾ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਸਟੀਕ, ਸੁਰੱਖਿਅਤ, ਅਤੇ ਵਰਤੋਂ ਯੋਗ ਹੋਣ ਦੇ ਰੂਪ ਵਿੱਚ ਪ੍ਰਵਾਨਗੀ ਦਿੱਤੀ।
ਸਿੰਥੋ ਤੋਂ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਨਾ ਸਿਰਫ਼ ਬੁਨਿਆਦੀ ਪੈਟਰਨਾਂ ਲਈ ਰੱਖਦਾ ਹੈ, ਇਹ ਉੱਨਤ ਵਿਸ਼ਲੇਸ਼ਣ ਕਾਰਜਾਂ ਲਈ ਲੋੜੀਂਦੇ ਡੂੰਘੇ 'ਲੁਕਵੇਂ' ਅੰਕੜਾ ਪੈਟਰਨਾਂ ਨੂੰ ਵੀ ਕੈਪਚਰ ਕਰਦਾ ਹੈ। ਬਾਅਦ ਵਾਲੇ ਨੂੰ ਬਾਰ ਚਾਰਟ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਬਨਾਮ ਅਸਲ ਡੇਟਾ ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਦੇ ਸਮਾਨ ਹਨ। ਇਸ ਲਈ, ਮਾਡਲਾਂ ਦੀ ਅਸਲ ਸਿਖਲਾਈ ਲਈ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਮੂਲ ਡੇਟਾ ਦੇ ਮੁਕਾਬਲੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਤੇ ਐਲਗੋਰਿਦਮ ਦੁਆਰਾ ਚੁਣੇ ਗਏ ਇਨਪੁਟਸ ਅਤੇ ਵੇਰੀਏਬਲ ਮਹੱਤਵ ਬਹੁਤ ਸਮਾਨ ਸਨ। ਇਸ ਲਈ, ਇਹ ਸਿੱਟਾ ਕੱਢਿਆ ਗਿਆ ਹੈ ਕਿ ਮਾਡਲਿੰਗ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਿੰਥੈਟਿਕ ਡੇਟਾ 'ਤੇ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਅਸਲ ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਵਿਕਲਪ ਵਜੋਂ.
ਕਲਾਸਿਕ ਅਨਾਮਾਈਜ਼ੇਸ਼ਨ ਤਕਨੀਕਾਂ ਵਿੱਚ ਸਮਾਨਤਾ ਹੈ ਕਿ ਉਹ ਵਿਅਕਤੀਆਂ ਨੂੰ ਟਰੇਸ ਕਰਨ ਵਿੱਚ ਰੁਕਾਵਟ ਪਾਉਣ ਲਈ ਅਸਲ ਡੇਟਾ ਵਿੱਚ ਹੇਰਾਫੇਰੀ ਕਰਦੇ ਹਨ। ਉਹ ਡੇਟਾ ਵਿੱਚ ਹੇਰਾਫੇਰੀ ਕਰਦੇ ਹਨ ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਨਸ਼ਟ ਕਰਦੇ ਹਨ। ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਤੁਸੀਂ ਅਗਿਆਤ ਕਰਦੇ ਹੋ, ਓਨਾ ਹੀ ਬਿਹਤਰ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਪਰ ਇਹ ਵੀ ਕਿ ਤੁਹਾਡੇ ਡੇਟਾ ਨੂੰ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਨਸ਼ਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ. ਇਹ ਖਾਸ ਤੌਰ 'ਤੇ AI ਅਤੇ ਮਾਡਲਿੰਗ ਕਾਰਜਾਂ ਲਈ ਵਿਨਾਸ਼ਕਾਰੀ ਹੈ ਜਿੱਥੇ "ਭਵਿੱਖਬਾਣੀ ਸ਼ਕਤੀ" ਜ਼ਰੂਰੀ ਹੈ, ਕਿਉਂਕਿ ਖਰਾਬ ਕੁਆਲਿਟੀ ਡੇਟਾ ਦੇ ਨਤੀਜੇ ਵਜੋਂ AI ਮਾਡਲ ਤੋਂ ਬੁਰੀ ਜਾਣਕਾਰੀ ਹੋਵੇਗੀ। SAS ਨੇ 0.5 ਦੇ ਨੇੜੇ ਕਰਵ (AUC*) ਦੇ ਅਧੀਨ ਇੱਕ ਖੇਤਰ ਦੇ ਨਾਲ ਇਹ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਗਿਆਤ ਡੇਟਾ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਹੁਣ ਤੱਕ ਦਾ ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।
ਵੇਰੀਏਬਲਾਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ ਅਤੇ ਸਬੰਧਾਂ ਨੂੰ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਵਿੱਚ ਸਹੀ ਢੰਗ ਨਾਲ ਸੁਰੱਖਿਅਤ ਰੱਖਿਆ ਗਿਆ ਸੀ।
ਕਰਵ ਅਧੀਨ ਖੇਤਰ (AUC), ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਾਪਣ ਲਈ ਇੱਕ ਮੈਟ੍ਰਿਕ, ਇਕਸਾਰ ਰਿਹਾ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵੇਰੀਏਬਲ ਮਹੱਤਵ, ਜੋ ਕਿ ਇੱਕ ਮਾਡਲ ਵਿੱਚ ਵੇਰੀਏਬਲਾਂ ਦੀ ਪੂਰਵ-ਅਨੁਮਾਨੀ ਸ਼ਕਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਸਲ ਡੇਟਾਸੈਟ ਨਾਲ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਤੁਲਨਾ ਕਰਨ ਵੇਲੇ ਬਰਕਰਾਰ ਰਹਿੰਦਾ ਹੈ।
SAS ਦੁਆਰਾ ਇਹਨਾਂ ਨਿਰੀਖਣਾਂ ਦੇ ਅਧਾਰ ਤੇ ਅਤੇ SAS Viya ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅਸੀਂ ਭਰੋਸੇ ਨਾਲ ਇਹ ਸਿੱਟਾ ਕੱਢ ਸਕਦੇ ਹਾਂ ਕਿ ਸਿੰਥੋ ਇੰਜਣ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਗੁਣਵੱਤਾ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਅਸਲ ਡੇਟਾ ਦੇ ਬਰਾਬਰ ਹੈ। ਇਹ ਮਾਡਲ ਵਿਕਾਸ ਲਈ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਦਾ ਹੈ, ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੇ ਨਾਲ ਉੱਨਤ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦਾ ਹੈ।