ਅਗਿਆਤ ਡੇਟਾ ਬਨਾਮ ਸਿੰਥੈਟਿਕ ਡੇਟਾ

ਜੇਕਰ ਤੁਸੀਂ ਡੇਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੇ ਡੇਟਾ ਟੈਸਟਿੰਗ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਆਪਣੇ ਡੇਟਾ ਨੂੰ ਅਗਿਆਤ ਕਰਦੇ ਹੋ, ਤਾਂ ਇੱਥੇ ਕਈ ਕਾਰਕ ਹਨ:

  1. ਲਗਭਗ ਸਾਰੇ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਅਗਿਆਤ ਡੇਟਾ ਅਜੇ ਵੀ ਖਾਸ ਅਤੇ ਵਿਲੱਖਣ ਕਤਾਰਾਂ (ਜਿਵੇਂ ਕਿ ਮੈਡੀਕਲ ਰਿਕਾਰਡ) ਦੇ ਕਾਰਨ ਵਿਅਕਤੀਆਂ ਨੂੰ ਲੱਭਿਆ ਜਾ ਸਕਦਾ ਹੈ।
  2. ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਤੁਸੀਂ ਗੁਮਨਾਮ ਜਾਂ ਆਮ ਬਣਾਉਂਦੇ ਹੋ, ਓਨਾ ਹੀ ਜ਼ਿਆਦਾ ਡੇਟਾ ਤੁਸੀਂ ਨਸ਼ਟ ਕਰਦੇ ਹੋ। ਇਹ ਤੁਹਾਡੇ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਇਸ ਤਰ੍ਹਾਂ ਤੁਹਾਡੀ ਸੂਝ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ
  3. ਅਨਾਮਾਈਜ਼ੇਸ਼ਨ ਵੱਖ-ਵੱਖ ਡਾਟਾ ਫਾਰਮੈਟਾਂ ਲਈ ਵੱਖਰੇ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰਦੀ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਮਾਪਯੋਗ ਨਹੀਂ ਹੈ ਅਤੇ ਬਹੁਤ ਸਮਾਂ ਬਰਬਾਦ ਕਰਨ ਵਾਲਾ ਹੋ ਸਕਦਾ ਹੈ

ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਇਹਨਾਂ ਸਾਰੀਆਂ ਕਮੀਆਂ ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ। SAS (ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਗਲੋਬਲ ਮਾਰਕੀਟ ਲੀਡਰ) ਦੇ ਇੱਕ ਵਿਸ਼ਲੇਸ਼ਣ ਮਾਹਰ ਨੂੰ ਅਸਲ ਡੇਟਾ, ਅਗਿਆਤ ਡੇਟਾ ਅਤੇ ਸਿੰਥੋ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਵਿੱਚ ਗੁਣਵੱਤਾ ਵਿੱਚ ਅੰਤਰ ਬਾਰੇ ਉਸਦੇ ਮੁਲਾਂਕਣ ਬਾਰੇ ਸਮਝਾਉਣ ਲਈ ਹੇਠਾਂ ਦਿੱਤੀ ਵੀਡੀਓ ਦੇਖੋ।

ਇਹ ਵੀਡੀਓ AI ਤਿਆਰ ਕੀਤੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਬਾਰੇ Syntho x SAS D[N]A Café ਤੋਂ ਲਿਆ ਗਿਆ ਹੈ। ਇੱਥੇ ਪੂਰੀ ਵੀਡੀਓ ਲੱਭੋ.

ਐਡਵਿਨ ਵੈਨ ਉਨੇਨ ਨੇ ਸਿੰਥੋ ਨੂੰ ਇੱਕ ਅਸਲੀ ਡੇਟਾਸੈਟ ਭੇਜਿਆ ਅਤੇ ਅਸੀਂ ਡੇਟਾਸੈਟ ਨੂੰ ਸੰਸ਼ਲੇਸ਼ਿਤ ਕੀਤਾ। ਪਰ ਸਵਾਲ ਇਹ ਵੀ ਸੀ: "ਜੇ ਅਸੀਂ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਅਗਿਆਤ ਡੇਟਾ ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ ਤਾਂ ਕੀ ਹੋਵੇਗਾ?" ਕਿਉਂਕਿ ਤੁਸੀਂ ਇੱਕ ਅਗਿਆਤ ਡੇਟਾ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀ ਜਾਣਕਾਰੀ ਗੁਆ ਦਿੰਦੇ ਹੋ, ਕੀ ਇਹ ਇੱਕ ਡੇਟਾਸੈਟ ਨੂੰ ਸੰਸਲੇਸ਼ਣ ਕਰਨ ਵੇਲੇ ਵੀ ਹੋਵੇਗਾ? ਅਸੀਂ 56.000 ਕਤਾਰਾਂ ਅਤੇ ਕੰਪਨੀ ਮੰਥਨ-ਜਾਣਕਾਰੀ ਦੇ 128 ਕਾਲਮਾਂ ਦੇ ਨਾਲ ਦੂਰਸੰਚਾਰ ਉਦਯੋਗ ਤੋਂ ਇੱਕ ਡੇਟਾਸੈਟ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ। ਇਹ ਡੇਟਾਸੈਟ ਸੰਸ਼ਲੇਸ਼ਣ ਅਤੇ ਅਗਿਆਤ ਦੋਵੇਂ ਤਰ੍ਹਾਂ ਦਾ ਸੀ ਤਾਂ ਕਿ ਐਡਵਿਨ ਸੰਸਲੇਸ਼ਣ ਦੀ ਗੁਮਨਾਮਤਾ ਨਾਲ ਤੁਲਨਾ ਕਰ ਸਕੇ। ਫਿਰ, ਐਡਵਿਨ ਨੇ SAS ਵੀਆ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲਿੰਗ ਸ਼ੁਰੂ ਕੀਤੀ। ਉਸਨੇ ਕਲਾਸੀਕਲ ਰਿਗਰੈਸ਼ਨ ਤਕਨੀਕਾਂ ਅਤੇ ਨਿਰਣਾਇਕ ਰੁੱਖਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮੂਲ ਡੇਟਾਸੈਟ 'ਤੇ ਮੰਥਨ ਮਾਡਲਾਂ ਦੇ ਇੱਕ ਜੋੜੇ ਨੂੰ ਬਣਾਇਆ, ਪਰ ਨਾਲ ਹੀ ਹੋਰ ਵਧੀਆ ਤਕਨੀਕਾਂ ਜਿਵੇਂ ਕਿ ਨਿਊਰਲ ਨੈਟਵਰਕ, ਗਰੇਡੀਐਂਟ ਬੂਸਟਿੰਗ, ਬੇਤਰਤੀਬ ਜੰਗਲ - ਇਸ ਕਿਸਮ ਦੀਆਂ ਤਕਨੀਕਾਂ। ਮਾਡਲ ਬਣਾਉਣ ਵੇਲੇ ਮਿਆਰੀ SAS Viya ਵਿਕਲਪਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ।

ਫਿਰ, ਇਹ ਨਤੀਜਿਆਂ ਨੂੰ ਦੇਖਣ ਦਾ ਸਮਾਂ ਸੀ. ਨਤੀਜੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਲਈ ਬਹੁਤ ਹੀ ਹੋਨਹਾਰ ਸਨ ਨਾ ਕਿ ਅਗਿਆਤਤਾ ਲਈ। ਹਾਜ਼ਰੀਨ ਵਿੱਚ ਬਿਨਾਂ-ਮਸ਼ੀਨ-ਲਰਨਿੰਗ ਮਾਹਰਾਂ ਲਈ, ਅਸੀਂ ROC-ਕਰਵ ਦੇ ਅਧੀਨ ਖੇਤਰ ਨੂੰ ਦੇਖਦੇ ਹਾਂ ਜੋ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਬਾਰੇ ਕੁਝ ਦੱਸਦਾ ਹੈ। ਅਗਿਆਤ ਡੇਟਾ ਨਾਲ ਅਸਲੀ ਡੇਟਾ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਦੇਖਦੇ ਹਾਂ ਕਿ ਅਸਲ ਡੇਟਾ ਮਾਡਲ ਵਿੱਚ .8 ਦੇ ROC-ਕਰਵ ਦੇ ਅਧੀਨ ਇੱਕ ਖੇਤਰ ਹੈ, ਜੋ ਕਿ ਬਹੁਤ ਵਧੀਆ ਹੈ, ਹਾਲਾਂਕਿ, ਅਗਿਆਤ ਡੇਟਾ ਵਿੱਚ .6 ਦੇ ROC-ਕਰਵ ਦੇ ਅਧੀਨ ਇੱਕ ਖੇਤਰ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਅਸੀਂ ਅਗਿਆਤ ਮਾਡਲ ਨਾਲ ਬਹੁਤ ਸਾਰੀ ਜਾਣਕਾਰੀ ਗੁਆ ਦਿੰਦੇ ਹਾਂ ਇਸਲਈ ਤੁਸੀਂ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਬਹੁਤ ਸ਼ਕਤੀ ਗੁਆ ਦਿੰਦੇ ਹਾਂ।

ਪਰ ਫਿਰ, ਸਵਾਲ ਇਹ ਹੈ ਕਿ ਸਿੰਥੈਟਿਕਸ ਡੇਟਾ ਬਾਰੇ ਕੀ? ਇੱਥੇ, ਅਸੀਂ ਬਿਲਕੁਲ ਉਹੀ ਕੀਤਾ ਪਰ ਡੇਟਾ ਨੂੰ ਅਗਿਆਤ ਕਰਨ ਦੀ ਬਜਾਏ, ਸਿੰਥੋ ਨੇ ਡੇਟਾ ਦਾ ਸੰਸ਼ਲੇਸ਼ਣ ਕੀਤਾ। ਹੁਣ, ਅਸੀਂ ਦੇਖਦੇ ਹਾਂ ਕਿ ਅਸਲ ਡੇਟਾ ਅਤੇ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੋਵਾਂ ਦਾ .8 ਦੇ ਆਰਓਸੀ-ਕਰਵ ਦੇ ਅਧੀਨ ਖੇਤਰ ਹੈ, ਜੋ ਕਿ ਬਹੁਤ ਸਮਾਨ ਹੈ। ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ ਦੇ ਕਾਰਨ ਬਿਲਕੁਲ ਸਮਾਨ ਨਹੀਂ, ਪਰ ਬਹੁਤ ਸਮਾਨ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ, ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੀ ਸੰਭਾਵਨਾ ਬਹੁਤ ਹੀ ਹੋਨਹਾਰ ਹੈ - ਐਡਵਿਨ ਇਸ ਬਾਰੇ ਬਹੁਤ ਖੁਸ਼ ਹੈ.

ਮੁਸਕਰਾਉਂਦੇ ਹੋਏ ਲੋਕਾਂ ਦਾ ਸਮੂਹ

ਡਾਟਾ ਸਿੰਥੈਟਿਕ ਹੈ, ਪਰ ਸਾਡੀ ਟੀਮ ਅਸਲੀ ਹੈ!

ਸਿੰਥੋ ਨਾਲ ਸੰਪਰਕ ਕਰੋ ਅਤੇ ਸਾਡੇ ਮਾਹਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਸਿੰਥੈਟਿਕ ਡੇਟਾ ਦੇ ਮੁੱਲ ਦੀ ਪੜਚੋਲ ਕਰਨ ਲਈ ਪ੍ਰਕਾਸ਼ ਦੀ ਗਤੀ ਤੇ ਤੁਹਾਡੇ ਨਾਲ ਸੰਪਰਕ ਕਰੇਗਾ!