ಯಾರೆಂದು ಊಹಿಸು? 5 ಉದಾಹರಣೆಗಳು ಏಕೆ ಹೆಸರುಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು ಒಂದು ಆಯ್ಕೆಯಾಗಿಲ್ಲ

ಯಾರು ಆಟ ಎಂದು ಊಹಿಸಿ

ಗೆಸ್ ಹೂ ಪರಿಚಯ

ಯಾರೆಂದು ಊಹಿಸು? ಹಿಂದಿನ ದಿನಗಳಲ್ಲಿ ನಿಮ್ಮಲ್ಲಿ ಹೆಚ್ಚಿನವರಿಗೆ ಈ ಆಟ ತಿಳಿದಿದೆ ಎಂದು ನನಗೆ ಖಾತ್ರಿಯಿದ್ದರೂ, ಇಲ್ಲಿ ಸಂಕ್ಷಿಪ್ತ ಮರುಪರಿಶೀಲನೆ. ಆಟದ ಗುರಿ: 'ಹೌದು' ಮತ್ತು 'ಇಲ್ಲ' ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳುವ ಮೂಲಕ ನಿಮ್ಮ ಎದುರಾಳಿಯು ಆಯ್ಕೆ ಮಾಡಿದ ಕಾರ್ಟೂನ್ ಪಾತ್ರದ ಹೆಸರನ್ನು ಕಂಡುಕೊಳ್ಳಿ, 'ವ್ಯಕ್ತಿಯು ಟೋಪಿ ಧರಿಸುತ್ತಾರೆಯೇ?' ಅಥವಾ 'ವ್ಯಕ್ತಿಯು ಕನ್ನಡಕ ಧರಿಸುತ್ತಾನಾ'? ಎದುರಾಳಿಯ ಪ್ರತಿಕ್ರಿಯೆಯ ಆಧಾರದ ಮೇಲೆ ಆಟಗಾರರು ಅಭ್ಯರ್ಥಿಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತಾರೆ ಮತ್ತು ತಮ್ಮ ಎದುರಾಳಿಯ ರಹಸ್ಯ ಪಾತ್ರಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಕಲಿಯುತ್ತಾರೆ. ಇತರ ಆಟಗಾರನ ರಹಸ್ಯ ಪಾತ್ರವನ್ನು ಗುರುತಿಸಿದ ಮೊದಲ ಆಟಗಾರನು ಆಟವನ್ನು ಗೆಲ್ಲುತ್ತಾನೆ.

ನೀವು ಅದನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೀರಿ. ಸಂಬಂಧಿತ ಗುಣಲಕ್ಷಣಗಳಿಗೆ ಮಾತ್ರ ಪ್ರವೇಶವನ್ನು ಹೊಂದುವ ಮೂಲಕ ಒಬ್ಬ ವ್ಯಕ್ತಿಯನ್ನು ಡೇಟಾಸೆಟ್‌ನಿಂದ ಗುರುತಿಸಬೇಕು. ವಾಸ್ತವವಾಗಿ, ನಾವು ನಿಯಮಿತವಾಗಿ ಗೆಸ್ ಈ ಪರಿಕಲ್ಪನೆಯನ್ನು ಆಚರಣೆಯಲ್ಲಿ ಅರ್ಜಿ ಸಲ್ಲಿಸಿದ್ದನ್ನು ನೋಡುತ್ತೇವೆ, ಆದರೆ ನಂತರ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಬಳಸಿದ ಸಾಲುಗಳು ಮತ್ತು ಕಾಲಮ್‌ಗಳು ನೈಜ ಜನರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಒಳಗೊಂಡಿವೆ. ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವಾಗ ಮುಖ್ಯ ವ್ಯತ್ಯಾಸವೆಂದರೆ ಜನರು ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳಿಗೆ ಮಾತ್ರ ಪ್ರವೇಶವನ್ನು ಹೊಂದುವ ಮೂಲಕ ನಿಜವಾದ ವ್ಯಕ್ತಿಗಳನ್ನು ಮರೆಮಾಚುವ ಸುಲಭತೆಯನ್ನು ಕಡಿಮೆ ಅಂದಾಜು ಮಾಡುತ್ತಾರೆ.

ಗೆಸ್ ಹೂ ಆಟವು ವಿವರಿಸಿದಂತೆ, ಯಾರಾದರೂ ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳನ್ನು ಮಾತ್ರ ಪ್ರವೇಶಿಸುವ ಮೂಲಕ ವ್ಯಕ್ತಿಗಳನ್ನು ಗುರುತಿಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾಸೆಟ್‌ನಿಂದ 'ಹೆಸರುಗಳನ್ನು' (ಅಥವಾ ಇತರ ನೇರ ಗುರುತಿಸುವಿಕೆಗಳು) ಮಾತ್ರ ತೆಗೆದುಹಾಕುವುದು ಏಕೆ ಅನಾಮಧೇಯ ತಂತ್ರವಾಗಿ ವಿಫಲವಾಗಿದೆ ಎಂಬುದಕ್ಕೆ ಇದು ಸರಳ ಉದಾಹರಣೆಯಾಗಿದೆ. ಈ ಬ್ಲಾಗ್‌ನಲ್ಲಿ, ಡೇಟಾ ಅನಾಮಧೇಯತೆಯ ಸಾಧನವಾಗಿ ಕಾಲಮ್‌ಗಳನ್ನು ತೆಗೆಯುವುದರೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದ ಗೌಪ್ಯತೆ ಅಪಾಯಗಳ ಕುರಿತು ನಿಮಗೆ ತಿಳಿಸಲು ನಾವು ನಾಲ್ಕು ಪ್ರಾಯೋಗಿಕ ಪ್ರಕರಣಗಳನ್ನು ಒದಗಿಸುತ್ತೇವೆ.

2) ಲಿಂಕೇಜ್ ದಾಳಿಗಳು: ನಿಮ್ಮ ಡೇಟಾಸೆಟ್ ಇತರ (ಸಾರ್ವಜನಿಕ) ಡೇಟಾ ಮೂಲಗಳಿಗೆ ಲಿಂಕ್ ಮಾಡಲಾಗಿದೆ

ಅನಾಮಧೇಯತೆಯ ವಿಧಾನವಾಗಿ (ಇನ್ನು ಮುಂದೆ) ಹೆಸರುಗಳನ್ನು ಮಾತ್ರ ತೆಗೆದುಹಾಕಲು ಕೆಲಸ ಮಾಡದಿರಲು ಲಿಂಕ್ ದಾಳಿಯ ಅಪಾಯವು ಪ್ರಮುಖ ಕಾರಣವಾಗಿದೆ. ಲಿಂಕೇಜ್ ದಾಳಿಯೊಂದಿಗೆ, ದಾಳಿಕೋರರು ಒಬ್ಬ ವ್ಯಕ್ತಿಯನ್ನು ಅನನ್ಯವಾಗಿ ಗುರುತಿಸಲು ಮತ್ತು ಈ ವ್ಯಕ್ತಿಯ ಬಗ್ಗೆ (ಹೆಚ್ಚಾಗಿ ಸೂಕ್ಷ್ಮ) ಮಾಹಿತಿಯನ್ನು ಕಲಿಯಲು ಮೂಲ ಡೇಟಾವನ್ನು ಇತರ ಪ್ರವೇಶಿಸಬಹುದಾದ ಡೇಟಾ ಮೂಲಗಳೊಂದಿಗೆ ಸಂಯೋಜಿಸುತ್ತಾರೆ.

ಈಗ ಇರುವ ಇತರ ಡೇಟಾ ಸಂಪನ್ಮೂಲಗಳ ಲಭ್ಯತೆ ಅಥವಾ ಭವಿಷ್ಯದಲ್ಲಿ ಪ್ರಸ್ತುತವಾಗುವುದು ಇಲ್ಲಿ ಮುಖ್ಯವಾಗಿದೆ. ನಿಮ್ಮ ಬಗ್ಗೆ ಯೋಚಿಸಿ. ನಿಮ್ಮ ಸ್ವಂತ ವೈಯಕ್ತಿಕ ಡೇಟಾವನ್ನು ಫೇಸ್‌ಬುಕ್, ಇನ್‌ಸ್ಟಾಗ್ರಾಮ್ ಅಥವಾ ಲಿಂಕ್ಡ್‌ಇನ್‌ನಲ್ಲಿ ಎಷ್ಟು ಕಾಣಬಹುದು ಅದು ಲಿಂಕ್ ದಾಳಿಗೆ ದುರುಪಯೋಗಪಡಿಸಿಕೊಳ್ಳಬಹುದೇ?

ಹಿಂದಿನ ದಿನಗಳಲ್ಲಿ, ಡೇಟಾದ ಲಭ್ಯತೆಯು ಹೆಚ್ಚು ಸೀಮಿತವಾಗಿತ್ತು, ಇದು ವ್ಯಕ್ತಿಗಳ ಗೌಪ್ಯತೆಯನ್ನು ಕಾಪಾಡಲು ಹೆಸರುಗಳನ್ನು ತೆಗೆಯುವುದು ಏಕೆ ಸಾಕಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ಭಾಗಶಃ ವಿವರಿಸುತ್ತದೆ. ಕಡಿಮೆ ಲಭ್ಯವಿರುವ ಡೇಟಾ ಎಂದರೆ ಡೇಟಾವನ್ನು ಲಿಂಕ್ ಮಾಡಲು ಕಡಿಮೆ ಅವಕಾಶಗಳು. ಆದಾಗ್ಯೂ, ನಾವು ಈಗ (ಸಕ್ರಿಯ) ಡೇಟಾ-ಚಾಲಿತ ಆರ್ಥಿಕತೆಯಲ್ಲಿ ಭಾಗವಹಿಸುವವರಾಗಿದ್ದೇವೆ, ಅಲ್ಲಿ ಡೇಟಾದ ಪ್ರಮಾಣವು ಘಾತೀಯ ದರದಲ್ಲಿ ಬೆಳೆಯುತ್ತಿದೆ. ಹೆಚ್ಚಿನ ಡೇಟಾ, ಮತ್ತು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದಕ್ಕಾಗಿ ತಂತ್ರಜ್ಞಾನವನ್ನು ಸುಧಾರಿಸುವುದರಿಂದ ಸಂಪರ್ಕ ದಾಳಿಯ ಸಾಧ್ಯತೆ ಹೆಚ್ಚಾಗುತ್ತದೆ. ಸಂಪರ್ಕ ದಾಳಿಯ ಅಪಾಯದ ಬಗ್ಗೆ 10 ವರ್ಷಗಳಲ್ಲಿ ಒಬ್ಬರು ಏನು ಬರೆಯುತ್ತಾರೆ?

ವಿವರಣೆ 1

ಅತಿಯಾಗಿ ಬೆಳೆಯುತ್ತಿರುವ ದತ್ತಾಂಶವು ಸತ್ಯವಾಗಿದೆ

ಡೇಟಾದ ಮೊತ್ತ

ಉದಾಹರಣಾ ಪರಿಶೀಲನೆ

ಅಮೇರಿಕಾದಲ್ಲಿ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ ಮತದಾನ ರಿಜಿಸ್ಟ್ರಾರ್‌ಗೆ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ 'ಆಸ್ಪತ್ರೆಯ ಭೇಟಿ' ದತ್ತಾಂಶದ ಲಿಂಕ್ ಅನ್ನು ಆಧರಿಸಿ ವ್ಯಕ್ತಿಗಳಿಂದ ಸೂಕ್ಷ್ಮ ವೈದ್ಯಕೀಯ ಡೇಟಾವನ್ನು ಗುರುತಿಸಲು ಮತ್ತು ಹಿಂಪಡೆಯಲು ಹೇಗೆ ಸಾಧ್ಯವಾಯಿತು ಎಂಬುದನ್ನು ಸ್ವೀನಿ (2002) ಶೈಕ್ಷಣಿಕ ಪತ್ರಿಕೆಯಲ್ಲಿ ಪ್ರದರ್ಶಿಸಿದರು. ಹೆಸರುಗಳು ಮತ್ತು ಇತರ ನೇರ ಗುರುತಿಸುವಿಕೆಗಳನ್ನು ಅಳಿಸುವ ಮೂಲಕ ಸರಿಯಾಗಿ ಅನಾಮಧೇಯಗೊಳಿಸಲಾಗಿದೆ ಎಂದು ಭಾವಿಸಲಾದ ಎರಡೂ ಡೇಟಾಸೆಟ್‌ಗಳು.

ವಿವರಣೆ 2

ಆಚರಣೆಯಲ್ಲಿ ಸಂಪರ್ಕ ದಾಳಿ

ಸಂಪರ್ಕ ದಾಳಿ

ಕೇವಲ ಮೂರು ನಿಯತಾಂಕಗಳನ್ನು ಆಧರಿಸಿ (1) ಪಿನ್ ಕೋಡ್, (2) ಲಿಂಗ ಮತ್ತು (3) ಹುಟ್ಟಿದ ದಿನಾಂಕ, ಎರಡೂ ಡೇಟಾಸೆಟ್‌ಗಳಿಂದ ಮೇಲೆ ತಿಳಿಸಿದ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಹೊಂದಿಸುವ ಮೂಲಕ ಇಡೀ ಯುಎಸ್ ಜನಸಂಖ್ಯೆಯ 87% ಅನ್ನು ಮರು ಗುರುತಿಸಬಹುದು ಎಂದು ಅವರು ತೋರಿಸಿದರು. ಸ್ವೀನಿ ನಂತರ 'ಜಿಪ್ ಕೋಡ್' ಗೆ ಪರ್ಯಾಯವಾಗಿ 'ದೇಶ' ಹೊಂದಿರುವ ತನ್ನ ಕೆಲಸವನ್ನು ಪುನರಾವರ್ತಿಸಿದಳು. ಹೆಚ್ಚುವರಿಯಾಗಿ, (18) ತಾಯ್ನಾಡು, (1) ಲಿಂಗ ಮತ್ತು (2) ಹುಟ್ಟಿದ ದಿನಾಂಕದ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿರುವ ಡೇಟಾಸೆಟ್‌ಗೆ ಪ್ರವೇಶವನ್ನು ಹೊಂದುವ ಮೂಲಕ ಮಾತ್ರ US ನ 3% ನಷ್ಟು ಜನಸಂಖ್ಯೆಯನ್ನು ಗುರುತಿಸಬಹುದೆಂದು ಅವಳು ಪ್ರದರ್ಶಿಸಿದಳು. ಮೇಲೆ ತಿಳಿಸಿದ ಸಾರ್ವಜನಿಕ ಮೂಲಗಳಾದ ಫೇಸ್‌ಬುಕ್, ಲಿಂಕ್ಡ್‌ಇನ್ ಅಥವಾ ಇನ್‌ಸ್ಟಾಗ್ರಾಮ್ ಬಗ್ಗೆ ಯೋಚಿಸಿ. ನಿಮ್ಮ ದೇಶ, ಲಿಂಗ ಮತ್ತು ಹುಟ್ಟಿದ ದಿನಾಂಕ ಗೋಚರಿಸುತ್ತಿದೆಯೇ ಅಥವಾ ಇತರ ಬಳಕೆದಾರರು ಅದನ್ನು ಕಡಿತಗೊಳಿಸಲು ಸಾಧ್ಯವೇ?

ವಿವರಣೆ 3

ಸ್ವೀನಿಯ ಫಲಿತಾಂಶಗಳು

ಅರೆ-ಗುರುತಿಸುವಿಕೆ

ಯುಎಸ್ ಜನಸಂಖ್ಯೆಯ % ಅನನ್ಯವಾಗಿ ಗುರುತಿಸಲಾಗಿದೆ (248 ಮಿಲಿಯನ್)

5-ಅಂಕಿಯ ZIP, ಲಿಂಗ, ಹುಟ್ಟಿದ ದಿನಾಂಕ

87%

ಸ್ಥಾನ, ಲಿಂಗ, ಹುಟ್ಟಿದ ದಿನಾಂಕ

53%

ದೇಶದ, ಲಿಂಗ, ಹುಟ್ಟಿದ ದಿನಾಂಕ

18%

ಅನಾಮಧೇಯ ಡೇಟಾದಲ್ಲಿ ವ್ಯಕ್ತಿಗಳನ್ನು ಅನಾಮಧೇಯಗೊಳಿಸುವುದು ಗಮನಾರ್ಹವಾಗಿದೆ ಎಂದು ಈ ಉದಾಹರಣೆಯು ತೋರಿಸುತ್ತದೆ. ಮೊದಲಿಗೆ, ಈ ಅಧ್ಯಯನವು ಒಂದು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಅಪಾಯವನ್ನು ಸೂಚಿಸುತ್ತದೆ ಯುಎಸ್ ಜನಸಂಖ್ಯೆಯ 87% ಅನ್ನು ಬಳಸಿಕೊಂಡು ಸುಲಭವಾಗಿ ಗುರುತಿಸಬಹುದು ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳು. ಎರಡನೆಯದಾಗಿ, ಈ ಅಧ್ಯಯನದಲ್ಲಿ ಬಹಿರಂಗಗೊಂಡ ವೈದ್ಯಕೀಯ ದತ್ತಾಂಶವು ಅತ್ಯಂತ ಸೂಕ್ಷ್ಮವಾಗಿತ್ತು. ಆಸ್ಪತ್ರೆಗೆ ಭೇಟಿ ನೀಡಿದ ಡೇಟಾಸೆಟ್‌ನಿಂದ ಬಹಿರಂಗಗೊಂಡ ವ್ಯಕ್ತಿಗಳ ಡೇಟಾದ ಉದಾಹರಣೆಗಳಲ್ಲಿ ಜನಾಂಗೀಯತೆ, ರೋಗನಿರ್ಣಯ ಮತ್ತು ಔಷಧಗಳು ಸೇರಿವೆ. ಗುಣಲಕ್ಷಣಗಳನ್ನು ರಹಸ್ಯವಾಗಿಡಬಹುದು, ಉದಾಹರಣೆಗೆ, ವಿಮಾ ಕಂಪನಿಗಳಿಂದ.

3) ಮಾಹಿತಿ ಪಡೆದ ವ್ಯಕ್ತಿಗಳು

ಮಾಹಿತಿಯಿರುವ ವ್ಯಕ್ತಿಗಳಿಗೆ ಉನ್ನತ ಜ್ಞಾನ ಅಥವಾ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ವ್ಯಕ್ತಿಗಳ ಗುಣಲಕ್ಷಣಗಳು ಅಥವಾ ನಡವಳಿಕೆಯ ಬಗ್ಗೆ ಮಾಹಿತಿ ಇದ್ದಾಗ ಹೆಸರುಗಳಂತಹ ನೇರ ಗುರುತಿಸುವಿಕೆಗಳನ್ನು ಮಾತ್ರ ತೆಗೆದುಹಾಕುವ ಇನ್ನೊಂದು ಅಪಾಯ ಉಂಟಾಗುತ್ತದೆ.. ಅವರ ಜ್ಞಾನದ ಆಧಾರದ ಮೇಲೆ, ದಾಳಿಕೋರರು ನಿರ್ದಿಷ್ಟ ಡೇಟಾ ದಾಖಲೆಗಳನ್ನು ನಿಜವಾದ ಜನರಿಗೆ ಲಿಂಕ್ ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಉದಾಹರಣಾ ಪರಿಶೀಲನೆ

ಅತ್ಯುನ್ನತ ಜ್ಞಾನವನ್ನು ಬಳಸಿಕೊಂಡು ಡೇಟಾಸೆಟ್ ಮೇಲೆ ದಾಳಿಯ ಉದಾಹರಣೆಯೆಂದರೆ ನ್ಯೂಯಾರ್ಕ್ ಟ್ಯಾಕ್ಸಿ ಕೇಸ್, ಅಲ್ಲಿ ಅಟೊಕರ್ (2014) ನಿರ್ದಿಷ್ಟ ವ್ಯಕ್ತಿಗಳ ಮುಖವಾಡವನ್ನು ತೆಗೆಯಲು ಸಾಧ್ಯವಾಯಿತು. ಉದ್ಯೋಗದಲ್ಲಿರುವ ದತ್ತಾಂಶ ಸಮೂಹವು ನ್ಯೂಯಾರ್ಕ್‌ನ ಎಲ್ಲಾ ಟ್ಯಾಕ್ಸಿ ಪ್ರಯಾಣಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಇದು ಪ್ರಾರಂಭದ ನಿರ್ದೇಶಾಂಕಗಳು, ಅಂತಿಮ ನಿರ್ದೇಶಾಂಕಗಳು, ದರ ಮತ್ತು ಸವಾರಿಯ ತುದಿಗಳಂತಹ ಮೂಲ ಲಕ್ಷಣಗಳಿಂದ ಸಮೃದ್ಧವಾಗಿದೆ.

ನ್ಯೂಯಾರ್ಕ್ ತಿಳಿದಿರುವ ಮಾಹಿತಿಯುಳ್ಳ ವ್ಯಕ್ತಿ ವಯಸ್ಕ ಕ್ಲಬ್ 'ಹಸ್ಟ್ಲರ್'ಗೆ ಟ್ಯಾಕ್ಸಿ ಪ್ರವಾಸಗಳನ್ನು ಪಡೆಯಲು ಸಾಧ್ಯವಾಯಿತು. 'ಅಂತಿಮ ಸ್ಥಳ' ವನ್ನು ಫಿಲ್ಟರ್ ಮಾಡುವ ಮೂಲಕ, ಅವರು ನಿಖರವಾದ ಆರಂಭದ ವಿಳಾಸಗಳನ್ನು ಕಳೆಯುತ್ತಾರೆ ಮತ್ತು ಆ ಮೂಲಕ ಆಗಾಗ್ಗೆ ಭೇಟಿ ನೀಡುವವರನ್ನು ಗುರುತಿಸಿದರು. ಅಂತೆಯೇ, ವ್ಯಕ್ತಿಯ ಮನೆಯ ವಿಳಾಸ ತಿಳಿದಾಗ ಟ್ಯಾಕ್ಸಿ ಸವಾರಿಯನ್ನು ಕಡಿತಗೊಳಿಸಬಹುದು. ಗಾಸಿಪ್ ತಾಣಗಳಲ್ಲಿ ಹಲವಾರು ಸೆಲೆಬ್ರಿಟಿ ಚಲನಚಿತ್ರ ತಾರೆಯರ ಸಮಯ ಮತ್ತು ಸ್ಥಳ ಪತ್ತೆಯಾಗಿದೆ. ಈ ಮಾಹಿತಿಯನ್ನು NYC ಟ್ಯಾಕ್ಸಿ ಡೇಟಾಗೆ ಲಿಂಕ್ ಮಾಡಿದ ನಂತರ, ಅವರ ಟ್ಯಾಕ್ಸಿ ಸವಾರಿಗಳು, ಅವರು ಪಾವತಿಸಿದ ಮೊತ್ತ, ಮತ್ತು ಅವರು ಟಿಪ್ ಮಾಡಿದ್ದಾರೆಯೇ ಎಂಬುದನ್ನು ಸುಲಭವಾಗಿ ಪಡೆಯಲಾಯಿತು.

ವಿವರಣೆ 4

ಮಾಹಿತಿಯುಕ್ತ ವ್ಯಕ್ತಿ

ಡ್ರಾಪ್-ಆಫ್ ನಿರ್ದೇಶಾಂಕಗಳು ಹಸ್ಲರ್

ಬ್ರಾಡ್ಲಿ ಕೂಪರ್

ಟ್ಯಾಕ್ಸಿ ಮತ್ತು ನಕ್ಷೆ

ಜೆಸ್ಸಿಕಾ ಆಲ್ಬಾ

ನಕ್ಷೆಗಳ ಟ್ರ್ಯಾಕಿಂಗ್

4) ಬೆರಳಚ್ಚು ಮಾಹಿತಿ ಮಾಹಿತಿ

ವಾದದ ಒಂದು ಸಾಮಾನ್ಯ ಸಾಲು 'ಈ ಡೇಟಾವು ನಿಷ್ಪ್ರಯೋಜಕವಾಗಿದೆ' ಅಥವಾ 'ಈ ಡೇಟಾದೊಂದಿಗೆ ಯಾರೂ ಏನನ್ನೂ ಮಾಡಲು ಸಾಧ್ಯವಿಲ್ಲ'. ಇದು ಹೆಚ್ಚಾಗಿ ತಪ್ಪು ಕಲ್ಪನೆ. ಅತ್ಯಂತ ಮುಗ್ಧ ಡೇಟಾ ಕೂಡ ಒಂದು ಅನನ್ಯ 'ಫಿಂಗರ್‌ಪ್ರಿಂಟ್' ಅನ್ನು ರೂಪಿಸುತ್ತದೆ ಮತ್ತು ವ್ಯಕ್ತಿಗಳನ್ನು ಮರು ಗುರುತಿಸಲು ಬಳಸಬಹುದು. ಇದು ಡೇಟಾವು ನಿಷ್ಪ್ರಯೋಜಕವಾಗಿದೆ ಎಂಬ ನಂಬಿಕೆಯಿಂದ ಪಡೆದ ಅಪಾಯವಾಗಿದೆ, ಆದರೆ ಅದು ಅಲ್ಲ.

ದತ್ತಾಂಶ, AI ಮತ್ತು ಇತರ ಪರಿಕರಗಳು ಮತ್ತು ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಹೆಚ್ಚಳದೊಂದಿಗೆ ಗುರುತಿಸುವಿಕೆಯ ಅಪಾಯವು ಹೆಚ್ಚಾಗುತ್ತದೆ, ಅದು ಡೇಟಾದ ಸಂಕೀರ್ಣ ಸಂಬಂಧಗಳನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ. ಪರಿಣಾಮವಾಗಿ, ನಿಮ್ಮ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಈಗ ಬಹಿರಂಗಪಡಿಸಲಾಗದಿದ್ದರೂ, ಮತ್ತು ಅನಧಿಕೃತ ವ್ಯಕ್ತಿಗಳಿಗೆ ಇಂದು ಅನುಪಯುಕ್ತವಾಗಿದ್ದರೂ, ಅದು ನಾಳೆ ಆಗದಿರಬಹುದು.

ಉದಾಹರಣಾ ಪರಿಶೀಲನೆ

ಒಂದು ಉತ್ತಮ ಉದಾಹರಣೆಯೆಂದರೆ ನೆಟ್‌ಫ್ಲಿಕ್ಸ್ ತನ್ನ R&D ವಿಭಾಗವನ್ನು ಕ್ರೌಡ್‌ಸೋರ್ಸ್ ಮಾಡಲು ಉದ್ದೇಶಿಸಿದ್ದು, ಅವರ ಚಲನಚಿತ್ರ ಶಿಫಾರಸು ವ್ಯವಸ್ಥೆಯನ್ನು ಸುಧಾರಿಸಲು ತೆರೆದ ನೆಟ್‌ಫ್ಲಿಕ್ಸ್ ಸ್ಪರ್ಧೆಯನ್ನು ಪರಿಚಯಿಸುವ ಮೂಲಕ. 'ಚಲನಚಿತ್ರಗಳ ಬಳಕೆದಾರರ ರೇಟಿಂಗ್‌ಗಳನ್ನು ಊಹಿಸಲು ಸಹಕಾರಿ ಫಿಲ್ಟರಿಂಗ್ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಸುಧಾರಿಸುವವರು US $ 1,000,000 ಬಹುಮಾನವನ್ನು ಗೆಲ್ಲುತ್ತಾರೆ'. ಜನಸಂದಣಿಯನ್ನು ಬೆಂಬಲಿಸಲು, ನೆಟ್‌ಫ್ಲಿಕ್ಸ್ ಈ ಕೆಳಗಿನ ಮೂಲಭೂತ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಮಾತ್ರ ಒಳಗೊಂಡಿರುವ ಒಂದು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಪ್ರಕಟಿಸಿತು: ಬಳಕೆದಾರರ ಐಡಿ, ಚಲನಚಿತ್ರ, ಗ್ರೇಡ್ ಮತ್ತು ದರ್ಜೆಯ ದಿನಾಂಕ (ಆದ್ದರಿಂದ ಬಳಕೆದಾರ ಅಥವಾ ಚಲನಚಿತ್ರದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿ ಇಲ್ಲ).

ವಿವರಣೆ 5

ಡೇಟಾಸೆಟ್ ರಚನೆ ನೆಟ್ಫ್ಲಿಕ್ಸ್ ಬೆಲೆ

ಬಳಕೆದಾರರ ಗುರುತು ಚಲನಚಿತ್ರ ದರ್ಜೆಯ ದಿನಾಂಕ ಗ್ರೇಡ್
123456789 ಅಸಾಧ್ಯ ಮಿಷನ್ 10-12-2008 4

ಪ್ರತ್ಯೇಕವಾಗಿ, ಡೇಟಾ ನಿಷ್ಪ್ರಯೋಜಕವಾಗಿದೆ. 'ಡಾಟಾಸೆಟ್‌ನಲ್ಲಿ ಖಾಸಗಿಯಾಗಿಡಬೇಕಾದ ಗ್ರಾಹಕರ ಮಾಹಿತಿ ಇದೆಯೇ?' ಎಂಬ ಪ್ರಶ್ನೆಯನ್ನು ಕೇಳಿದಾಗ, ಉತ್ತರ ಹೀಗಿತ್ತು:

 'ಇಲ್ಲ, ಎಲ್ಲಾ ಗ್ರಾಹಕರನ್ನು ಗುರುತಿಸುವ ಮಾಹಿತಿಯನ್ನು ತೆಗೆದುಹಾಕಲಾಗಿದೆ; ಉಳಿದಿರುವುದು ರೇಟಿಂಗ್‌ಗಳು ಮತ್ತು ದಿನಾಂಕಗಳು ಮಾತ್ರ. ಇದು ನಮ್ಮ ಗೌಪ್ಯತೆ ನೀತಿಯನ್ನು ಅನುಸರಿಸುತ್ತದೆ ... '

ಆದಾಗ್ಯೂ, ಆಸ್ಟಿನ್ ನಲ್ಲಿರುವ ಟೆಕ್ಸಾಸ್ ವಿಶ್ವವಿದ್ಯಾಲಯದಿಂದ ನಾರಾಯಣನ್ (2008) ಬೇರೆ ರೀತಿಯಲ್ಲಿ ಸಾಬೀತಾಯಿತು. ವ್ಯಕ್ತಿಯ ಶ್ರೇಣಿಗಳನ್ನು, ದರ್ಜೆಯ ದಿನಾಂಕ ಮತ್ತು ಚಲನಚಿತ್ರಗಳ ಸಂಯೋಜನೆಯು ವಿಶಿಷ್ಟವಾದ ಚಲನಚಿತ್ರ-ಬೆರಳಚ್ಚುಗಳನ್ನು ರೂಪಿಸುತ್ತದೆ. ನಿಮ್ಮ ಸ್ವಂತ ನೆಟ್ಫ್ಲಿಕ್ಸ್ ನಡವಳಿಕೆಯ ಬಗ್ಗೆ ಯೋಚಿಸಿ. ಒಂದೇ ರೀತಿಯ ಚಲನಚಿತ್ರಗಳನ್ನು ಎಷ್ಟು ಜನರು ವೀಕ್ಷಿಸಿದ್ದಾರೆ ಎಂದು ನೀವು ಭಾವಿಸುತ್ತೀರಿ? ಎಷ್ಟು ಜನರು ಒಂದೇ ಸಮಯದಲ್ಲಿ ಒಂದೇ ರೀತಿಯ ಚಲನಚಿತ್ರಗಳನ್ನು ವೀಕ್ಷಿಸಿದ್ದಾರೆ?

ಮುಖ್ಯ ಪ್ರಶ್ನೆ, ಈ ಫಿಂಗರ್‌ಪ್ರಿಂಟ್ ಅನ್ನು ಹೇಗೆ ಹೊಂದಿಸುವುದು? ಇದು ಸರಳವಾಗಿತ್ತು. ಪ್ರಸಿದ್ಧ ಚಲನಚಿತ್ರ-ರೇಟಿಂಗ್ ವೆಬ್‌ಸೈಟ್ IMDb (ಇಂಟರ್ನೆಟ್ ಮೂವಿ ಡೇಟಾಬೇಸ್) ನಿಂದ ಪಡೆದ ಮಾಹಿತಿಯ ಆಧಾರದ ಮೇಲೆ, ಇದೇ ರೀತಿಯ ಬೆರಳಚ್ಚು ರಚಿಸಬಹುದು. ಪರಿಣಾಮವಾಗಿ, ವ್ಯಕ್ತಿಗಳನ್ನು ಮರು ಗುರುತಿಸಬಹುದು.

ಚಲನಚಿತ್ರ ನೋಡುವ ನಡವಳಿಕೆಯನ್ನು ಸೂಕ್ಷ್ಮ ಮಾಹಿತಿಯೆಂದು ಪರಿಗಣಿಸಲಾಗದಿದ್ದರೂ, ನಿಮ್ಮ ಸ್ವಂತ ನಡವಳಿಕೆಯ ಬಗ್ಗೆ ಯೋಚಿಸಿ-ಅದು ಸಾರ್ವಜನಿಕವಾಗಿ ಹೋದರೆ ನಿಮಗೆ ಮನಸ್ಸಾಗುತ್ತದೆಯೇ? ನಾರಾಯಣನ್ ತಮ್ಮ ಪತ್ರಿಕೆಯಲ್ಲಿ ಒದಗಿಸಿದ ಉದಾಹರಣೆಗಳು ರಾಜಕೀಯ ಆದ್ಯತೆಗಳು ('ಜೀಸಸ್ ಆಫ್ ನಜರೆತ್' ಮತ್ತು 'ದಿ ಗಾಸ್ಪೆಲ್ ಆಫ್ ಜಾನ್') ಮತ್ತು ಲೈಂಗಿಕ ಆದ್ಯತೆಗಳು ('ಬಂಟ್' ಮತ್ತು 'ಕ್ವೀರ್ ಆಸ್ ಫೋಕ್') ಸುಲಭವಾಗಿ ಬಟ್ಟಿ ಇಳಿಸಬಹುದು.

5) ಸಾಮಾನ್ಯ ಡೇಟಾ ಸಂರಕ್ಷಣೆ ನಿಯಂತ್ರಣ (GDPR)

ಜಿಡಿಪಿಆರ್ ಸೂಪರ್-ರೋಚಕವಾಗದಿರಬಹುದು ಅಥವಾ ಬ್ಲಾಗ್ ವಿಷಯಗಳಲ್ಲಿ ಬೆಳ್ಳಿಯ ಬುಲೆಟ್ ಆಗಿರುವುದಿಲ್ಲ. ಆದರೂ, ವೈಯಕ್ತಿಕ ಡೇಟಾವನ್ನು ಸಂಸ್ಕರಿಸುವಾಗ ನೇರವಾಗಿ ವ್ಯಾಖ್ಯಾನಗಳನ್ನು ಪಡೆಯಲು ಇದು ಸಹಾಯಕವಾಗಿದೆ. ಈ ಬ್ಲಾಗ್ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯಗೊಳಿಸಲು ಮತ್ತು ಡೇಟಾ ಪ್ರೊಸೆಸರ್ ಆಗಿ ನಿಮಗೆ ಶಿಕ್ಷಣ ನೀಡಲು ಕಾಲಮ್‌ಗಳನ್ನು ತೆಗೆದುಹಾಕುವ ಸಾಮಾನ್ಯ ತಪ್ಪುಗ್ರಹಿಕೆಯ ಬಗ್ಗೆ, GDPR ಪ್ರಕಾರ ಅನಾಮಧೇಯತೆಯ ವ್ಯಾಖ್ಯಾನವನ್ನು ಅನ್ವೇಷಿಸುವುದರೊಂದಿಗೆ ಆರಂಭಿಸೋಣ. 

ಜಿಡಿಪಿಆರ್‌ನಿಂದ ವಾಚನ 26 ರ ಪ್ರಕಾರ, ಅನಾಮಧೇಯ ಮಾಹಿತಿಯನ್ನು ಹೀಗೆ ವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ:

'ಗುರುತಿಸಿದ ಅಥವಾ ಗುರುತಿಸಬಹುದಾದ ನೈಸರ್ಗಿಕ ವ್ಯಕ್ತಿ ಅಥವಾ ವೈಯಕ್ತಿಕ ಡೇಟಾಗೆ ಸಂಬಂಧಿಸದ ಮಾಹಿತಿ ಅನಾಮಧೇಯವಾಗಿ ಡೇಟಾ ವಿಷಯವು ಗುರುತಿಸಲಾಗದ ರೀತಿಯಲ್ಲಿ ಅಥವಾ ಇನ್ನು ಮುಂದೆ ಗುರುತಿಸಲಾಗುವುದಿಲ್ಲ.'

ನೈಸರ್ಗಿಕ ವ್ಯಕ್ತಿಗೆ ಸಂಬಂಧಿಸಿದ ವೈಯಕ್ತಿಕ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದರಿಂದ, ವ್ಯಾಖ್ಯಾನದ ಭಾಗ 2 ಮಾತ್ರ ಪ್ರಸ್ತುತವಾಗಿದೆ. ವ್ಯಾಖ್ಯಾನವನ್ನು ಅನುಸರಿಸಲು, ಒಬ್ಬರು ಡೇಟಾ ವಿಷಯ (ವೈಯಕ್ತಿಕ) ಅಥವಾ ಇನ್ನು ಮುಂದೆ ಗುರುತಿಸಲಾಗುವುದಿಲ್ಲ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಬೇಕು. ಈ ಬ್ಲಾಗ್‌ನಲ್ಲಿ ಸೂಚಿಸಿದಂತೆ, ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳ ಆಧಾರದ ಮೇಲೆ ವ್ಯಕ್ತಿಗಳನ್ನು ಗುರುತಿಸುವುದು ಗಮನಾರ್ಹವಾಗಿದೆ. ಆದ್ದರಿಂದ, ಡೇಟಾಸೆಟ್‌ನಿಂದ ಹೆಸರುಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು ಅನಾಮಧೇಯತೆಯ ಜಿಡಿಪಿಆರ್ ವ್ಯಾಖ್ಯಾನವನ್ನು ಅನುಸರಿಸುವುದಿಲ್ಲ.

ತೀರ್ಮಾನಕ್ಕೆ ರಲ್ಲಿ

ನಾವು ಸಾಮಾನ್ಯವಾಗಿ ಪರಿಗಣಿಸಿದ ಮತ್ತು ದುರದೃಷ್ಟವಶಾತ್, ಡೇಟಾ ಅನಾಮಧೇಯತೆಯ ಪದೇ ಪದೇ ಅನ್ವಯಿಸುವ ವಿಧಾನವನ್ನು ಸವಾಲು ಮಾಡಿದ್ದೇವೆ: ಹೆಸರುಗಳನ್ನು ತೆಗೆಯುವುದು. ಗೆಸ್ ಹೂ ಆಟ ಮತ್ತು ಇತರ ನಾಲ್ಕು ಉದಾಹರಣೆಗಳ ಬಗ್ಗೆ:

  • ಸಂಪರ್ಕ ದಾಳಿಗಳು
  • ಮಾಹಿತಿ ಪಡೆದ ವ್ಯಕ್ತಿಗಳು
  • ಬೆರಳಚ್ಚು ಮಾಹಿತಿ ಮಾಹಿತಿ
  • ಜನರಲ್ ಡಾಟಾ ಪ್ರೊಟೆಕ್ಷನ್ ನಿಯಂತ್ರಣ (ಜಿಡಿಪಿಆರ್)

ಹೆಸರುಗಳನ್ನು ತೆಗೆದುಹಾಕುವುದು ಅನಾಮಧೇಯವಾಗಿ ವಿಫಲಗೊಳ್ಳುತ್ತದೆ ಎಂದು ತೋರಿಸಲಾಗಿದೆ. ಉದಾಹರಣೆಗಳು ಗಮನಾರ್ಹವಾದ ಪ್ರಕರಣಗಳಾಗಿದ್ದರೂ, ಪ್ರತಿಯೊಂದೂ ಮರು ಗುರುತಿಸುವಿಕೆಯ ಸರಳತೆಯನ್ನು ತೋರಿಸುತ್ತದೆ ಮತ್ತು ವ್ಯಕ್ತಿಗಳ ಗೌಪ್ಯತೆಯ ಮೇಲೆ ಸಂಭಾವ್ಯ negativeಣಾತ್ಮಕ ಪರಿಣಾಮ.

ಕೊನೆಯಲ್ಲಿ, ನಿಮ್ಮ ಡೇಟಾಸೆಟ್‌ನಿಂದ ಹೆಸರುಗಳನ್ನು ತೆಗೆಯುವುದು ಅನಾಮಧೇಯ ಡೇಟಾಕ್ಕೆ ಕಾರಣವಾಗುವುದಿಲ್ಲ. ಆದ್ದರಿಂದ, ನಾವು ಎರಡೂ ಪದಗಳನ್ನು ಪರಸ್ಪರ ಬದಲಾಯಿಸುವುದನ್ನು ತಪ್ಪಿಸುವುದು ಉತ್ತಮ. ಅನಾಮಧೇಯತೆಗಾಗಿ ನೀವು ಈ ವಿಧಾನವನ್ನು ಅನ್ವಯಿಸುವುದಿಲ್ಲ ಎಂದು ನಾನು ಪ್ರಾಮಾಣಿಕವಾಗಿ ಭಾವಿಸುತ್ತೇನೆ. ಮತ್ತು, ನೀವು ಇನ್ನೂ ಹಾಗೆ ಮಾಡಿದರೆ, ನೀವು ಮತ್ತು ನಿಮ್ಮ ತಂಡವು ಗೌಪ್ಯತೆ ಅಪಾಯಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಂಡಿದೆಯೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ ಮತ್ತು ಪೀಡಿತ ವ್ಯಕ್ತಿಗಳ ಪರವಾಗಿ ಆ ಅಪಾಯಗಳನ್ನು ಸ್ವೀಕರಿಸಲು ಅನುಮತಿಸಲಾಗಿದೆ.

ನಗುತ್ತಿರುವ ಜನರ ಗುಂಪು

ಡೇಟಾ ಸಿಂಥೆಟಿಕ್ ಆಗಿದೆ, ಆದರೆ ನಮ್ಮ ತಂಡವು ನಿಜವಾಗಿದೆ!

ಸಿಂಥೋ ಅವರನ್ನು ಸಂಪರ್ಕಿಸಿ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಮೌಲ್ಯವನ್ನು ಅನ್ವೇಷಿಸಲು ನಮ್ಮ ತಜ್ಞರಲ್ಲಿ ಒಬ್ಬರು ಬೆಳಕಿನ ವೇಗದಲ್ಲಿ ನಿಮ್ಮೊಂದಿಗೆ ಸಂಪರ್ಕದಲ್ಲಿರುತ್ತಾರೆ!

  • ಡಿ. ರೀನ್ಸೆಲ್, ಜೆ. ಗ್ಯಾಂಟ್ಜ್, ಜಾನ್ ರೈಡ್ನಿಂಗ್ ಪ್ರಪಂಚದ ಡಿಜಿಟೈಸೇಶನ್ ಎಡ್ಜ್‌ನಿಂದ ಕೋರ್, ಡೇಟಾ ವಯಸ್ಸು 2025, 2018
  • ಎಲ್. ಸ್ವೀನಿ ಕೆ-ಅನಾಮಧೇಯತೆ: ಗೌಪ್ಯತೆಯನ್ನು ರಕ್ಷಿಸುವ ಮಾದರಿ ಇಂಟರ್‌ನ್ಯಾಷನಲ್ ಜರ್ನಲ್ ಆನ್ ಅನಿಶ್ಚಿತತೆ, ಅಸ್ಪಷ್ಟತೆ ಮತ್ತು ಜ್ಞಾನ ಆಧಾರಿತ ವ್ಯವಸ್ಥೆಗಳು, 10 (5), 2002: 557-570
  • ಎಲ್. ಸ್ವೀನಿ ಸರಳ ಜನಸಂಖ್ಯಾಶಾಸ್ತ್ರ ಸಾಮಾನ್ಯವಾಗಿ ಜನರನ್ನು ಅನನ್ಯವಾಗಿ ಗುರುತಿಸುತ್ತದೆ. ಕಾರ್ನೆಗೀ ಮೆಲಾನ್ ವಿಶ್ವವಿದ್ಯಾಲಯ, ಡೇಟಾ ಗೌಪ್ಯತೆ ವರ್ಕಿಂಗ್ ಪೇಪರ್ 3. ಪಿಟ್ಸ್‌ಬರ್ಗ್ 2000
  • ಪಿ. ಸಮರತಿ ಮೈಕ್ರೋಡೇಟಾ ಬಿಡುಗಡೆಯಲ್ಲಿ ಪ್ರತಿಕ್ರಿಯಿಸುವವರ ಗುರುತುಗಳನ್ನು ರಕ್ಷಿಸುವುದು. ಐಇಇಇ ನಾಲೆಡ್ಜ್ ಅಂಡ್ ಡಾಟಾ ಎಂಜಿನಿಯರಿಂಗ್, 13 (6), 2001: 1010-1027
  • ಆಟೋಕರ್. ರೈಡಿಂಗ್ ವಿತ್ ದಿ ಸ್ಟಾರ್ಸ್: ಎನ್ವೈಸಿ ಟ್ಯಾಕ್ಸಿಕ್ಯಾಬ್ ಡೇಟಾಸೆಟ್, 2014 ರಲ್ಲಿ ಪ್ರಯಾಣಿಕರ ಗೌಪ್ಯತೆ
  • ನಾರಾಯಣನ್, ಎ., ಮತ್ತು ಶಮತಿಕೋವ್, ವಿ. (2008). ದೊಡ್ಡ ವಿರಳ ದತ್ತಾಂಶಗಳ ದೃ deವಾದ ಡಿ-ಅನಾಮಧೇಯತೆ. ಇನ್ ಪ್ರೊಸೀಡಿಂಗ್ಸ್-2008 ಐಇಇಇ ಸೆಕ್ಯುಸಿಯಮ್ ಆನ್ ಸೆಕ್ಯುರಿಟಿ ಅಂಡ್ ಪ್ರೈವಸಿ, ಎಸ್ಪಿ (ಪಿಪಿ. 111-125)
  • ಸಾಮಾನ್ಯ ಡೇಟಾ ಸಂರಕ್ಷಣೆ ನಿಯಂತ್ರಣ (GDPR), ವಾಚನ 26, ಅನಾಮಧೇಯ ಡೇಟಾಕ್ಕೆ ಅನ್ವಯಿಸುವುದಿಲ್ಲ