
AWS Entity Resolution: ନୂଆ ଫିଚର୍ସ, ଯାହା ତୁମକୁ ଡାଟା ସହିତ ଖେଳିବାକୁ ସାହାଯ୍ୟ କରିବ!
ସାଙ୍ଗମାନେ, ତୁମେ କେବେ ଭାବିଛ କି ଆମେ ଯେତେବେଳେ ଇଣ୍ଟରନେଟରେ କିଛି ଖୋଜୁ, ତାହା କେତେ ସହଜରେ ମିଳିଯାଏ? ଏହା ପଛରେ ଅନେକ ବଡ ବଡ କମ୍ପ୍ୟୁଟର ଏବଂ ଡାଟା ଥିଏରି ଛୁପା ଅଛି। ଆଜି ଆମେ ଏମିତି ହିଁ ଏକ କଥା ଜାଣିବା, ଯାହା Amazon Web Services (AWS) ନାମକ ଏକ ବଡ କମ୍ପ୍ୟୁଟର କମ୍ପାନୀ କରିଛି।
AWS Entity Resolution କ’ଣ?
ଭାବନ୍ତୁ ତୁମେ ତୁମର ସାଙ୍ଗମାନଙ୍କର ଲିଷ୍ଟ ତିଆରି କରୁଛ। କିନ୍ତୁ ତୁମେ କେବେବେଳେ ତାଙ୍କ ନାଁ ଟିକେ ଭୁଲ ଲେଖିଦେଉଛ, କେବେବେଳେ ତାଙ୍କ ଠିକଣା ଟିକେ ଅଲଗା ଲେଖିଦେଉଛ। ତେବେ ଏମିତି ହେଲେ, ତୁମେ କେମିତି ଜାଣିବ ଯେ ଏହି ସବୁ ଲୋକମାନେ ଗୋଟିଏ ହିଁ ଲୋକ?
AWS Entity Resolution ଠିକ ଏହି କାମ କରେ। ଏହା ଏକ ଏମିତି ଟୁଲ୍, ଯାହା ବହୁତ ଡାଟା (ଯେମିତି ଲୋକଙ୍କ ନାଁ, ଠିକଣା, ଫୋନ ନମ୍ବର) ମଧ୍ୟରୁ ସେହି ଲୋକମାନଙ୍କୁ ଖୋଜି ବାହାର କରେ, ଯେଉଁମାନେ ପ୍ରକୃତରେ ଗୋଟିଏ ହିଁ ଲୋକ, କିନ୍ତୁ ତାଙ୍କ ଡାଟା ଟିକେ ଟିକେ ଅଲଗା ଲେଖା ହୋଇଛି। ଏହା ଡାଟାକୁ ଠିକ କରିବାରେ ସାହାଯ୍ୟ କରେ, ଯେମିତି ତୁମ ପାଖରେ ଥିବା ଲୋକଙ୍କ ଲିଷ୍ଟରେ କୌଣସି ଡୁପ୍ଲିକେଟ୍ ନ ରୁହେ।
ନୂଆ ଫିଚର୍ସ: Levenshtein, Cosine, Soundex
ଏବେ Amazon ତିନୋଟି ନୂଆ ଉପାୟ ଯୋଡିଛି, ଯାହା ଦ୍ୱାରା AWS Entity Resolution ଡାଟାକୁ ଆହୁରି ଭଲ ଭାବରେ ବୁଝି ପାରିବ:
-
Levenshtein Distance (ଲେଭେନ୍ଷ୍ଟିନ୍ ଡିଷ୍ଟାନ୍ସ):
- ଭାବନ୍ତୁ ତୁମେ “ଆମିଷ” ଲେଖିବାକୁ ଚାହିଁଲ, କିନ୍ତୁ ଭୁଲରେ “ଆମିଶ” ଲେଖିଦେଲ।
- Levenshtein Distance ହେଉଛି ଏକ ଉପାୟ, ଯାହା ଦେଖେ ଯେ ଦୁଇଟି ଶବ୍ଦ ମଧ୍ୟରେ କେତେଟି ଅକ୍ଷର ବଦଳାଇଲେ, ଯୋଡିଲେ ବା କାଢିଦେଲେ ଗୋଟିଏ ଶବ୍ଦ ଅନ୍ୟଟିରେ ପରିଣତ ହୋଇଯିବ।
- “ଆମିଷ” ଏବଂ “ଆମିଶ” ମଧ୍ୟରେ କେବଳ ଗୋଟିଏ ଅକ୍ଷର “ଷ” ବଦଳରେ “ଶ” ଅଛି। ତେଣୁ ଏମାନଙ୍କ ମଧ୍ୟରେ ଲେଭେନ୍ଷ୍ଟିନ୍ ଡିଷ୍ଟାନ୍ସ ୧।
- ଏହା ଡାଟାକୁ ଠିକ କରିବାରେ ବହୁତ ସାହାଯ୍ୟ କରେ, ଯେତେବେଳେ ଲୋକମାନେ ଲେଖିବାରେ ଛୋଟ ଛୋଟ ଭୁଲ କରନ୍ତି।
-
Cosine Similarity (କୋସାଇନ୍ ସିମିଲାରିଟି):
- ଏହା ଟିକେ ଭିନ୍ନ ଉପାୟ। ଭାବନ୍ତୁ ତୁମେ ଏକ କମ୍ପ୍ୟୁଟରକୁ କହିଲ, “ସୁନ୍ଦର ଫୁଲ” ଏବଂ ଅନ୍ୟ ଜଣେ କହିଲା, “ଲାଲ ଫୁଲ”।
- Cosine Similarity କମ୍ପ୍ୟୁଟରକୁ କହିବ ଯେ ଏହି ଦୁଇଟି ବାକ୍ୟରେ କେତେ ଭାଗରେ ଶବ୍ଦଗୁଡିକ ଏକାଅଛି (ଏଠାରେ “ଫୁଲ”)।
- ଏହା ଡାଟାର ମାନେ ବୁଝିବାରେ ସାହାଯ୍ୟ କରେ। ଏହା ଦେଖେ ଯେ ଦୁଇଟି ଲେଖାରେ କେତେଗୁଡିଏ ଶବ୍ଦ ସମାନ ଅଛି ଏବଂ ସେହି ଶବ୍ଦଗୁଡିକର ମାନେ କେତେ ମିଶୁଛି।
- ଏହା ଲୋକମାନଙ୍କର ଡାଟାକୁ ଠିକ କରିବା ପାଇଁ ବ୍ୟବହାର କରାଯାଏ, ଯେତେବେଳେ ତାଙ୍କ ଲେଖା ଟିକେ ଲମ୍ବା ହୋଇଥାଏ।
-
Soundex (ସାଉଣ୍ଡେକ୍ସ):
- ଏହି ଉପାୟଟି ମୁଖ୍ୟତଃ ନାଁଗୁଡିକ ପାଇଁ ବ୍ୟବହାର କରାଯାଏ।
- ଭାବନ୍ତୁ ତୁମେ “ସୁଜାତା” ଏବଂ “ସୁଜାତ” ଲେଖିଲ। ଶୁଣିବାକୁ ଏମାନେ ଠିକ ଏକା ଲାଗନ୍ତି।
- Soundex କ’ଣ କରେ ନା, ଏହା ଲୋକଙ୍କ ନାଁକୁ ଏକ କୋଡ୍ (ଗୋଟିଏ ନମ୍ବର ଭଳି) ରେ ପରିଣତ କରେ, ଯାହା ଶୁଣିବାକୁ ସମାନ ଲାଗୁଥିବା ନାଁ ଗୁଡିକୁ ସମାନ କୋଡ୍ ଦିଏ।
- “ସୁଜାତା” ଏବଂ “ସୁଜାତ” ପାଇଁ Soundex କୋଡ୍ ସମାନ ହୋଇପାରେ। ଏହା ଡାଟା ମଧ୍ୟରେ ଲୋକଙ୍କ ନାଁ ଖୋଜିବାକୁ ବହୁତ ସହଜ କରିଦିଏ।
ଏହା ଆମ ପାଇଁ କାହିଁକି ଉପଯୋଗୀ?
- ବିଜ୍ଞାନ ଓ ଗବେଷଣା: ଡାକ୍ତର, ବୈଜ୍ଞାନିକମାନେ ଏହି ଟୁଲ୍ ବ୍ୟବହାର କରି ଲୋକଙ୍କ ସ୍ୱାସ୍ଥ୍ୟ ଡାଟାକୁ ଠିକ ଭାବରେ ବୁଝି ପାରିବେ। ଯେମିତି, କେଉଁ ରୋଗୀ କ’ଣ ଔଷଧ ଖାଉଛନ୍ତି ତାକୁ ଠିକ ଭାବରେ ଲିଷ୍ଟ କରିବା।
- ଲୋକଙ୍କ ଡାଟା ଠିକ କରିବା: ଯେତେବେଳେ ବଡ ବଡ କମ୍ପାନୀ ମାନଙ୍କ ପାଖରେ ହଜାର ହଜାର ଲୋକଙ୍କ ଡାଟା ଥାଏ, ସେତେବେଳେ ଏହା ଡୁପ୍ଲିକେଟ ଡାଟାକୁ ବାହାର କରି ଡାଟାକୁ ପରିଷ୍କାର କରେ।
- କମ୍ପ୍ୟୁଟର ଗେମ୍: ତୁମେ ଯେତେବେଳେ କମ୍ପ୍ୟୁଟର ଗେମ୍ ଖେଳୁଛ, ତୁମେ ତୁମର ନାଁ ଲେଖିବ। ଏହି ଟୁଲ୍ ତୁମ ନାଁକୁ ଠିକ ଭାବରେ ଲେଖିବାରେ ସାହାଯ୍ୟ କରିବ, ଯେମିତି ତୁମେ ହିଁ ଖେଳୁଛ।
ବିଜ୍ଞାନକୁ ଭଲପାଇବା ଆରମ୍ଭ କର!
ଏହି ତିନୋଟି ଉପାୟ ଛୋଟ ଲାଗୁଥିଲେ ମଧ୍ୟ, ଏମାନେ ବହୁତ ଶକ୍ତିଶାଳୀ। ଏମାନେ ଆମକୁ ଡାଟାକୁ ଭଲ ଭାବରେ ବୁଝିବାରେ ଏବଂ ଠିକ କରିବାରେ ସାହାଯ୍ୟ କରନ୍ତି। ତୁମେ ମଧ୍ୟ ଡାଟା ସହିତ ଖେଳିବା ଆରମ୍ଭ କରିପାରିବ। ତୁମର ସାଙ୍ଗମାନଙ୍କର ନାଁ ତାଲିକା ତିଆରି କର, କିଛି ନାଁ ଟିକେ ଭୁଲ ଲେଖ, ତାପରେ ଦେଖ ତୁମେ କେମିତି ସେମାନଙ୍କୁ ଠିକ କରିପାରୁଛ। ବିଜ୍ଞାନ ଏମିତି ହିଁ ମଜାଦାର! ତୁମେ ବି ଏହି କାମଗୁଡିକରେ ଆଗକୁ ବଢି ପାରିବ।
AWS Entity Resolution launches advanced matching using Levenshtein, Cosine, and Soundex
ଏଆଇ ସମ୍ବାଦ ଦେଇଛି।
Google Gemini ରୁ ଉତ୍ତର ପାଇଁ ନିମ୍ନଲିଖିତ ପ୍ରଶ୍ନ ବ୍ୟବହାର କରାଯାଇଛି:
2025-07-30 13:47 ରେ, Amazon ‘AWS Entity Resolution launches advanced matching using Levenshtein, Cosine, and Soundex’ ପ୍ରକାଶ କରିଛନ୍ତି। ଦୟାକରି ସମ୍ବନ୍ଧିତ ସୂଚନା ସହ ଏକ ବିସ୍ତୃତ ଲେଖା ଲେଖନ୍ତୁ, ଯାହା ପିଲା ଏବଂ ଛାତ୍ରମାନେ ବୁଝିପାରିବେ ଏବଂ ଅଧିକ ପିଲାଙ୍କୁ ବିଜ୍ଞାନରେ ଆଗ୍ରହୀ କରିବ। ଦୟାକରି କେବଳ ଓଡ଼ିଆରେ ଲେଖା ପ୍ରଦାନ କରନ୍ତୁ।