প্রযুক্তির উন্নয়নের সাথে সাথে আমাদের তথ্যের আদান-প্রদানের পরিধিও দিনদিন বৃদ্ধি পাচ্ছে। আমরা সারাক্ষণ একে অন্যের কাছে বিভিন্ন তথ্য দিচ্ছি বা অন্যের কাছ থেকে তথ্য নিচ্ছি। ইন্টারনেটের বিস্তৃতির পর এই তথ্যের আদান-প্রদানের মাত্রা অবিশ্বাস্য হারে বৃদ্ধি পাচ্ছে।
মানবজাতির সকল সংগ্রহীত তথ্যকে এক করলে ঠিক কি পরিমাণ ডাটা/তথ্য হবে তা কি জানা সম্ভব? নিখুঁতভাবে জানা না গেলেও কিছুটা আন্দাজ করা যায়। আদিকাল থেকে ২০০৩ সাল পর্যন্ত আমাদের জমাকৃত ডাটার পরিমাণ প্রায় ৫ বিলিয়ন গিগাবাইট। একটা সময় ছিলো যখন আমরা আমাদের সবকিছুই কাগজে লিখে রাখতাম। কখন খেতে যাবো, কবে মিটিং, কখন শপিং এ যাবো এসব টু ডু লিস্টগুলো কাগজে কিংবা ডায়েরীতে লিখে রাখতাম। এমনকি স্যারের কাছে পড়ার লেকচার থেকে শুরু করে দুধওয়ালা কিংবা পত্রিকার হকারের পেপার দেয়ার হিসেব ও!
প্রযুক্তির অভাবনীয় উন্নয়ন আমাদের জীবন করেছে সহজ এবং স্বাচ্ছন্দ্যময়। তথ্য-আদান প্রদানের পরিধি দিনের পর দিন বৃদ্ধি পাচ্ছে। সারাক্ষণ একে অন্যের কাছে বিভিন্ন তথ্য দিচ্ছি বা অন্যের কাছ থেকে তথ্য নিচ্ছি। যেদিন থেকেই ইন্টারনেট নামক ধারনাটি আমাদের মধ্যে বিকশিত হলো, সেদিন থেকেই এই তথ্য আদান-প্রদানের মাত্রা অবিশ্বাস্য হারে বৃদ্ধি পাচ্ছে। আচ্ছা আমরা যদি জানার চেষ্টা করি মানবজাতির সকল সংগ্রহীত ডাটার পরিমাণ কেমন! হুবহু বলতে না পারলেও আন্দাজ করা যায় ২০০৩ সাল পর্যন্ত আমাদের জমাকৃত ডাটার পরিমাণ প্রায় ৫ বিলিয়ন গিগাবাইট। বর্তমানে ইন্টারনেট এবং বিভিন্ন সোশ্যাল মিডিয়ার বদৌলতে প্রতিদিন ডাটার পরিমাণ কয়েকগুণ করে বৃদ্ধি পাচ্ছে। বর্তমানে ইন্টারনেট, বিভিন্ন সোশ্যাল মিডিয়াসহ প্রযুক্তির সহযোগিতায় বিভিন্ন মাধ্যমে আমাদের তথ্য বা ডাটার পরিমাণ খুব দ্রুত বৃদ্ধি পেতে থাকে।
২০১১ সালে প্রতি দুই দিনেই ৫ বিলিয়ন গিগাবাইট পরিমাণ ডাটা তৈরি করেছি আমরা। ২০১৩ সালে এই পরিমাণ ডাটা তৈরি হয়েছে প্রতি দশ মিনিটে! এত বিপুল পরিমাণ ডাটা আমরা গত কয়েক বছরেই তৈরি করেছি যে তা কাজে লাগিয়ে আমরা আমাদের জীবনযাপনের মান উন্নত করতে পারব। কিন্তু এই ডাটা কাজে লাগানো খুব সহজ নয়।
এই বিপুল পরিমাণ ডাটাকে একত্রে বলা হয় বিগ ডাটা। বিগ ডাটা দ্বারা প্রচুর পরিমাণ ডাটার সমষ্টিকে বোঝায়, এত বেশি ডাটা যে সেগুলোকে আমাদের পরিচিত কম্পিউটার দ্বারা বিশ্লেষণ করা সম্ভব নয়। ডাটা অ্যানালিস্টদের জন্য এটি স্বর্ণখনির চেয়ে কম কিছু নয়।
চলুন একটু পেছনে ফিরে যাই এবং দেখে নেই, টেকনোলজি ওয়ার্ল্ড কিভাবে গত শতক থেকে রাতারাতি চেঞ্জ হয়ে হয়ে গেছে :
১. বর্তমান বিশ্বের শতকরা ৮০ ভাগ ইনফরমেশন এখন আনস্ট্রাকচার্ড(Unstructured).
২. আনস্ট্রাকচার্ড ডাটা স্ট্রাকচার্ড(Structured) ডাটা থেকে প্রায় ১৫ গুণ হারে বাড়ছে।
৩. ইনফরমেশনগুলো এক্সেস পাওয়া যেন সবারগণতান্ত্রিক অধিকার হয়ে দাঁড়িয়েছে , মানে সবার জন্য ইনফরমেশন গুলো এভেইল্যাবল।
৪. ২০২০ সালের মধ্যে ডাটা ক্রিয়েটিং রেট হবে ৪৪ট্রিলিয়ন গিগাবাইটস। [ফোর্বস ]
আর এই বিভিন্ন ওয়েবে, সেন্সরের মাধ্যমে, পরিবেশগত এবং আমাদের দ্বারা সৃষ্ট সব ডাটার সমষ্টিকে বলা হয় বিগ ডাটা। এই ডাটার পরিমাণ এত বেশি যে সেগুলোকে গুটিকয়েক সাধারণ কম্পিউটার দ্বারা বিশ্লেষণ করা অসম্ভব (আংশিকভাবে সম্ভব হলেও তা বেশ কষ্টসাধ্য)। এসব বিষয় নিয়ে কাজ করে থাকেন ডাটা সায়েন্টিষ্টরা, নানান রিসার্চার, যারা এসব ডাটাকে অ্যানালাইসিস করেন।
প্রশ্ন হতে পারে যে, কোন ধরনের তথ্য বা ডাটাকে বিগ ডাটার আওতায় ফেলা হবে? বিগ ডাটার মাঝে থাকতে পারে-