हम इंटरनेट युग में जी रहे हैं जहां पूरी दुनिया डैटा से घिरी हुई है। यह डैटा और कुछ नहीं बल्कि हमारी यादें, अनुभव, सूझ-बूझ, दुख-दर्द के क्षण और कभी-कभी सांसारिक गतिविधियों के बारे में है। जैसे, कोई विगत यात्रा या महीने और वर्ष में दिन के किसी विशेष घंटे में क्या खाया या फिर दैनिक जीवन के सामान्य घटनाक्रम का लेखा-जोखा।
क्या ऐसा पहले नहीं था? ऐसे तथ्यात्मक, भावनात्मक, आनुभविक और व्यवहारिक क्षणों को संग्रहित और संरक्षित करना हमेशा से एक मानवीय प्रवृत्ति रही है। अंतर केवल इतना है कि हमारे पूर्वज डैटा को अपनी स्मृतियों में या गुफाओं, पत्थरों या कागजों पर उकेरी गई छवियों के माध्यम से संग्रहित करते थे, जबकि आज हम प्रौद्योगिकी एवं उपकरणों की मदद से ऐसा करते हैं!
अतीत में, बातों को मानव स्मृति में संग्रहित करने के साथ-साथ पत्थर पर नक्काशी करना, पत्तों पर और बाद में कागज़ो पर ग्रंथ लिखना काफी श्रमसाध्य था। यह संग्रहण कुछ समय तक ही रह पाता था। समय के साथ, जलवायु के प्रहार पत्थरों, कागज़ों को नष्ट कर डैटा को भी विलोपित कर देते थे। मानव स्मृति की भी डैटा संग्रहण की एक निर्धारित क्षमता होती है। दूसरे शब्दों में, प्राचीन काल से चली आ रही डैटा संग्रहण की मानवीय प्रवृत्ति, वर्तमान युग की वैज्ञानिक तकनीकों एवं साधनों की आसान उपलब्धता से डैटा विज्ञान का उदय हुआ है। 
डैटा विज्ञान: शुरुआती वर्ष 
शब्द ‘डैटा विज्ञान’ 1960 के दशक में एक नए पेशे का वर्णन करने के लिए गढ़ा गया था, जो उस समय भारी मात्रा में एकत्रित होने वाले डैटा को समझने और उसका विश्लेषण करने में सहायक सिद्ध हुआ। वैसे संरचनात्मक रूप से इसने 2000 की शुरुआत में ही अपनी उपस्थिति दर्ज कराई। 
यह एक ऐसा विषय है जो सार्थक भविष्यवाणियां करने और विभिन्न उद्योगों में सूझ-बूझ प्राप्त करने के लिए कंप्यूटर विज्ञान और सांख्यिकीय पद्धतियों का उपयोग करता है। इसका उपयोग न केवल सामाजिक जीवन, खगोल विज्ञान और चिकित्सा जैसे क्षेत्रों में बल्कि व्यापार में भी बेहतर निर्णय लेने के लिए किया जाता है।
1962 में अमेरिकी गणितज्ञ जॉन डब्ल्यू. टुकी ने सबसे पहले डैटा विज्ञान के सपने को स्पष्ट किया। अपने प्रसिद्ध लेख ‘दी फ्यूचर ऑफ डैटा एनालिसिस’ में उन्होंने पहले पर्सनल कंप्यूटर (पीसी) से लगभग दो दशक पहले इस नए क्षेत्र के उद्गम की भविष्यवाणी की थी।
एक अन्य प्रारंभिक व्यक्ति डेनिश कंप्यूटर इंजीनियर पीटर नॉर थे, जिनकी पुस्तक कॉन्साइस सर्वे ऑफ कंप्यूटर मेथड्स डैटा विज्ञान की सबसे पहली परिभाषाओं में से एक प्रस्तुत करती है।
1990 और 2000 के दशक की शुरुआत में हम स्पष्ट रूप से देख सकते हैं कि डैटा विज्ञान एक मान्यता प्राप्त और विशिष्ट क्षेत्र के रूप में उभरा। कई डैटा विज्ञान अकादमिक पत्रिकाएं प्रकाशित होने लगीं, और जेफ वू और विलियम एस. क्लीवलैंड आदि ने डैटा विज्ञान की आवश्यकता और क्षमता को विकसित करने और समझने में मदद करना जारी रखा।
पिछले 15 वर्षों में, पूरे विषय को व्यापक उपकरणों, प्रौद्योगिकियों और प्रक्रिया के द्वारा परिभाषित और लागू करने के साथ एक भलीभांति स्थापित पहचान मिली है।
डैटा विज्ञान और जीवन 
पिछले 100 वर्षों में मानव जीवन शैली में बहुत कुछ बदला है और विज्ञान और प्रौद्योगिकी से 20 वर्षों में तो बदलावों का सैलाब-सा ही आ गया है। अलबत्ता, जो चीज़ समय के साथ नहीं बदली, वह है मूल मानव व्यवहार और अपने क्षणों और अनुभवों को संग्रहित करने की उसकी प्रवृत्ति। 
मानवीय अनुभव और क्षण (डैटा!), जो मानव स्मृति, नक्काशी और चित्रों में रहते थे, उन्हें प्रौद्योगिकी के ज़रिए एक नया शक्तिशाली भंडारण मिला है।  अब मानव डैटा छोटे/बड़े बाहरी ड्राइव्स, क्लाउड स्टोरेज जैसे विशाल डैटा भंडारण उपकरणों में संग्रहित किए जा रहे हैं। मज़ेदार बात यह है कि अब डैटा को, पहले के विपरीत, बिना किसी बाधा के, जितना चाहें उतना और जब तक चाहें तब तक संग्रहित रखा जा सकता है।
पिछले 20 वर्षों में, एक और दिलचस्प बदलाव इंटरनेट टेक्नॉलॉजी के आगमन से भी हुआ। इंटरनेट टेक्नॉलॉजी की शुरुआत के साथ, मानव व्यवहार और उसके सामाजिक संपर्क की प्रवृत्ति ने एक बड़ी छलांग लगाई। लोगों ने दिन-प्रतिदिन हज़ारों किलोमीटर दूर विभिन्न भौगोलिक क्षेत्रों में अन्य मनुष्यों से जुड़ना शुरू कर दिया और इस तरह विभिन्न तरीकों से बातचीत करने और अभिव्यक्ति की मानवीय क्षमता कई गुना बढ़ गई। 
आज छत्तीसगढ़ के घने जंगलों के ग्रामीण इलाके का कोई बच्चा बॉलीवुड की किसी मशहूर हस्ती को सुन सकता है और उससे जुड़ सकता है, वहीं न्यूयॉर्क में रहते हुए एक व्यक्ति उत्तरी अफ्रीका में रह रहे किसी पीड़ित बच्चे की भावनाओं से रूबरू हो सकता है। इंटरनेट क्रांति ने इस पूरी दुनिया को मानो एक बड़े से खेल के मैदान में बदल दिया है जहां हर एक व्यक्ति किसी दूसरे व्यक्ति, विषय या घटना से तत्काल जुड़ सकता है।
इन क्षमताओं के रहते पूरा विश्व नई तरह की संभावनाओं और अभिव्यक्तियों के प्रयोगों से भर गया है। इस तरह की गतिविधियों ने अपनी एक छाप छोड़ी है (जिन्हें हम डैटा कह सकते हैं) और टेक्नॉलॉजी ने इसे असीमित रूप से एकत्रित और संग्रहित करना शुरू कर दिया है।
नई दुनिया के ये परिवर्तन विशाल डैटा (Big Data) के रूप में प्रस्फुटित हुए। अधिकांश लोग (जो इंटरनेट वगैरह तक पहुंच रखते हैं) डैटा (यानी शब्द, आवाज़, चित्र, वीडियो वगैरह के रूप में) के ज़रिए यादों और अनुभवों से सराबोर हैं। ये डैटा न केवल सामाजिक या अंतर-वैयक्तिक स्तर पर, बल्कि आर्थिक मोर्चे पर (जैसे ऑनलाइन भुगतान, ई-बिल, ई-लेनदेन, क्रेडिट कार्ड) और यहां तक कि अस्पतालों के दौरों, नगर पालिका की शिकायतों, यात्रा के अनुभवों, मौसम के परिवर्तन तक में नज़र आते हैं। दूसरे शब्दों में कहें तो संपूर्ण जीवन की गतिविधियां डैटा पैदा कर रही हैं और इसे संग्रहित किया जा रहा है।
आधुनिक जीवनशैली बड़ी मात्रा में डैटा उत्पन्न करती है। डैटा की मात्रा इसलिए भी बढ़ गई है क्योंकि आधुनिक तकनीक ने बड़ी मात्रा में डैटा निर्मित करना और संग्रहित करना आसान बना दिया है। पिछले कुछ वर्षों में, दुनिया में पैदा किया गया 90% से अधिक डैटा संग्रहित कर लिया गया है। उदाहरण के लिए, सोशल मीडिया उपयोगकर्ता हर घंटे 2 करोड़ से अधिक छवियां पोस्ट करते हैं।
डैटा विज्ञान: कार्यपद्धति
मानव मस्तिष्क विभिन्न उपकरणों में संग्रहित विशाल डैटा का समय-समय पर उपयोग करना चाहता है। इस कार्य के लिए एक अलग प्रकार की तकनीकी क्षमता की आवश्यकता थी, जो संग्रहित डैटा को निकालने और निर्णय लेने का काम कर सके। यह मस्तिष्क के संचालन की नकल करने जैसा था। ऐसे जटिल दिमागी ऑपरेशनों को दोहराने के लिए एक कदम-दर-कदम चलने वाले एक समग्र वैज्ञानिक दृष्टिकोण की आवश्यकता होती है ताकि:
- डैटा इष्टतम तरीके से संग्रहित किया जाए;
- डैटा को कुशलतापूर्वक, शीघ्रता से प्रबंधित, पुनर्प्राप्त, संशोधित, और विलोपित किया जा सके;
- डैटा की व्याख्या आसानी से और शीघ्रता से की जा सके; इससे भविष्य के बारे में निर्णय लेने में मदद मिलती है।
वैसे तो हमारा मस्तिष्क सूक्ष्म और जटिल तरीके से डैटा को आत्मसात करने और निर्णय लेने का काम करता आया है, लेकिन मस्तिष्क की क्षमता सीमित है। डैटा से जुड़ी उक्त प्रक्रियाओं को पूरा करने के लिए, विज्ञान और प्रौद्योगिकी के मानव मस्तिष्क जैसे एक विशाल स्पेक्ट्रम की आवश्यकता हुई। टेक्नॉलॉजी ने इस प्रक्रिया के लिए डैटा भंडारण (विशाल डैटा सर्वर), पुनर्प्राप्ति के विभिन्न साधनों को सांख्यिकीय/गणितीय जानकारी से युक्त करना शुरू कर दिया। जावा, पायथन, पर्ल जैसी कोडिंग भाषा, विभिन्न मॉडलिंग तकनीकों (जैसे क्लस्टरिंग, रिग्रेशन, भविष्यवाणी और डैटा माइनिंग) के साथ-साथ ऐसी मशीनें विकसित हुईं जो डैटा को बार-बार समझ सकती हैं और स्वयं सीखकर खुद को संशोधित कर सकती हैं (मशीन लर्निंग मॉडल)। मूल रूप से कोशिश यह थी कि प्रौद्योगिकी और विज्ञान के सहारे हम अपने मस्तिष्क जैसी निर्णय लेने की क्षमता मशीन में पैदा कर सकें!
प्रौद्योगिकी द्वारा मानव मस्तिष्क की क्षमताओं के प्रतिरूपण की इस पूरी प्रक्रिया को डैटा विज्ञान का नाम दिया गया है। डैटा विज्ञान एक ऐसा क्षेत्र है जो डैटा से अपेक्षित परिणाम प्राप्त करने के लिए सांख्यिकी, वैज्ञानिक तकनीक, कृत्रिम बुद्धि (एआई) और डैटा विश्लेषण सहित कई विषयों को जोड़ता है। डैटा वैज्ञानिक वे हैं जो वेब, स्मार्टफोन, ग्राहकों और सेंसर सहित विभिन्न स्रोतों से प्राप्त डैटा का विश्लेषण करने के लिए विभिन्न प्रकार की क्षमताओं को एकीकृत करते हैं।
डैटा साइंस का भविष्य
क्या यह डैटा विज्ञान, भारत जैसे देश में अंतिम व्यक्ति के जीवन को छू सकता है या यह केवल थ्रिलर फिल्म या सस्ते दाम में कॉन्टिनेंटल खाने के लिए सर्वश्रेष्ठ रेस्तरां की खोज करने जैसे कुछ मनोरंजक/आनंद/विलास की गतिविधियों तक ही सीमित है? क्या यह हमारे समाज को बेहतर बनाने और वंचितों को कुछ बुनियादी सुविधाएं देने में मदद कर सकता है?
यकीनन। किसी भी अन्य गहन ज्ञान की तरह विज्ञान भी राष्ट्र, पंथ, जाति, रंग या एक वर्ग तक सीमित नहीं है। इरादा हो तो यह सभी के लिए है। संक्षेप में इसका उपयोग भारत में समाज को कई तरीकों से बेहतर बनाने के लिए किया जा सकता है। कुछ उदाहरण देखिए।
चिकित्सा/स्वास्थ्य
यह एक प्राथमिक क्षेत्र हो सकता है जहां डैटा विज्ञान का लाभ उठाया जा सकता है। डैटा के संदर्भ में, वर्तमान अस्पताल प्रणाली अभी भी रोगियों के प्रवेश, निदान और उपचार जैसे सामान्य संदर्भो में ही काम करती है। इस क्षेत्र में जनसांख्यिकी, स्वास्थ्य मापदंडों से लेकर रोगियों के विभिन्न चरणों में किए गए निदान/उपचार जेसे डैटा को संग्रहित करने की आवश्यकता है, जिसे नैदानिक परिणामों और उपचार विकल्पों को एकत्रित, संग्रहित, और व्याख्या के द्वारा व्यापक रूप से चिकित्सा समुदाय में साझा किया जा सके। यह डैटा विज्ञान को भारतीय स्थिति में रोगियों को समझने और सर्वोत्तम संभव उपचार विकल्पों के साथ-साथ रोकथाम के उपायों को समझने में सक्षम करेगा। यह रोगियों/डॉक्टरों का बहुत सारा धन और समय बचा सकता है, त्रुटियों को कम कर सकता है और मानव जीवन को अधिक सुरक्षित और स्वस्थ बना सकता है। आवश्यकता यह है कि सरकारी और निजी अस्पताल डैटा रिकॉर्ड करना और संग्रहित करना शुरू करें ताकि इसका उपयोग अनुसंधान और विकास के लिए किया जा सके। यूएस जैसे विकसित देशों में ऐसी प्रक्रिया से समाज को काफी लाभ मिलता है। डैटा विज्ञान वास्तव में भारत में स्वास्थ्य क्षेत्र को कई लाभकारी तरीकों से सम्पन्न कर सकता है।
कृषि उत्पादकता
भारत जैसे कृषि प्रधान देश में डैटा विज्ञान तरह-तरह की जानकारी के ज़रिए किसानों को लाभ पहुंचा सकता है:
- मिट्टी किस प्रकार की फसल के लिए अच्छी है;
- मौसम और जलवायु की परिस्थिति में किन पोषक तत्वों की आवश्यकता होती है;
- फसल के प्रकार के लिए आवश्यक मिट्टी की पानी और नमी की आवश्यकता;
- अप्रत्याशित मौसम की भविष्यवाणी और फसलों की सुरक्षा;
- ऐतिहासिक आंकड़ों के साथ-साथ मौसम के मिज़ाज के आधार पर निश्चित समय में किसी निश्चित क्षेत्र में इष्टतम फसल की पैदावार की भविष्यवाणी करना।
इस तरह के डैटा का सरकार द्वारा समय-समय पर निरीक्षण करना और भौगोलिक सेंसर व अन्य उपकरणों की मदद से डैटा तैयार करने की आवश्यकता है। डैटा विज्ञान फसलों की बहुत बर्बादी को बचा सकता है और हमारी उपज में भारी वृद्धि कर सकता है। 
शिक्षा एवं कौशल विकास
अशिक्षा का मुकाबला करने के लिए शैक्षणिक सुविधाओं के अधिक प्रसार की और शिक्षकों की दक्षता, अनुकूलित शिक्षण विधियों के विकास की भी आवश्यकता है। इसके अलावा विभिन्न छात्रों की विविध और व्यक्तिगत सीखने की शैलियों/क्षमताओं के संदर्भ में गहरी समझ की भी आवश्यकता है। डैटा विज्ञान इस संदर्भ में समाधान प्रदान कर सकता है:
- देश भर में छात्रों के साथ-साथ शिक्षकों के विस्तृत प्रोफाइल तैयार करना;
- छात्रों के सीखने और प्रदर्शन के आंकड़े जुटाना;
- प्रतिभाओं के कुशल प्रबंधन के लिए व्यक्तिगत शिक्षण विधियों/शैलियों का विकास
- देश भर में कनेक्टेड डैटा के साथ अकादमिक अनुसंधान को बढ़ाना।
पर्यावरण संरक्षण
- भूमि, जल, वायु/अंतरिक्ष और जीवन के सम्बंध में डैटा एकत्र करना और पृथ्वी ग्रह के स्वास्थ्य को बढ़ाना;
- वनों की कटाई के विभिन्न कारणों जैसे मौसम पैटर्न, मिट्टी या नदियों की स्थलाकृति के बीच सम्बंध का पता लगाना;
- ग्रह-स्तरीय डिजिटल मॉडल निरंतर, वास्तविक समय में डैटा कैप्चर करेगा और चरम मौसम की घटनाओं और प्राकृतिक आपदाओं (जैसे, आग, तूफान, सूखा और बाढ़), जलवायु परिवर्तन और पृथ्वी के संसाधनों से सम्बंधित अत्यधिक सटीक पूर्वानुमान प्रदान कर सकता है;
- विलुप्ति की प्रक्रिया का कारण जानने और इसे उलटने के तरीके के लिए वर्षों से एकत्र किए गए आंकड़ों का विश्लेषण;
- विलुप्ति के खतरे से घिरे जीवों को बचाने के लिए कारणों का विश्लेषण।  
ग्रामीण एवं शहरी नियोजन
भारत में नगर पालिकाओं, ग्राम पंचायतों, भू-राजस्व सम्बंधी डैटा अभी भी विशाल कागज़ी फाइलों में संग्रहित किया जाता है, जिससे कुशल निर्णय लेने में देरी होती है। डैटा विज्ञान डैटा को एकीकृत करने में मदद कर सकता है और डैटा साइंस राज्य के प्रबंधन के लिए प्रभावी नीति निर्माण और निर्णय प्रक्रिया में गति ला सकता है। 
कुल मिलाकर डैटा विज्ञान के उपयोग के कई लाभ हैं। देश की विशाल प्रतिभा और अपेक्षाकृत कम श्रम लागत की बदौलत भारत तेज़ी से डैटा साइंस का केंद्र बनता जा रहा है। नैसकॉम विश्लेषण का अनुमान है कि भारतीय डैटा एनालिटिक्स बाज़ार 2017 के 2 अरब डॉलर से बढ़कर 2025 में 16 अरब डॉलर का हो जाएगा। यह तीव्र वृद्धि कई कारकों से प्रेरित है, जिसमें डैटा की बढ़ती उपलब्धता, डैटा-संचालित निर्णय-प्रक्रिया, कृत्रिम बुद्धि (एआई) की वृद्धि शामिल हैं। भारत में कई विश्वविद्यालयों में डैटा साइंस के कोर्सेस भी चलाए जा रहे हैं। (स्रोत फीचर्स)