संख्याशास्त्र, डेटा अनालिसिस आणि मशीन लर्निंग क्षेत्रामध्ये वापरण्यात 
येणाऱ्या डेटासेट्समध्ये आजवर सर्वात लोकप्रिय असणारा डेटासेट म्हणजे आयरिस
 डेटासेट होय. आयरिस नावाच्या एका निळ्या रानटी फुलाचा हा डेटासेट आहे. 
आयरिसचा अर्थ मानवी डोळ्यांतील बुबूळे असा देखील होतो. परंतु याच नावाचे 
रानटी फुल देखील आहे, याची बऱ्याच कमी लोकांना माहिती आहे.
सुमारे ९० 
वर्षांपूर्वी जीवशास्त्रज्ञ एडगर अँडरसन याने या डेटासेटची निर्मिती केली 
होती. आयरिस फुलाच्या एकूण तीन प्रजाती आहेत…. सेटोसा, वर्जिनिका आणि 
वर्सीकलर. त्याने या तीनही प्रजातींची फुले जमा केली. आणि त्यांच्या 
पाकळ्यांची उंची व जाडी तसेच बाह्यकोषाची उंची आणि जाडी सेंटीमीटरमध्ये 
नोंदवून हा डेटासेट तयार केला होता. एका वेगळ्या प्रयोगासाठी त्याला माहिती
 जमा करायची होते म्हणूनच त्याने या डेटासेटची निर्मिती केली. परंतु 
आयरिसच्या या माहितीपूर्ण डेटासेटला लोकप्रिय करण्याचे काम 
संख्याशास्त्रज्ञ व गणितज्ञ रोनाल्ड फिशर यांनी केले. संख्याशास्त्रातील 
लिनियर डिस्क्रिमिनंट अनालिसिस या संकल्पनेला सिद्ध करण्यासाठी त्यांनी 
आयरिस डेटासेटचा सर्वप्रथम वापर केला. अँडरसने तयार केलेल्या मूळ 
डेटासेटमध्ये सुसूत्रता आणून त्यांनी तीनही प्रजातींचे समान पन्नास नमुने 
जमा केले होते. आज संख्याशास्त्र आणि मशीन लर्निंगमधील जवळपास प्रत्येक 
अल्गोरिथमची सिद्धता तपासण्यासाठी आयरिस डेटासेटचा वापर केला जात आहे. 
याशिवाय आर प्रोग्रामिंग आणि पायथॉन प्रोग्रामिंगच्या अंतर्गत 
लायब्ररीमध्ये देखील या डेटासेटचा अंतर्भाव करण्यात आलेला आहे. शिवाय याचा 
आकार देखील लहान असल्याने त्यावरील करण्यात येणारे प्रयोग देखील अतिशय कमी 
वेळामध्ये सादर करता येतात. 
--- तुषार भ. कुटे

 
 












