Monday 11 December 2017

कैसे करने के लिए मर्ज -2- डेटासेट में stata - विदेशी मुद्रा


सूचना: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस में फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और सृजन की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि वे अब बनाए रखा नहीं जा सकें। हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है स्टेट कंसल्टिंग ग्रुप को उपहार देने के लिए स्टेटा लर्निंग मॉड्यूल को डाटा का मेल देकर इस मॉड्यूल को समझाया जाएगा कि आप स्टाटा में फाइल कैसे जोड़ सकते हैं। उदाहरणों में एन्डिंग फाइलें, एक से एक मैच मर्जिंग और एक से कई मैच विलय शामिल होंगे। डेटा फ़ाइलों को जोड़ना जब आपके पास दो डेटा फ़ाइलें हैं, तो आप उन्हें दूसरे के ऊपर एक स्टैकिंग करके जोड़ सकते हैं। उदाहरण के लिए, हमारे पास एक फ़ाइल है जिसमें dads और एक फ़ाइल है जिसमें माताओं को नीचे दिखाया गया है। अगर हम इन फ़ाइलों को दूसरे के ऊपर एक को ढेर करके जोड़ना चाहते हैं, तो हम नीचे दिखाए गए अनुसार ऐपेंड कमांड का उपयोग कर सकते हैं। हम सूची आदेश का उपयोग यह देखने के लिए कर सकते हैं कि क्या यह सही ढंग से काम करता है। अनुलग्नक ने ठीक से काम किया एक फाइल में डैड्स और माताओं को एक साथ स्टैक किया जाता है लेकिन, एक छोटी सी समस्या है। हम माताओं से डैड्स को बता सकते हैं। इसे फिर से करने का प्रयास करें, लेकिन पहले हम dads और माताओं डेटा फ़ाइल में एक मोरदाद नामक एक चर पैदा करेंगे जिसमें डैड्स डेटा फ़ाइल के लिए पिता और माताओं डेटा फ़ाइल के लिए माँ शामिल होंगे। जब हम दो फाइलें एक साथ मिलते हैं, तो मोनेडाड चर हमें बताएगा कि माताओं और डैड्स कौन हैं यहाँ हम dads डेटा फ़ाइल के लिए momdad चर बनाते हैं। हम इसे फाइल dads1 को बुलाते हैं। यहां हम माताओं डेटा फ़ाइल के लिए मोनेडाड वैरिएबल बनाते हैं। हम इसे माताओं 1 फोन करने वाले फाइल को सहेजते हैं। अब, dads1 और moms1 को एक साथ जोड़ दें। अब, जब हम डेटा को सूचीबद्ध करते हैं तो मोनेडाड वैरिएबल दिखाता है कि माताओं और डैड्स कौन हैं मिलान मर्जिंग डेटा फ़ाइलों को संयोजन करने का एक और तरीका मिलान विलय है। कहते हैं कि हम डैड्स को अफ़िफ़िक डेटा फाइल के साथ जोड़ना चाहते थे, जिसमें डैड्स की जानकारी होती है और परिवार की जानकारी पक्ष के पास होती है। हम ऐसा मैच मर्ज के साथ कर सकते हैं। चलो dads और faminc फ़ाइल पर एक नज़र है। हम डेटा फ़ाइलों को जोड़ना चाहते हैं, ताकि वे इस तरह दिख सकें। ध्यान दें कि famid चर का उपयोग dads फ़ाइल से अवलोकन को अजनक फ़ाइल से उपयुक्त अवलोकन के साथ जोड़ने के लिए किया जाता है। फाइलों को मर्ज करने की रणनीति इस तरह से होती है 1. फैमिड पर सॉर्ट डैड्स और उस फाइल को बचाएं (इसे डैड 2 कहते हैं) 2. famid पर तरह से दुष्चक्र और उस फ़ाइल को बचाने (इसे faminc2 फोन) 3. dads2 फ़ाइल का उपयोग करें। 4. famids2 फाइल के साथ dads2 फाइल को मर्ज करें, ताकि उन्हें मैच के लिए फैमिड का इस्तेमाल किया जा सके। ये चार चरण हैं 1. डैड फ़ाइल को famid द्वारा सॉर्ट करें और उसे डैड 2 के रूप में सहेजें। 2. famid द्वारा faminc फ़ाइल को क्रमबद्ध करें और इसे faminc2 के रूप में सहेजें। 3. dads2 फ़ाइल का उपयोग करें 4. Faminc2 फ़ाइल को famid का उपयोग करके प्रमुख चर के रूप में मर्ज करें। ऐसा लगता है कि यह ठीक काम किया है, लेकिन वह क्या है जो मर्ज वैरिएबल है, मर्ज वैरिएबल इंगित करता है, प्रत्येक अवलोकन के लिए, मर्ज कैसे चला गया। यह बेमेल रिकॉर्डों की पहचान करने के लिए उपयोगी है। मर्ज में तीन मानों में से एक हो सकता है 1 - रिकॉर्ड में फ़ाइल 1 से केवल जानकारी है (जैसे कोई डेड 2 रिकार्ड कोई संबंधित faminc2 रिकार्ड नहीं है। 2 - रिकॉर्ड में फ़ाइल 2 से केवल जानकारी होती है (जैसे कोई संबंधित dad2 रिकॉर्ड के साथ faminc2 रिकॉर्ड। रिकॉर्ड में दोनों फाइलों की जानकारी शामिल होती है (जैसे कि dad2 और faminc2 रिकॉर्ड मिलान होते हैं).जब आपके पास कई रिकॉर्ड हैं, तो मर्ज होने पर आप कितने बेमेल हैं, इसका संक्षेप में सारणीकरण करना बहुत उपयोगी है। हमारे मामले में, सभी रिकॉर्ड मिलते हैं ताकि मर्ज हो सके हमेशा होता था 3. एक-से-कई मिलान विलय एक अन्य प्रकार की मर्ज को एक को कई मर्ज में बुलाया जाता है। हमारे एक से एक को मर्ज मिल गया है, जो कि dads और faminc से मिलते हैं और फाइलों में एक से मेल खाता है। बच्चों के लिए प्रतिदिन कई बच्चे हो सकते हैं, इसलिए यह कई लोगों में से एक है। जैसा कि आप नीचे देख रहे हैं, एक के लिए एक के लिए रणनीति कई विलय वास्तव में एक के रूप में एक ही विलय के समान है। उस फ़ाइल को dads3 के रूप में सहेजना 2. 2। बच्चों को फैमिली से बचाना और बचाओ बच्चों 3 के रूप में फ़ाइल 3. dads3 फ़ाइल का उपयोग करें 4. बच्चों के साथ dads3 फ़ाइल को मर्ज करें, उनके साथ मैच करने के लिए फैमिड़ का इस्तेमाल करते हुए 3 फाइलें। 4 कदम नीचे दिखाए गए हैं 1. famids पर dads डेटा फ़ाइल सॉर्ट करें और उस फाइल को dads3 के रूप में सहेजें। 2. बच्चों के डेटा फाइल को famid पर सॉर्ट करें और उस फाइल को बच्चों के रूप में सहेजें 3। 3. dads3 फ़ाइल का उपयोग करें। 4. बच्चों की 3 फाइलों के साथ dads3 फाइल को मर्ज करें, ताकि उन्हें मैच के लिए फैमिड़ का इस्तेमाल किया जा सके। परिणामों को सूची से बाहर करने देता है परिणाम पढ़ना थोड़ा आसान है अगर हम अकड़ और जन्म के आंकड़ों को सॉर्ट करते हैं। जैसा कि आप देख रहे हैं, यह मूल रूप से एक के रूप में एक ही मर्ज की तरह है। आपको आश्चर्य हो सकता है कि मर्ज स्टेटमेंट पर मौजूद फाइलों का क्रम प्रासंगिक है या नहीं। यहां, हम फाइलों के ऑर्डर को बदलते हैं और परिणाम समान होते हैं। एकमात्र अंतर विलय के बाद के रिकॉर्डों का क्रम है। डेटा उदाहरण जोड़ना मिलान मर्ज उदाहरण चरण (एक-से-एक और एक-से-कई) मिलान मर्ज उदाहरण प्रोग्राम इस वेब साइट की सामग्री को किसी भी विशेष वेब साइट, पुस्तक या सॉफ़्टवेयर उत्पाद के समर्थन के रूप में नहीं समझा जाना चाहिए कैलिफ़ोर्निया विश्वविद्यालय। नोट: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस के लिए फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और निर्माण की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि वे अब बनाए रखा नहीं जा सकें। हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है उपहार देने के लिए स्टेट कंसल्टिंग ग्रुप द्वारा सहायता करें। स्टेटा एफएक्यू: मैं कैसे स्टेटा में कई फाइलों को मर्ज कर सकता हूं यह सवाल बोस्टन कॉलेज में ग्रेजुएट स्टेटिस्टिकल असिस्टेंट प्रोग्राम द्वारा विकसित पेज पर आधारित है। हम इस अकसर किये गए सवाल को पुन: उत्पन्न करने की उनकी अनुमति के लिए आभारी हैं। डेटा, विशेष रूप से सर्वे आंकड़ों के लिए यह असामान्य नहीं है कि वे कई डाटासेट्स में आते हैं (डेटासेट्स को इस तरीके से बांटने के व्यावहारिक कारण हैं)। जब डेटा एकाधिक फ़ाइलों में वितरित किया जाता है, तो वे वेरिएबल जिन्हें आप उपयोग करना चाहते हैं, अक्सर कई डेटासेट्स में फैले होंगे। दो या अधिक डेटा फ़ाइलों में निहित जानकारी के साथ काम करने के लिए यह आवश्यक है कि खंड को एक नई फ़ाइल में मिलाएं जिसमें वे सभी वेरिएबल्स शामिल हों जिनके साथ आप काम करना चाहते हैं। सबसे पहले, आपको यह पता लगाना होगा कि आपको कौन सी चर की ज़रूरत है, और किस डेटासेट में उन्हें शामिल किया गया है, आप इसे कोडबुक से परामर्श कर सकते हैं। अपने विश्लेषण के लिए इच्छित चर को खोजने के अलावा, आपको आईडी वैरिएबल के नाम को जानना होगा। एक आईडी वैरिएबल एक वेरिएबल है जो डेटासेट में किसी मामले (अवलोकन) के लिए अद्वितीय है। किसी दिए गए व्यक्ति के लिए, आईडी सभी डेटासेट पर समान होनी चाहिए। यह आपको अलग-अलग डाटासेट्स के डेटा को सही व्यक्ति से मेल करने की अनुमति देगा। पार अनुभागीय डेटा के लिए, यह आम तौर पर एक एकल चर होगा, अन्य मामलों में, दो या अधिक चर आवश्यक हैं, यह आमतौर पर पैनल डेटा में देखा जाता है, जहां विशिष्ट आईडी को पहचानने के लिए अक्सर विषय आईडी और दिनांक या लहर की आवश्यकता होती है। डेटासेट को मर्ज करने के लिए स्टाटा के लिए, आईडी वैरिएबल या वेरिएबल्स को सभी फाइलों में एक ही नाम रखना होगा। इसके अतिरिक्त, यदि चर एक डाटासेट में एक स्ट्रिंग है, तो यह अन्य सभी डेटासेटों में एक स्ट्रिंग भी होनी चाहिए, और यह संख्यात्मक वैरिएबल (वास्तविक मेमोरी प्रकार महत्वपूर्ण नहीं है, जब तक कि वे संख्यात्मक होते हैं) के लिए सही नहीं है। एक बार जब आप सभी चर की पहचान कर लेते हैं, और पता करें कि आईडी वेरिएबल क्या हैं, तो आप डेटासेट को मर्ज करना शुरू कर सकते हैं एक सरल उदाहरण हमारे डेटा का वर्णन करने के लिए एक अच्छा पहला कदम है हम वास्तव में फ़ाइल को खोलने के बिना ऐसा कर सकते हैं (फाइलें बहुत बड़ी हैं अगर यह आसान हो सकती है), हम सभी को करना पड़ेगा और आदेश जारी करना होगा। वर्णन कमांड हमें बहुत अधिक उपयोगी जानकारी देती है, हमारे उद्देश्यों के लिए सबसे महत्वपूर्ण चीजें जो यह दिखाती हैं कि चर आईडी संख्यात्मक है, और यह डेटा क्रमबद्ध नहीं है (डेटा को वैरिएबल या वैरिएबल द्वारा सॉर्ट किया जाना चाहिए ताकि मर्ज हो सके )। हम यह भी ध्यान रखें कि हम इस डेटासेट से वेरिएबल चाहते हैं जो डेटासेट में हैं। हम अपने सभी तीन डेटासेटों के लिए ऐसा करना चाहते हैं, लेकिन अंतरिक्ष को बचाने के लिए केवल एक डेटासेट के लिए आउटपुट दिखाएं। मान लेते हैं कि डेटासेट्स सभी को क्रमबद्ध नहीं कर रहे हैं और यह कि आईडी वैरिएबल के सभी तीन डेटासेट में समान नाम (आईडी) है। चूंकि डेटासेट क्रमबद्ध नहीं हैं, इसलिए हमें प्रत्येक डेटासेट को खोलने, उसे क्रमबद्ध करने और सॉर्ट किए गए डेटासेट को सहेजने की आवश्यकता होगी। यद्यपि हम Stata के भीतर एक वेबसाइट से आसानी से डेटा का उपयोग कर सकते हैं, हम इसे वहां नहीं बचा सकते हैं। तो ध्यान दें कि सभी उपयोग कमांड हमारी वेबसाइट से डेटासेट को खींचते हैं, लेकिन उन्हें निर्देशिका में सहेजें: उपयोगकर्ता कंप्यूटर पर डेटा नीचे दिए गए वाक्यविन्यास प्रत्येक डेटासेट को खुलता है, इसे आईडी द्वारा क्रमबद्ध करता है और फिर उसे नए नाम के साथ एक नए स्थान में बचाता है। यदि डेटासेट हमारे कंप्यूटर पर पहले से मौजूद था, तो हम उसे उसी स्थान पर और संभवत: एक ही नाम (पुराने डेटासेट को बदलकर) में सहेज सकते हैं, यह उपयोगकर्ता पसंद है। अगला, हम वास्तव में डेटासेट को मर्ज करते हैं मर्ज कमांड वर्तमान में मेमोरी में डेटासेट (जिसे मास्टर डाटासेट कहा जाता है) से संबंधित टिप्पणियों में एक अलग स्टेटस-फ़ॉर्मेट डाटासेट (जिसे इस्तेमाल डाटासेट कहा जाता है) के साथ एकल टिप्पणियों में मर्ज करता है। यह मानते हुए कि हम डेटा 3 को ऊपर दिए वाक्यरचना को चलाने से खोलते हैं, यह हमारा मुख्य डाटासेट होगा नीचे दिए वाक्यविन्यास की पहली पंक्ति डेटा में विलीन हो जाती है। मर्ज कमांड के बाद सीधे वेरिएबल (या वेरिएबल्स) का नाम है जो आईडी वेरिएबल्स की सेवा करते हैं, इस मामले में आईडी। इसके बाद यह तर्क देता है कि ईट्री वैरिएबल्स को सूचीबद्ध करने के लिए हम क्या कर रहे हैं, और यह है कि डेटासेट (मिक्स) को मर्ज करने के बाद क्या होता है। नाम सूचीबद्ध हैं, उनके बीच केवल रिक्त स्थान (कोई अल्पविराम, आदि) नहीं है। (ध्यान दें, यदि आपके डेटासेट के नाम या पथ में रिक्त स्थान शामिल हैं, तो उन्हें उद्धरण चिह्नों में शामिल करना सुनिश्चित करें, अर्थात।) वाक्यविन्यास की अगली पंक्ति हमारे नए मर्ज किए गए डाटासेट को बचाती है। ध्यान दें कि मर्ज आउटपुट का उत्पादन नहीं करता है अब हम अपने नए मर्ज किए गए डाटासेट को देख सकते हैं। उपरोक्त आउटपुट में हम मामलों की संख्या (200) देखते हैं, जो सही है। यह महत्वपूर्ण है क्योंकि मर्ज प्रक्रिया की समस्याएं अक्सर बहुत कम या अधिक बार बहुत अधिक होती हैं, मर्ज किए गए डाटासेट के मामले। हम चर की एक सूची भी देखते हैं, जिसमें सभी चर हम चाहते हैं। मर्ज किए गए डेटासेट में तीन अतिरिक्त चर शामिल हैं ये नए चर मर्ज हैं मर्ज 1 और मर्ज 2 कमांड मर्ज हमेशा मर्ज नामित कम से कम एक अतिरिक्त चर उत्पन्न करेगा। जब एकाधिक फ़ाइलों को उपयोग में निर्दिष्ट किया जाता है कमांड अतिरिक्त मर्ज वैरिएबल का उपयोग करेगी, प्रत्येक सूची के उपयोग के लिए एक डेटासेट के लिए (हमारे केस में मर्ज 1 और मर्ज 2)। ये वैरिएबल्स हमें बताती हैं कि डेटासेट में प्रत्येक अवलोकन से कहां से आया, यह एक जांच के रूप में उपयोगी है कि आपके डेटा को ठीक से मिला दिया गया है। कभी-कभी कोई अवलोकन किसी डेटासेट में मौजूद नहीं होगा, इसका मतलब यह नहीं है कि मर्ज प्रक्रिया में कुछ गलत हो गया है, लेकिन यह एक और स्थान है जहां एक बार यह हो सकता है कि मर्ज प्रक्रिया में गलत क्या हो सकता है। क्योंकि इस उदाहरण में सभी डेटासेट्स में सभी मामलों को शामिल किया गया है, और क्योंकि मर्ज उसी तरह चला गया है, मर्ज वैरिएबल बहुत दिलचस्प नहीं हैं। हम इन वैरिएबल्स के नीचे अधिक विस्तार से चर्चा करेंगे, जब हम डेटासेट से निपटते हैं, जहां सभी मामलों सभी डेटासेट्स में मौजूद नहीं हैं। अवांछित चर छोड़ना यह पता लगाना असामान्य नहीं है कि एक बड़े डेटासेट में आपके विश्लेषण में कई चर का उपयोग नहीं किया जा रहा है। आप अपने डेटासेट में उन चर को छोड़ सकते हैं जब आप उन्हें एक साथ मर्ज करते हैं, हालांकि, कई कारण हैं जो आप ऐसा नहीं करना चाहते हैं। सबसे पहले, स्टेटा संभाल कर सकते हैं चर की संख्या पर एक सीमा है। लघु स्थिति में सीमा 99 है, स्टेटैस में सीमा 2,047 है और स्टैटसे और स्टेटैप में सीमा 32,767 है। ये सीमाएं उच्च दिखाई दे सकती हैं, लेकिन यदि आप एकाधिक डेटासेट को मर्ज करते हैं, प्रत्येक बड़ी संख्या में चर के साथ, आप अपने प्रकार के स्ताट की सीमा से अधिक हो सकते हैं दूसरा कारण है कि आप अपने डेटासेट में अनावश्यक चर को छोड़ना नहीं चाहते हैं, यह है कि स्मृति में प्रत्येक चर अतिरिक्त सिस्टम संसाधनों का उपयोग करता है। कुछ अतिरिक्त चर कुछ भी चोट नहीं पहुंचे, लेकिन अगर आपके पास अवांछित चर की एक बड़ी संख्या है, तो आप सिस्टम संसाधनों को बर्बाद कर सकते हैं। नीचे हम अतिरिक्त चर को नष्ट करने के कई तरीके दिखाते हैं एक विकल्प यह है कि जब आप उन्हें सॉर्ट करने के लिए डेटासेट खोलते हैं, तो आप उन वेरिएबल्स को भी समाप्त कर सकते हैं जिन्हें आप उपयोग करने की योजना न करते हैं। इस पर निर्भर करते हुए कि वे चर को सूचीबद्ध करना आसान है, जिन्हें आप चाहते हैं कि आप अपने विश्लेषण में उपयोग करें, या उन वेरिएबल्स की सूची न करें जिनकी आपको आवश्यकता न हो, आप आज्ञाओं को रखने या ड्रॉप का उपयोग कर सकते हैं। कम से कम एक अतिरिक्त विकल्प है, आप डेटासेट को स्मृति में केवल उन वेरिएबल को खोलकर खोल सकते हैं जो आपको आवश्यक हैं। अगर मेरे पास एक डेटासेट है जिसमें कई चर शामिल हैं, लेकिन केवल एक ही चर से मुझे इसकी आवश्यकता है आईडी और पढ़ें। मैं अपने उपयोग कमांड में चर नाम जोड़ सकते हैं, जैसा कि नीचे दिए वाक्यविन्यास की पहली पंक्ति में दिखाया गया है। यह बहुत बड़ी फाइलों के साथ विशेष रूप से उपयोगी है, जिनके लिए खुले बहुत मेमोरी की आवश्यकता होती है। एक बार जब आप वैरिएबल के वांछित उपसमुच्चय खोले हैं, तो आपको केवल एक नया नाम के तहत डेटा का सबसेट बचा लेना होगा। उपर्युक्त उदाहरण में, डेटासेट 2 में निम्नलिखित चर शामिल हैं: आईडी, पठन, लेखन, गणित, विज्ञान, और समाज। मान लें कि मेरा विश्लेषण केवल चर को पढ़ने और लिखने की आवश्यकता है डेटासेट 2 से केवल वे वैरिएबल हैं जो दूसरे डेटासेट के साथ डेटा को मर्ज करने के लिए वे दो और चर आईडी हैं। नीचे वर्णित तकनीकों में से प्रत्येक का उपयोग करके, ऊपर दिए गए समान प्रकार की डेटा तैयार करने के उदाहरण नीचे दिए गए हैं ये तकनीकों के बराबर हैं, जिसमें वे एक ही अंत परिणाम का उत्पादन करते हैं। प्रत्येक तकनीक की दक्षता स्थिति पर निर्भर करती है। वेरिएबल्स चुनने के लिए उपयोग करना: अवांछित चर को हटाने के लिए ड्रॉप का इस्तेमाल करना: डेटा का एक सबसेट खोलना: मर्ज वैरिएबल मर्ज कमांड द्वारा बनाए गए मर्ज वैरिएबल याद करना आसान है, लेकिन यह बहुत ही महत्वपूर्ण है। जैसा ऊपर बताया गया है, वे हमें बताते हैं कि प्रत्येक मामले किस डाटासेट से आया है यह महत्वपूर्ण है क्योंकि केवल एक डाटासेट से आए कई मान मर्ज प्रक्रिया में समस्या का सुझाव दे सकते हैं। हालांकि, यह असामान्य नहीं है कि कुछ मामलों में एक डाटासेट हो, लेकिन कोई अन्य नहीं। पैनल के आंकड़ों में यह तब हो सकता है जब दिए गए प्रतिवादी ने अध्ययन के सभी तरंगों में भाग नहीं लिया। यह कई अन्य कारणों के लिए भी हो सकता है। उदाहरण के लिए, एक महिला उत्तरदाता जनसांख्यिकीय जानकारी के साथ डेटा के सबसेट में प्रकट हो सकता है, लेकिन महिलाओं के प्रति उत्तरदायी बच्चों के बारे में जानकारी के साथ डेटा के सबसेट से पूरी तरह से अनुपस्थित हो सकता है, क्योंकि उसके पास बच्चे नहीं हैं चूंकि सभी डेटासेट्स में मौजूद नहीं होने वाले मामलों को एक समस्या नहीं है, इसलिए मर्ज वैरिएबल में जानकारी के लिए उपयोगी होने के लिए आपको पता होना चाहिए कि डेटासेट्स को सही ढंग से मिला दिया गया है या नहीं। उपर्युक्त उदाहरण में, जहां 200 मामलों में तीन डेटासेट्स में उपस्थित थे, मुझे 200 मामलों को देखने की उम्मीद है, जो सभी सभी डेटासेट्स से आए थे। अगर कुछ डेटासेट्स में कुछ मामलों से गुम है, तो मुझे उम्मीद है कि कुछ निश्चित मामलों में जो सभी डेटासेट्स से नहीं आए, लेकिन मुझे अभी भी यह सुनिश्चित करने की आवश्यकता है कि बहुत सारे हैं जो केवल कुछ डेटासेट। आपके मर्ज किए गए डाटासेट में बहुत से या सभी मामलों के होने से एक से आए या केवल कुछ ही डेटासेट जो आप विलय कर दिए गए हैं, यह एक संकेत है कि आईडी वैरिएबल डेटासेट्स में ठीक से मेल नहीं खाता है। यह विशेष रूप से आम है जब आईडी चर एक स्ट्रिंग है। नीचे देखने के लिए कि क्या सभी अपेक्षित रूप में चले गए थे, नीचे हम डेटासेट की जांच करते हैं नीचे दिए गए आउटपुट डेटासेट data1m. dta के लिए फ़ाइल का वर्णन दिखाता है, अगर हम अवलोकनों की संख्या को देखते हैं तो हम देखते हैं कि डेटासेट में केवल 1 9 7 मामले हैं, लेकिन हम जानते हैं कि अध्ययन में 200 मामलों में शामिल हैं, इसलिए हम जानते हैं कि वहां तीन मामलों को पूरी तरह से डेटा 1 एम से लापता हैं यह महत्वपूर्ण जानकारी है अगर हम बाद में मर्ज वैरिएबल को सही तरीके से व्याख्या करने जा रहे हैं। अंत में हम डेटा को सॉर्ट करते हैं और इसे एक नए नाम के तहत सहेजते हैं। अंतरिक्ष को बचाने के लिए हम दूसरे दो डेटासेट के लिए आउटपुट प्रदर्शित नहीं करेंगे (यदि आप कोड को चलाने के लिए चाहते हैं तो कोड नीचे दिखेगा)। मान लें कि जब हम डेटा 2 एम और डेटा 3 एम पर वर्णन करते हैं, तो हम यह पाते हैं कि वे भी मामले खो रहे हैं। डेटासेट डेटा 2 एम में 1 9 6 टिप्पणियां शामिल हैं, और डेटासेट 3 एम में 1 9 7 शामिल हैं। यह संभव है कि इनमें से कुछ मामलों में सभी तीन डेटासेट्स से गायब हो रहे हैं (अर्थात अनुपस्थित टिप्पणियों को डेटासेट में ओवरलैप किया गया है), लेकिन यह भी संभव है कि सभी 200 टिप्पणियां कम से कम एक में होती हैं डेटासेट। जब हम डेटा को मर्ज करते हैं तो हम इसका पता लगा सकते हैं। एक बार जब हमने डाटासेट की जांच की और उन्हें हल किया तो हम उन्हें मर्ज कर सकते हैं। नीचे दिया गया सिंटैक्स, यह ध्यान रखें कि यह कमांड पहली उदाहरण के समान है। डिफ़ॉल्ट रूप से, स्टेटा मामलों को किसी भी तीन डेटासेट से आने की अनुमति देगा। ऐसे विकल्प हैं जो आप को नियंत्रित कर सकते हैं कि कौन से डेटासेट मामलों से आते हैं, आप उन्हें स्टैटा में मर्ज (उद्धरण चिह्नों के बिना) टाइप करके उनके बारे में पता कर सकते हैं। पहले की तरह, मर्ज कमांड ने तीन नए चर मर्ज किए। मर्ज 1 और मर्ज 2 वेरिएबल मर्ज जानकारी देता है कि मास्टर डाटासेट में कौन से मामले मौजूद थे, यह तीन मानों में से एक पर ले जाता है: अवलोकन केवल मास्टर डाटासेट में मौजूद है

No comments:

Post a Comment