مقدمة
يتطلب التحليل الإحصائي المقدرة على التعامل مع البيانات وذلك لوضعها بالصورة المناسبة للتحليل. وسيتم خلال هذا الفصل القيام بعمليات تهدف إلى تعديل البيانات لتلائم التحليل، وتشمل عمليات إضافة أو حذف متغيرات أو حالات، اختيار مجموعة جزئية من البيانات أو مجموعة جزئية من المتغيرات، البحث عن متغيرات أو حالات، إعادة ترميز قيم متغيرات أو تكوين متغيرات جديدة باستخدام متغيرات متوفرة حالياً.
إضافة وحذف متغيرات وحالات Insert and Delete
تبرز الحاجة دائما إلى إضافة متغيرات جديدة إلى ملف بيانات أو إضافة حالات جديدة، ففي بعض الحالات يتطلب التحليل إضافة متغيرات جديدة أو يتم الاستغناء عن متغيرات غير مفيدة. كذلك فإنه قد تحتاج إلى إضافة مشاهدات جديد للمتغيرات الموجودة حالياً في ملف البيانات وذلك بسبب نسيانها سهواً أو بسبب توفر بيانات جديدة.
إضافة وحذف حالات
يتم إضافة حالة جديد، بالنقر على أيقونة إضافة حالة من شريط الأدوات، أو باختيار Insert Cases من قائمة البيانات.
وبذلك يتم إضافة حالة جديدة تقع إلى الأعلى من الخلية المختارة. ويمكن حذف حالة ما وذلك بالنقر بواسطة زر الفارة الأيمن على الحالة المراد حذفها ثم اختيار Clear أو باختيار الصف التي تقع فيه الحالة ثم الضغط على زر Delete من لوحة المفاتيح.
إضافة وحذف متغيرات
لنفرض أن لديك الرغبة في إضافة متغير جديد يمثل وزن الطالب في ملف البيانات، ويتم ذلك بالنقر على أيقونة إضافة متغير من شريط الأدوات، أو باختيار Insert Variable من قائمة البيانات. ويقوم البرنامج بإضافة عمود جديد باسم VAR0001 بحيث يقع إلى اليسار من الخلية المختارة.
وبعد إضافة المتغير الجديد يتطلب الأمر إجراء العديد من التعديلات على ملف البيانات مثل تعديل خصائص المتغير وإضافة البيانات المقابلة لكل حالة.
ويمكن حذف أي متغير وذلك بالنقر بواسطة زر الفارة الأيمن على المتغير المراد حذفه ثم اختيار Clear أو باختيار العمود الذي يقع فيه المتغير ثم الضغط على زر Delete من لوحة المفاتيح.
حساب قيم جديدة لمتغير أو إعادة ترميز متغير
تبرز الحاجة في الكثير من الأحيان إلى تحويل بعض المتغير إلى متغيرات جديد تحمل قيم مرتبطة بالمتغير السابق أو استخدام عدة متغيرات لإنشاء متغير جديد. كذلك قد نحتاج إلى إعادة ترميز متغير بحيث تكون القيم التي أقل من 10 في متغير ما تحمل الرقم 1 في المتغير الجديد والقيم التي بين 10 وأقل من 20 تحمل الرقم 2 في المتغير الجديد وهكذا.
حساب قيم جديدة لمتغير
تتم عملية حساب قيم جديد لمتغير بناء على قيم متوفرة لمتغير أو متغيرات أخرى باستخدام الأمر Compute والذي يمكن الباحث من استخدام العديد من الدوال الرياضية والإحصائية لإجراء الحسابات اللازمة.
لنفرض أن لدى الباحث الرغبة في تكوين متغير جديد يحمل الإسم "diff" والذي يمثل الفروقات بين عمر الطالب ومتوسط الأعمار لجميع الطلاب. وللقيام بذلك نستخدم الأمر Compute من قائمة Transform أو بالنقر على أيقونة Compute بعد إضافتها إلى شريط الأدوات.
وعند ذلك يظهر لنا مربع الحوار التالي.
ولحساب القيم الجديدة للمتغير "diff" نقوم بطرح متوسط عمر الطلاب من عمر الطالب. ويوضح الشكل السابق قائمة الدوال الإحصائية المتوفر والتي يمكن استخدامها لحساب قيم المتغير الجديد. ويتم وضع اسم المتغير الجديد في المربع الذي يقع أسفل كلمة Target Variable، كذلك بتم تحديد بعض خصائص المتغير بالضغط على زر Type&Label، ثم يتم وضع العبارة المستخدمة لحساب قيم المتغير الجديد في مربع Numeric Expression. وبالضغط على زر OK يظهر لنا المتغير الجديد كما في الشكل التالي.
استخدام الدوال الرياضية والإحصائية
يوجد في قائمة الدوال مجموعة كبيرة من الدوال والتي تتجاوز 70 دالة رياضية وإحصائية وبعض الدوال الأخرى التي تساعد على حساب قيم متغيرات جديدة, وتعتبر هذه الدوال أداة لحساب قيمة المتغير الجديد بالاعتماد على القيم المقابلة للمتغير المتوفر حالياُ. فعلى سبيل المثال فإنه استخدام دالة ABS(numexpr) لحساب القيمة المطلقة للفرق بين عمر الطالبة ومتوسط أعمار الطلاب، ويتم ذلك باختيار الدالة ثم الضغط على زر وذلك لرفع الدالة المختارة إلى مربع Numeric Expression ثم إضافة العبارة السابقة لحساب قيمة المتغير الجديد كما هو موضح في الشكل التالي.
وبعد الضغط على زر OK، نشاهد أن جميع قيم المتغير الجديد "diff" أصبحت موجبة.
إعادة ترميز وتصنيف المتغيرات
إعادة ترميز المتغيرات هي عملية تكوين متغير جديد مرتبط بمتغير موجود حالياً في ملف البيانات بحيث يتم تحويل متغيرات كمية أي قابلة للقياس Scale Variable إلى متغيرات وصفية Nominal Variable. أما تصنيف المتغيرات فهي عملية مشابهة لعملية إعادة ترميز المتغيرات إلا أن المتغير الجديد يعكس عدد مستويات التصنيف ويتم تصنيف المتغير على فترات متساوية الطول.
إعادة ترميز المتغيرات Recode
يستخدم الأمر Recode لتكوين متغير جديد بحيث تكون قيم المتغير عبارة عن مستويات للتصنيف أو عبارة عن قيم محدد ليتم تحويل المتغير الكمي إلى متغير وصفي. ويتم ذلك باختيار الأمر Recode من قائمة Transform كما في الشكل التالي.
ويشمل أمر إعادة الترميز إلى خيارين، حيث يمكن بواسطة الخيار الأول وضع الترميز الجديد في نفس المتغير السابق، في حين يتم وضع قيم الترميز الجديدة باسم متغير جديد عند استخدام الخيار الثاني. لنفرض أن لدينا الرغبة في تكوين متغير تصنيفي لوزن الطلاب بحيث تكون قيمة المتغير الجديد بحسب الفئات التالية
قيم المتغير الجديد قيم المتغير السابق
1
2
3
وسيكون اسم المتغير الجديد "w_code". وبالنقر على Recode من قائمة Transform وأختيار Into Different Variable يظهر مربع الحوار التالي.
ويتم من خلال مربع الحوار السابق تحديد المتغير المستهدف في عملية إعادة الترميز وتحديد اسم المتغير الجديد ووضع وصف للمتغير الجديد. ولتحديد قيم المتغير الجديد، يتم النقر على زر Old and New Values، وبذلك يظهر لنا مربع الحوار التالي.
ويتم من خلال مربع الحوار السابق تحديد قيم محدد أو فترات محددة للمتغير السابق وكذلك تحديد قيم الترميز الجديد للمتغير الجديد. ويمكن إضافة العدد المناسب من الفترات بأطوال مختلفة وذلك حسب رغبة الباحث، وعند الانتهاء من تحديد الفترة أو القيمة السابقة وتحديد قيمة الترميز الجديد يتم النقر على زر Add إلى قائمة OldNew وذلك لقبول الترميز الجديد. وعند الانتهاء من إضافة جميع الفترات، يتم النقر على زر Continue ثم OK ليتم بذلك تكوين المتغير الجديد ومشاهدة المتغير الجديد في ورقة عارض البيانات.
تصنيف المتغيرات Categorize Variable
يقوم الأمر Categorize Variable بتحويل متغير عددي إلى عدد محدد من القيم والتي تعكس عدد مستويات التصنيف، وبذلك فإن عملية التصنيف تعتمد على عدد المستويات المحدد في التصنيف بحيث يحتوي كل مستوى من مستويات التصنيف على نفس العدد من الحالات وذلك إذا كان عدد الحالات يقبل القسمة على عدد مستويات التصنيف. ولتصنيف المتغير "weight" ، يتم اختيار الأمر Categorize Variable من قائمة Transform ليظهر مربع الحوار التالي.
ويتطلب مربع الحوار السابق فقط تحديد المتغير المستهدف في التصنيف وعدد مستويات التصنيف. وبعد النقر على OK، يمكن مشاهدة قيم التصنيف الجديدة للمتغير الجديد الذي يحمل اسم "nweight"، وهو اسم يمنحه البرنامج آلياً للمتغير الجديد.
ويمكن ملاحظة أن البرنامج يعطي قيم متسلسلة لمستويات التصنيف بحيث يحصل المستوى الأول على الرقم 1 والمستوى الثاني على الرقم 2 وهكذا. وبذلك فإنه لا يمكن للباحث التحكم
بطول فترات التصنيف ولا يمكن له كذلك التحكم بالقيم التي تعكس مستويات التصنيف وذلك عند استخدام الأمر Categorize Variable، في حين يعطي الأمر Recode حرية أكثر في تحديد طول فترات التصنيف وتحديد القيم التي تعكس مستويات التصنيف.
ترتيب واختيار الحالات
تشمل عمليات التعامل مع البيانات على العديد من الأوامر والتي لا يمكن التحدث عن جميعها بالتفصيل، ولكن يوجد بعض الأوامر التي يمكن الاستفادة منها في تكوين ملفات بيانات بالشكل التي تناسب التحليل.
ترتيب الحالات Sorting Cases
تكمن أهمية ترتيب الحالات بأنها وسيلة لعرض البيانات وإعادة عرضها بطريقة تلائم التحليل، ويمكن بواسطة الأمر Sort Cases ترتيب الحالات بناء على قيم متغير أو عدة متغيرات، فعلى سبيل المثال، يمكن ترتيب الطلاب في باستخدام متغير الوزن "weight"، وقد يكون الترتيب تصاعدياً بحيث تظهر الحالات الأقل وزناُ في البداية والحالات الأكثر وزناُ في النهاية، أو ترتيب الحالات تنازلياً بحيث تظهر الحالات الأكثر وزناً في البداية والأقل وزناُ في النهاية. كذلك فإنه يمكن ترتيب البيانات بناء على أكثر من متغير، أي أن الباحث يستخدم أكثر من معيار لترتيب الحالات.
لنفرض أن لدينا الرغبة في ترتيب الحالات الموجودة في ملف الطلاب وذلك تبعاً للرقم الجامعي للطلاب، نستخدم الأمر ٍSort Cases من قائمة البيانات، وعندها يظهر مربع الحوار التالي.
ومن قائمة المتغيرات نختار المتغير "id_num" ثم نختار طريقة الترتيب وذلك إما تصاعدية أو تنازلية، وبعد النقر على OK، تظهر لنا البيانات مرتبة بحب الرقم الجامعي للطالب.
لنفرض أن لدينا الرغبة في ترتيب الحالات بناء التخصص ثم المعدل التراكمي، نتبع نفس الخطوات السابقة إلا أننا نضيف "major" ثم "gpa" إلى قائمة المتغيرات المستخدمة في الترتيب، وبذلك تظهر لنا البيانات على النحو التالي.
ويلاحظ أن تخصص "marketing" كان الأول في الترتيب وذلك بسبب أن قيمة المتغير "major" لهذا التخصص هو 1 والقيمة 2 لتخصص "finance" والقيمة 3 لتخصص "economics".
اختيار الحالات Selecting Cases
يستخدم الأمر Select Cases لاختيار مجموعة جزئية من الحالات وذلك ليتم استخدام الحالات المختارة فقط في التحليل. لنفرض أن لدينا الرغبة في حساب قيمة متوسط عمر الطلاب في تخصصات التسويق والمالية، نتبع الخطوات التالية:
بالنقر على الأمر Select Cases من قائمة البيانات يظهر لنا مربع الحوار التالي.
ويتوفر في مربع الحوار السابق عدة طرائق لاختيار الحالات حيث يمكن أن يكون الاختيار تبعاً لشروط محددة أو اختيار عينة عشوائية أو يكون الاختيار تبعاً لترتيب الحالات أو يكون الاختيار باستخدام متغير لتصفية البيانات. وباختيار If condition is satisfied والنقر على:
يظهر لنا مربع الحوار التالي.
ويمكن في مربع الحوار السابق تحديد الشرط المناسب باستخدام أحد المتغيرات الموجودة في قائمة المتغيرات، وقد كان الشرط المناسب لاختيار الطلاب المتخصصين تسويق ومالية هو أن تكون قيمة المتغير "major" اقل من 3، حيث أن قيم المتغير "major" لتخصصات التسويق والمالية هي 1 و 2 على التوالي. وعند النقر على Continue ثم Ok نشاهد البيانات وقد تم استبعاد الطلاب المتخصصين اقتصاد.
وبذلك فإن التحليل التالي سيشمل فقط طلاب التسويق والمالية. وعند حساب متوسط عمر طلاب التسويق والمالية باستخدام الأمر Descriptive Statistics من قائمة التحليل، نتج أن متوسط عمر الطلاب هو 21.6 سنة.