Στα στατιστικά στοιχεία, ένα outlier ή ένα "outlier" είναι ένα δεδομένο που αποκλίνει πολύ από οποιοδήποτε άλλο δεδομένο εντός ενός δείγματος ή ενός συνόλου δεδομένων (το σύνολο των δεδομένων ονομάζεται δεδομένα). Συχνά, ένα υπερβολικό σε ένα σύνολο δεδομένων μπορεί να χρησιμεύσει ως προειδοποίηση στον στατιστικολόγο για μια ανωμαλία ή πειραματικό σφάλμα στις μετρήσεις που έγιναν, γεγονός που θα μπορούσε να οδηγήσει τον στατιστικολόγο να αφαιρέσει το υπερβολικό από το σύνολο δεδομένων. Εάν ο στατιστικός αφαιρέσει τις υπερβολικές τιμές από το σύνολο δεδομένων, τα συμπεράσματα που προκύπτουν από τη μελέτη μπορεί να είναι πολύ διαφορετικά. Ως εκ τούτου, το να γνωρίζουμε πώς να υπολογίζουμε και να αναλύουμε ακραίες τιμές είναι πολύ σημαντικό για να διασφαλίσουμε τη σωστή κατανόηση ενός στατιστικού συνόλου δεδομένων.
Βήμα
Βήμα 1. Μάθετε πώς μπορείτε να προσδιορίσετε δυνητικά ακραία δεδομένα
Πριν αποφασίσουμε αν θα αφαιρέσουμε πολύ πιο συγκεκριμένα δεδομένα από το σύνολο δεδομένων ή όχι, φυσικά πρέπει να προσδιορίσουμε ποια δεδομένα έχουν τη δυνατότητα να γίνουν υπερβολικά. Σε γενικές γραμμές, το outlier είναι ένα datum που αποκλίνει πολύ από τα άλλα datums σε ένα σύνολο δεδομένων - με άλλα λόγια, ένα outlier βρίσκεται «έξω» από τα άλλα data. Συνήθως είναι εύκολο να εντοπιστούν ακραίες τιμές σε έναν πίνακα δεδομένων ή (συγκεκριμένα) σε ένα γράφημα. Εάν ένα σύνολο δεδομένων αναγράφεται οπτικά με ένα γράφημα, το εξωτερικό στοιχείο θα φαίνεται ότι είναι "πολύ μακριά" από τα άλλα δεδομένα. Εάν, για παράδειγμα, τα περισσότερα από τα δεδομένα σε ένα σύνολο δεδομένων σχηματίζουν μια ευθεία γραμμή, το εξωτερικό δεδομένο δεν θα ερμηνευτεί εύλογα ότι σχηματίζει αυτήν τη γραμμή.
Ας δούμε ένα σύνολο δεδομένων που αντιπροσωπεύουν τις θερμοκρασίες 12 διαφορετικών αντικειμένων σε ένα δωμάτιο. Εάν 11 αντικείμενα έχουν θερμοκρασία περίπου 70 Fahrenheit (21 βαθμούς Κελσίου), αλλά το 12ο αντικείμενο, ένας φούρνος, έχει θερμοκρασία 300 Fahrenheit (150 βαθμούς Κελσίου), μπορεί να φανεί αμέσως ότι η θερμοκρασία του φούρνου είναι πολύ πιθανό να είναι ένα ακραίο
Βήμα 2. Τακτοποιήστε τα δεδομένα σε ένα σύνολο δεδομένων από το χαμηλότερο στο υψηλότερο
Το πρώτο βήμα για τον υπολογισμό των υπερβολικών τιμών σε ένα σύνολο δεδομένων είναι η εύρεση της διάμεσης (μεσαίας τιμής) αυτού του συνόλου δεδομένων. Αυτή η εργασία καθίσταται πολύ απλή εάν τα δεδομένα σε ένα σύνολο δεδομένων είναι διατεταγμένα από το μικρότερο στο μεγαλύτερο. Έτσι, πριν συνεχίσετε, τακτοποιήστε τα δεδομένα σε ένα τέτοιο σύνολο δεδομένων.
Ας συνεχίσουμε το παραπάνω παράδειγμα. Αυτό είναι το σύνολο δεδομένων μας που αντιπροσωπεύουν τις θερμοκρασίες πολλών αντικειμένων σε ένα δωμάτιο: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Εάν τακτοποιήσουμε τα δεδομένα από το χαμηλότερο στο υψηλότερο, η σειρά των δεδομένων γίνεται: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Βήμα 3. Υπολογίστε τη διάμεσο του συνόλου δεδομένων
Η μέση τιμή ενός συνόλου δεδομένων είναι ένα δεδομένο όπου το άλλο μισό του είναι πάνω από αυτό και το υπόλοιπο μισό είναι κάτω από αυτό - βασικά, αυτό είναι το στοιχείο που βρίσκεται στη "μέση" του συνόλου δεδομένων. Εάν ο αριθμός των δεδομένων σε ένα σύνολο δεδομένων είναι περιττός, είναι πολύ εύκολο να βρεθεί - ο διάμεσος είναι ο αριθμός που έχει τον ίδιο αριθμό πάνω και κάτω από αυτόν. Ωστόσο, εάν ο αριθμός των δεδομένων στο σύνολο δεδομένων είναι ζυγός, τότε, επειδή κανένα στοιχείο δεν ταιριάζει στη μέση, τα 2 δεδομένα στη μέση υπολογίζονται κατά μέσο όρο για να βρεθεί ο διάμεσος. Θα πρέπει να σημειωθεί ότι, κατά τον υπολογισμό των ακραίων τιμών, ο μέσος όρος συνήθως εκχωρείται στη μεταβλητή Q2-ni επειδή το Q2 είναι μεταξύ Q1 και Q3, του κάτω και του άνω τεταρτημορίου, για το οποίο θα συζητήσουμε αργότερα.
- Για να μην συγχέεται με ένα σύνολο δεδομένων όπου ο αριθμός των δεδομένων είναι ζυγός-ο μέσος όρος των 2 μεσαίων δεδομένων θα επιστρέψει συχνά έναν αριθμό που δεν υπάρχει στο ίδιο το σύνολο δεδομένων-αυτό είναι εντάξει. Ωστόσο, εάν τα 2 μεσαία δεδομένα είναι ο ίδιος αριθμός, ο μέσος όρος, φυσικά, θα είναι επίσης ο ίδιος αριθμός, ο οποίος είναι επίσης καλός.
- Στο παραπάνω παράδειγμα, έχουμε 12 δεδομένα. Τα 2 μεσαία δεδομένα είναι το 6ο και το 7ο datums-70 και 71 αντίστοιχα. Έτσι, ο διάμεσος αριθμός των δεδομένων μας είναι ο μέσος όρος αυτών των δύο αριθμών: ((70 + 71) / 2), = 70.5.
Βήμα 4. Υπολογίστε το κάτω τεταρτημόριο
Αυτή η τιμή, στην οποία δίνουμε τη μεταβλητή Q1, είναι το στοιχείο που αντιπροσωπεύει το 25 τοις εκατό (ή το ένα τέταρτο) των δεδομένων. Με άλλα λόγια, είναι το δεδομένο που διχοτομεί τα δεδομένα που βρίσκονται κάτω από τη διάμεσο. Εάν ο αριθμός των δεδομένων κάτω από το διάμεσο είναι ζυγός, πρέπει και πάλι να υπολογίσετε τα 2 δεδομένα στη μέση για να βρείτε το Q1, όπως θα κάνατε για να βρείτε το ίδιο το διάμεσο.
Στο παράδειγμά μας, υπάρχουν 6 δεδομένα που βρίσκονται πάνω από τον διάμεσο και 6 δεδομένα που βρίσκονται κάτω από το διάμεσο. Αυτό σημαίνει ότι, για να βρούμε το κάτω τεταρτημόριο, θα χρειαστεί να υπολογίσουμε το μέσο όρο των 2 δεδομένων στη μέση των 6 δεδομένων κάτω από τη διάμεσο. Το τρίτο και το τέταρτο δεδομένο των 6 δεδομένων κάτω από τον διάμεσο είναι και τα 70. Άρα, ο μέσος όρος είναι ((70 + 70) / 2), = 70 Το Το 70 γίνεται το πρώτο μας τρίμηνο.
Βήμα 5. Υπολογίστε το ανώτερο τεταρτημόριο
Αυτή η τιμή, στην οποία δίνουμε τη μεταβλητή Q3, είναι το δεδομένο στο οποίο υπάρχει το 25 τοις εκατό των δεδομένων στο σύνολο δεδομένων. Η εύρεση του Q3 είναι σχεδόν το ίδιο με την εύρεση του Q1, εκτός από το ότι, σε αυτή την περίπτωση, εξετάζουμε τα δεδομένα πάνω από το διάμεσο και όχι κάτω από το διάμεσο.
Συνεχίζοντας το παραπάνω παράδειγμά μας, τα 2 δεδομένα στη μέση των 6 δεδομένων πάνω από τον διάμεσο είναι 71 και 72. Ο μέσος όρος αυτών των 2 δεδομένων είναι ((71 + 72)/2), = 71, 5 Το 71, 5 είναι το τρίτο τρίμηνο μας.
Βήμα 6. Βρείτε την απόσταση μεταξύ των τεταρτημορίων
Τώρα που βρήκαμε Q1 και Q3, πρέπει να υπολογίσουμε την απόσταση μεταξύ αυτών των δύο μεταβλητών. Η απόσταση από το Q1 στο Q3 εντοπίζεται αφαιρώντας το Q1 από το Q3. Οι τιμές που λαμβάνετε για αποστάσεις τεταρτημορίων είναι πολύ σημαντικές για τον καθορισμό των ορίων των μη υπερβολικών δεδομένων στο σύνολο δεδομένων σας.
- Στο παράδειγμά μας, οι τιμές μας για Q1 και Q3 είναι 70 και 71, 5. Για να βρούμε τη διατεταρτημοριακή απόσταση, αφαιρούμε Q3 - Q1 = 71,5 - 70 = 1, 5.
- Πρέπει να σημειωθεί ότι αυτό ισχύει επίσης ακόμη και αν το Q1, το Q3 ή και τα δύο είναι αρνητικοί αριθμοί. Για παράδειγμα, εάν η τιμή Q1 μας ήταν -70, η σωστή διατεταρτημοριακή μας απόσταση θα ήταν 71,5 -(-70) = 141, 5.
Βήμα 7. Βρείτε τον "εσωτερικό φράκτη" στο σύνολο δεδομένων
Οι ακραίες τιμές εντοπίζονται ελέγχοντας εάν το τεύχος εμπίπτει στα όρια αριθμών που ονομάζονται "εσωτερικός φράχτης" και "εξωτερικός φράχτης". Ένα δεδομένο που πέφτει έξω από τον εσωτερικό φράχτη του συνόλου δεδομένων αναφέρεται ως "μικρότερο περιθώριο", ενώ ένα δεδομένο που πέφτει έξω από τον εξωτερικό φράκτη αναφέρεται ως "κύριο ακραίο". Για να βρείτε τον εσωτερικό φράχτη στο σύνολο δεδομένων σας, πολλαπλασιάστε πρώτα την απόσταση μεταξύ των τεταρτημορίων με 1, 5. Στη συνέχεια, προσθέστε το αποτέλεσμα κατά Q3 και αφαιρέστε το από το Q1. Οι δύο τιμές που λαμβάνετε είναι τα εσωτερικά όρια φράχτη του συνόλου δεδομένων σας.
-
Στο παράδειγμά μας, η τεταρτημοριακή απόσταση είναι (71,5 - 70), ή 1,5. Πολλαπλασιάστε 1,5 επί 1,5 που έχει ως αποτέλεσμα 2,25. Προσθέτουμε αυτόν τον αριθμό στο Q3 και αφαιρούμε το Q1 με αυτόν τον αριθμό για να βρούμε τα όρια του εσωτερικού φράχτη ως εξής:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Έτσι, τα όρια του εσωτερικού μας φράχτη είναι 67, 75 και 73, 75.
-
Στο σύνολο δεδομένων μας, μόνο η θερμοκρασία του φούρνου, 300 Fahrenheit - είναι έξω από αυτά τα όρια και έτσι αυτό το δεδομένο είναι ένα μικρότερο υπέρμετρο. Ωστόσο, δεν έχουμε ακόμη υπολογίσει αν αυτή η θερμοκρασία είναι μια σημαντική ακραία τιμή, οπότε μην βιαστείτε να βγείτε σε συμπεράσματα μέχρι να ολοκληρώσουμε τους υπολογισμούς μας.
Βήμα 8. Βρείτε τον "εξωτερικό φράκτη" στο σύνολο δεδομένων
Αυτό γίνεται με τον ίδιο τρόπο όπως η εύρεση του εσωτερικού φράχτη, με την εξαίρεση ότι η απόσταση μεταξύ των τεταρτημορίων πολλαπλασιάζεται με 3 αντί για 1.5. Το αποτέλεσμα στη συνέχεια προστίθεται στο Q3 και αφαιρείται από το Q1 για να βρεθούν τα άνω και κάτω όρια του εξωτερικού φράχτη.
-
Στο παράδειγμά μας, ο πολλαπλασιασμός της διατεταρτημοριακής απόστασης με 3 δίνει (1, 5 x 3) ή 4, 5. Βρίσκουμε τα όρια του εξωτερικού φράχτη με τον ίδιο τρόπο όπως πριν:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Τα όρια του εξωτερικού φράχτη είναι 65,5 και 76.
-
Τα δεδομένα που βρίσκονται έξω από το όριο του εξωτερικού φράχτη αναφέρονται ως μεγάλες ακραίες τιμές. Σε αυτό το παράδειγμα, η θερμοκρασία του φούρνου, 300 Fahrenheit, είναι σαφώς έξω από τον εξωτερικό φράχτη, οπότε αυτό το δεδομένο είναι "σίγουρα" ένα σημαντικό outlier.
Βήμα 9. Χρησιμοποιήστε ποιοτική κρίση για να καθορίσετε αν θα "απορρίψετε" ή όχι το παλαιότερο στοιχείο
Χρησιμοποιώντας τη μέθοδο που περιγράφηκε παραπάνω, μπορεί να καθοριστεί εάν ένα datum είναι ένα δευτερεύον datum, ένα σημαντικό datum, ή όχι ένα outlier καθόλου. Ωστόσο, μην κάνετε λάθος - η εύρεση ενός δεδομένου ως ακραίου σημείου σηματοδοτεί μόνο αυτό το στοιχείο ως "υποψήφιο" που πρέπει να αφαιρεθεί από το σύνολο δεδομένων και όχι ως ένα στοιχείο που "πρέπει" να απορριφθεί. Ο "λόγος" που προκαλεί την απόκλιση ενός εξωγενή δεδομένου από άλλα δεδομένα σε ένα σύνολο δεδομένων είναι πολύ σημαντικός για τον προσδιορισμό της απόρριψης ή όχι. Σε γενικές γραμμές, μπορεί να απορριφθεί ένα υπερκείμενο που προκαλείται από σφάλμα μέτρησης, καταγραφής ή πειραματικού σχεδιασμού. Από την άλλη πλευρά, οι υπερβολικές τιμές που δεν προκαλούνται από σφάλματα και που υποδεικνύουν νέες πληροφορίες ή τάσεις που δεν είχαν προβλεφθεί προηγουμένως, συνήθως «δεν» απορρίπτονται.
- Ένα άλλο κριτήριο που πρέπει να ληφθεί υπόψη είναι εάν το outlier έχει μεγάλη επίδραση στη μέση τιμή ενός συνόλου δεδομένων, δηλαδή αν το outlier το μπερδεύει ή το κάνει να φαίνεται λάθος. Αυτό είναι πολύ σημαντικό να λάβετε υπόψη εάν σκοπεύετε να εξαγάγετε συμπεράσματα από τον μέσο όρο του συνόλου δεδομένων σας.
-
Ας μελετήσουμε το παράδειγμά μας. Σε αυτό το παράδειγμα, δεδομένου ότι φαίνεται "εξαιρετικά" απίθανο ο φούρνος να έφτασε τους 300 Φαρενάιτ μέσω απρόβλεπτων φυσικών δυνάμεων, μπορούμε να συμπεράνουμε με σχεδόν βεβαιότητα ότι ο φούρνος έμεινε τυχαία αναμμένος, με αποτέλεσμα μια ανωμαλία δεδομένων υψηλής θερμοκρασίας. Επίσης, αν δεν αφαιρέσουμε τα υπερβολικά, ο μέσος όρος του συνόλου δεδομένων είναι (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Φαρενάιτ (32 βαθμοί Κελσίου), ενώ ο μέσος όρος αν αφαιρέσουμε τα υπερβολικά είναι (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Φαρενάιτ (21 βαθμοί Κελσίου).
Δεδομένου ότι αυτές οι ακραίες τιμές προκλήθηκαν από ανθρώπινο λάθος και επειδή θα ήταν εσφαλμένο να πούμε ότι η μέση θερμοκρασία δωματίου φτάνει σχεδόν τους 90 βαθμούς Φαρενάιτ (32 βαθμούς Κελσίου), καλύτερα να επιλέξουμε να "πετάξουμε" τις υπερβολικές τιμές
Βήμα 10. Γνωρίστε τη σημασία (μερικές φορές) της διατήρησης ακραίων τιμών
Παρόλο που ορισμένα υπερβολικά στοιχεία πρέπει να αφαιρεθούν από το σύνολο δεδομένων, επειδή προκαλούν σφάλματα ή/και καθιστούν τα αποτελέσματα ανακριβή ή λανθασμένα, ορισμένα υπερβολικά πρέπει να διατηρούνται. Εάν, για παράδειγμα, ένα υπερκείμενο εμφανίζεται φυσικά να αποκτάται (δηλαδή δεν είναι αποτέλεσμα σφάλματος) και/ή παρέχει μια νέα προοπτική για το υπό μελέτη φαινόμενο, το υπερβολικό δεν πρέπει να αφαιρεθεί από το σύνολο δεδομένων. Η επιστημονική έρευνα είναι συνήθως μια πολύ ευαίσθητη κατάσταση όταν πρόκειται για ακραίες τιμές - η λανθασμένη αφαίρεση των ακραίων μπορεί να σημαίνει απόρριψη πληροφοριών που υποδεικνύουν μια νέα τάση ή ανακάλυψη.