Στατιστική τερμάτων και παλινδρόμηση

Google+ Pinterest LinkedIn Tumblr +

Στοίχημα και στατιστική πάνε μαζί. Είναι λογικό. Οτιδήποτε αφορά σε πρόβλεψη οφείλει να βασίζεται κάπου. Και αυτό το κάπου έχει όνομα: «Στατιστική». Ολοένα και περισσότερος κόσμος το αποδέχεται καθημερινά. Τουλάχιστον οι μη τζογαδόροι. Προσωπικά το έχω ασπαστεί και προσπαθώ να δουλεύω πάνω σε αυτό.

Έχει περάσει αρκετός καιρός από την τελευταία φορά που δημοσιεύτηκε άρθρο μου σε αυτόν εδώ τον ιστότοπο. Το διάστημα αυτό έκανα παύση όσον αφορά το αντικείμενο στοίχημα. Είναι κάτι απαραίτητο και φυσικό. Πως το λέει εκείνη η φράση, ότι πρέπει να αδειάσεις το ποτήρι και να το ξαναγεμίσεις. Κάτι παρόμοιο. Ακόμα βρίσκομαι σε αυτή την παύση. Αφορμή της έκτακτης παρούσας αρθρογραφίας μου στάθηκε πρόσφατο άρθρο που αφορά στο bet-minute.

Προσωπικά την βρίσκω φρέσκια και θετική προσπάθεια στον χώρο της γενικότερης συμβουλευτικής γύρω από το στοίχημα. Εννοείται δεν γνωρίζω κάτι αναφορικά με τον αλγόριθμο που έχουν κατασκευάσει και λειτουργούν οι υπεύθυνοι. Για την ακρίβεια δεν είμαι σε θέση καν να επεξηγήσω τι είναι ένας αλγόριθμος κτλ. Όμως το αντικείμενο, η προσφορά στατιστικών με ωθεί στο να γράψω το παρόν.

Οι γνώσεις μου φτάνουν να μιλήσω μέχρι την γραμμική παλινδρόμηση και ευχαριστημένος να είμαι. Και όχι με κατανόηση εις βάθος. Τα πρακτικά κοιτάω.

Ας ξεκινήσω την υποτιθέμενη αναφορά μου λοιπόν στην παλινδρόμηση, για την οποία μπορείτε να ενημερωθείτε ίσως καλύτερα με μια αναζήτηση στο διαδίκτυο.

Τι έχω κρατήσει εγώ; Ότι «τρέχοντας» μια παλινδρόμηση θα μου φανερώσει αν κάποια γεγονότα βασίζονται σε δεδομένα. Με άλλα λόγια πόσο σχετίζονται τα γεγονότα στα δεδομένα, πόσο επηρεάζονται.

Για παράδειγμα παρασκευάζω παγωτό. Πόσο σχετίζεται η πώληση με την ημερομηνία; Εμφανές παράδειγμα αυτό βέβαια. Αμέσως καταλαβαίνει κάποιος ότι η 15/8 έχει πολύ πιο θετική συσχέτιση από την 31/12 όσον αφορά τις πωλήσεις παγωτών.

Σε άλλο παράδειγμα μία εταιρία θα ήθελε να ξέρει την συσχέτιση κόστος διαφήμισης και συνολικές πωλήσεις. Αξίζει να ξοδεύει χρήματα για διαφήμιση; Τι επίπτωση στις συνολικές πωλήσεις μπορεί να έχει κάθε επιπλέον ευρώ που ξοδεύεται για διαφήμιση.

Επιστροφή στο αντικείμενο μας όμως. Και συγκεκριμένα αγορά 2,5 τερμάτων. Over-Under δηλαδή. Διαβάζεις ότι η γηπεδούχος έχει 1,23 τέρματα υπέρ και 0,85 κατά ενώ η φιλοξενούμενη 1,56 και 1,24 αντίστοιχα. Θέλω άμεση απάντηση. Τι το παίζεις; Έλα αφού ξέρω ότι σου είναι «ευκολάκι». Ωραία, την έχεις την απάντηση. Το ξέρω. Αλλά να σου πω την αλήθεια δεν με ενδιαφέρει. Αυτό που όμως με ενδιαφέρει είναι η αιτιολογία και πάρα πολύ μάλιστα. Γιατί διάλεξες αυτό που διάλεξες; Τι βλέπεις πίσω από τα νούμερα; Κάτι πρέπει να βλέπεις για να πάρεις την απόφαση σου.

Η παλινδρόμηση είναι αυτή που μπορεί να δει πίσω από τα νούμερα, αν υπάρχει κάτι που να αξίζει. Σε ότι γράφω από δω και πέρα θα επιθυμούσα επιβεβαίωση ή διόρθωση από κάποιον που το έχει σπουδάσει το αντικείμενο. Εγώ απλά έξυσα επιφανειακά για να πάρω τα πρακτικά κομμάτια.

Η ερώτηση που έθεσα ήταν: «πόσο σχετίζονται οι μέσοι όροι τερμάτων υπέρ και κατά των αντιπάλων με το σύνολο τερμάτων που θα επιτευχθούν στην αναμέτρηση».

Το δείγμα μου είναι αναμετρήσεις της Premier League από το 2010-2011 εώς το 2013-2014. Ειδικότερα απέκλεισα τα 8 πρώτα παιχνίδια. Επακριβώς το δείγμα μου είναι 1186 αναμετρήσεις.

Ακολουθεί η «ΕΞΟΔΟΣ ΣΥΜΠΕΡΑΣΜΑΤΟΣ»

ΈΞΟΔΟΣ ΣΥΜΠΕΡΑΣΜΑΤΟΣ

Η εικόνα από πάνω είναι τα αποτελέσματα της παλινδρόμησης. Θα αναφερθώ στα υπογραμμισμένα με κίτρινο.

Πριν ξεκινήσω, μια σύντομη επεξήγηση. Για να τρέξουμε κάποια παλινδρόμηση εννοείται έχουμε «χ» και «ψ» ακριβώς όπως σε μία συνάρτηση. Τα «χ» είναι ανεξάρτητες μεταβλητές ενώ τα «ψ» είναι εξαρτημένα και ειδικότερα από τα «χ». Στόχος της παλινδρόμησης είναι να τοποθετήσει όσον το δυνατόν καλύτερα τα «ψ» σε μία ευθεία γραμμή. Κάθε γραμμή έχει την συνάρτηση της π.χ :ψ=α+βχ. Όσο μεταβάλλεται η τιμή του «χ» το ίδιο κάνει και αυτή του «ψ».

Αν τα «ψ» πατάνε ακριβώς πάνω στην γραμμή τότε η τιμή του «Προσαρμοσμένου R Τετραγώνου» όπως φαίνεται πάνω αριστερά στην εικόνα θα είναι 1, μονάδα. Αυτό σημαίνει 100% συσχέτιση.

Άλλη πρόταση που χρησιμοποιείται για την επεξήγηση της τιμής «Προσαρμοσμένου R Τετραγώνου» είναι ότι μας λέει πόσο τοις εκατό του «ψ» εξηγείται από το «χ».

Στο παράδειγμα μου μπορούμε να πούμε ότι τα «χ» μου, επεξηγούν το 72% χοντρικά του «ψ». Τα «χ» μου κατά σειρά είναι:

  1. Μέσος όρος τερμάτων υπέρ γηπεδούχου(H.G.F)
  2. Μέσος όρος τερμάτων κατά γηπεδούχου(H.G.A)
  3. Μέσος όρος τερμάτων υπέρ φιλοξενούμενου(A.G.F)
  4. Μέσος όρος τερμάτων κατά φιλοξενούμενου(A.G.A)

Επόμενη παρατήρηση είναι η τιμή της «Σημαντικότητας F». Δεν γνωρίζω παρά μόνο ότι πρέπει να είναι < του 0,05 και εδώ είναι ίση με το 0.

Επόμενη στάση είναι ότι όταν έτρεξα την παλινδρόμηση στο excel επέλεξα ο σταθερός όρος να είναι 0. Είναι ο συντελεστής της «Τεταγμένης επί της αρχής». Δεν γνωρίζω αν έχει συνέπειες στην ποιότητα των αποτελεσμάτων αυτή μου η επιλογή. Εδώ είναι που παρακαλώ για τα φώτα κάποιου πιο ειδικού.

Εν συνεχεία μας ενδιαφέρει οι τιμές P για τα «χ» μας να είναι και αυτά <0,05 και επίσης στο εύρος «Κατώτερο 95%-Υψηλότερο 95% να μην περιέχεται το 0. Δηλαδή δεν πρέπει το κατώτερο να έχει π.χ τιμή -0,5 και το υψηλότερο 1,2 διότι το 0 εμπεριέχεται (null hypothesis).

Με τα συγκεκριμένα αποτελέσματα μπορούμε να συνεχίσουμε πλέον με την διατύπωση της συνάρτησης μας:

Ψ=(0,582* H.G.F)+(0,413* H.G.A)+(0,385* A.G.F)+ (0,636* A.G.A).

Θυμίζω το «ψ» είναι το σύνολο τερμάτων που θα επιτευχθούν.

Αν επιστρέψω στο παράδειγμα των τιμών που έδωσα παραπάνω ότι η γηπεδούχος έχει 1,23 τέρματα υπέρ και 0,85 κατά ενώ η φιλοξενούμενη 1,56 και 1,24 αντίστοιχα η απάντηση είναι ότι βάσει της συνάρτησης που δημιουργήσαμε με την παλινδρόμηση έχουμε:

Ψ=(0,582* 1,23)+(0,413* 0,85)+(0,385* 1,56)+ (0,636* 1,24)=2,45

Τώρα μπορούμε να πάρουμε μια απόφαση. Και στο σημείο αυτό αφαιρώ το φράχτη του ορίου των 2,5 τερμάτων. Στον πραγματικό κόσμο του στοιχήματος προσωπικά θα επέλεγα να ποντάρω στο 2-3 τέρματα ή στο Under 3,5 ή στο over 2,0 και πάντα συναρτήσει των αποδόσεων.

Θεωρητικά η συνάρτηση μας προσφέρει περίπου 70% επαλήθευση στα εξαγόμενα αποτελέσματα της. Και για να δώσω ένα θεωρητικό πάλι ποσοτικό παράδειγμα, στις 100 φορές που θα δώσει 2,45 τέρματα στις 70 περίπου να επαληθευτεί. Φυσικά δεν εννοώ ότι στα 70 παιχνίδια θα σημειωθούν 2,45 τέρματα στην πραγματικότητα αλλά είναι δυνατόν τα 70 παιχνίδια να επαληθεύσουν το 2-3 τέρματα. Τώρα αν θα ήταν δυνατόν όλα αυτά τα 2-3 τέρματα να προσφέρονται σε απόδοση 1,50 θα βάζαμε και ένα 5% επί του τζίρου κέρδος στην τσέπη.

Έτσι λοιπόν εγώ δεν σου απαντώ τι θα το έπαιζα το παιχνίδι με τα εν λόγω στατιστικά. Σου απαντώ γιατί το ποντάρω όπως το ποντάρω.

Share.

About Author

Η επαφή του με το Στοίχημα ξεκίνησε δουλεύοντας ως υπάλληλος σε πρακτορείο του Ο.Π.Α.Π. Είχε την τύχη ο ιδιοκτήτης του πρακτορείου να είναι αρκετά ψαγμένος πάνω στην δουλειά του και συνδρομητής του περιοδικού «Τα Παιχνίδια της Τύχης» ,το οποίο και αποτέλεσε το πρώτο και καλύτερο «φροντιστήριο». Κατάλαβε βασικές έννοιες όπως τι είναι γκανιότα ,τι κρύβουν οι αποδόσεις , την ψυχολογική πίεση που ασκούν οι αποδόσεις και προσωπικά επέλεξε να δίνει σημασία στην συμπεριφορά των αποδόσεων μέσω στατιστικής ανάλυσης αυτών. Είναι δημιουργός και διαχειριστής του Oddstats.blogspot.com. Συνδεθείτε με τον Betako: Google+

  • Sotos

    Εφαρμογές που έχουν σχέση με machine learning μπορούν να το κάνουν πολύ καλά αυτό.Και μάλιστα να σου πουν επακριβώς, ποιά από τις 4 μεταβλητές στο παράδειγμά σου συνεισφέρει περισσότερο στο τελικό ψ ή και το αντίστροφο, ποιά δεν συνεισφέρει (ώστε να την απαλείψεις).

    • Bet Akos

      Σωστό αυτό. Να σημειώσω ότι από όσα στατιστικά έχω στη διάθεση μου η τετράδα των μέσων όρων των τερμάτων μου έδωσε το υψηλότερο ποσοστό r^2. Επίσης αν τυχαίνει κάποιοι να έχουν την εντύπωση ότι οι αποδόσεις σχετίζονται με το σύνολο των τερμάτων να ξέρουν ότι δεν υπήρξε δυνατή συσχέτιση. Με πρώτη ευκαιρία θα τρέξω τα δεδομένα για να παρατηρησω συσχέτιση μεταξύ απόδοσης νίκης για γηπεδούχο και φιλοξενούμενο και τον αριθμό τερμάτων που σημειώνει. Δηλαδή αν όσο πιο χαμηλός ο άσσος π.χ τόσο περισσότερα τέρματα θα πετύχει ο γηπεδούχος; που απο τωρα μπορώ να δηλωσω ότι δεν υπάρχει αξιόλογη συσχέτιση.

      • Sotos

        Αν δεν υπήρξε δυνατή συσχέτιση, πιθανό και να χρειάζεται να την απαλείψεις, υποθέτω.
        Επίσης θα ήθελα να συμπληρώσω ρωτώντας, αν έχεις κάνεις καθαρισμό των δεδομένων σου αφαιρώντας αυτά τα data που φαίνεται ότι είναι "εκτός ορίων".Πχ έστω ψάχνεις y=πελάτες καφενείου και x=εισόδημα το χρόνο.Αν έχεις για πελάτες καφενείου με εισόδημα από 0-15.000 και ξαφνικά εμφανιστεί ένας φραγκάτος με εισόδημα 1.000.000, σαφώς και θα τον αφαιρέσεις γιατί σου χαλάει το μοντέλο.Είναι extreme value ή outlier όπως λέγεται.
        Συνεχίστε την καλή δουλειά που κάνετε.

        • Bet Akos

          Σωστή και αυτή η επισήμανση. Να σου πω την αλήθεια δεν έκανα τέτοιο καθαρισμό διότι δεν υπήρξε κατι αντίστοιχο σε αναλογία με το παράδειγμα σου δηλαδή ακραίες τιμές. Το σκεπτικό μου γενικά είναι να δοκιμάζω στατιστικά δεδομένα σε παλινδρομήσεις με την ελπίδα να ανακαλυψω δυνατές συσχετίσεις που να αποτελούν την βάση του στοιχηματισμου μου. Έχω καταλάβει εμπειρικά αλλα και κατόπιν αναγνωσεων άρθρων ότι οι 4-5 βασικοί δείκτες που λαμβάνει υπόψιν του ο μέσος παίχτης έχουν χαμηλή συσχέτιση με το τελικό αποτέλεσμα. Μιλάω για τη βαθμολογία την φόρμα την προϊστορία τις απουσίες. Ειλικρινά πιο πολύ βαρύτητα έχει η κατάσταση του αγωνιστικού χώρου οι διαστάσεις του και ο καιρός. Η ιδεα να χρησιμοποιήσω τους μέσους όρους τερματων προήλθε απο την σκέψη ότι κρύβεται και κάτι ποιοτικο πίσω απο το αριθμητικό σκέλος. Η αλήθεια είναι ότι δεν περίμενα να δω τέτοια συσχέτιση γενικά.

          • Sotos

            Από τη στιγμή που υπάρχει συσχέτιση, μην ανησυχείς.Και το καλό είναι ότι αυτό είναι μαθηματικά μετρήσιμο και δε βγαίνει από το μυαλό σου.Απλά δες το στη διάρκεια του χρόνου πώς εξελίσσεται.

            https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation

            Πάντως κάνε και ένα τεστ για extreme values.Είναι αλγόριθμος που εκτελείται και τις βρίσκει αυτόματα, δε χρειάζεται να κάνεις κάτι με το χέρι (ή να ψάχνεις με το μάτι...).Είναι πιθανό να βελτιώσεις το μοντέλο σου.

            Πάντως, μπράβο για το ότι το ψάχνεις και πέρα από τα προφανή.Και thanks για την πολύ εποικοδομητική συζήτηση.

          • stat

            Βρήκα το συγκεκριμένο άρθρο τυχαία σε μια αναζήτηση στο ίντερνετ και αποφάσισα να απαντήσω μιας και είμαι στατιστικός.
            Με όλο τον σεβασμό προς τον συγγραφέα,παλινδρόμιση δεν μπορείς να τρέξεις με tutorial στο youtube.Δεν είναι μαγειρική συνταγή για να την εφαρμόσεις στο περίπου.Χρειάζεται θεωρητικό μαθηματικό υπόβαθρο.Θα εστιάσω στο αποτέλεσμα

            -Η μέθοδος της παλινδρόμισης προυποθέτει συνεχή τυχαία μεταβητή Υ και εδώ είναι διακτιτή(αριθμός των γκολ=0,1,2,3,..)
            Οπότε σαν μεθοδολογία θα ταίριαζε ένα γενικευμένο μοντέλο λογιστικής παλινδρόμισης με κατανομή poisson δηλ log-linear.Ουσιαστικά μετασχηματίζεις την Y.
            -Ακόμα και αν αυτό δεν ίσχυε,το μοντέλο της παλινδρόμισης στηρίζεται σε κάποιες προυποθέσεις για τις μεταβλτές(κανονικότητα,ετεροσκεδαστικότητα,γραμμικότητα) οι οποίες δεν ελέγχθηκαν
            -Επίσης όλοι οι συντελεστές του μοντέλου δεν ξέρεις αν χρειάζονται(είναι στατιστικά σημαντικοι),και πρέπει να ελεγχθεί
            -Τέλος στο μοντέλο δεν περιέχεται αλληλεπίδραση παραγόντων όπως πως συσχετίζονται τα γκολ των φιλοφενουμένων με των γηπεδούχων,όπως επίσης και άλλους παράγοντες όπως το πρωτάθλημα,η δυναμικότητα της ομάδας κλπ.
            Συμπερασματικά,η ανάλυση ήταν φιλόδοξη ,όμως λανθασμένη μεθοδολογικά και επικίνδυνη για συμπεράσματα

          • Συμφωνώ ότι χρειάζεται κάποια συγκεκριμένη μεθοδολογία ανάλογα του τι θες να κάνεις.

            Βέβαια, στο συγκεκριμένο άρθρο είναι φανερό και αναφέρεται ρητά ότι είναι μια απλή προσπάθεια και όχι σεμινάριο στατιστικής.

            Η δική μου προτροπή προς όποιον γνωρίζει είναι, είτε να γράψει ένα δικό του άρθρο με την μεθοδολογία που ακολουθεί, είτε να δώσει κάποιες κατευθύνσεις για περαιτέρω μελέτη.

            Αλλιώς, πρέπει να διαβάσουμε 2-3 κιλά βιβλία οικονομετρίας.

          • Bet Akos

            Ευχαριστώ για τα φώτα σου. Ελπίζω μετά απο ψάξιμο να καταλάβω τα σημεία που αναφέρεις αν και θα μου είναι δύσκολο. Κρατάμε την τελική σου φράση περί επικινδυνότητας και "παγώνουμε" την προσπάθεια.

  • Efthimis

    Ψ=(0,582* H.G.F)+(0,413* H.G.A)+(0,385* A.G.F)+ (0,636* A.G.A).
    Πως έχουν προκύψει οι παραπάνω τιμές;

    • Sotos

      Ψάξε στο google για "fit line to data excel" και δες κάποια βίντεο σχετικά με αυτό.Στην ουσία τι γίνεται : Για κάθε μεταβλητή x1,x2,...xn πρέπει να βρούμε τους συντελεστές τους οι οποίοι θα ελαχιστοποιούν αυτή την ποσότητα που είναι το τετράγωνο της διαφοράς από το πραγματικό αποτέλεσμα.Το excel όπως και άλλα εργαλεία, κάνει αυτή τη δουλειά.Του δίνεις τα δεδομένα και προσπαθεί να βρεί την καλύτερη γραμμή η οποία όσο το δυνατό να απέχει το λιγότερο από την πραγματική τιμή.
      Εδώ είναι δύσκολο το παράδειγμα, καθώς δουλεύει στις 4 διαστάσεις (4 μεταβλητές).Ψάξε να βρεις παραδείγματα με ένα μόνο x που είναι ευκολότερο να αντιληφθείς τι παίζει.

  • Dimitris

    Καλησπέρα και πάλι Jim Mako. Μια ερώτηση ήθελα να σου κάνω και αν βρεις την ευκαιρία μου απαντάς.
    Γνωρίζεις κάποιο-α site του εξωτερικού που μπορώ να διαβάζω καθημερινά της εξελίξεις στις ομάδες? Πχ μεταγραφές, πάρε δώσε κλπ, φιλικά κ.α.? Ένα ίδιο αθλητικού περιεχομένου site όπως τα δεκάδες δικά μας θέλω να βρω, που να είναι στα αγγλικά εννοείται. Συγκεκριμένα θέλω να διαβάζω για Γερμανία και Ιταλία.
    Γνωρίζεις κάποιο?
    Χίλια ευχαριστώ εκ των προτέρων.

    • Καθώς δεν παρακολουθώ τις ειδήσεις και τις εξελίξεις που αναφέρεις ούτε καν στα ελληνικά, δυστυχώς δεν έχω κάποιο συγκεκριμένο υπόψη μου. Και υποθέτω ότι δεν ψάχνεις κάποιο από τα mainstream αθλητικο-ειδησεογραφικά sites.

  • Stelios

    Αγαπητέ Betaco
    Οι τιμές των συντελεστών που αναφέρεις στο παραπάνω άρθρο, δεν συμπεριλαμβάνονται στην εικόνα "έξοδος συμπεράσματος". Πως προκύπτουν αυτές οι τιμές ?

    • Bet Akos

      Χαίρεται σε όλους οι τιμές των συντελεστών υπολογίζονται αυτόματα απο το excel. Στην φωτο δεν φαίνεται.

      • Stelios

        Καλησπέρα και πάλι.
        Με δεδομένο ότι ο συντελεστής προσδιορισμού R τετράγωνο ανέρχεται στο 72%, σημαίνει ότι στα 100 παιχνίδια που θα εκτιμηθούν οι 72 εκτιμήσεις θα είναι ίδιες με τις πραγματικές. Στηριζόμενος σ αυτό έτρεξα για τη χρονιά 2011-2012 τα ματς που έγινε χρησιμοποιώντας τους συντελεστές που αναφέρεις στην εξίσωση. Ξεκίνησα από την 7η αγωνιστική και σταμάτησα στην 34η. Άρα με συντελεστή 72% από τα 336 ματς που εκτιμήθηκαν θα έπρεπε τα 241 να δώσουν ακριβώς το ίδιο αποτέλεσμα με το πραγματικό. Ωστόσο μόλις το 26% δηλαδή 87 εκτιμήσεις έπεσαν μέσα. Άρα μήπως δεν θα πρέπει ο σταθερός όρος να πάρει την τιμή 0. Εδώ θα μας χρειαστεί η βοήθεια κάποιου ειδικού. Στην περίπτωση που δεν μπει ο σταθερός όρος 0, τότε ο συντελεστής προσδιορισμού βυθίζεται στο 3% που σημαίνει απολύτως καμιά συσχέτιση τψν δεδομένων..

        • Bet Akos

          Πολύ σωστό και το αναφέρω στο άρθρο μου για να έχουμε σταθερή βάση στη συζήτηση και για αυτό ζήτησα την συνδρομή κάποιου με σπουδές στη στατιστική να μας δώσει τα φώτα του. Αν τελικά η χρήση του σταθερού όρου ίσο με μηδέν στην ουσία μας αποπροσανατολίζει απο την πραγματικότητα τότε το κέρδος μας θα είναι ότι οι μέσοι όροι τερμάτων δεν μας προσφέρουν κάτι ουσιώδης όσον αφορά πρόβλεψη αποτελέσματος.για τα πάντα υπάρχουν τουλάχιστον δυο τρόποι να φτάσεις σε αποτέλεσμα. Προσωπικά ή κάποια στιγμή θα πετύχουμε ποια στατιστικά έχουν καλή συσχέτιση με το τελικό αποτέλεσμα ή θα αφαιρούμε ένα προς ένα αυτά που δεν...

  • Nick91

    Καλησπέρα και συγχαρητήρια για μία ακόμη φορά!
    Εδώ και 2 μέρες προσπαθώ να καταλάβω τις 4 μεταβλητές της εξίσωσης έχοντας δει ήδη αρκετά βίντεο σχετικά με το fit line αλλά άκρη δεν μπορώ ακόμη να βρω.
    Θα ήθελα αν μπορεί κάποιος φυσικά να με παροτρύνει στο να παρακολουθήσω κάποια βίντεο που ίσως γνωρίζει σχετικά με το πως βγαίνουν τα best fit line προκειμένου να φτιάξω ολοκληρωμένη την εξίσωση.

  • Αντώνης

    Καλησπέρα, σαν άτομο που είχε πρόσφατα μάθημα οικονομετρίας στο πανεπιστήμιο θα δώσω και εγώ τα φώτα μου.

    Τις παλινδρομήσεις τις τρέχουμε σχεδόν πάντα με σταθερό όρο "a", διότι υπολογίζονται καλύτερα οι υπόλοιποι εκτιμητές και υπάρχει ευρέως αποδεκτός τρόπος υπολογισμού του R τετράγωνο. Είναι κάτι σαν γενικός κανόνας.

    Για να εξάγουμε ασφαλή συμπεράσματα από τις παλινδρομήσεις πρέπει να συντρέχουν ορισμένες προϋποθέσεις, γνωστές ως υποθέσεις Gauss-Markov.

    Από τις σημαντικότερες προϋποθέσεις που πρέπει να ισχύει είναι αυτή τις ανεξαρτησίας των λαθών (residuals) με τις ερμηνευτικές μεταβλητές "X". Τα λάθη είναι αυτό το 30% που δεν ερμηνεύεται από το μοντέλο μας. Δηλαδή, τα residuals είναι παράγοντες που δεν τους έχουμε εισάγει στο μοντέλο μας αλλά ΕΠΗΡΕΑΖΟΥΝ το αποτέλεσμα, και μπορεί να είναι ο καιρός, το πόσο σημαντικό είναι το ματσ, οι απώλειες και άλλα. Δεν είναι σίγουρος εάν ισχύει αυτή η υπόθεση, και σε περίπτωση που δεν ισχύει , δεν ξέρω σε πόσο βαθμό επηρεάζει τους εκτιμητές.

    Επίσης, αυτό που προβλέπει το μοντέλο είναι ο μέσος όρος των τερμάτων που θα προκύψουν σε έναν αγώνα με δεδομένα τα H.G.F , H.G.A , A.G.A , A.G.F. Δεν ξέρω πόσο χρήσιμο θα ήταν αυτό, δεδομένου ότι δεν κοιτάς την διακύμανση του μέσου όρου και δεύτερον δεν υπάρχει εμφανής τρόπος συσχέτισης του αποτελέσματος με την απόδοση που δίνει η στοιχηματική.

    Επίσης, το R τετράγωνο δεν δείχνει το πόσο καλό είναι το μοντέλο μας. Ένα μοντέλο με R τετράγωνο πολύ χαμηλό μπορεί να είναι πολύ χρήσιμο και να φανερώνει υπαρκτές σχέσεις.

    Αυτό που είναι πιο σημαντικό είναι πόσο στατιστικά σημαντικός είναι ο εκτιμητής ( P-value ή Probability Value) και εάν υπάρχει Ετεροσκεδαστικότητα.

    Καλοπροαίρετα θα πω σαν συμπέρασμα πως δεν νομίζω πως το μοντέλο βοηθάει στην εξαγωγή ορθών αποφάσεων.