11 Άρθρα μηχανικής μάθησης |Analytics Vidhya 2017

11 Άρθρα μηχανικής μάθησης |Analytics Vidhya 2017

September 30, 2022 0 Von admin

Εισαγωγή

Η επόμενη ανάρτηση στο τέλος του έτους 2017 στη λίστα μας με τα καλύτερα επιμελημένα άρθρα για – «Μηχανική Εκμάθηση». Αυτά τα επιμελημένα άρθρα θα είναι μια ενιαία λύση για άτομα που ξεκινούν με τη Μηχανική Εκμάθηση ή που το έχουν ήδη. Αυτό το άρθρο περιέχει όλα τα καλύτερα άρθρα του 2017 που συγκέντρωσαν το ενδιαφέρον της κοινότητας Machine Learning.

Παρόμοια με το προηγούμενο άρθρο σχετικά με -«Καλύτερα άρθρα βαθιάς μάθησης το 2017», έχω προσθέσει το χρησιμοποιημένο εργαλείο και το επίπεδο δυσκολίας για κάθε άρθρο για να σας διευκολύνω στην επιλογή. Εάν θέλετε να συμπεριλάβετε οποιονδήποτε άλλο εκπαιδευτικό πόρο/άρθρο εδώ, παρακαλούμε να τους αναφέρετε στα σχόλια.

Τα κορυφαία 11 άρθρα Machine Learning από το Analytics Vidhya το 2017

Απόλυτος οδηγός για την κατανόηση και την εφαρμογή της επεξεργασίας φυσικής γλώσσας (με κωδικούς σε Python)

Ένας μεγάλος αριθμός μη δομημένων δεδομένων που υπάρχουν σήμερα είναι υπό μορφή κειμένου, για παράδειγμα: ιατρικά έγγραφα, νομικές συμφωνίες, tweets, ιστολόγια, εφημερίδες, μετατροπές συνομιλιών κ.λπ. Αυτές οι πληροφορίες κειμένου αποτελούν την αποθήκη νέων καινοτόμων προϊόντων που μπορούν να φέρουν επανάσταση στον τρόπο με τον οποίο κάνουμε αλληλεπιδρούμε με την τεχνολογία και ζούμε τη ζωή μας. Μερικά από τα παραδείγματα είναι:

  1. Ένα αυτοματοποιημένο σύστημα που μπορεί να περάσει από τα ιατρικά σας αρχεία για να σας προτείνει ποιο είδος τροφής πρέπει να αποφεύγετε.
  2. Ένα αυτοματοποιημένο σύστημα που μπορεί να περάσει από ένα νομικό έγγραφο για να ελέγξει την εγκυρότητά του.
  3. Ένα chatbot που μπορεί να σας βοηθήσει να αγοράσετε είδη παντοπωλείου και να κάνετε κράτηση ταξί απλά πληκτρολογώντας μέσω τηλεφώνου.

Αυτή είναι μόνο η κορυφή του παγόβουνου για το τι είναι δυνατό εάν γίνει εκμετάλλευση της Φυσικής Γλώσσας.

Αυτό το άρθρο εξηγεί τις βασικές έννοιες πίσω από την Επεξεργασία Φυσικής Γλώσσας όπως η Επεξεργασία Κειμένου, η Εξαγωγή Δυνατοτήτων από κείμενο κ.λπ. μαζί με τους κώδικες τους στην Python.

Αυτό είναι ένα άρθρο που πρέπει να διαβάσει κάποιος που ξεκινάει στον τομέα της Επεξεργασίας Φυσικής Γλώσσας.

Εργαλείο: Python

Επίπεδο: Αρχάριος

Εισαγωγή στον αλγόριθμο κλίσης καθόδου (μαζί με παραλλαγές) στη Μηχανική Μάθηση

Η Μηχανική Μάθηση είναι μαζί μας εδώ και πολύ καιρό, αλλά ανέβασε ρυθμό περίπου μια δεκαετία πριν, εν μέρει χάρη στις εξελίξεις στο υλικό και εν μέρει στους Αλγόριθμους.

Αυτό το άρθρο αφορά έναν τέτοιο Αλγόριθμο ο οποίος είναι εξαιρετικά δημοφιλής στον τομέα της Μηχανικής Μάθησης – Διαβάθμισης. Αυτό το άρθρο εξηγεί λεπτομερώς τον τρόπο λειτουργίας του Gradient Descent, τα προβλήματα στο αρχικό Gradient Descent και τις παραλλαγές του Gradient Descent για την αντιμετώπιση του προβλήματος μαζί με την υλοποίηση.

Επίπεδο: Μέσο

Ένας ολοκληρωμένος οδηγός για αρχάριους για Γραμμική, Κορυφογραμμή και Παλινδρόμηση Λάσο

Ένας διευθυντής λειτουργιών που εργάζεται σε μια αλυσίδα σούπερ μάρκετ στην Ινδία γνωρίζει την ποσότητα προετοιμασίας που χρειάζεται να κάνει η αλυσίδα καταστημάτων πριν ξεκινήσει η εορταστική περίοδος της Ινδίας (Diwali). Εναπόκειται σε αυτούς να εκτιμήσουν/προβλέψουν ποιο προϊόν θα πουλήσει σαν κέικ και ποιο όχι πριν από την αγορά. Μια κακή απόφαση μπορεί να αφήσει τους πελάτες σας να αναζητήσουν προσφορές και προϊόντα στα καταστήματα ανταγωνιστών. Η πρόκληση δεν τελειώνει εκεί – πρέπει επίσης να εκτιμήσει τις πωλήσεις προϊόντων σε μια σειρά διαφορετικών κατηγοριών για καταστήματα σε διάφορες τοποθεσίες και με καταναλωτές που έχουν διαφορετικές τεχνικές κατανάλωσης. Αυτό το άρθρο σας λέει όλα όσα πρέπει να γνωρίζετε για τα μοντέλα παλινδρόμησης και πώς μπορούν να χρησιμοποιηθούν για την επίλυση προβλημάτων πρόβλεψης όπως αυτό που αναφέρθηκε παραπάνω.

Εργαλεία: Python
Επίπεδο: Μέσο

Η επεξεργασία φυσικής γλώσσας έγινε εύκολη – χρησιμοποιώντας το SpaCy (σε Python)

Υπάρχουν πολλές βιβλιοθήκες στον κλάδο που παρέχουν μεθόδους για την εκμετάλλευση των δεδομένων κειμένου για να βγάλουν νόημα από αυτά. Μερικά από τα παραδείγματα είναι όπως το Stanford CoreNLP, το NLTK κ.λπ. και η Python ήταν η καλύτερη επιλογή για εργασία με δεδομένα κειμένου.

Αλλά αυτές οι βιβλιοθήκες στερούνται υπό την έννοια ότι είναι ογκώδεις και με υπερβολικά μεγάλο κόστος όπως το NLTK που κατεβάζει χιλιάδες και χιλιάδες αρχεία για την εκτέλεση οποιασδήποτε εργασίας NLP.

Εδώ έρχεται το SpaCy – μια βιομηχανική βιβλιοθήκη υπερταχείας NLP που μπορεί να εκτελέσει σχεδόν όλες τις εργασίες NLP με το αεράκι. Αυτό το άρθρο σάς ενημερώνει για τη σύνταξη του SpaCy και σας διδάσκει να εκτελείτε μερικές πολύ κοινές εργασίες NLP όπως PoS tagging, NER κ.λπ. με ελάχιστες γραμμές κώδικα. Το άρθρο εισάγει επίσης την έννοια των διανυσμάτων του Word, τα οποία είναι επί του παρόντος η τελευταία λέξη της τεχνολογίας σε χαρακτηριστικά που εξάγονται από το κείμενο.

Εργαλεία: Python

Επίπεδο: Μέσο

Πώς να δημιουργήσετε μοντέλα συνόλου στη μηχανική εκμάθηση; (με κωδικό σε R)

Εάν είστε ενεργός συμμετέχων στους Διαγωνισμούς Επιστήμης Δεδομένων ή μόλις ξεκινήσατε να συμμετέχετε στους διαγωνισμούς και έχετε περάσει από τις λύσεις των νικητών, θα παρατηρήσετε ότι οι περισσότεροι από αυτούς χρησιμοποιούν ένα μείγμα διαφορετικών μοντέλων για να εξαγάγουν την τελευταία σταγόνα απόδοσης από τα μοντέλα.

Αυτό το μείγμα μοντέλων ονομάζεται – Ensemble Learning, όπου συνδυάζετε τις γνώσεις διαφορετικών μοντέλων για να δημιουργήσετε ένα μοντέλο που μαθαίνετε καλύτερα. Σε αυτό το άρθρο, θα μάθετε για τις διαφορετικές τεχνικές Ensembling μαζί με το πώς μπορείτε να τις κωδικοποιήσετε σε R για να αυξήσετε τους Διαγωνισμούς Επιστήμης Δεδομένων σας.

Εργαλεία: R

Επίπεδο: Μέσο

Ποιος αλγόριθμος παίρνει την κορώνα: Light GBM vs XGBOOST;

Για τα ενεργά μέλη των Διαγωνισμών Επιστήμης Δεδομένων, ο XGBOOST έγινε σχεδόν ο αλγόριθμος για την απόδοση και τη νίκη στους διαγωνισμούς. Έχει το καλύτερο τόσο από τα μηχανήματα ενίσχυσης όσο και από τις κανονικές μεθόδους.

Αλλά πάσχει από ένα πρόβλημα: Δεδομένου ενός τεράστιου όγκου δεδομένων, χρειάζεται πολύς χρόνος για να προπονηθεί. Εδώ μπαίνει το LightGBM.

Αυτό το άρθρο εξηγεί σχετικά με το LightGBM και το συγκρίνει με το XGBOOST όσον αφορά την απόδοση και την ταχύτητα. Αυτό το άρθρο είναι απαραίτητο για άτομα που θέλουν να μειώσουν τον χρόνο προπόνησής τους στον διαγωνισμό χωρίς να χάσουν την απόδοση του μοντέλου.

Εργαλείο: Python

Επίπεδο: Ειδικός

Οδηγός για την ανάπτυξη μοντέλων μηχανικής εκμάθησης στην παραγωγή ως API (χρησιμοποιώντας το Flask)

Εμείς ως επιστήμονες δεδομένων και μηχανικοί μηχανικής μάθησης αφιερώνουμε πολύ χρόνο προσπαθώντας να βρούμε το μοντέλο με την καλύτερη απόδοση για την επίλυση ενός προβλήματος και τις περισσότερες φορές πετυχαίνουμε. Αλλά όλες αυτές οι επενδύσεις χρόνου και μυαλού θα γίνουν άχρηστες αν δεν βάλετε το μοντέλο στην πραγματική ζωή.

Για παράδειγμα, ένας αλγόριθμος που μπορεί να ανιχνεύσει καταρράκτη απλώς κοιτάζοντας μια φωτογραφία είναι άχρηστος εάν ο τελικός χρήστης ή το άτομο με καταρράκτη δεν μπορεί να εισαγάγει την εικόνα στο μοντέλο. Άλλωστε, τα μοντέλα δημιουργούνται για να λύσουν ένα πρόβλημα. Η λειτουργία ενός μοντέλου δεν θα πρέπει να αποτελεί πρόβλημα για έναν τελικό πελάτη.

Εδώ μπαίνει αυτό το άρθρο. Αυτό το άρθρο εξηγεί πώς μπορείτε να αναπτύξετε ένα μοντέλο μηχανικής εκμάθησης και να το χρησιμοποιήσετε για την επίλυση προβλημάτων.

Εργαλεία: Python

Επίπεδο: Ειδικός

Ολοκληρωμένο σεμινάριο για να μάθετε την επιστήμη των δεδομένων με την Τζούλια από το μηδέν

Υπάρχει ένα απόσπασμα για την Τζούλια που λέει – «Περπατάει σαν πύθωνας. Τρέχει σαν C.“

Η παραπάνω γραμμή λέει πολλά για το γιατί δημιουργούνται κυματισμοί στον χώρο των αριθμητικών υπολογιστών, παρόλο που ήταν στα αρχικά του στάδια. Η Julia είναι ένα έργο απευθείας από το MIT, μια γλώσσα υψηλού επιπέδου που έχει σύνταξη τόσο φιλική όσο η Python και απόδοση τόσο ανταγωνιστική όσο η C. Δεν είναι μόνο αυτό, παρέχει έναν εξελιγμένο μεταγλωττιστή, κατανεμημένη παράλληλη εκτέλεση, αριθμητική ακρίβεια και εκτενή βιβλιοθήκη μαθηματικών συναρτήσεων.

Αυτό το άρθρο αφορά το πώς μπορείτε να το χρησιμοποιήσετε στη ροή εργασίας σας ως επιστήμονας δεδομένων χωρίς να περνάτε ώρες σύγχυσης που συνήθως έρχεται όταν συναντάμε μια νέα γλώσσα.

Εργαλείο: Τζούλια

Επίπεδο: Αρχάριος

CatBoost: Μια βιβλιοθήκη μηχανικής εκμάθησης για αυτόματη διαχείριση κατηγορικών δεδομένων (CAT).

Έχετε δει παρακάτω σφάλμα κατά τη δημιουργία των μοντέλων μηχανικής εκμάθησης χρησιμοποιώντας το „sklearn“ – τουλάχιστον τις πρώτες ημέρες.

Αυτό το σφάλμα παρουσιάζεται όταν έχουμε να κάνουμε με μεταβλητές κατηγοριών (string). Στο „sklearn“, απαιτείται να μετατρέψετε αυτές τις κατηγορίες σε αριθμητική μορφή.

Για να πραγματοποιήσουμε αυτήν τη μετατροπή, χρησιμοποιούμε διάφορες μεθόδους προεπεξεργασίας, όπως „κωδικοποίηση ετικετών“, „ένα hot encoding“ και άλλες.

Αυτό το άρθρο εξετάζει μια πρόσφατα ανοιχτού κώδικα βιβλιοθήκη „CatBoost“ που αναπτύχθηκε και συνεισφέρθηκε από την Yandex. Όπως είπε ο Mikhail Bilenko, επικεφαλής μηχανικής νοημοσύνης και έρευνας της Yandex, «Αυτή είναι η πρώτη ρωσική τεχνολογία μηχανικής εκμάθησης που είναι ανοιχτού κώδικα”! Αρκετά ενδιαφέρον σωστά;
Εργαλείο – Pyhton

Επίπεδο – Μέσο

Επίλυση προβλημάτων ταξινόμησης πολλαπλών ετικετών (περιλαμβάνονται μελέτες περίπτωσης)

Αν λάβουμε υπόψη την παρακάτω εικόνα – περιέχει αυτή η εικόνα ένα σπίτι; Η επιλογή θα είναι ΝΑΙ ή ΟΧΙ.

Σκεφτείτε μια άλλη περίπτωση, όπως τι σχετίζονται όλα τα πράγματα (ή οι ετικέτες) με αυτήν την εικόνα;

Αυτοί οι τύποι προβλημάτων, όπου έχουμε ένα σύνολο μεταβλητών στόχου, είναι γνωστά ως ταξινόμηση πολλαπλών ετικετών προβλήματα. Αυτό το άρθρο εξηγεί λεπτομερώς τι συνεπάγεται αυτό το πρόβλημα και πώς να το αντιμετωπίσετε με τη μορφή περιπτωσιολογικών μελετών

Εργαλείο: Python
Επίπεδο: Ειδικός

Εκμάθηση για την Αυτοματοποιημένη Μηχανική Εκμάθηση με χρήση MLBox

Μόλις κυκλοφόρησε η βιβλιοθήκη στο GitHub, πολλοί επιστήμονες δεδομένων ήταν εξαιρετικά ενθουσιασμένοι να τη δοκιμάσουν. Σε αυτό το άρθρο, μιλήσαμε για μια αυτοματοποιημένη βιβλιοθήκη μηχανικής εκμάθησης „MLBox“.

Το MLBox είναι μια ισχυρή βιβλιοθήκη Python Automated Machine Learning. Παρέχει τα ακόλουθα χαρακτηριστικά:

  • Γρήγορη ανάγνωση και κατανεμημένη προεπεξεργασία/καθαρισμός/μορφοποίηση δεδομένων
  • Ιδιαίτερα στιβαρή επιλογή χαρακτηριστικών και ανίχνευση διαρροών
  • Ακριβής βελτιστοποίηση υπερπαραμέτρων σε χώρο υψηλών διαστάσεων
  • Μοντέλα πρόβλεψης τελευταίας τεχνολογίας για ταξινόμηση και παλινδρόμηση (Deep Learning, Stacking, LightGBM,…)
  • Πρόβλεψη με ερμηνεία μοντέλων

Η βιβλιοθήκη αυτοματοποιεί την ίδια τη μηχανική εκμάθηση και τη διαδικασία μηχανικής χαρακτηριστικών. Απλώς για να σας δώσω ένα παράδειγμα, με μόλις 8 γραμμές κώδικα – ο δημιουργός της βιβλιοθήκης μπήκε στο κορυφαίο 1% των hackathon της επιστήμης δεδομένων. Αυτό το άρθρο σας παρέχει πρακτική εξάσκηση στη βιβλιοθήκη MLBox.

Εργαλείο: Python

Επίπεδο: Ειδικός

Σημειώσεις τέλους

Ελπίζω να βρήκατε χρήσιμους τους πόρους. Η Μηχανική Μάθηση είναι ήδη χρήσιμη για την επίλυση πολλών προβλημάτων σε διαφορετικούς τομείς. Ελπίζω ότι ήμασταν χρήσιμοι στο ταξίδι σας για μάθηση φέτος και υποσχόμαστε να το κάνουμε και την επόμενη χρονιά.

Η οικογένεια Analytics Vidhya σας εύχεται καλά Χριστούγεννα και πολύ ευτυχισμένο το νέο έτος. Είθε η νέα χρονιά να φέρει τα καλύτερα για εσάς υγεία, πλούτο και γνώση. Εν τω μεταξύ, εάν έχετε οποιεσδήποτε προτάσεις / σχόλια, μοιραστείτε τις μαζί μας. Εάν έχετε οποιεσδήποτε ερωτήσεις, μη διστάσετε να αφήσετε τα σχόλιά σας παρακάτω.

Μαθαίνω, αρραβωνιάζω χακάρισμα και προσλάβου!