ΜΙΑ ΔΡΑΣΗ ΑΠΟ

Δεδομένα για την ΤΝ

Αγωγός για την επεξεργασία κειμένων και τη μετατροπή τους σε έτοιμα προς χρήση σύνολα δεδομένων για εκπαίδευση Μεγάλων Γλωσσικών Μοντέλων.

Χρονολόγιο Δεδομένων

Παρακολούθηση της εξέλιξης των δεδομένων μας και της συνολικής πρόσληψης tokens

Όλα τα σύνολα δεδομένων διατίθενται με άδειες Creative Commons

ΑΠΡ 2026

eellak-articles

25.10MB

8.5M Tokens

ΑΠΡ 2026

opengov-deliberations-v2

357.71MB

111.4M Tokens

ΑΠΡ 2026

e-nautilia

4.61MB

2.7M Tokens

ΑΠΡ 2026

artos-zois

12.20MB

4.0M Tokens

ΑΠΡ 2026

amna-press

1.48GB

158.2M Tokens

ΑΠΡ 2026

ert-press

36.4MB

9.8M Tokens

ΜΑΡ 2026

modern-greek-dictionary

33MB

4.9M Tokens

ΜΑΡ 2026

istorima

416.02MB

138.9M Tokens

ΙΑΝ 2026

openbook.gr

251.63MB

133M Tokens

ΙΑΝ 2026

Greek PhD Theses Corpus

7.06GB

5.34B Tokens

ΙΟΥΝ 2025

eurlex-greek-legislation

2.21GB

604M Tokens

ΑΠΡ 2025

ellinika_dedomena_europaikou_koinovouliou

1.09GB

273M Tokens

ΑΠΡ 2025

Apothetirio_Kallipos

572MB

196M Tokens

ΜΑΡ 2025

Apothetirio_Pergamos

2.25GB

839M Tokens

ΙΑΝ 2025

1000_prwta_xronia_ellhnikhs

104MB

33M Tokens

ΙΑΝ 2025

Ekklisiastika_Keimena

16.7MB

6.5M Tokens

ΔΕΚ 2024

Wikisource_Greek_texts

116.3MB

38M Tokens

ΔΕΚ 2024

klasikh_arx_ell_grammateia

63.8MB

20.4M Tokens

ΔΕΚ 2024

Sxolika_vivlia

31.0MB

10.1M Tokens

ΝΟΕ 2024

Ellinika_Keimena_Project_Gutenberg

38.9MB

12.3M Tokens

ΝΟΕ 2024

95k_deigma_ellinikis

28.3MB

2.94M Tokens

ΝΟΕ 2024

dimodis_logotexnia

384KB

0.1M Tokens

Διάγραμμα Ανάπτυξης

Αθροιστικός Όγκος Tokens

7.952.178.676

ΣΥΝΟΛΟ TOKENS

Έχουμε μια ολόκληρη ομάδα αφοσιωμένη σε αυτό το έργο

Θέλεις να συνεργαστείς ή να συμμετέχεις; Αγαπάμε τις συνεργασίες και τους νέους συνεισφέροντες.

Έλα σε επαφή

Καθηγ. Πέτρος Στεφανέας

Scientific Advisor

Ο Πέτρος είναι επιστημονικά υπεύθυνος για το GlossAPI, καθοδηγώντας την ανάπτυξη έγκυρου και αξιόπιστου εκπαιδευτικού υλικού για συστήματα NLP. Η ηγεσία του διασφαλίζει ότι το GlossAPI όχι μόνο επεξεργάζεται ελληνικό κείμενο με τεχνική ακρίβεια, αλλά προάγει επίσης τη σαφήνεια, την αξιοπιστία και την ηθική ακεραιότητα.

Φοίβος Καρούνος

Software Engineer

O Φοίβος Καρούνος έχει σπουδάσει Πληροφορική και Ψυχολογία και ενδιαφέρεται για την ανάπτυξη του τεχνολογικού οικοσυστήματος στην Ελλάδα. Έχει αναλάβει διάφορους ρόλους σχετικούς με την επιχειρηματική στρατηγική, την πρόβλεψη απόδοσης κρυπτονομισμάτων και την έρευνα στην επιστημολογία. Ο ρόλος του στην ομάδα του glossAPI είναι αυτός του Lead Software Engineer (πρώην Chief Vibe Coder).

Μυρσίνη Ιωάννου

Software Engineer

Η Μυρσίνη Ιωάννου σπούδασε Εφαρμοσμένα Μαθηματικά και Φυσικές Επιστήμες στο ΕΜΠ και κατέχει μεταπτυχιακό στον Υπολογιστικό Σχεδιασμό Ήχου και Μουσικής. Εντάχθηκε στην ομάδα του glossAPI τον Μάρτιο του 2025 ως Προγραμματιστής, εστιάζοντας σε τεχνολογίες NLP.

Νίκος Τσέκος

Software Engineer

Ο Νίκος Τσέκος είναι προπτυχιακός φοιτητής Μηχανικών Υπολογιστών και Προγραμματιστής με εστίαση σε εφαρμογές μηχανικής μάθησης. Εργάζεται με τον Οργανισμό Ανοιχτών Τεχνολογιών (ΕΕΛΛΑΚ) στην ομάδα GlossAPI, συνεισφέροντας σε αγωγούς δεδομένων και ροές εργασίας εφαρμοσμένης ML.

Δημήτρης Αθανασόπουλος

Software Engineer

Ο Δημήτριος Αθανασόπουλος είναι προπτυχιακός φοιτητής Μηχανικών Πληροφορικής και Υπολογιστών και εντάχθηκε στην ομάδα του glossAPI μέσω του Google Summer of Code 2025, όπου συνεισέφερε στην επέκταση του pipeline και την εξαγωγή νέων δεδομένων, έργο στο οποίο συνεχίζει να συμβάλλει. Παράλληλα ασχολείται με το Web Development, συμμετέχοντας στην ανάπτυξη και συντήρηση του παρόντος ιστότοπου.

Κατερίνα Σπανού

Data Engineer

Η Κατερίνα Σπανού σπούδασε Ψηφιακά Συστήματα στο Πανεπιστήμιο Πειραιά. Ολοκλήρωσε τις μεταπτυχιακές της σπουδές στο Καποδιστριακό Πανεπιστήμιο Αθηνών, στο πρόγραμμα «Ψηφιακά Μέσα Επικοινωνίας και Περιβάλλοντα Αλληλεπίδρασης», με έμφαση στην Επεξεργασία Φυσικής Γλώσσας (NLP) και στην εκπαίδευση μοντέλων μηχανικής μάθησης. Έχει εργαστεί ως αναλύτρια και μηχανικός δεδομένων, με αντικείμενο τον σχεδιασμό και την υλοποίηση λύσεων επεξεργασίας, ανάλυσης και συσχέτισης γλωσσικών και ποσοτικών δεδομένων. Εντάχθηκε στην ομάδα του GlossAPI τον Φεβρουάριο του 2026.

Ιωάννα Μουρά

Linguist

Η Ιωάννα Μουρά είναι γλωσσολόγος και εκπαιδευόμενη διερμηνέας στην Ελληνική Νοηματική Γλώσσα (ΕΝΓ). Ολοκλήρωσε τις προπτυχιακές της σπουδές στην Ελληνική Φιλολογία και τις μεταπτυχιακές της σπουδές στη Γλωσσική Τεχνολογία στο Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών.

Δημήτρης Βογιατζής

Software Engineer