Η Δημιουργία Academic Knowledge Corpus

Περίληψη

Το παρόν σύνολο δεδομένων αποτελεί ένα υψηλής ποιότητας σώμα κειμένων, το οποίο προέρχεται από ελληνικές διδακτορικές διατριβές και συνοδεύεται από εκαστοτε μεταδεδομένα. Το dataset περιλαμβάνει 55.423 εγγραφές που καλύπτουν την περίοδο 1975–2025, αντιπροσωπεύοντας το μεγαλύτερο ενιαίο corpus ελληνόγλωσσου ακαδημαϊκού λόγου που έχει κατασκευαστεί μέχρι σήμερα για σκοπούς Επεξεργασίας Φυσικής Γλώσσας (NLP). Η συλλογή και επεξεργασία του υλικού υλοποιήθηκαν μέσω πολυεπίπεδης διαδικασίας, η οποία περιλαμβάνει scraping, εξαγωγή κειμένου, OCR με σύγχρονες μεθόδους, μετατροπή σε markdown και καθαρισμό σε περιβάλλον παράλληλης επεξεργασίας GPU.

Η εργασία τεκμηριώνει τη μεθοδολογία, την αρχιτεκτονική του pipeline, την υπολογιστική υποδομή και τους ποιοτικούς ελέγχους, ενώ συζητά τους περιορισμούς και τις δυνατότητες αξιοποίησης του corpus σε σύγχρονες εφαρμογές μεγάλων γλωσσικών μοντέλων.

1. Εισαγωγή

Η δημιουργία μεγάλων, καθαρών και τεκμηριωμένων σωμάτων κειμένων αποτελεί κρίσιμη προϋπόθεση για την ανάπτυξη γλωσσικών μοντέλων υψηλής απόδοσης, ιδιαίτερα σε γλώσσες περιορισμένων ψηφιακών πόρων όπως η ελληνική. Παρά τη σημαντική ακαδημαϊκή παραγωγή στη χώρα, τα αντίστοιχα κείμενα παραμένουν διασκορπισμένα σε αποθετήρια με ετερογενείς δομές και συχνά ανισομερή ποιότητα μεταδεδομένων.

Στο πλαίσιο αυτό, η ομάδα glossAPI προσπάθησε τη συγκρότηση ενός ενιαίου, τεχνικά ομογενοποιημένου και επεξεργασμένου corpus από διδακτορικές διατριβές ελληνικών πανεπιστημίων με γνώμονα: 

  • να εξασφαλιστεί η υψηλή πληρότητα συλλογής και εγκυρότητα μεταδεδομένων,
  • να παράσχει καθαρό κείμενο κατάλληλο για χρήση σε μοντέλα NLP και LLM training,
  • να δημιουργήσει ομοιογενές corpus σε markdown,
  • να διασφαλίσει διαφάνεια στη διαδικασία επεξεργασίας 

2. Περιγραφή του Dataset

2.1 Βασικές Πληροφορίες

Το τελικό dataset περιλαμβάνει 55.423 διατριβές με χρονικό εύρος 1975–2025, 26 οργανωμένα πεδία μεταδεδομένων. Επίσης 200 MB αρχείο parquet για την αποθήκευση metadata και pointers, παράγωγα corpora 6.5B και 12B tokens, τα οποία δημιουργήθηκαν με το tokenizer nlpaueb/bert-base-greek-uncased-v1. Το corpus αποτελεί συνεκτικό σώμα επιστημονικού λόγου από πλήθος ελληνικών πανεπιστημιακών ιδρυμάτων, με σημαντική θεματική ποικιλία.

2.2 Πηγές Δεδομένων

Το dataset έχει ως βασική πηγή προέλευσης το OpenArchives.gr , εμπλουτισμένο με επιπλέον μικρότερα σύνολα δεδομένων. Το OpenArchives.gr  Πρόκειται για ένα μεγάλο αποθετήριο ελληνικών κειμένων με επιστημονικό και ακαδημαϊκό περιεχόμενο από πανεπιστήμια, ερευνητικά κέντρα και βιβλιοθήκες της Ελλάδας και Κύπρου. Μέσω αυτής μπορεί κανείς να αναζητήσει διατριβές, διπλωματικές, άρθρα, μελέτες και άλλο επιστημονικό υλικό από πολλά αποθετήρια ταυτόχρονα, υποστηρίζοντας την ανοικτή πρόσβαση στην ελληνική επιστημονική γνώση.

2.2 Δομή και Περιεχόμενο Μεταδεδομένων

Κάθε εγγραφή του dataset περιλαμβάνει ένα σύνολο μεταδεδομένων που καλύπτουν διαφορετικές πτυχές των διατριβών. Στα αναγνωριστικά στοιχεία περιλαμβάνονται το handle, ο internal identifier, το DOI και το URL του αποθετηρίου. Τα βιβλιογραφικά πεδία περιλαμβάνουν τον τίτλο στα ελληνικά και αγγλικά, το όνομα ή τα ονόματα των συγγραφέων, το έτος δημοσίευσης και τη γλώσσα του τεκμηρίου. Στο τμήμα της ακαδημαϊκής τεκμηρίωσης καταγράφονται το πανεπιστήμιο και η σχολή ή το τμήμα, ο επιβλέπων καθηγητής και τα μέλη της εξεταστικής επιτροπής, καθώς και η ημερομηνία έγκρισης της διατριβής. Η θεματική ταξινόμηση περιλαμβάνει την ταξινόμηση σε τρία επίπεδα επιστημονικών πεδίων και τις σχετικές λέξεις-κλειδιά. Όσον αφορά τις πληροφορίες περιεχομένου, κάθε εγγραφή περιέχει τις περιλήψεις στα ελληνικά και αγγλικά, την έκταση της διατριβής, τον αριθμό των βιβλιογραφικών αναφορών, το όνομα του αρχείου PDF και τη σύνδεση με το πρωτογενές αποθετήριο. Τέλος, οι πληροφορίες αδειοδότησης που ισχύουν είναι αυτές που εμφανίζονται στα Open Archives,

3. Μεθοδολογία Συλλογής και Επεξεργασίας

3.1 Η διαδικασία κατασκευής του dataset 

Η διαδικασία κατασκευής του dataset οργανώθηκε σε τρεις βασικούς τεχνικούς τομείς: τον εντοπισμό πηγών και το scraping, την εξαγωγή κειμένου από PDF, και τη μετατροπή σε markdown με OCR και καθαρισμό. Ο εντοπισμός των πηγών και το scraping πραγματοποιήθηκαν εκτός AWS. Μετά τη συλλογή, ακολούθησε η επεξεργασία των PDF, η οποία περιελάμβανε τόσο την εξαγωγή ενσωματωμένου κειμένου όσο και OCR σε περιπτώσεις όπου το περιεχόμενο ήταν εικόνα ή μη αναγνώσιμη αναπαράσταση.

3.2 Εξαγωγή Κειμένου από PDF

Ανάλογα με τη φύση των αρχείων PDF εφαρμόστηκαν δύο προσεγγίσεις, είτε εξαγωγή ενσωματωμένου κειμένου από text-based PDF είτε Οπτική Αναγνώριση Χαρακτήρων (OCR) για image-based PDF.

Αρχικό OCR έγινε μέσω Tesseract, ωστόσο η δημοσίευση του DeepSeek OCR επέφερε σημαντική βελτίωση στην ακρίβεια, ιδίως σε επιστημονικά σύμβολα, πολυτονικά συστήματα και πολυσύνθετες διατάξεις. Ως εκ τούτου, όλα τα PDF επανεπεξεργάστηκαν από την αρχή με DeepSeek OCR.

3.3 Μετατροπή PDF σε Markdown με Docling

Για αρχεία με ενσωματωμένο κείμενο χρησιμοποιήθηκε το Docling, το οποίο αποδίδει συνεπή markdown μετατροπή,περιορίζει θόρυβο,διατηρεί βασική δομή εγγράφου (τίτλοι, υποενότητες) και προσφέρει συγκριτικά ομοιογενή output σε μεγάλα batches.

Σε περιπτώσεις όπου απαιτήθηκε OCR, η μετατροπή σε markdown πραγματοποιήθηκε στο δεύτερο στάδιο του pipeline.

3.4 OCR, Καθαρισμός και Ομογενοποίηση μέσω GlossAPI

Τα τελικά στάδια επεξεργασίας υλοποιήθηκαν μέσω προσαρμοσμένου pipeline του GlossAPI. Το pipeline αυτό προσαρμόστηκε ειδικά για να υποστηρίζει εκτέλεση σε παράλληλο περιβάλλον GPU, προκειμένου να μειωθεί σημαντικά ο συνολικός χρόνος επεξεργασίας. Για τον σκοπό αυτό χρησιμοποιήθηκαν τέσσερις NVIDIA A10G GPUs. Όλη η υποδομή επεξεργασίας (εκτός του scraping) εκτελέστηκε στην AWS σε instance τύπου g5.12xlarge, το οποίο υποστήριξε ταυτόχρονα το OCR, τη μετατροπή σε markdown και τον καθαρισμό των δεδομένων.

3.5 Διασφάλιση Ποιότητας (Quality Assurance)

Σε αυτό το στάδιο η διαδικασία περιελάμβανε δειγματοληπτική μέτρηση ακρίβειας OCR, εντοπισμό και επίλυση σφαλμάτων σε encoding, έλεγχο συνοχής μεταδεδομένων, αξιολόγηση της σταθερότητας tokenization, επιβεβαίωση ομοιογένειας markdown format. Η συνδυασμένη χρήση Docling και DeepSeek OCR οδήγησε σε σημαντικά ανώτερη ποιότητα.

4. Αποθετήριο που φιλοξενεί το Academic Knowledge Corpus

To τελευταίο διάστημα η ομάδα glossAPI έχει ξεκινήσει συζήτηση συνεργασίας με το Mozilla Foundation με σκοπό τη συνεργασία σε θέματα φιλοξενίας και διανομής των ελληνικών AI ready datasets. Στο πλαίσιο αυτό, η πλατφόρμα  Mozilla Data Collective  πρόκειται να φιλοξενήσει ένα υποσύνολο του παρόντος dataset, που αφορά αποκλειστικά τις διδακτορικές διατριβές PhD Theses Corpus (PTC).

5. Περιορισμοί και μελλοντική έρευνα 

Σε αυτή τη προσπάθεια να παραδοθεί το πρώτο Academic Knowledge Corpus παρουσιάστικαν κάποιοι περιορισμοί. Αρχικά υπήρχαν δεδομένα ελλιπείς  αδειοδότησης τα οποία περιορίζουν την πλήρη δημόσια διάθεση του corpus. Επίσης ορισμένα παλαιότερα PDF παρουσιάζουν υποβάθμιση ποιότητας, επηρεάζοντας το OCR. Τέλος η θεματική κατανομή αντικατοπτρίζει την πραγματική παραγωγή των πανεπιστημίων, αλλά δεν είναι ισοκατανεμημένη.

5.1. Μελλοντική έρευνα

Η παρούσα προσπάθεια συγκρότησης ενός ενιαίου, ομογενοποιημένου και τεχνικά επεξεργασμένου corpus ελληνικών διδακτορικών διατριβών θέτει τα θεμέλια για ένα διαρκώς εξελισσόμενο οικοσύστημα δεδομένων, το οποίο μπορεί να επεκταθεί σε πολλαπλές κατευθύνσεις. Μελλοντικές ενέργειες θα μπορούσαν να είναι ο εμπλουτισμός του corpus με πρόσθετα είδη ακαδημαϊκού κειμένου. Η ενσωμάτωση περεταίρω ακαδημαϊκών εργασιών θα μπορούσε να αυξήσει σημαντικά την κάλυψη του ελληνόγλωσσου ακαδημαϊκού χώρου. Επίσης θα μπορούσε να οδηγήσει σε όγκο δεδομένων ικανά για εκπαίδευση γλωσσικών μοντέλων.

Το corpus αποτελεί ήδη κρίσιμο πόρο για την εκπαίδευση γλωσσικών μοντέλων μεγάλης κλίμακας. Μελλοντική έρευνα μπορεί να διερευνήσει τον βέλτιστο τρόπο tokenization για επιστημονικό λόγο αλλά και τη μελέτη της επίδρασης διαφορετικών υποσυνόλων δεδομένων στην απόδοση των μοντέλων σε εργασίες (π.χ. summarization, entity extraction, QA).