Custom Tokenizer Trainer για GPT-2
Dataset
wikimedia/wikipedia
Configurations
20231101.el,20231101.en
Split
Chunk Size
↺
10000
500000
Μέγεθος Λεξιλογίου
↺
20000
50000
Ελάχιστη Συχνότητα
↺
1
10
Test Text
Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.
Μέγιστα Δείγματα
↺
10000
10000000
Start
Stop
Restart
Analyze Data
Train Tokenizer
Πρόοδος
Αποτελέσματα
Αποκωδικοποιημένο Κείμενο
Κατανομή Tokens