-
Notifications
You must be signed in to change notification settings - Fork 31
3. Derlemi Düzenlemek
akoksal edited this page May 1, 2018
·
2 revisions
Gensim kütüphanesi ile word2vec modeli eğitebilmek için derleminizi belli bir şekilde düzenlemeniz gerekmektedir. Her bir makale, noktalama işaretlerinden ayıklanmış bir şekilde, bir satıra yazılmalıdır. Her bir satırda bir adet makale bulunacak şekilde bir dosyaya yazılmalıdır. Gensim kütüphanesi wikipedia derlemine özel olarak bazı metodlar sunuyor. Yine de Türkçe dili için ayırıcı(tokenizer) fonksiyonu düzenlenmiştir. preprocess.py dosyasını çalıştırarak kendi wikipedia derleminizi düzenleyebilirsiniz. Bu python kodu iki tane argüman alıyor. İlki, wikipedia derleminizin dosya yolu(wikipedia derleminizi ayıklamadan). İkinci argüman ise çıktı dosyanızın yolu olacak. Örneğin:
python3 preprocess.py trwiki-20180101-pages-articles.xml.bz2 wiki.tr.txt
Önceki: 2. Derlemi Edinmek
Sıradaki: 4. Word2Vec Modelini Eğitmek