Sesuai permintaan rudhiwij di komentar posting blog KBBI versi Stardict, hari Senin pagi kemarin saya menyempatkan mengkonversi Tesaurus Bahasa Indonesia Pusat Bahasa edisi I (2008) menjadi kamus Stardict.
Sekilas proses pembuatan kamus Stardict ini:
1. Sumber dari serangkaian PDF gendut-gendut yang totalnya mencapai 93MB. Ukurannya besar karena tiap file yang berisi satu bab/huruf ini masing-masing mengandung duplikasi imej sampul/kata pengantar/materi muka lain. File-file ini dapat diperoleh di beberapa situs file sharing. Kelihatannya ofisial, tapi saya tidak menemukan URL aslinya dari mana.
2. File-file PDF dikonversi menjadi format HTML dengan perintah “pdftohtml -c”.
3. Saya menulis skrip Perl untuk mengkonversi HTML ini menjadi format Babylon. Dibanding sewaktu mengkonversi KBBI, tesaurus ini jauh lebih mudah karena markupnya lebih sederhana. Ada beberapa masalah kecil, misalnya tanda setrip di ujung baris yang ambigu antara untuk pemenggalan kata (mis: pe-rintah, harus dihilangkan setripnya) dan untuk kata ulang (mis: menginjak-injak, tidak boleh dihilangkan). Lalu seperti biasa ketidakkonsistenan markup karena nampaknya markup kamus ini dibuat secara visual (misalnya mengunakan M$ Word). Tapi, tidak ada tantangan berarti.
Hasilnya dapat diunduh di sini: stardict-tbipb1-2.4.2.tar.bz2 (749KB).
Hasil sementara format Babylon dapat diambil di sini: tbipb1.babylon.bz2 (464KB).
Skrip konverter dapat diambil di sini: convert-tbipb-html-to-babylon (3KB).
Lisensi upstream (Pusat Bahasa): tidak ada yang resmi tertulis/tesertakan, tapi pernah ada konfirmasi via Facebook dari salah satu staf Pusat Bahasa bahwa boleh didistribusikan ulang selama ada kredit ke Pusat Bahasa.
Lisensi untuk skrip maupun kamus versi Stardict: public domain + penyangkalan. Skrip dan kamus disediakan “apa adanya”, tidak ada jaminan apapun mengenai keakuratan dan kebenaran data.
Cara memasangnya mirip seperti KBBI (dan semua kamus Stardict lainnya): tinggal ekstrak file .tar.bz2 tersebut ke subdirektori dic/ di instalasi Stardict Anda. Jika menggunakan Windows, gunakanlah program seperti WinRAR untuk melakukannya, dan folder default kamus Stardict ada di C:Program FilesStardictdic. Silakan lihat posting blog tentang KBBI untuk detilnya.
Semoga berguna.
Update #1 2010-03-03: kompilasi v0.02 (perbaikan antisipasi terhadap inkonsistensi markup visual sumber, seperti tanda koma dan kurung buka di akhir judul lema)
Izin reblog, ya, gan.
Terima kasih, Om Steven. Aku masukkan Kateglo ya.
Trims, Stef…
Sangat berguna. Kalo pahala itu bisa ditukar $$$, pasti Stef udah kaya raya….!
BTW, ini Steven yang dulu pernah aktif di milis editor infolinux, ya?
YG buat Babylon, mestinya berupa *.bgl kan?
Thank you very much. Sangat bermanfaat
@Imam: sama2x. saya dulu pernah ikutan milis infolinux, tapi gak ingat apakah termasuk aktif atau gak
format babylon yang saya posting di sini mungkin lebih tepatnya disebut babylon source? file teks yang mudah diparse. karena format itu salah satu format yang diterima untuk input kompilasi ke format Stardict. Yang Anda inginkan mungkin format Babylon yang sudah compiled? maaf, saya saat ini tidak menggunakan program babylon. dan pernah baca juga bahwa stardict superior?
Social comments and analytics for this post…
This post was mentioned on Twitter by planetterasi: Steven Haryanto: Tesaurus Bahasa Indonesia versi Stardict: Sesuai permintaan rudhiwij di posting blog KBBI versi S… http://bit.ly/aBiKfk...
Apakah harus download Stardict dahulu? TIA.
@Sandra: tentu
Saya sdh unduh stardict-nya, trus extract stardict-tbipb1-2.4.2.tar.bz2 ke subdirektori dic, tp kok stardict-nya ga kebuka sama sekali? Gmana ya, tlg dong… TIA
mas steven, saya sudah install stardic di ubuntu lewat synapstic, sudah download db (stardict-kbbi-2.4.2.tar.bz2)
pertanyan newbie saya: mesti ditaro dimana databasenya setelah diekstrak?
Thanks
stardict-tbipb1, juga stardict-kbbi, stardict-ltis-id-su, & stardict-ltis-su-id telah tersedia paket deb-nya di repo Kuliax dan kompatibel dengan Debian lenny: http://kuliax.org/pkgs
@kuliax: nice job! thx.
@arief: setau saya kalo di debian/ubuntu itu di /usr/share/stardict/dic/
Hello Pak Steven,
Saya post tentang KBBI StarDict ini di Buku Tamu Pusat Bahasa.
http://pusatbahasa.depdiknas.go.id/lamanv4/guestbook
Terima kasih untuk karya Bapak!
Terima kasih, Mas Steven.
Sungguh berguna ini, terutama kalau lagi offline. Salut buat kontribusinya.
Salam,
Mailindra
http://mailindra.cerbung.com/
From Dudi: Blankon menyertakan kamus Stardict KBBI, Tesaurus Indonesia, dan juga kamus Sunda/Indonesia. http://mirror.unej.ac.id/blankon/pool/main/s/
cara install di mac gmn?