Steven Haryanto

Just another WordPress site

Tesaurus Bahasa Indonesia versi Stardict

on February 24, 2010

Sesuai permintaan rudhiwij di komentar posting blog KBBI versi Stardict, hari Senin pagi kemarin saya menyempatkan mengkonversi Tesaurus Bahasa Indonesia Pusat Bahasa edisi I (2008) menjadi kamus Stardict.

Sekilas proses pembuatan kamus Stardict ini:

1. Sumber dari serangkaian PDF gendut-gendut yang totalnya mencapai 93MB. Ukurannya besar karena tiap file yang berisi satu bab/huruf ini masing-masing mengandung duplikasi imej sampul/kata pengantar/materi muka lain. File-file ini dapat diperoleh di beberapa situs file sharing. Kelihatannya ofisial, tapi saya tidak menemukan URL aslinya dari mana.

2. File-file PDF dikonversi menjadi format HTML dengan perintah “pdftohtml -c”.

3. Saya menulis skrip Perl untuk mengkonversi HTML ini menjadi format Babylon. Dibanding sewaktu mengkonversi KBBI, tesaurus ini jauh lebih mudah karena markupnya lebih sederhana. Ada beberapa masalah kecil, misalnya tanda setrip di ujung baris yang ambigu antara untuk pemenggalan kata (mis: pe-rintah, harus dihilangkan setripnya) dan untuk kata ulang (mis: menginjak-injak, tidak boleh dihilangkan). Lalu seperti biasa ketidakkonsistenan markup karena nampaknya markup kamus ini dibuat secara visual (misalnya mengunakan M$ Word). Tapi, tidak ada tantangan berarti.

Hasilnya dapat diunduh di sini: stardict-tbipb1-2.4.2.tar.bz2 (749KB).
Hasil sementara format Babylon dapat diambil di sini: tbipb1.babylon.bz2 (464KB).
Skrip konverter dapat diambil di sini: convert-tbipb-html-to-babylon (3KB).

Lisensi upstream (Pusat Bahasa): tidak ada yang resmi tertulis/tesertakan, tapi pernah ada konfirmasi via Facebook dari salah satu staf Pusat Bahasa bahwa boleh didistribusikan ulang selama ada kredit ke Pusat Bahasa.

Lisensi untuk skrip maupun kamus versi Stardict: public domain + penyangkalan. Skrip dan kamus disediakan “apa adanya”, tidak ada jaminan apapun mengenai keakuratan dan kebenaran data.

Cara memasangnya mirip seperti KBBI (dan semua kamus Stardict lainnya): tinggal ekstrak file .tar.bz2 tersebut ke subdirektori dic/ di instalasi Stardict Anda. Jika menggunakan Windows, gunakanlah program seperti WinRAR untuk melakukannya, dan folder default kamus Stardict ada di C:Program FilesStardictdic. Silakan lihat posting blog tentang KBBI untuk detilnya.

Semoga berguna.

Update #1 2010-03-03: kompilasi v0.02 (perbaikan antisipasi terhadap inkonsistensi markup visual sumber, seperti tanda koma dan kurung buka di akhir judul lema)


17 Responses to “Tesaurus Bahasa Indonesia versi Stardict”

  1. idud says:

    Izin reblog, ya, gan.

  2. Ivan Lanin says:

    Terima kasih, Om Steven. Aku masukkan Kateglo ya.

  3. Imam says:

    Trims, Stef…
    Sangat berguna. Kalo pahala itu bisa ditukar $$$, pasti Stef udah kaya raya….!

    BTW, ini Steven yang dulu pernah aktif di milis editor infolinux, ya?

  4. Imam says:

    YG buat Babylon, mestinya berupa *.bgl kan?

  5. Sutarto says:

    Thank you very much. Sangat bermanfaat :-)

  6. stevenharyanto says:

    @Imam: sama2x. saya dulu pernah ikutan milis infolinux, tapi gak ingat apakah termasuk aktif atau gak :) format babylon yang saya posting di sini mungkin lebih tepatnya disebut babylon source? file teks yang mudah diparse. karena format itu salah satu format yang diterima untuk input kompilasi ke format Stardict. Yang Anda inginkan mungkin format Babylon yang sudah compiled? maaf, saya saat ini tidak menggunakan program babylon. dan pernah baca juga bahwa stardict superior? :)

  7. Social comments and analytics for this post…

    This post was mentioned on Twitter by planetterasi: Steven Haryanto: Tesaurus Bahasa Indonesia versi Stardict: Sesuai permintaan rudhiwij di posting blog KBBI versi S… http://bit.ly/aBiKfk...

  8. Sandra says:

    Apakah harus download Stardict dahulu? TIA.

  9. stevenharyanto says:

    @Sandra: tentu

  10. Sandra says:

    Saya sdh unduh stardict-nya, trus extract stardict-tbipb1-2.4.2.tar.bz2 ke subdirektori dic, tp kok stardict-nya ga kebuka sama sekali? Gmana ya, tlg dong… TIA

  11. arief says:

    mas steven, saya sudah install stardic di ubuntu lewat synapstic, sudah download db (stardict-kbbi-2.4.2.tar.bz2)
    pertanyan newbie saya: mesti ditaro dimana databasenya setelah diekstrak?
    Thanks

  12. kuliax says:

    stardict-tbipb1, juga stardict-kbbi, stardict-ltis-id-su, & stardict-ltis-su-id telah tersedia paket deb-nya di repo Kuliax dan kompatibel dengan Debian lenny: http://kuliax.org/pkgs

  13. stevenharyanto says:

    @kuliax: nice job! thx.

    @arief: setau saya kalo di debian/ubuntu itu di /usr/share/stardict/dic/

  14. David Ho says:

    Hello Pak Steven,

    Saya post tentang KBBI StarDict ini di Buku Tamu Pusat Bahasa.
    http://pusatbahasa.depdiknas.go.id/lamanv4/guestbook

    Terima kasih untuk karya Bapak!

  15. Mailindra says:

    Terima kasih, Mas Steven.
    Sungguh berguna ini, terutama kalau lagi offline. Salut buat kontribusinya.

    Salam,
    Mailindra
    http://mailindra.cerbung.com/

  16. stevenharyanto says:

    From Dudi: Blankon menyertakan kamus Stardict KBBI, Tesaurus Indonesia, dan juga kamus Sunda/Indonesia. http://mirror.unej.ac.id/blankon/pool/main/s/

  17. adit says:

    cara install di mac gmn?

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>