Document & Query Forms

Dokumen dan Bentuk-bentuk Query

Didalam sebuah sistem informasi, data termasuk kedalam dua kategori utama yaitu dokumen atau data yang akan/telah disimpan dan di temu balik, serta query-query tentang kebutuhan informasi.

Dari sudut pandang temu balik informasi kunci masalahnya adalah bagaimana untuk menyatakan kebutuhan informasi dan bagaimana mengidentifikasi dokumen yang memenuhi kriteria kebutuhan informasi itu tadi.

Konsep Dokumen

Banyak orang berpikir bahwa dokumen hanyalah sebuah kertas tercetak atau buku, namun untuk tujuan temu balik informasi dokumen mencakup spektrum yang lebih luas.

Dokumen adalah data yang disimpan dan dibuat dalam bentuk apa saja. Dokumen mencakup tidak hanya material tercetak, tetapi juga tulisan informal seperti surat atau pesan singkat.

Konsep dokumen bisa juga diperluas mencakup program komputer, file data, pesan e-mail, gambar dan koleksi gambar, berbagai grafik dan suara, atau rekaman suara.

Konsep kunci yang melandasi penyimpanan, pencarian, dan proses temu balik adalah dokumen tersimpan dalam bentuk yang bisa diperoleh kembali.

Struktur Besar Data

Apapun struktur murni dari dokumen, entah itu berupa angka-angka, kata-kata, pixel-pixel, ataupun yang lainnya, ada sebuah struktur besar yang melingkupinya. Struktur ini mempengaruhi format penyimpanan dokumen dan mode aksesnya. Karakteristik utama dari struktur besar ini adalah perluasan dan jenis penyusunan yang ditunjukkan oleh dokumen.

Spektrum pertama adalah dokumen-dokumen yang terformat penuh (fully formatted documents). Data yang ditemukan pada basis data relasional, jaringan, atau hirarkis adalah tipikal dari dokumen-dokumen tersebut.

Setiap dokumen dari jenis dokumen ini terdiri dari beberapa field yang belum terdefinisi. Setiap field memiliki sebuah ukuran yang belum didefinisikan serta posisi dokumen. Selama data memenuhi spesifikasi dari field, tipe struktur ini sangat baik untuk temu balik terperinci dari data yang terperinci juga dan untuk temu balik data yang ada didalam jangkauan spesifik dari nilai-nilai (values). Salah satu data yang dibutuhkan berada pada field-field yang seharusnya atau malah tidak ada di dalam basis data. Struktur terformat penuh ini kurang tepat untuk penyimpanan data yang tidak terperinci dan untuk merespon query yang tidak rinci, dimana harus ada penilaian intuitif yang dibuat berdasarkan ketepatan data pada field basis data dan query.

Spektrum terakhir adalah dokumen tidak terformat penuh (fully unformatted document) yang berarti bahwa dokumen-dokumen yang strukturnya hanyalah perintah yang ditentukan oleh proses penyimpanan dokumen itu sendiri. Sebagai contoh, data telemetri, data suara dan gambar atau bahkan beberapa data tekstual menunjukkan sebuah ketiadaan struktur yang mempengaruhi proses penyimpanan dan temu balik.

Beberapa struktur yang ada didalam sebuah dokumen secara langsung mungkin tidak terlihat dan tidak tersedia bagi pengguna didalam sebuah sistem informasi.

Dokumen-dokumen elektronik seringkali memiliki tambahan penyandian informasi tentang format yang tidak umum untuk dilihat oleh pengguna. Bagaimanapun, sebuah sistem informasi bisa dirancang untuk menggunakan sandi-sandi (kode) didalam menganalisis dan menyimpan sebuah dokumen.

Selain adanya struktur eksplisit seperti ini, sebuah dokumen juga memiliki struktur implisit seperti pengidentifikasi dokumen (document identifier) yang secara otomatis telah ditentukan atau hubungan logis, grafis, dan konseptual diantara berbagai bagian dari dokumen. Secara klasik, struktur implisit ini telah digunakan untuk pemeriksaan kesalahan (error checking), seperti menjamin bahwa data yang disimpan pada sebuah field harus berada pada batasan-batsan yang dipaksakan pada field tersebut.

Document Surrogates (Wakil-wakil Dokumen)

Banyak data yang disimpan pada basis data relasional merupakan document surrogates yang merupakan representasi terbatas dari keseluruhan isi dokumen aslinya. Karenanya, banyak juga kegiatan temu balik informasi yang berfokus pada document surrogates tentang bagaimana untuk menciptakannya dan juga bagaimana untuk merespon sebuah stated information need (kebutuhan informasi terucap).

Masalah pertama yang menantang dalam penyimpanan dan temu balik informasi berpusat pada document surrogates sejak penggunaannya secara potensial menjukkan ketidaklengkapan pengetahuan tentang dokumen itu sendiri.

Wakil (surrogate) pertama dari setiap dokumen secara nyata adalah sebuah pengidentifikasi dokumen (document identifier). Beberapa identifier hampir selalu dilampirkan pada sebuah dokumen yang berarti menghubungkan surrogate pada dokumen aslinya.

Secara khusus, data lain yang dimasukkan kedalam document surrogate biasanya dipertimbangkan karena berguna untuk pengguna. Contohnya, tanggal membantu pengguna untuk menentukan rentang waktu dan kelayakan sebuah dokumen.

Kata-kata dan frase yang penting, unit deskriptor seperti abstrak , ekstrak, dan tinjauan (review) dari dokumen menyediakan data tambahan yang berguna untuk pengguna yang membutuhkan informasi dan perancang sebuah sistem informasi.

Untuk mengembangkan sebuah document surrogate data lain yang harus disertakan adalah data numerik, deskripsi dari citra/gambar, dan data spesifik lainnya yang ada pada sebuah dokumen.

Isu kunci didalam pengembangan sebuah document surrogate adalah keguanaan atau fungsi dari document surrogate itu sendiri. Kata-kata kunci dan abstrak dianggap cukup berguna untuk karya-karya cetak yang membutuhkan salah satu dari hal-hal tersebut untuk ditampilkan pada sebuah dokumen yang diterbitkan.

Kata kunci (keyword) adalah kata tunggal yang dipilih oleh penulis atau editor untuk mewakili isi dari dokumen. Sama halnya dengan frase kunci (key phrase) yaitu frase terpilih untuk mewakili isi dari dokumen.

Kata kunci dan frase kunci sering diarahkan kepada kebijaksanaan penulis. Oleh karena itu, sementara elemen-elemen data ini harus menunjukkan isi dari sebuah dokumen, mereka juga harus menunjukkan derajat dari variabilitas yang dimiliki oleh sebuah dokumen.

Abstrak adalah laporan singkat yang berisi paragraf singkat yang menjelaskan dan menggambarkan isi dari dokumen.

Ekstrak adalah surrogate buatan yang diciptakan oleh orang lain diluar penulis. Berbagai metode telah disarankan untuk membuat gagasan pada sebuah ekstrak yang terdiri dari kalimat-kalimat atau frase-frase yang diambil dari teks sebuah dokumen.

Review (tinjauan) adalah sama halnya dengan sebuah abstrak yang ditulis oleh orang lain selain penulis. Bagaimanapun, review menyediakan beberapa indikasi nilai dari sebuah dokumen. Dalam hal ini sebuah review tidak menyediakan akses langsung kepada sebuah dokumen tetapi memberikan komentar tentang hal yang ditinjau bersama dengan penunjuk kepada hal yang ditinjau. Review sendiri adalah dokumen terpisah yang bisa di temu balik.

Jika sebuah document surrogate akan digunakan secara internal didalam sebuah endosistem maka data yang akan dimasukkan kedalam surrogate harus memenuhi algoritma yang digunakan sistem untuk memiliki dokumen-dokumen yang sesuai kebutuhan. Jika surrogate document ditampilkan pada pengguna maka surrogate document harus memuat data yang bisa diterjemahkan dan bermanfaat bagi pengguna.

Vocabulary Control (Pengendalian Perbendaharaan Kata)

Lamanya perdebatan tentang perbedaan antara query dan dokumen sejalan dengan isu-isu tentang pengendalian perbendaharaan kata yang disediakan bagi pengguna sistem. Kontrol pada proses pencarian informasi lebih mudah untuk dijalankan dengan merancang sistem temu balik yang hanya mengenali beberapa istilah dan menginformasikan kepada pengguna bahwa hanya istilah-istilah tersebut yang bisa digunakan. Hal ini tentu saja berpengaruh pada proses temu balik.

Pendapat terkuat untuk controlled vocabulary (Perbendaharaan kata terkontrol) adalah hal ini menjalankan sebuah keseragaman pada seluruh bagian sistem temu balik dan membuat proses pencarian dan temu balik lebih efisien. Controlled vocabulary menekankan konsep-konsep yang sama tetapi sedikit berbeda untuk diperlakukan secara sama.

Ada dua pendapat berbeda tentang controlled vocabulary. Pertama, menekankan kepada pengguna dengan adanya controlled vocabulary menghilangkan kemampuan pengguna untuk melihat informasi secara detail. Kedua, sementara dokumen di temu balik dengan cepat kebanyakan dari dokumen-dokumen tersebut memiliki keluasan dari dokumen yang ditandai.

Mereka yang mengemukakan pendapat tersebut yakin bahwa kompleksitas yang ditambahkan pada pencarian dengan uncontrolled vocabulary adalah harga yang kecil untuk menambah presisi dalam temu balik dokumen sesuai kebutuhan informasi.

Banyak sistem temu balik komersial lebih memilih untuk menggunakan uncontrolled vocabulary daripada harus menghadapi pengguna yang frustasi untuk memilih istilah yang tepat sesuai kebutuhan informasi mereka.

Struktur Murni Data

Secara historis, representasi dari item data atomis, yaitu item yang tidak bisa diuraikan kembali menjadi bagian-bagian kecil, telah melalui sebuah periode standarisasi. Struktur murni dari data terdiri dari format penyandian data di dalam sebuah sistem temu balik informasi.

Standar untuk penyandian data menyediakan landasan untuk pengintegrasian dan penanganan data yang lebih mudah dari berbagai sumber. Sama halnya, bahasa pemrograman dan standar praktis yang dikembangkan dengan basis seperti FORTRAN, Pascal, dan C mungkin tidak akan sesuai untuk bahasa pemrograman yang berorientasi pada objek.

Sistem komputasi terdahulu menggunakan set karakter terbatas berdasarkan pengkodean. Set karakter ini termasuk huruf besar, angka-angka, dan tanda baca, serta beberapa karakter khusus.

Dua sistem penyandian (encoding) utama dikembangkan untuk memenuhi kebutuhan text processing (pengolahan teks). Baik EBCDIC (Extended Binary Coded Decimal Information Code) maupun ASCII (American Standard Code for Information Interchange) dibuat berdasarkan penggunaan sebuah byte untuk memproses sandi dari data atomis.

Sebuah byte terdiri dari 8 bit data. Semenjak setiap byte boleh memiliki 2 pernyataan, 0 dan 1 atau “off” dan “on”, 1 byte mampu menampilkan 2 atau 256 karakter, ini membolehkan representasi dari huruf-huruf besar atau kecil, angka-angka, dan karakter khusus.

Selama beberapa tahun, ASCII menjadi standar untuk penyadian teks. Kode ASCII hanya menggunakan 7 dari informasi yang diberi nama kode 1 sampai 127. kode-kode ini terasuk huruf besar dan huruf kecil, angka-angka, tanda baca, beberapa karakter khusus, dan non-printing control codes (kode-kode kontrol tak tercetak).

Standar untuk kode-kode yang telah ada terus dikembangkan namun tidak diterima secara penuh. Microsoft Windows menggunakan ANSI (American National Standard Institute) yang merupakan kepanjangan dari kode ASCII dan juga kode RTF (Rich Text Format). Sebagai tambahan, untuk beberapa set karakter setiap sistem word processing (pengolah kata) memiliki set kode-kode masing-masing untuk mengindikasikan fungsi pengolah kata, termasuk spasi, batas garis halaman, tanda penghubung, karakteristik huruf, dll. Tidak adanya standarisasi didalam hal ini disebabkan oleh program konversi yang berlebihan karena pengembang dari setiap sistem mencari kompatibilitas dengan sistem lainnya tanpa meninggalkan kode khusus milik mereka sendiri.

Kebanyakan sistem pengolahan kata saat ini menyediakan konversi dua arah antara kode-kode mereka dengan standar kode ASCII. Beberapa lainnya juga menyediakan fasilitas konversi langsung. Proses konversi seperti itu mungkin tidak akan berjalan sempurna karena adanya beberapa pengabaian dan kesalahan penerjemahan dari beberapa karakter.

Kompresi Data

Dengan bertambahnya penekanan pada basis data full-text, masalah yang dihadapi untuk menangani kuantitas data menjadi sangat penting. Waktu yang dibutuhkan untuk mencari informasi pada sebuah basis data sangat tergantung pada jumlah dari data yang ada.

Untuk operasi sistem informasi yang efisien sangat membutuhkan kedua hal ini yaitu, pengorganisasian data yang baik dan kemungkinan untuk menemukan representasi dari data yang lebih efisien.

Maka dari itu, berkembanglah sebuah ketertarikan untuk menggunakan proses kompresi data. Masing-masing wakil dokumen mewakili hilangnya beberapa data dari dokumen aslinya. Karena wakil dokumen ini berguna bagi pengguna maka data-data yang hilang tadi tidak jadi masalah.

Bagaimanapun, pengguna mungkin tidak merasa yakin apakah wakil-wakil dari dokumen menampilkan informasi yang relevan dan hilangnya beberapa informasi mempengaruhi keefekifan dan efisiensi dari sistem informasi.

Salah satu teknik kompresi yang biasa digunakan adalah stemming, yaitu penghilangan sufiks-sufiks tata bahasa, mengkonversi sebuah set kata-kata yang berhubungan menjadi bentuk dasarnya. Dengan pengurangan seprti ini maka akan menambah ruang penyimpanan basis data sebesar 30% dari isi informasi.

Ada dua keputusan awal yang harus dibuat mengingat kuatnya pengaruh data yang dikompresi. Salah satu pilihan untuk hal ini adalah tingkat kompresi. Kompresi bisa dilakukan pada tingkat karakter atau tingkat kata. Metode kompresi bisa dikembangkan pada basis frekuensi dari kata-kata dan frase-frase. Keuntungan dari kompresi ditingkat karakter adalah set karakter yang ditangani relatif kecil. Sedangkan keuntungan dari kompresi pada tingkat kata adalah proses kompresi berjalan lebih cepat dan lebih efektif.

Pilihan kedua adalah jenis dari model data yang digunakan. Semua teknik kompresi teks secara esensial berdasarkan pada distribusi stastistik dari objek yang dikompresi, baik itu karakter-karakter atau kata-kata. Konsep dasarnya adalah kode kompresi yang pendek dan efisien harus digunakan untuk simbol-simbol yang muncul secara frekuentif.

Ada dua jenis utama dari model data. Model statis dan model adaptif. Model statis dibuat dengan memeriksa sampel teks dan membangun tabel statistik yang mewakili sampel tersebut. Model ini digunakan untuk seluruh bagian teks yang akan dikompresi.

Model adaptif dimulai dengan sebuah prioritas distribusi stastistik untuk simbol-simbol teks tetapi memodifikasi distribusi tersebut kedalam setiap karakter atau kata yang dibuat sandi (encoded). Model adaptif harus menjadi sebuah representasi tertutup dari sifat statistik pada teks yang spesifik didalam basis data.

Model ketiga diluar kedua model tersebut yaitu model semi-statis, yang merupakan gabungan dari kedua jenis model utama diatas.

Tipe-tipe berbeda untuk model-model data memiliki beberapa efek pada proses kompresi. Pertama, semenjak model-model statis melibatkan sedikit proses komputasi maka model-model stastis tersebut menyediakan kompresi dan dekompresi yang lebih cepat. Kedua, sejak model-model adaptif memenuhi teks aktual secara lebih dekat, maka model-model adaptif ini menyediakan tingkat kompresi yang lebih tinggi. Ketiga, sejakfungsi dari model-model adaptif bergantung pada analisis dinamis pada teks selama kompresi, interpretasi kode hanya berjalan setengahnya. Hal ini berarti ada satu bagian yang tidak bisa menerjemahkan kode.

Ada tiga jenis kode yang biasa digunakan dalam proses kompresi teks, yaitu Huffman Codes, Ziv-Lempel Codes, dan Arithmatic Codes. Huffman Codes merupakan sebuah kode statis yang biasa digunakan pada model kompresi data semi-statis. Ziv-Lempel Codes memiliki tingkat kompresi yang lebih besar dari Huffman Codes. Ziv-Lempel Codes sendiri merupakan model pengkodean adaptif.

Jenis terakhir adalah arithmetic coding (pengkodean aritmatik). Pada metode ini, aliran teks diwakili oleh angka yang menggambarkan distribusi frekuensi stastistik dari simbol-simbol. Distribusi stastistik ini kemudian dirubah seperti pada pengkodean teks. Distribusi mengendalikan kalkulasi dari angka yang mewakili teks, yaitu 0 dan 1. Metode ini memberikan kompresi yang lebih tinggi.

Dokumen Teks

Porsi terbesar dari data dalam kebanyakan dokumen terdiri dari pernyataan-pernyataan atau teks yang tertulis dengan beberapa bahasa alami. Gambaran dasar dari teks adalah karakter, termasuk tanda baca, spasi, dan konversi tulisan yang memberi struktur lebih pada teks.

Syntax dan semantik dari kalimat atau paragraf digunakan untuk menentukan apakah hal ini memenuhi kebutuhan informasi. Sistem temu balik informasi yang ada saat ini sering menggabungkan beberapa petunjuk linguistik kedalam sistem pengolahan data untuk satu tujuan yaitu mencocokkan teks kepada query.

Markup Languages adalah salah satu alat yang tersedia untuk menerjemahkan sebuah dokumen teks. Bagaimanapun, ketika markup language disimpan bersama dokumen, maka akan menyediakan nilai berharga sebagai petunjuk untuk temu balik informasi.

Bahasa markup yang sering digunakan adalah SGML (Standard Generalized Markup Language). Bagian dari SGML disebut HTML (Hyper Text Markup Languange) yang biasa digunakan untuk membuat sebuah halaman web untuk World Wide Web.

Pada sebuah dokumen, seringkali diminta segmentasi. Segmentasi adalah identifikasi dari berbagai bagian tekstual dan non-tekstual dari sebuah dokumen. Banyak dokumen berisi elemen-elemen grafis seperti tabel dan gambar. Dalam penerjemahan dokumen sangat penting untuk mengenali elemen-elemen non tekstual.

Teknik yang digunakan pada segmentasi adalah penempatan indentasi dan penggunaan karakteristik grafis untuk membantu membedakan dan memisahkan teks dari gambar dan tabel.

Gambar dan Suara

Ada empat standar yang telah dikembangkan untuk kompresi gambar. CCITT telah mengeluarkan standar dalam pengiriman faksimili yang berdasarkan pada run length encoding. Dan juga bisa diencode dengan menggunakan arithmathic coding.

Tiga standar lainnya dikembangkan berdasarkan kepada context encoding. JBIG atau Joint Bilevel Experts Group dikembangkan untuk ambar bilevel (hitam dan putih) dan grayscale yang biasa digunakan pada dokumen-dokumen faksimili dan beberapa terbitan ilmiah.

JPEG. Joint Photographic Experts Group bisa digunakan untuk gambar berwarna dan grayscale. JPEG dikenal sebagai standar pengkodean umum dibandingkan dengan JBIG.

MPEG. Moving Picture Experts Group, diadaptasi dari kebutuhan dunia mulitimedia. Termasuk standar untuk pengkodean animasi dan gerakan (motion) serta suara.

Basis data suara tetap berada pada masa pertumbuhannya dan kurang berkembang dibandingkan basisdata gambar. Hal ini diakibatkan oleh kecenderungan untuk lebih memusatkan diri pada proses transmisi suara daripada proses temu baliknya.

MIDI (Music Instrument Digital Interfaces) adalah metode yang umum digunakan untuk pengkodean suara. Untuk perluasan dari data yang berupa gambar dan suara yang ditangani melalui textual surrogates, struktur tekstual data dan teknik pemrosesan yang sesuai harus digunakan.

(Tugas Mata Kuliah Information Retrieval, disarikan dari buku “Information Storage & Retrieval” by Robert R. Korfhage)

Advertisements

0 Responses to “Document & Query Forms”



  1. Leave a Comment

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s





%d bloggers like this: