Pengindeksan
pengindeksan (indexing) merupakan salah satu
kegiatan utama yang dapat mendukung proses penelusuran informasi ini. Di sini
tentunya adalah pengindeksan tentang subjek, yang dikenal dengan sebutan
subject indexing.
Pengindeksan
otomatis (automatic indexing) hanya dapat dilakukan apabila sistem tsb telah
computerized, dan teks dokumen berformat machine-readable text (teks yang
terbacakan mesin).
Kelebihan
dari penggunaan indeks otomotis antara lain:
Harus ada stoplist untuk mencegah pengindeksan berdasarkan kata yang tidak signifikan seperti kata sandang, kata depan, kata sambung, dsb. Komputer kemudian menyusun semacam daftar peringkat kata berdasarkan frekuensi pemunculan kata. Yang berada di atas sekali menjadi kata indeks atau index terms. Batas antara kata yang dipilih dan tidak dipilih a.l. dapat tergantung dari jumlah absolut, jumlah relatif (tergantung panjang teks). Ada pula sistem yang diprogram untuk memilih kombinasi kata atau frase, memilih akar kata, memberi bobot (weighting) pada akar, kata, frase. Selain kriteria frekuensi ada pula cara lain yang dapat digunakan untuk meningkatkan relevansi, yaitu dengan mengindeks kalimat pertama dan terakhir dari tiap paragraf saja, berdasarkan asumsi bahwa kalimat pertama biasanya merupakan kalimat topic (topic sentence), atau kalimat yang mengandung inti seluruh paragraf, dan bila tidak demikian, maka dalam banyak kasus kalimat terakhir yang merupakan kalimat topik.
Harus ada stoplist untuk mencegah pengindeksan berdasarkan kata yang tidak signifikan seperti kata sandang, kata depan, kata sambung, dsb. Komputer kemudian menyusun semacam daftar peringkat kata berdasarkan frekuensi pemunculan kata. Yang berada di atas sekali menjadi kata indeks atau index terms. Batas antara kata yang dipilih dan tidak dipilih a.l. dapat tergantung dari jumlah absolut, jumlah relatif (tergantung panjang teks). Ada pula sistem yang diprogram untuk memilih kombinasi kata atau frase, memilih akar kata, memberi bobot (weighting) pada akar, kata, frase. Selain kriteria frekuensi ada pula cara lain yang dapat digunakan untuk meningkatkan relevansi, yaitu dengan mengindeks kalimat pertama dan terakhir dari tiap paragraf saja, berdasarkan asumsi bahwa kalimat pertama biasanya merupakan kalimat topic (topic sentence), atau kalimat yang mengandung inti seluruh paragraf, dan bila tidak demikian, maka dalam banyak kasus kalimat terakhir yang merupakan kalimat topik.
Sumber
http://nurulhyt.blogspot.com/2008/06/perkembangan-pengindeksan-subyek-dan.html