Selasa, 15 Februari 2011

WEB USAGE MINING: PROSES, APLIKASI DAN PENGGUNAANNYA


Abstraksi
Website merupakan suatu layanan internet yang sudah digunakan oleh seluruh dunia. Website mengandung data dan informasi yang sangat besar sehingga sangat berpotensi untuk dilakukan penggalian informasi agar menghasilkan suatu pengetahuan (knowledge) yang berguna bagi masyarakat. Proses penggalian informasi terhadap website tersebut dapat dilakukan terhadap tiga hal, yaitu terhadap isi website yang disebut web content mining, terhadap struktur website yang disebut web structure mining dan terhadap penggunaan atau akses website yang disebut web usage mining. Postingan ini berusaha menjelaskan mengenai bentuk penggalian informasi yaitu web usage mining. Dalam makalah ini akan dijelaskan mengenai bagaimana proses penerapan dan implementasi web usage mining, berbagai aplikasi web usage mining dan penggunaannya di kehidupan sehari-hari. Postingan ini diharapkan dapat memberikan gambaran mengenai proses penggalian informasi website, terutama proses web usage mining.

1. Pendahuluan
World Wide Web atau WWW merupakan salah satu fenomena teknologi yang berkembang
sangat pesat saat ini. WWW menyediakan berbagai layanan informasi mengenai berita, iklan, pendidikan, e-commerce dan sebagainya. Informasi yang tersedia dalam WWW tersebut memiliki ukuran yang sangat besar dan terdistribusi secara global di seluruh dunia.Web juga mengandung kekayaan informasi dilihat dari struktur dan penggunaannya (web usage).Web merupakan kumpulan data dan informasi yang sangat berpotensi untuk dilakukan penggalian (mining) agar menghasilkan pengetahuan (knowledge) yang dapat berguna bagi masyarakat maupun pihak-pihak tertentu.
Data dan informasi yang tersimpan di dalam web memiliki karakteristik yang berbeda dengan data yang tersimpan dalam penyimpanan konvensional seperti DBMS. Dalam (Han, et al., 2006) disebutkan beberapa karakteristik web sebagai berikut:
Web memiliki ukuran yang terlalu besar sehingga tidak terlalu efektif jika diterapkan dengan  menggunakan data ware house dan data mining biasa. Ukuran data dalam web mencapai ribuan terabyte dan akan terus berkembang. Saat ini begitu banyak perusahaan dan organisasi yang mempublikasikan berbagai informasi perusahaan di sebuah website. Dengan ukuran yang begitu besar, akan sangat sulit jika harus membangun sebuah data ware house yang akan menyimpan data dan informasi tersebut.

• Tingkat komplektivitas dari halaman – halaman web jauh lebih tinggi dibanding dokumen dalam format teks biasa. Halaman web memiliki struktur yang sangat beragam. Apalagi jika dilihat dari isi atau content yang disajikan di halaman web, memiliki bahasa, gaya penulisan, struktur penulisan dan tampilan yang beragam.
• Informasi yang disajikan diweb bersifat dinamis. Informasi seperti berita, stock market, saham, dan sebagainya dapat berkembang dan berubah setiap saat.

• Web memiliki ragam pengguna yang tersebar di seluruh dunia. Berdasarkan survey dari Netcraft, internet hingga bulan November 2009 memiliki lebih dari 240 juta alamat situs, dan masih terus berkembang. Pengguna dari situs-situs tersebut memiliki latar belakang, demografi, minat, dan tujuan yang berbeda dalam mengaksesweb.

         • Hanya sedikit dari informasi yang disajikan diweb benar-benar bermanfaat (sesuai) dengan pengguna. Fakta tersebut merupakan tantangan untuk menemukan suatu metode atau teknik menyajikan informasi yang tepat bagi user yang tepat.



Untuk menggali informasi yang terdapat di dalamweb, dapat digunakan mesin pencari (search-
engine) seperti Google, Yahoo dan MSN. Namun penggunaan mesin pencari belum cukup efektif untuk mendapatkan informasi yang tepat di halaman web karena mesin pencari pada umumnya menampilkan hasil pencariannya berdasarkan key word yang diberikan. Sebagai contoh pencarian dengan menggunakan keyword ‘data mining’, selain menampilkan informasi tentang data mining dalam konteks ilmu komputer, informasi mengenai istilah mining dalam disiplin ilmu lain juga ditampilkan.
Karena keterbatasan kemampuan dari mesin pencari tersebut, muncul konsep baru mengenai
web mining yang pertama kali dikenalkan oleh Etzioni Oren dalam (Oren, 1996). Menurut Etzioni Oren, web mining diartikan sebagai suatu usaha mengaplikasikan teknik data mining untuk menggali dan mengekstrak informasi yang berguna dari dokumen-dokumen yang tersimpan dalam halaman web secara otomatis. Meskipun memiliki akar terminologi yang sama dengan data mining, namun web mining memiliki perbedaan dari data mining, diantaranya berhubungan dengan sifat datanya yang tidak terstruktur dan sumber datanya yang tidak disimpan di sebuah data warehouse namun tersebar di berbagai sumber. Web mining terbagi menjadi 3 (tiga) kategori yaitu web content mining, web structure mining dan web usage mining (Madria, et al., 1999). Web content mining berfokus pada usaha untuk menggali informasi dari isi ataucontent yang disajikan diweb. Teknik web content mining lebih banyak berhubungan dengan disiplin information retrieval (IR). Sedangkan web structure mining, membahas mengenai penggalian informasi web dilihat dari struktur halaman web itu sendiri. Web structure mining banyak digunakan untuk menggali keterkaitan antara suatu halaman web dengan halaman web lainnya. Sementara web usage mining, berusaha melihat pola atau pattern dari user dalam mengakses web.

2. Web Usage Mining
Definisi yang banyak diterima mengenai web usage mining adalah definisi yang dikemukakan dalam (Cooley, et al., 1999), yaitu “the application of data mining techniques to large web data repositories in order to extract usage patterns”. Seperti diketahui bahwa web sangat berkaitan erat dengan sebuah web server, yaitu suatu software server yang memiliki tugas utama melayani dan memenuhi permintaan halaman web oleh client (pengguna). Selain itu, web server juga akan mencatat setiap aktivitas yang dilakukan oleh client (pengguna) tersebut ke dalam sebuah file yang sering disebut web access log. Hasil catatan aktivitas tersebut yang menjadi sumberdata utama dalam web usage mining. Dari sebuah web access log, dapat diketahui beberapa informasi mengenai pola akses dan kelakuan (behaviour) pengguna dalam mengakses halaman web. Web access log atau web log file memiliki format yang standar, sehingga dapat mempermudah dalam prosesmining. Format standar dari sebuah web access log (Consortium, 1995) adalah [remotehost rfc931 authuser [date] "request" status bytes], dimana:
• remote host adalah nama host atau alamat IP client (user).
• rfc931 adalah namalog dariu ser.
• authuser adalah nama user.  
• [date] adalah tanggal dan wakturequest.
• "request" adalah halaman yang diminta oleh user beserta metodenya .
• status adalah kode HTTP yang dikirimkan kembali ke user (client).
• bytes adalah jumlah byte dokumen yang dikirimkan ke user (client).
Berikut ini contoh sebuahweb access log:
Visitor1.org - - [01/Jan/2001:00:10:00 +0200] "GET H.html HTTP/1.1" 200 1000

2.1.Proses Web Usage Mining
Secara garis besar, proses web usage mining terbagi menjadi 3 (tiga) fase , yaitu preprocessing, pattern discoveryda n pattern analysis (Kimpball, et al., 2000). Dalam (Cooley, et al., 1999), (Cooley, 2000) dan (Cooley, et al., 1999), digambarkan mengenai proses web usage mining seperti terlihat pada gambar 3 berikut ini :

2.1.1.Tahap Preprocessing
Tahapan ini merupakan proses yang pertama kali dilakukan dari keseluruhan proses web usage
mining. Tahapan ini penting dilakukan untuk melakukan standarisasi data dan juga menghilangkan bagian – bagian data tertentu yang tidak diperlukan dalam proses mining. Menurut (Wang, 2000), tahapan preprocessing dapat dibagi menjadi 3 (tiga) bagian yaitu content preprocessing, structure preprocessing dan usage preprocessing. Pembagian tersebut berdasarkan bentuk data yang akan diolah. Namun dalam (Cooley, et al., 1999) dan (Scime, 2005), disebutkan bahwa proses preprocessing dapat dibagi menjadi tahap:
1.Data Cleaning. Tahap untuk membersihkan file log dari data yang tidak relevan dengan proses
mining, seperti data multimedia dan script CSS maupun java script.

2.User Identification. Karena beberapauser mungkin menggunakan komputer (host) yang sama,
maka perlu dilakukan proses identifikasi user . (Pitkow, 1997)

3.Session identification. Setelah user diidentifikasi, halaman yang diakses pun harus dibagi ke dalam sesi tertentu, umumnya berdasarkan waktu tertentu agar didapatkan sesi yang tunggal untuk setiap user (Berendt, et al., 2001).

4. Path Completion. Tahapan melengkapi path yang mungkin belum lengkap karena tidak tersimpan dalam file log (Pitkow, 1997).

5.Transaction Identification. Mengidentifikasi sejumlah sesi tertentu yang menghasilkan satu
proses transaksi yang dilakukan oleh user.
2.1.2. Pattern Discovery 

Fase yang kedua dari web usage mining adalah pencarian pola akses yang dilakukan oleh user.
Fase ini merupakan fase yang sangat penting dan sangat menentukan keluaran dari proses usage
mining. Pada fase ini dikenal beberapa algoritma dan teknik, antara lain (Wang, 2000) :
1.Statistical analysis.
Teknik analisa statistik merupakan teknik yang paling banyak digunakan dalam mendapatkan knowledge dari pola akses user (Cooley, 2000). Analisis statistik dapat disajikan dalam berbagai bentuk analisis dengan beragam variabel yang menjadi parameter analisis. Contoh analisis yang dapat dihasilkan adalah pola akse suser yang dilihat dari waktu akses untuk setiap harinya.

2.Association rules.
Algoritma association rules dalam data mining pertama kali diusulkan oleh Agrawal, Imielinski dan Swami (Agrawal, et al., 1993). Association rule juga dapat diterapkan dalam web usage mining. Contoh keluaran yang dapat dihasilkan yaitu mengenai pola akses terhadap halaman-halaman dalam web, dimana dapat diketahui halaman mana saja yang selalu diakses secara bersamaan oleh user. Hal tersebut dapat digunakan sebagai dasar untuk merancang atau menyusun kembali halaman web agar lebih efektif.
   
3.Clustering.
Clustering merupakan proses mengelompokkan sekumpulan object fisik maupun abstrak ke dalam kelas tertentu berdasarkan kesamaannya (Han, et al., 2006). Dalam kaitannya dengan web usage mining, teknik clustering sering digunakan untuk menentukan segmentasi pasar pengunjung suatu situs e-commerce berdasarkan kesamaan pola akses maupun demografinya.

4.Classification.
Classification merupakan proses pengelompokan berdasarkan kelas yang sudah didefinisikan sebelumnya. Proses classification terbagi menjadi dua, yaitu proses membangun model sesuai dengan kelas yang sudah ditentukan dan proses menerapkan model untuk mengklasifikasikan sekumpulan data (Han, et al., 2006).
5.Sequential Pattern.
Sequential Pattern digunakan untuk menganalisa pola urutan akses halaman web oleh
user. Tren urutan pola akses user dapat digunakan untuk memprediksikan tren di masa
mendatang atau untuk mengatur penempatan iklan.
6.Dependency Modeling.
Dependency modeling berusaha mencari ketergantungan antara satu variabel dengan
variabel yang lainnya dalamweb. Hal ini berguna untuk memprediksikan pola di masa
mendatang. 
2.1.3. Pattern Analysis 
Pattern analysis merupakan fase terakhir dalam web usage mining. Pada fase ini, dilakukan proses visualisasi hasil analisis pola yang telah dilakukan pada langkah sebelumnya. Penyajian data menjadi hal yang penting dalam langkah ini, dimana penyajian data tentunya tergantung pada kebutuhan user dan bisnis. Dari hasil visualisasi tersebut, dapat dilakukan suatu keputusan (action) misalnya keputusan untuk mengubah tampilan suatu website, melakukan optimasi navigasi website, meningkatkan kemampuan website dengan melakukan caching halaman – halaman tertentu yang sering dikunjungi.
3.Aplikasi dan Penggunaan Web Usage Mining  

Dalam kaitannya dengan Web Usage Mining, saat ini banyak tool dan aplikasi yang tersedia mulai dari yang berbayar hingga yang gratis. Berdasarkan survey yang dilakukan oleh Srivastava et al dalam (Srivastava, et al., 2000),tool dan aplikasi web usage mining dapat dibagi menjadi beberapa kelompok penggunaan yang digambarkan dalam gambar 3.
         Kelompok yang pertama merupakan aplikasi yang bersifat umum dalam web usage mining. Contoh dari aplikasi dalam kelompok ini adalah Web SIFT (Cooley, et al., 1999), WUM atau Web Utilization Miner (Spiliopoulou, et al., 1998), Speed Tracer (Wu, et al., 1998), Web Log Miner dan Shahabi. Sedangkan kelompok aplikasi yang kedua adalah aplikasi yang secara khusus ditujukan untuk menangani proses tertentu sesuai dengan manfaat penerapan web usage mining.  
                                                                   Gambar3.

Adapun manfaat penerapan atau penggunaan web usage mining tersebut, antara lain:
1.Personalization
Personalisasi merupakan suatu usaha untuk menyajikan layanan web sesuai dengan preferensi atau kenyamanan tiap user atau pengunjung. Personalisasi yang dilakukan dalam situs e-commerce secara langsung akan meningkatkan penjualan maupun tingkat kepuasan pelanggan (user). Personalisasi dalam e-commerce antara lain dengan penerapan strategi cross – selling dan up – selling. Contoh aplikasi yang bertujuan melakukan personalisasi, adalah WebWatcher(Joachims, et al., 1997),Site Helper (Ngu, et al., 1997), PWUM (Ouamani, et al., 2007), Koinotites (Pierrakos, et al., December 2001) dan Letizia (Lieberman, 1995).

2. System Improvement
Performa dari suatu website dan layanan di dalamnya merupakan hal yang utama untuk menjamin kenyamanan user (pengunjung). Berdasarkan pola akses user yang dihasilkan dari proses web usage mining, dapat diambil suatu keputusan terkait dengan peningkatan performa layanan web. Misalnya jika ternyata ditemukan pola bahwa layanan tertentu cukup sering diakses, maka dapat dilakukan mekanisme caching baik diweb server maupun diproxy. Langkah peningkatan performa sistem lainnya seperti load balancing, network transmission, data distribution, fraud detection, intrussion detection juga dapat diambil berdasarkan hasil dari web usage mining.

3. Site Modification
Website yang adaptif sesuai dengan pola perilaku user tentu akan memberi kenyamanan lebih bagi user. Hasil analisis terhadap pola perilaku user dalam mengakses suatu halaman dapat digunakan untuk menentukan apakah halaman yang bersangkutan sudah disajikan dengan baik atau belum. 

4. Bussiness Intelligence
Berdasarkan hasil yang dikeluarkan oleh web usage mining beserta web mining yang lainnya selanjutnya dapat disusun sebuah Business Intelligence (BI). BI berbasis web mining dapat mempermudah pihak eksekutif dalam memonitor performawebsite bisnisnya. BI akan berisi rangkuman dari beberapa sumber laporan. Pemanfaatan web usage mining untuk membentuk suatu BI memang masih terus dikembangkan, salah satunya adalah frame work yang diusulkan oleh Ajith Abraham dalam (Abraham, 2000). Contoh aplikasi web usage mining yang masuk kategori BI adalah SurfAid dan Buchner.

5. Usage Characterization
Karakteruser dalam menggunakan web berbeda satu dengan yang lainnya. Berdasarkan hasil dari proses web usage mining, karakter user dapat diidentifikasi. Informasi karakter user dalam mengakses web dapat dijadikan dasar untuk meningkatkan performa dari website maupun aplikasi terkait lainnya seperti browser dan web server. Selain pembagian di atas, SaiMing Au dalam (Au, 2002) memberikan beberapa contoh dari aplikasi web usage mining dalam tabel berikut ini:
                                                              
                                                             Tabel web usage mining

3.1. Web Utilization Miner (WUM)
Web Utilization Miner (WUM) merupakan sebuah sistem web mining yang menggali pola-pola navigasi yang dilakukan oleh user (Spiliopoulou, et al., 1998). Sumber data dari WUM adalah log file dari web server, proxy server dan sebagainya. WUM dibangun menggunakan Java Technology dan didistribusikan secara gratis. Selain menyajikan visualisasi dalam bentuk grafis maupun tree, WUM juga menyediakan suatu tata bahasa untuk menghasilkan tampilan yang lebih kompleks. Tata bahasa tersebut disebut MINT. Arsitektur dari WUM sendiri dapat dilihat pada gambar berikut ini:

WUM dapat dijalankan di sistem operasi berbasis Windows maupun Linux. Di website resminya tersedia instalasi untuk Windows maupun Linux. Untuk menjalankan WUM, saat ini masih harus dilakukan melalui command prompt. Berikut ini tampilan awal dari WUM

Untuk melakukan proses web mining, dapat mengikuti langkah-langkah sebagai berikut:
Pertama lakukan proses “Create Mining Base” dengan mengakses menu File > Create Mining Base. Isi dengan informasi nama mining base beserta path tempat menyimpan file log. Tampilannyasebagai berikut :

Selanjutnya kita dapat melakukan import log file yang akan di-mining. Buka menu File > Import Log File dan tentukan log file-nya. Setelah ditekan tombol Import, maka akan dilakukan prosescleansing terhadap file log dan akan ditampilkan informasi berapa baris file log yang berhasil di import. Lihat gambar sebagai berikut:
  Langkah selanjutnya adalah meng-generate sesi user berdasarkan log file yang telah di-import. Buka menu Analyze > Create Visitor’s Session dan tentukan berapa waktu tunggu sesi (threshold) yang diinginkan. Klik tombol OK untuk mengeksekusi proses ini.

Tahap selanjutnya adalah melakukan pattern discovery melalui menu Analyze > Create Aggregated Log (Database). Klik OK untuk menjalankan proses ini.

Hasil proses mining dapat diakses melalui menuVisualizer baik dalam bentuk teks, tabel maupun
grafis. Dua gambar berikut ini merupakan contoh hasil prosesmining yang disajikan dalam bentuk graph dan tree.
4.Kesimpulan

Di dalam Postingan ini, sudah dibahas mengenai web usage mining, termasuk proses, aplikasi dan penggunaannya. Web usage mining sebagai salah satu bagian dari web mining berusaha menggali pengetahuan yang tersembunyi dari sumber data yang sangat besar yaitu web. Saat ini masih terus dilakukan penelitian terkait web mining maupun web usage mining untuk mendapatkan algoritma, teknik dan metodologi yang lebih efektif dan efisien.
Salah satu aplikasi (tools) yang mencoba mensimulasikan proses yang terjadi dalam web usage mining adalah Web Utilization Miner (WUM), dimana aplikasi web usage mining ini memiliki kelebihan dari sisi grafis maupun fitur bahasaquery yang disediakan, yaitu MINT. Aplikasi WUM ini masih sangat sederhana dan sangat terbuka untuk dilakukan pengembangan karena berbasis teknologi Java dan open source.
Tugas Ini di Buat Oleh:
Nama : Fadel Andreza
Kelas : 2 IA 05
NPM : 52409380
 dan
 Nama : Dicky kurniawan.B
Kelas: 2IA 05 
NPM: 53409694 
 Untuk di baca dalam bentuk Word silahkan liat Disini 


 

Tidak ada komentar:

Posting Komentar

SELAMAT DATANG DI http://www.hunt-information.com || disini adalah tempatnya kumpulan ilmu dan hiburan yang bisa buat kalian para sobat terhibur dan menambah pengetahuannya || OH iya,,jangan lupa difollow blog saya ya kawan... (^,*) ||