Web madenciliği terimi ilk olarak 1996 yılında Etzioni tarafından kullanılmıştır. Etzioni web madenciliğinin aranılacak olan materyalin dosyalar ve web servisleri üzerinde otomatik olarak araması esasına dayandığı şeklinde tanımlamaktadır [1].
Web madenciliği; çeşitli yapıdaki web sayfalarını, dokümanlarını ve kayıt bilgilerini incelemek ve bunlardaki anlamlı kalıpları keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir [2].
Web madenciliğinin amacı ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden otomatik olarak bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir [3].
2008 yılında ABD’de yapılan bir çalışmaya göre bir ayda ortalama bir milyon terabyte veri taşınmakta ve bu sayı her geçen yıl artmaktadır [4]. Günümüzde oldukça yaygınlaşan elektronik ticaret ve çevrimiçi alışveriş mekanizmalarının da artmasıyla birlikte, bu alanda birbirlerine rakip olan firmaların çalışmaları, veri madenciliğinin önemini ön plana çıkarmaktadır [5].
2. WEB MADENCİLİĞİ TEKNİKLERİ
Web madenciliğinde kullanılan veriler, web üzerinde çok geniş bir alandan toplanmaktadır. Bu veriler web sayfaları, log dosyaları, kullanıcı kayıt bilgileri, oturum ve hareket bilgileri ve site yapısı ve içeriğinden oluşmaktadır. Söz konusu büyüklükte ve karmaşıklıktaki verilerin etkin bir biçimde analiz edilebilmesi için web madenciliğinde kullanılan tüm yöntemler dört ana işlem basamağından oluşmaktadır: kaynak bulma, bilgi çıkarımı ve ön işleme, genelleştirme ve çözümleme [4].
a) Kaynak Bulma Kaynak bulma çok geniş kapsamlı bir konudur ancak kısaca bilginin elde edilme kısmıdır. Çeşitli verilerin çevrimiçi ya da çevrimdışı olmasına bakılmadan bir veri ambarında toplanmasıyla yapılır. İnternet üzerindeki çeşitli gazeteler, haber grupları vb. gibi yerlerden verinin toplanıp arama amaçlı olarak bir yerde saklanmasıdır.
b) Bilgi Çıkarımı ve Ön İşleme Veri kaynağından toplanan verilerin işlenmesi ve işe yarayacak hale getirilmesi, bir bakıma verinin temizlenmesidir. Ayrıca modellenmesi, sınıflandırılması hatta filtrelenmesidir.
c) Genelleştirme Genelleştirmede, elde ettiğimiz tecrübenin genelleştirilmesi ve bu tecrübeler üzerinden genel-geçer kurallar türetilebilmesi amaçlanmaktadır.
d) Çözümleme (Analiz) Çıkarılan kurallar yardımı ile eldeki verilerden anlamlı sonuçlar çıkarılması ve ileriye yönelik tahmin ve değerlendirmelerin yapılmasıdır.
3. WEB MADENCİLİĞİ YÖNTEMLERİ
Web madenciliğinde kullanılan yöntemler; Web İçerik Madenciliği, Web Yapı Madenciliği ve Web Kullanım Madenciliği olmak üzere üç ana grupta incelenmektedir.
a) Web İçerik Madenciliği Web içerik madenciliği temel olarak İnternet de saklı bilgiyi bulma üzerine yoğunlaşmıştır (arama motorları, vs.). Kısaca konusu, site içeriğidir[6]. Yapay zekâ, akıllı yazılım programları ve bilgi tarama teknikleri kullanılarak web kaynaklarının içeriklerinden (metin, resim, ses, görüntü, metadata ve hiperlinkler) yararlı bilgiyi elde etmek olarak tanımlanabilir. Bu bilgiler “Web Crawler” olarak adlandırılan çeşitli yazılımlar (robot, örümcek vb.) tarafından toplanır. ( gelişmiş arama motorları, içeriklerin indekslenmesi vb.)
b) Web Yapı Madenciliği Web siteleri ve web sayfaları arasındaki bağlantıların incelenmesiyle gerçekleştirilmektedir. Web yapı madenciliği düğümler arası bağlantılara odaklanır. Düğümler arasındaki bağların durumuna göre farklı düğümler arasındaki benzerlik ve ilişki gibi bilgileri üretir. Web yapı madenciliğinde ağlar yönlü graflar şeklinde ifade edilirler. Ağ üzerindeki her bir eleman bir düğümü, elemanlar arasındaki ilişkiler ise yönlü ve/veya ağırlıklı kenarları temsil eder. Graf yapısının oluşturulmasıyla birlikte graf teorisindeki bağıntılardan da yararlanılarak özellikle benzerlik ile ilgili olarak komşuluk matrisleri çıkarılarak çeşitli analizler yapılabilir. (Benzer arama sonuçları, atıf analizi vb.) Google arama motoru da bir web yapı madenciliği uygulaması olan HITS algoritmasını kullanarak benzer sayfaları sonuçlarda göstermektedir.
c) Web Kullanım Madenciliği Web kullanım madenciliği, Web server erişim kayıtlarından en yoğun ve ilginç kullanıcı erişim örüntülerini keşfetmek ve anlamlı verileri çıkarmayı amaçlar. Web kullanım madenciliği, Internet kullanıcı talepleri ile ilgili hizmetlerin yeterliliği, web sayfalarının kullanma durumlarını, kullanıcı oturumları ve kullanıcı davranışlarıyla üretilen erişim kayıtlarının analiz edilmesi konuları ile ilgilidir. Web kullanım verisi, web sunucu erişim kayıtları, Proxy sunucu kayıtları, tarayıcı kayıtları, kullanıcı profilleri, çerezler, fare klikleri ve sayfa kaydırmalar ve etkileşim sonuçları gibi verileri içerir [7].
Web kullanım madenciliği aynı zamanda bir veya birçok web sunucusundan kullanıcı erişim desenlerinin otomatik keşfinin ve analizin yapıldığı bir tip veri madenciliği etkinliğidir.
Birçok kuruluş pazar analizleri için geliştirdikleri stratejileri ziyaretçi bilgilerine dayanarak yerine getirir. Kuruluşlar günlük operasyonlarla her gün yüzlerce MB veri toplamaktadır. Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir. Günlük dosyaları, istemciden sunucuya gönderilen her bir isteğin bir kayıt olarak eklenmesi ile meydana gelir. Günlük dosyalarının analizi, müşterilerin ilgi alanları, ürünler üzerinden pazar stratejileri oluşturma, promosyon kampanyalarının etkisi gibi hususlarda, kurumlara karar süreçlerinde yardımcı olur.
Sunucu erişim kayıtlarının ve kullanıcı kaydı verilerinin analizi, aynı zamanda kurumun daha etkili bir sunumunun yapılabilmesi için Web sitesini nasıl daha iyi hale getirebileceği hakkında değerli bilgiler sağlar. İntranet teknolojilerini kullanan kurumlarda, bu tür analizler çalışma grubu iletişimi ve kurumsal altyapının daha iyi işletilmesine ışık tutabilir. Son olarak, WWW üzerinden reklam yapan kurumlar için kullanıcı erişim desenlerini analiz etmek, reklamların belirli bir kullanıcı grubuna yönlendirilmesine yardımcı olur.
Bu yöntemde ihtiyaç olunan veriler internet mecrası üzerindeki çeşitli sunucularda kayıt altına alınmış olan kullanıcılara ait işlem ve oturum bilgilerinin yer aldığı log dosyalarından elde edilir. Burada amaçlanan ziyaretçilerin siteyi kullandıktan sonra geride bıraktığı erişim kayıtlarından veri üretmektir. Bu verilere örnek olarak kullanıcı adı, ip adresi, fiziksel bağdaştırıcı adresi, bağlantı saati, oturum süresi gibi bilgiler verilebilir ve söz konusu veriler kullanıcının isteği dışında ve zorunlu olarak oluşmaktadır. Log dosyalarının analiz edilmesi ile kullanıcılar hakkında detaylı bilgi ve çıkarımlara ulaşılabilir, kişiye özel içerik sunma, teklif gönderme, kişiye özel reklamcılık gibi uygulamalar geliştirilebilir, kullanıcının eğilimleri belirlenebilir ve ileriye yönelik tahminler üretilebilir. Bu sayede özellikle ticari alanlarda firma sahiplerine büyük avantaj sağlanmaktadır. Ayrıca kullanıcı kayıtlarının elde edilen geri beslemeler doğrultusunda tasarımda kişiselleştirmeler ve iyileştirmeler yapılabilir ve kullanılabilirliğin arttırılması sağlanabilir.
Web kullanım madenciliği için temel uygulama alanları şu şekildedir[4]:
Kişiselleştirme(Personalization)
Sistem Geliştirme (System Improvement)
Web Sitesi Yenileme (Site Modification)
İş Zekası (Business Intelligence)
Kullanım Karakteristiği (Usage Characterization)
Web Kullanım Madenciliği (Web Usage Mining)
Web kullanım madenciliği; Ön işlem (pre-processing), desen keşfi (pattern discovery) ve desen analizi (pattern analysis) aşamalarından oluşur. Web kullanım madenciliğindeki en önemli aşamalardan biride uygun bir veri kümesi oluşturmaktır. Bu verinin oluşturulmasındaki temel veri kaynakları Web sunucu erişim kayıtları ve uygulama sunucu kayıtlarıdır[8]. Web madenciliğinde kullanılabilecek veriler, içerik, yapı, kullanıcı profili ve kullanım olmak üzere dört farklı şekilde bulunmaktadır. Bu veriler sunucu (server), istemci (client) ve Proxy sunucu gibi farklı kaynaklardan elde edilebilir.
Web madenciliğinde kullanılabilen veri çeşitlerini kısaca açıklayalım:
a) İçerik (Content): Kullanıcıların Web sayfalarında eriştiği ve kullandıkları grafik, resim, metin, şekil, ses ve görüntü dosyaları gibi gerçek verilerdir. Bunların dışında bir Web sitesi, tanımlayıcı kelimeler, anlamsal etiketler, doküman özellikleri gibi anlamsal ve yapısal veriler de içermektedir.
b) Kullanıcı Profili (User Profile): Web sitesi kullanıcılarına ait demografik bilgilerinin bulunduğu verilerdir. Bir siteye kayıt olunduğunda alınan bilgiler de bu veriler içerisinde yer alır. Bu tür verilerin elde edilebilmesi için Internet kullanıcısının web sitesi ile etkileşim halinde olması gerekmektedir.
c) Yapı (Structure): Web sitesi içeriğinin organizasyonunu gösteren veridir. Web sitesindeki yapı verisi, tasarımcı bakış açısını gösterir. Örneğin, web sitesinde bulunan sayfalar arasındaki bağlantı bilgisini, HTML (Hyper Text Markup Language) ve XML (Extensible Markup Language) dokümanları ağaç yapısını gösterir. Web sitesi yapı verisi, site haritalama araçları ile otomatik olarak oluşturulan sitenin harita bilgisidir.
d) Kullanım (Usage): Internet kullanıcılarının web sitesinin kullanım bilgilerini gösteren verilerdir. Bu bilgiler içerisinde kullanıcı IP adresi, sayfa referansları, bağlantı saat ve tarihleri, kullanıcının Internet tarayıcısının adı ve sürümü gibi birçok bilgiler yer almaktadır. Sunucularda tutulan kullanıcı erişim kayıt dosyaları, kullanıcı davranışları ile ilgili bilgileri tutmaktadır. Kayıt dosyalardan istenilen bilgilerin elde edilebilmesi için, kayıt dosyası içindeki ilgili alanların seçilerek birbirleriyle ilişkilendirilmesi gerekmektedir. Yani, istenilen bilgilerin çıkarılması için amaca yönelik uygun alanların seçimi yapılmalıdır. Örneğin; arka arkaya ziyaret edilen Web sayfalarının sıklığını tespit etmek için erişim kayıt dosyasındaki referer, request URL, date, time alanları mutlaka seçilmelidir.
KAYNAKLAR:
[1] Etzioni, E., “The World Wide Web: Quagmire or gold mine”, Communcations of the ACM, 39(11):65-68, 1996.
[2] Baykal, A., Coşkun, C. “Web Madenciliği Teknikleri”, Akademik Bilişim ’09 –XI. Akademik Bilişim Konferansı Bildirileri s.797-800, Harran Üniversitesi-Şanlıurfa, Şubat 2009.
[3]. Mobasher, B., Cooley, R., Srivastava, J. (2000). Automatic Personalization based on Web Usage Mining, Communications of the ACM, Volume:43, No:8, pp:142-151.
[4] Tekin, N. , Pulat,S. “Veri Madenciliği” www.beykent.biz/dokumanlar/data_mining/web_madenciligi.ppt ,Erişim Tarihi 01.06.2011
[5] Vahaplar, A., İnceoğlu, M. M., “Veri Madenciliği ve Elektronik Ticaret”, Türkiye’de Internet Konferansları VII, 2001.
[6] Cooley, R., Srivastava, J., Mobasher, B., “Web mining: Information and Pattern Discovery on the World Wide Web”, Proceedings of 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’97), 1997.
[7]. Lizhen Liu, Junjie Chen, Hantao Song. (2002). The Research of Web Mining, Proceedings of the 4th World Congress on Intelligent Control and Automation, June 10-14, Shanghai/China.
[8]. Liu, B., (207). Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, (ISBN-13: 978-3-540-37881-5), pp:532, Springer.
barisla.com
Hiç yorum yok:
Yorum Gönder