Türkiye İstatistik Kurumu’ndan ( Tüik ) edinilen bilgiye takriben, internet üzerinden mal ve hizmet satın alımları her geçen gün daha da yaygınlaşırken istatistik bilimi ofislerinin söz konusu zengin data kaynağını göz ardı etmemesi önem taşıyor. İnternet fiyatlarının TÜFE’ye entegre edilmesinin zorunlu hale geldiği değerlendirilirken, böylece istatistik üretiminde data derleme sıklığının daha yüksek ve daha büyük hacimli olması hedefleniyor. Laf konusu verilerin mevcut yapıyı geliştirmek ve yeni değişkenleri elde etmek için büyük bir fırsat sunduğu düşünülüyor.
KRİTERLERE KADAR WEB SİTESİ SEÇİLİYOR
Otomatik olarak bir web kaynağından data derlemeye data kazıma (web scraping) deniliyor. Bu genellikle bir kazıyıcı (scraper) yardımıyla oluyor ve daha gelişmiş istatistiksel analizler için ham veriyi derleyip temizliyor. Otomatik data kazıma teknolojilerini kullanarak jurnal, saatlik ve hatta daha yüksek sıklıkta veri yapısıyla optimal data derleme eser stratejileri elde edilebiliyor. Böylece, ayrıntılı metaveri bilgileri derlenerek hesaplamalar geliştirilebiliyor. Bu yöntemde genel gaye, web sitesinde yer alan HTML formatındaki bilgiyi tahlil ve hesaplamalar için daha yerinde yapılara dönüştürmek.
Bu yöntemde, yerinde web sitesi seçimi için bir takım kriterler de aranıyor. Bunun için sitenin temsiliyet, hacim, içerik kaynağı, sürdürülebilirliği, teknik özellikleri, metaveri ve hedef değişkenleri gibi unsurlara bakılıyor. Tüik, internetten veri kazıma çalışmaları zarfında 2020 yılında TÜBİTAK ile ortaklaşa TÜİK Büyük Data İleri Çözümlemeli Projesi’ni gerçekleştirdi. Veri kaynakları olan firmalardan gerekli izinler alınarak, internetten data kazıma fiyat derleme yönteminin altyapısı hazırlandı. Proje sonucu gelen çiğ data, TÜİK teknik personeli kadar tahlil edildi, hatalar belirlendi ve fiyat derlenebilecek ayla getirildi. daha sonra verinin tablo formatında, fiyat takibi yapılabilir ve veri analizine yerinde olması sağlandı.
ÜRÜNLERİN FİYATI YIL BOYUNCA TAKİP EDİLECEK
Beyaz eşya, elektronik ürünler, mobilya, birinci el otomobiller ve otobüs bileti fiyatları için 2022 yılı itibarıyla internet üzerinden derlenen fiyatlar endeks hesaplamalarında kullanılacak. Aralık ayı temel alınarak takibi kararlaştırılan ürünlerin fiyatı, mahsul kodu ya da mahsul barkodu üzerinden yıl baştan başa peşine düşüp takip edilecek. Bu Nedenle aynı kalitedeki ürünlerin fiyat gelişimleri endeks hesaplamalarına yansıtılacak. Bu kapsamdaki fiyatların sayısı aylık takriben 20 bin civarında.
Data kazıma yoluyla elde edilen bilgiler jurnal olarak takip edilerek fiyat metamorfoz analizleri de yapılıyor. Ayrıca fiyatı gelen ürünlerin satışının devamlılığı da fiyat derleme dönemi içindeki fiyat sayıları yoklama edilerek gözleniyor.
İNTERNET VERİSİNİN KULLANIMI YAYGINLAŞTIRILACAK
Gelecek dönemde yeni sisteme adapte edilen mahsul fiyatlarının günlük olarak data akışı sağlanacak, analizleri yapılacak ve diğer veri derleme eser yöntemleri olan barkod ve bölge verisiyle birlikte fiyat derleme eser döneminin sonunda endeks hesaplamalarında kullanılacak. TÜFE kapsamında derlenen aylık fiyatların yaklaşık olarak yüzde 40-45’i barkod ve internetten data kazımayla elde edilmiş olacak ve bu nedenle veri, kaynağında mümkün olan en dürüst haliyle derlenecek.
TÜİK, bu kapsamda asgari maliyetle en doğru veriyi elde edebilecek. Bu amaç doğrultusunda diğer ülke çalışmaları da dikkate alınarak barkod ve internet verilerinin kullanımının yaygınlaştırılması öngörülüyor.
AA – Ekonomi Haberleri
Enflasyon, TÜİK, Ekonomi, Aktüel, Haber