Loading...

VERİ

Bu görev için, Türk Telekom tarafından baz istasyonu konumlarına ilişkin iki dosyayla birlikte, üç CDR (Arama Ayrıntısı Kaydı) veri seti sağlanacaktır.

Veri setleri, Ocak 2017 - Aralık 2017 arasında toplanan bir yıllık mobil CDR verilerini içerecektir. Veri seti hazırlanırken, haftada 1000'den düşük etkileşim ortalamasına sahip olan kullanıcılar kullanılacaktır (Haftada 1000'den fazla etkileşimi olan kullanıcılar makine veya paylaşımlı telefon kabul edilmektedir.)

Tüm veri setleri, düz metin formatında saklanacaktır. 

BAZ İSTASYONU KONUMLARI

BTS'lerin (Baz Alıcı-Verici İstasyon), mobil ağ antenlerinin bulunduğu yerlerin coğrafi koordinatları verilecektir. Birkaç BTS'nin ortak konumda olabileceği unutulmamalıdır. Her satır, ağ anteninin bulunduğu saha kimliğini ve bir semt kimliği içerir. Semt kimliği birkaç saha içerir.   

 

Örneğin:

saha_kimliği, semt_kimliği, boylam, eylem 

1,2,-17.5251,14.74683

2,2,-17.5244,14.74743

3,2,-17.5226,14.7452

4,2,-17.5164,14.74673

BÖLGE KONUMLARI

Kaba hareketlilik için baz istasyonları sağlanmamaktadır, yalnız her çağrı için ilçe bilgisi belirtilmektedir. Türkiye’de 971 ilçe bulunmaktadır. Verinin sağlandığı baz istasyonları, tüm ülke genelinde yaklaşık 481 ilçede toplanmıştır. Her ilçenin geometrik merkezi ayrı olarak kaydedilecektir.

 

Örneğin:

semt kimliği, semt ismi, şehir ismi, boylam, enlem 

1, Beşiktaş, İstanbul, -17.5251,14.74683

2, Sarıyer, İstanbul, -17.5164,14.74673

VERİ SETİ 1: ANTEN TRAFİĞİ

Saatlik olarak bir yıllık sahadan sahaya trafik verilmiştir.  Bu veri seti, bir yıl için her saha arasındaki trafiği içerir. SES için Veri_Seti1_201701 şeklinde, sahalar arasındaki aylık ses trafiğini içerir ve aşağıdaki şekilde yapılandırılır:

  

zaman damgası: YYYY-AA-GG SS (saat değerine yuvarlanır) formatında değerlendirilen gün / saat

  

giden_saha_kimliği: çağrının geldiği sahanın kimliği

  

gelen_saha_kimliği: çağrıyı alan sahanın kimliği

  

toplam_çağrı_sayısı: bu saat sırasında bu iki saha arasındaki çağrıların toplam sayısı

  

mültecilerden kaynaklanan çağrıların sayısı: mülteci statüsündeki numaralardan kaynaklanan çağrıların sayısı

  

toplam çağrı süresi: bu saat sırasında bu iki saha arasındaki tüm çağrıların toplam süresi

  

mültecilerden kaynaklanan toplam çağrı süresi: bu saat sırasında bu iki saha arasındaki mülteci kimliklerinden kaynaklanan çağrıların toplam süresi

 

Örneğin:

zaman damgası, giden_saha_kimliği, gelen_saha_kimliği,... ...çağrı_sayısı, mülteci_çağrıları, toplam_çağrı_süresi, mülteci_çağrı_süresi

2013-04-01 00,2,2,7,1,138,20

2013-04-01 00,2,3,4,0,136,0

2013-04-30 23,1659,608,0,1,0,3601

VERİ SETİ 2: İNCE HAREKETLİLİK

Bu veri seti, telefon araması yapmak ve metin göndermek için rastgele seçilmiş aktif kullanıcılar grubu tarafından kullanılan baz istasyonu tanımlayıcıları sağlayacaktır. Veriler, zaman damgalı olacak ve kullanıcı grubu 2 haftalık bir süre boyunca gözlemlenecektir. İki haftalık sürenin sonunda, aktif kullanıcılardan oluşan yeni bir örnek rastgele çekilecektir. Her bir örnek, mülteci tabanının %3'ü artı eşit miktarda mülteci dışı kullanıcı içerir. Mahremiyeti korumak için, her zaman aralığında yeni rastgele tanımlayıcılar seçilir. Zaman damgaları dakikaya yuvarlanır.

  

Bu kullanıcılar için telefon numaraları çıkarılır ve yerine, her biri için rastgele eşsiz bir numara atanır. Bu numaralar, mülteciler için 1, mülteci olmayan kullanıcılar için 2 ve bilinmeyenler için 3 ile başlayacaktır. Bununla birlikte, bu belirtecin gürültülü olduğu kabul edilmelidir. Mülteci olarak işaretlenen kullanıcılar arasında mülteci olmayan yabancılar, mülteci değil diye işaretlenen kullanıcılar arasında mülteciler olabilir. Bu şekilde, bir çağrının mülteci numarasına ait olup olmadığını kesin olarak söylemek mümkün olmayacaktırAranan, kayıtlarda yer almaz; yalnız alan kodu (1: mülteci, 2: mülteci değil, 3: bilinmiyor) verilir. 

  

Her bölge için birden fazla mobil operatör olduğu unutulmamalıdır. Dolayısıyla verilen telefon ve görüşme sayıları, bölgenin toplam konuşma miktarı ile ilgili göstergeler vermekle birlikte, gerçek toplam sayıları ifade etmemektedir. Eksik anten konumları için -99 veya 9999 sayıları verilmiştir. 

  

Sahalar arasındaki aylık ses trafiği SES için Veri_Seti2_201701W_In/Out biçiminde ve SMS için Veri_Seti2_201701W_SMS_In/Out biçiminde saklanır ve aşağıdaki şekilde yapılandırılır. Gelen SMS’ler 9333 servisinden veya farklı SMS servislerinden ve uygulamalarından gelmiş ise, aranan alan kodu=3 olarak değerlendirilmiştir.

 

arayan kimliği: rastgele atanan değer, mülteci statüsünü belirten hane eklenir (1: mülteci, 2: mülteci dışı, 3: bilinmiyor)

 

zaman damgası: YYYY-AA-GG SS:DD (dakikaya yuvarlanır) formatında değerlendirilen gün / saat

 

aranan alan kodu: 1: mülteci, 2: mülteci değil, 3: bilinmiyor

 

saha_kimliği: çağrıyı kaydeden sahanın kimliği 

  

çağrı tipi: giden için 1, gelen için 2

 

Örneğin:

caller id, timestamp, callee prefix, site id, call type

1138, 2013-04-01 12:32, 1, 52, 1

309095, 2013-04-01 12:33, 3, -1, 2

VERİ SETİ 3: KABA HAREKETLİLİK

Bu veri setinde, tüm gözlem dönemi için düşük mekansal çözünürlükle 50.000 rastgele seçilmiş mülteci ve 50.000 rastgele seçilmiş mülteci olmayan kullanıcıdan oluşan izlemeler sağlanır. 

  

Mekansal çözünürlük, anten tanımlayıcıları yerine ilçe bazında verilerek azaltılır. Türkiye haritası resmi olarak 981 ilçeye ayrılmıştır. Veri setimizde 481 ilçeden alınmış veri bulunmaktadır.

  

Veri_Seti3_201701_In/Out şeklinde aylara bölünmüş dosyalar, aşağıdaki formatta kayıtları içerecektir:

  

arayan kimliği: rastgele atanan değer, mülteci statüsünü belirten hane eklenir (1: mülteci, 2: mülteci değil)

  

zaman damgası: YYYY-AA-GG SS:DD (dakikaya yuvarlanır) formatında değerlendirilen gün / saat

  

ilçe_kimliği: çağrıyı kaydeden ilçenin kimliği

 

Örneğin:

arayan kimliği,  zaman damgası,  ilçe_kimliği 

1138,    2013-04-01 12:32,  167
209095,  2013-04-01 12:33,  23
176202,  2013-04-01 12:33,  75

MAHREMİYETİN KORUNMASI

Veri seti 1, baz istasyonu başına çağrı sayısı ve süresini içerir. Kullanıcılar hakkında kişisel olarak tanımlanabilir bilgiler içermediği için Veri seti 1 mahremiyet ihlaline yol açmaz. Bu set, süre boyunca trafik örüntülerini araştırmak için kullanılabilir ancak kullanıcılar ile ilgili hiçbir kişisel bilgi ortaya koymaz. Bu veri seti farklı alanların etkinlik seviyelerinin analizini sağlamanın yanı sıra, alanlar arasında iletişim bağlantıları kurulmasını mümkün kılar.

Veri seti 2, ayrıntılı arama kayıtları içerir. Kullanıcıların mahremiyetini korumak için, telefon numaraları rastgele numaralar ile değiştirilir ve herhangi bir kullanıcı için yalnız iki haftalık veri kaydedilir. Her bölge için sadece bir operatörden yapılmış konuşmaların bulunduğu unutulmamalıdır. Çağrının tam fiziksel konumu paylaşılmaz. Veri seti yalnız çağrıyı gerçekleştiren baz istasyonunun kimliğini kaydeder. Çağrılar (istasyonun ne kadar meşgul olduğuna ve arazinin fiziksel yerleşimine bağlı olarak) her zaman en yakın baz istasyonu tarafından gerçekleştirilmediğinden, bu da ilave bir koruma katmanı ekler.

Veri seti 3, tüm yıl için kayıt toplamaktadır, ancak fiziksel konum kabaca gösterilir. Burada da tüm kişisel bilgiler çıkarılır. Yalnız mülteci statüsü göstergesi vardır. Bununla birlikte, bu belirteç de kesin değildir, bu yüzden herhangi bir kaydın bir mülteciye ait olup olmadığını kesin olarak ifade etmek imkansızdır. 

 

“DATA FOR REFUGEES TÜRKİYE” BÜYÜK VERİ YARIŞMASI.
D4R CHALLENGE WORKSHOP
KATILIM ÜCRETSİZDİR
21 OCAK 2019
Dikkatinize!

PROJE GRUPLARINCA PROJE TEKLİFLERİNİN SUNULMASI 23 Mart 2018 tarihine kadar uzatılmıştır.