Thursday, January 16, 2014

Pertambangan Web Untuk Memprediksi Kejadian Masa Depan


Mark Twain mengatakan dalam istilah “The Past Does No Repeat It Self, But It Rhymes”, yang artinya masalalu itu tidak dapat mengulangi sendiri, Tapi Sajak. Dalam semangat RE in ACTION ini, kta mengembangkan dan cara uji coba memanfaatkan sejarah digital skala besar yang diambil dari 22 tahun yang lalu dalam laporan berita New York Times (NYT) Yaitu sebuah arsip untuk membuat prediksi real-time tentang kemungkinan kejadian manusia dan alam masa depan.

Disini kami menjelaskan bagaimana kita belajar untuk memprediksi masa depan dengan generalisasi set speci transisi dalam urutan acara berita yang dilaporkan, yang diambil dari arsip beritatahun 1986. Selain corpora berita, kita memanfaatkan data dari sumber daya yang tersedia secara bebas Web, termasuk Wikipedia, freebase, OpenCyc, dan GeoNames.

Kami berasumsi bahwa peristiwa di dunia nyata yang dihasilkan oleh model probabilistik yang juga menghasilkan laporan berita yang berhubungan dengan peristiwa ini.Sebagai contoh, model belajar bahwa probabilitas sebuah laporan berita tentang kekeringan (evj) terjadi setelah sebuah laporan berita tentang banjir (evi) menjadi 18%. Probabilitas ini mendekati hubungan antara dua kejadian di dunia nyata.

Kami akan menjelaskan alur cerita berita dari arsip NYT sebagai heuristik untuk mengidentifikasi hubungan kausal potensial antara kejadian-kejadian. Sebuah alur cerita adalah seperangkat segmen memerintahkan topikal kohesif berita yang mencakup dua atau lebih deklaratif klausa independen tentang satu cerita. Sebagai contoh, sebuah alur cerita tentang penangkapan Carlos the Jackal termasuk cerita tentang veri kasi identitasnya, ia transportasi ke penjara, dan sebagainya. Metode ekstraksi alur cerita tersebut disebut sebagai deteksi topik dan pelacakan.

Kami berusaha untuk menyimpulkan probabilitas acara berita masa depan bunga diberikan vektor mewakili acara berita yang terjadi sampai waktu tertentu. Untuk melakukan tugas ini, kami membuat kasus pelatihan untuk setiap acara sasaran, di mana setiap kasus diwakili menggunakan satu set pengamatan atau fitur. Kami de fitur ne baik leksikal dan faktual. Kami menetapkan label untuk setiap kasus sebagai benar hanya jika teks yang mewakili event target masa depan terjadi dalam dokumen tanggal di lain waktu dalam rantai.
  
Kami mengatakan bahwa rantai peristiwa milik domain D, jika terdiri dari satu domain kata yang relevan, dinotasikan sebagai wi (D). Sebagai contoh, untuk tantangan memprediksi kematian di masa depan, kita mempertimbangkan kata-kata \ dibunuh, "\ mati," \ kematian, "dan terms.3 terkait mereka untuk tantangan memprediksi wabah penyakit masa depan, kami mempertimbangkan semua menyebutkan \ kolera, "\ malaria," dan \ disentri. " Selama prediksi, kita bertahan dari belajar phasea uji set satu dekade peristiwa untuk periode 1998 {2007 (periode test). Kami mengatakan bahwa rantai adalah rantai tes-domain jika (1) tanggal semua peristiwa yang terjadi tanggal periode pengujian di, dan (2) peristiwa kronologis rst dalam rantai tidak mengandung salah satu istilah domain, misalnya , acara rst tidak mengandung menyebutkan kematian (jika prediksi mungkin sepele).

Kami disajikan metode untuk rantai pertambangan peristiwa dari 22 tahun arsip berita untuk menyediakan metodologi yang menyediakan prediksi real-time tentang likelihoods peristiwa dunia masa depan yang menarik. Sistem ini memanfaatkan beberapa sumber daya Web untuk menggeneralisasi peristiwa yang ia belajar tentang dan memprediksi. Kami membahas bagaimana kita dapat belajar dari pola data dalam jumlah besar, memantau jumlah besar sumber informasi, dan terus belajar asosiasi probabilistik baru. 

Untuk menunjukkan pendekatan , kami mempresentasikan hasil dari beberapa evaluasi dan contoh yang representatif urutan peristiwa dan peringatan proaktif . Kami dianggap sebagai sampel penarikan kesimpulan prediksi tentang wabah penyakit , kerusuhan , dan kematian . Kami percaya bahwa metode menyoroti arah dalam membangun layanan memperingatkan real-time yang memprediksi meningkat tidak bisa signi dalam acara global yang menjadi kepentingan . di luar pengetahuan yang mudah ditemukan dalam studi atau tersedia dari para ahli , hubungan baru dan probabilitas konteks - sensitif hasil dapat ditemukan dengan otomatis seperti analisis . Sistem menggunakan metode akan cepat dan akses komprehensif untuk berita , termasuk ceritayang mungkin tampak tidak bisa insigni tapi itu dapat memberikan berharga bukti tentang evolusi lebih besar , cerita yang lebih penting . Kami berharap bahwa pekerjaan ini akan merangsang penelitian tambahan  pada meningkatkan pengalaman masa lalu dan pengetahuan manusia untuk memberikan prediksi berharga tentang kejadian di masa depan dan intervensi.


SUMBER 

No comments:

Post a Comment