
Data dioptimalkan untuk melatih model tanpa tautan dan kode pemformatan teks, mengatasi masalah lalu lintas halaman yang dipengaruhi oleh bot.
Keggle akan membayar Wikipedia Enterprise untuk data ini, dengan atribusi di bawah lisensi Creative Commons dan Lisensi Dokumentasi Bebas GNU (GFDL).
Mereka bermitra dengan Keggle – anak perusahaan Google – untuk menawarkan kumpulan data terpilih dalam bahasa Inggris dan Prancis.
Data telah dioptimalkan untuk melatih model dengan tidak memuat tautan dan kode untuk memformat teks seperti yang ditawarkan di Wikipedia.
Keputusan untuk menawarkan kumpulan data ini dilakukan karena lalu lintas situs tersebut sangat terganggu oleh bot yang ingin mencuri artikel untuk melatih model tanpa izin.
Bulan lalu Wikipedia mengatakan jumlah lalu lintas yang mengakses konten multimedia meningkat sebesar 50% tahun lalu karena aktivitas bot.
Keggle akan membayar Wikipedia Enterprise untuk menggunakan data ini.
Pada saat yang sama semua data yang digunakan akan dikaitkan kembali di bawah lisensi Creative Commons Attribution-Share-Alike 4.0 dan Lisensi Dokumentasi Bebas GNU (GFDL).