
Kumpulan information tidak dikumpulkan dan diumpankan ke sistem AI secara langsung.
Pembelajaran mesin akan jauh lebih cepat jika ini masalahnya. Mempersiapkan information dapat menjadi tantangan, karena pengembang AI perlu membuat information yang sesuai untuk pembelajaran mesin.
Ini melibatkan sejumlah langkah persiapan information utama, seperti yang dibahas di bawah ini.
1. Artikulasi Masalah

Pengembang AI mungkin memiliki keahlian dalam membangun sistem pembelajaran mesin, tetapi mereka mungkin tidak memiliki pemahaman terbaik tentang masalah yang coba dipecahkan oleh sistem mereka.
Jadi membantu untuk mendapatkan pendapat dari pengguna sistem yang dituju. Wawasan dari mereka yang akan mendapat manfaat darinya akan sangat berharga.
Artikulasi masalah, di satu sisi, seperti mundur dari information untuk mendapatkan gambaran yang lebih jelas dan lebih luas tentang apa yang ingin dicapai oleh information dan sistem AI.
2. Mengatur Mekanisme Pengumpulan Knowledge

Langkah selanjutnya adalah menentukan bagaimana mengumpulkan dan mengatur information. Di sini, tim pengembang harus mencari tahu apakah gudang information sesuai untuk tujuan tersebut atau apakah danau information lebih cocok. Keputusan dalam menangani information biasanya merupakan pekerjaan seorang insinyur information.
Namun, ada kalanya pengembang harus memutuskan infrastruktur information yang akan dibangun. Situasi ini biasanya terjadi pada proyek yang lebih kecil atau selama tahap awal pengembangan.
3. Pemeriksaan Kualitas Knowledge, Anotasi, dan Pemformatan

Anotasi information mengacu pada pengurutan dan pelabelan information. Langkah ini membuat information pelatihan AI bermakna dan dapat digunakan untuk kasus penggunaan tertentu.
Langkah ini biasanya dilakukan oleh manusia, tetapi saat ini, ada solusi otomatis dan hibrid yang membuat anotasi information lebih cepat dan efisien secara signifikan.
Di sisi lain, pemformatan information adalah tentang mengubah kumpulan information menjadi format file yang kompatibel dengan sistem pembelajaran mesin. Ini memastikan konsistensi information dan mencegah variabel yang tidak perlu yang dapat membingungkan sistem.
Namun, sebelum anotasi dan pemformatan, ada anggapan bahwa tim pengembang telah melakukan pemeriksaan kualitas information.
Penting untuk memastikan bahwa information tersebut dapat diandalkan, tidak seimbang atau condong ke hasil tertentu, dan cukup untuk mewakili kenyataan yang perlu dipelajari oleh sistem AI dengan benar. Tentu saja, hal ini juga penting untuk menghilangkan kesalahan atau misrepresentasi.
4. Pengurangan Knowledge

Kelengkapan information tidak sama dengan mengumpulkan semua jenis information. Seringkali, pengembang membangun sistem AI yang ditujukan untuk tugas tertentu, jadi lebih baik mengurangi information untuk fokus pada situasi yang paling relevan.
Reduksi information dapat dilakukan melalui pengambilan sampel atribut, pengambilan sampel rekaman, dan agregasi.
5. Normalisasi atau Penskalaan Knowledge

Normalisasi information memerlukan penyelarasan nilai information ke skala umum dan distribusi nilai. Ini mirip dengan tujuan pemformatan information, kecuali bahwa itu berfokus pada penetapan skala yang sesuai untuk sistem.
Selain itu, normalisasi information berusaha untuk menghilangkan pengaruh yang tidak semestinya dari variabel besaran besar atas yang lain dengan besaran yang lebih kecil.
Membuat, membersihkan, dan menyusun kumpulan information adalah langkah penting dalam pengembangan AI. Mereka memastikan bahwa information yang digunakan untuk pembelajaran mesin memadai, kompatibel, tepat sasaran, dan dalam skala yang tepat.
Tambahan: