Rentan Disalahgunakan, AI Baru Microsoft Tak Bisa Diakses untuk Publik

marketeers article
Ilustrasi AI. (FOTO: 123RF)

Microsoft kini memiliki alat kecerdasan buatan atau artificial intelligence (AI) baru yang dinamai VALL-E 2. Sayangnya, demi alasan keamanan, AI ini tidak dirilis untuk publik.

VALL-E 2 adalah sebuah AI generator teks ke suara yang mampu mereproduksi suara pembicara manusia hanya dengan beberapa detik audio. Namun, sayangnya, teknologi besutan Microsoft ini terlalu berbahaya untuk publik.

Dikutip dari LiveScience pada Jumat (12/7/2024), dalam sebuah makalah yang muncul di server pra-cetak arXiv pada 17 Juni, para peneliti Microsoft menyatakan bahwa VALL-E 2 mampu menghasilkan ucapan yang akurat dan alami dalam suara asli pembicara dengan kualitas yang sebanding dengan kinerja manusia.

Dengan kata lain, generator suara AI dari Microsoft ini cukup meyakinkan sehingga bisa disalahartikan sebagai orang sungguhan, setidaknya menurut penciptanya.

BACA JUGA: Salip Microsoft, NVIDIA Resmi Jadi Perusahaan Paling Berharga di Dunia

VALL-E 2 sendiri mampu mencapai suara yang mirip seperti manusia sungguhan karena teknologi AI ini dibekali dengan dua fitur kunci.

Fitur itu adalah fitur Repetitions Aware Sampling yang hadir sebagai fitur dengan kemampuan untuk meningkatkan cara AI mengonversikab teks menjadi suara dengan mengatasi pengulangan ‘token’ atau unit kecil bahasa seperti kata-kata atau bagian kata.

Sehingga, fitur AI ini mampu mencegah pengulangan tak terbatas dari suara atau frasa selama proses decoding. Karenanya, fitur ini berperan dalam membantu variasi pola bicara VALL-E 2 sehingga terdengar lebih lancar dan alami.

Fitur berikutnya adalah Grouped Code Modeling. Fitur ini meningkatkan efisiensi dengan mengurangi panjang urutan, atau jumlah token individu yang diproses model dalam satu urutan masukan.

BACA JUGA: Gencar Edukasi AI, Microsoft Gelar Career Connect 2024

Hal ini didesain untuk mempercepat proses pembuatan suara VALL-E 2 dan membantu mengatasi kesulitan dalam memproses rangkaian panjang suara.

Untuk membuktikan kinerjanya, para peneliti menggunakan sampel audio dari perpustakaan suara LibriSpeech dan VCTK untuk menilai sejauh mana kemiripan VALL-E 2 dengan rekaman pembicara manusia.

Meskipun teknologi AI ini menjanjikan, kekhawatiran tentang potensi penyalahgunaan dan risiko keamanan membuatnya tidak dapat dirilis ke publik. Tapi pencapaian ini perlu diapresiasi sebagai simbol kemajuan signifikan dalam sintesis teks ke suara menggunakan kecerdasan buatan.

Editor: Eric Iskandarsjah

Related

award
SPSAwArDS