Untuk mendapatkan maklumat terkini, ikuti kami melalui Telegram DBPMalaysia
Langgan SekarangDominasi teknologi digital menjana bahasa bukan hanya sekadar alat komunikasi, malah menjadi tunjang utama dalam pembangunan sistem pintar. Gabungan antara bidang linguistik dan teknologi maklumat telah melahirkan satu cabang baharu yang semakin mendapat perhatian linguistik digital. Jelmaan gabungan ini berpotensi untuk menganalisis, memahami dan mengaplikasikan bahasa dalam pelbagai bentuk, termasuk dalam aplikasi seperti penterjemah automatik, chatbot, pengecaman suara dan alat semak tatabahasa.
Kajian linguistik tidak lagi terhad kepada teori dan buku semata-mata. Seiring kemajuan teknologi, ahli bahasa perlu memiliki celik digital dan menguasai kemahiran dalam mengendalikan data raya (big data), menulis skrip untuk pengekstrakan data serta memahami cara mesin “membaca” dan mentafsir bahasa manusia. Data raya ialah set data, iaitu gabungan data berstruktur, semistrukur dan tak berstruktur dikumpul untuk analitik data bagi bertujuan menyelesaikan masalah yang berkaitan. Ciri data raya dikenali sebagai kegadangan, kelajuan, kebernilaian, kepelbagaian dan kesahihan. Kegadangan biasanya bersaiz sangat besar dan akan bersama-sama kelajuan yang dihasilkan dengan kadar peningkatan yang besar dan laju yang akan membawa kepada kebernilaian, iaitu mempunyai nilai kebergunaan yang tinggi yang pastinya melibatkan kepelbagaian (mengandungi kepelbagaian format atau jenis data) serta kesahihan yang akan menjelmakan kualiti, ketepatan atau kebenaran data.
Bidang antara disiplin linguistik dan sains komputer tidak boleh tidak akan menggunakan kaedah dan teknik pengkomputeran untuk memahami, menganalisis dan sintesis bahasa sama ada berbentuk pertuturan (lisan) atau penulisan. Contohnya teknik perkomputeran yang digunakan seperti pembelajaran mesin dan pemprosesan bahasa tabii. Hasil linguistik pengkomputeran digunakan oleh aplikasi komputer seperti sistem pengecaman bahasa, pengedit teks dan sistem interaktif suara.
Landskap digital mutakhir telah mencitrakan legasi nan membanggakan apabila bahasa Melayu turut berkembang dalam arus digital ini. Pelbagai projek telah dijalankan seperti pembangunan korpus digital bahasa Melayu, aplikasi pembelajaran interaktif, serta penggunaan Pemprosesan Bahasa Tabii (NLP) berasaskan bahasa tempatan sekali gus membuktikan bahawa bahasa ibunda kita sedang menyesuaikan diri dengan keperluan era moden. Model Besar Bahasa (LLM) digunakan untuk memahami dan menjana bahasa tabii. Model ini dibina dengan menggunakan seni bina pembelajaran mesin yang sangat kompleks dan berasaskan data atau korpus yang bersaiz besar. Contohnya sistem AI yang menggunakan model ini ialah chatbot, pembantu maya, penterjemah bahasa dan sistem soal jawab.
Proses Pemahaman Bahasa Tabii mula terarah dengan tumpuan kepada pembangunan sistem AI yang mampu mentafsir dan memahami input bahasa tabii mengikut konteksnya serta membolehkan mesin memahami, memproses juga mengekstrak maklumat daripada teks atau pertuturan manusia yang tidak berstruktur dan yang pastinya memerlukan prompt. Prompting dalam konteks AI merujuk kepada tindakan memberikan arahan, soalan, atau input teks kepada model AI untuk mendapatkan jawapan atau tindak balas tertentu. Dalam bahasa Melayu, prompting boleh diterjemahkan secara bebas sebagai “pemberian arahan”, “meminta tindak balas”, atau “merangsang respons AI.” Contohnya pengguna menaip: “Terangkan maksud kemerdekaan dalam konteks Malaysia.” → Ini adalah prompt, dan AI akan menjawab berdasarkan permintaan tersebut. Kepentingan prompting pula merujuk kepada cara pengguna menyusun soalan atau memberi arahan dan sangat mempengaruhi kualiti dan ketepatan jawapan AI. Terdapat teknik tertentu seperti prompt engineering yang digunakan untuk mengoptimumkan hasil daripada AI, terutamanya dalam kerja penulisan, pengekodan, atau penciptaan kandungan. Antara jenis-jenis prompt ialah prompt langsung – contohnya “beri saya ringkasan buku ini”, prompt berperanan – contohnya “bertindak sebagai guru sejarah dan terangkan tentang Perang Dunia Kedua”, dan prompt berantai – mendorong AI menjelaskan langkah demi langkah untuk menyelesaikan masalah.
Dalam konteks Kecerdasan Buatan (AI), halusinasi merujuk kepada situasi, iaitu model AI (seperti ChatGPT) memberikan maklumat yang tidak benar, mengelirukan, atau direka-reka, walaupun kelihatan meyakinkan dan logik. Dalam bahasa Melayu, istilah ini boleh diterjemahkan sebagai halusinasi AI atau penjanaan maklumat palsu oleh AI. Contoh halusinasi oleh AI, adalah memberikan fakta sejarah yang salah, contohnya mengatakan Malaysia mencapai kemerdekaan pada tahun 1958 (sedangkan sebenarnya 1957) atau mencipta nama buku, kajian, atau statistik yang tidak wujud dan boleh juga menjawab soalan berdasarkan andaian, walaupun tiada data yang menyokong jawapan tersebut. Kenapa hal ini boleh berlaku?
Halusinasi boleh berlaku kerana AI hanya membuat ramalan perkataan seterusnya berdasarkan corak data latihan, bukan memahami dunia sebenar. Kekurangan data terkini atau berkualiti tinggi, menyebabkan AI juga memberi jawapan berdasarkan maklumat yang tidak lengkap. Selain itu, permintaan pengguna yang kompleks atau kabur, yang menyebabkan AI “mengisi kekosongan” dengan jawapan anggaran.
Teknologi digital ini secara teknikalnya akan melibatkan AI generatif (GenAI), iaitu perihal sistem AI yang mampu mencipta kandungan baharu dalam bentuk audio, teks, video, imej, grafik, simulasi, animasi, atur cara atau reka bentuk produk berdasarkan arahan prom bersesuaian dengan sistem yang digunakan. Arahan prompt dalam sistem AI ini boleh terdiri daripada teks, suara, gambar, sentuhan, isyarat digital dan analog. Contohnya, sistem chatbot dan sebagainya.
Proses Pembelajaran kepada subbidang teras AI yang merangkumi pembelajaran mesin akan merujuk kepada proses sistem AI yang memperoleh pengetahuan, meningkatkan prestasi dan menyesuaikan diri dengan data atau pengalaman baharu secara automatik. Domain ini merujuk kepada proses yang membolehkan sistem AI untuk belajar dan membuat keputusan atau beradaptasi secara kendiri tanpa perlu diaturcara.
Perisian aplikasi yang direka bentuk untuk mensimulasi perbualan dan memproses perbualan manusia (sama ada bertulis atau lisan), yang membenarkan manusia berinteraksi, bersembang atau berceloteh dengan peranti digital seumpama mereka berkomunikasi dengan manusia sebenar dipanggil chatbot. Namun bergitu, tidak semua chatbot menggunakan AI, bahkan chatbot moden semakin banyak menggunakan teknologi perbualan AI seperti pemprosesan bahasa tabii (NLP), pembelajaran mesin, dan model bahasa besar (LLM) yang membolehkan chatbot memahami dan menjana teks atau suara untuk berbual seperti manusia berdasarkan input yang diterima. Contoh chatbot yang popular adalah seperti OpenAI ChatGPT, Amazon Alexa, Google Assistant Gemini dan Apple Siri.
Penjanaan teknologi digital dalam bidang ini akan menemui taakulan, iaitu subbidang teras AI yang merangkumi subdomain perwakilan dan pentadbiran pengetahuan, taakulan automatik dan taakulan lazim. Domain ini melibatkan proses kognitif dan logikal yang cuba meniru penaakulan manusia. Proses penaakulan digunakan oleh sistem AI untuk membuat keputusan, kesimpulan dan menyelesaikan masalah berasaskan kepada maklumat, petua, pengetahuan atau alkhwarizmi.
Ketepatan maklumat atau kepalsuan asli akan terjelma dalam media digital yang dihasilkan secara memanipulasi media asal dengan menggunakan teknik kecerdasan buatan (AI) khususnya pembelajaran mendalam untuk menghasilkan media yang mirip seperti yang asli. Contohnya pemalsuan yang boleh digunakan seperti mengubah wajah, suara, mimik muka atau gerak badan individu dalam sumber asal. Penggunaan kepalsuan asli boleh berpotensi sebagai nilai positif, seperti dalam bidang hiburan dan pendidikan, tetapi juga mempunyai risiko penyalahgunaan jika digunakan untuk tujuan yang tidak beretika.
Universiti Utara Malaysia (UUM) telahpun membenahi dan memainkan peranan penting dalam memperkasa bidang ini melalui penawaran program Sarjana Muda Linguistik dan Teknologi Maklumat, yang menggabungkan dua disiplin utama, iaitu linguistik dan teknologi maklumat. Program ini mendedahkan pelajar kepada pelbagai subjek interdisiplin yang memberi mereka kelebihan dari segi teori bahasa dan kemahiran teknologi.
Antara subjek teras dalam bidang linguistik yang dipelajari oleh pelajar termasuklah Asas Linguistik yang merangkumi teori-teori penting seperti sintaksis, morfologi, fonologi, dan semantik. Selain itu, pelajar turut mengikuti subjek Terjemahan, Data Raya dan Pemprosesan Bahasa, serta Pengurusan Reka Bentuk dan Pembangunan Korpus yang memberi pendedahan kepada pembinaan dan pengurusan data bahasa dalam bentuk digital.
Program ini membuka pelbagai peluang kerjaya dalam sektor teknologi, penyiaran, penerbitan dan pentadbiran awam. Graduan berpeluang untuk menceburi bidang profesional dengan pelbagai jawatan seperti pembangun aplikasi bahasa, pakar pembangunan web, pembantu editorial, penulis dan penyunting, serta penterjemah. Gabungan pengetahuan dalam linguistik dan kemahiran teknologi maklumat menjadikan mereka lebih fleksibel, berdaya saing, dan relevan dalam pasaran kerja yang semakin menekankan kecekapan digital dan keupayaan interdisiplin.
Selain itu, mereka juga berpeluang menyumbang kepada pemeliharaan dan pengembangan bahasa Melayu melalui pembangunan aplikasi bahasa, sistem penterjemahan automatik, dan penyelidikan bahasa dalam konteks digital. Program ini juga menyediakan asas kukuh bagi menghadapi cabaran Revolusi Industri 4.0, yang menekankan teknologi pintar dan automasi.
Dalam era digital ini, bahasa memainkan peranan penting dalam pelbagai teknologi seperti kecerdasan buatan (AI), enjin carian, sistem navigasi suara, dan banyak lagi. Justeru, usaha untuk memartabatkan bahasa Melayu dalam dunia digital semakin penting agar ia terus kekal relevan dan berkembang seiring kemajuan teknologi. Kerjasama antara penyelidik, pelajar dan agensi bahasa amat penting dalam memastikan bahasa Melayu terus diperkasa dalam dunia yang semakin pintar. Gabungan ini bukan sahaja mencipta sistem teknologi yang canggih, tetapi juga melestarikan warisan bahasa kita agar terus hidup dan berkembang dalam landskap digital masa kini.