เข้าใจภาษาไทยเชิงลึก
Deep Thai Understanding
โมเดลนี้ถูกฝึกต่อ (CPT) บนคลังข้อความภาษาไทยคุณภาพสูง ~144M token เข้าใจทั้งภาษาทางการ ภาษากันเอง คำแสลง และสำเนียงถิ่น ไม่ใช่แค่แปลจากภาษาอังกฤษ
โมเดลพื้นฐานตั้งต้นบน Gemma 4 12B พร้อมส่วนขยาย LoRA หลายชั้น ฝึกบนคลังภาษาไทย ~144M token รักษาความเข้าใจ 3 ภาษา (ไทย-อังกฤษ-จีน) ใช้ Apache 2.0 เชิงพาณิชย์ได้
โมเดลพื้นฐานกำลังฝึก น้ำหนักยังไม่เผยแพร่ ดูสถานะได้ที่ GitHub Discussions
Quick Start
สามบรรทัดก็โหลดโมเดล — รองรับทั้ง Hugging Face transformers และ MLX บน Mac
# pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "naralab/nara-ai-12b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "อธิบายหลักการทำงานของ LoRA ในโมเดลภาษาไทย"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=512)
print(tokenizer.decode(outputs[0])) Capabilities
6 เหตุผลที่ Nara AI แตกต่างจาก LLM ทั่วไปในท้องตลาด
Deep Thai Understanding
โมเดลนี้ถูกฝึกต่อ (CPT) บนคลังข้อความภาษาไทยคุณภาพสูง ~144M token เข้าใจทั้งภาษาทางการ ภาษากันเอง คำแสลง และสำเนียงถิ่น ไม่ใช่แค่แปลจากภาษาอังกฤษ
Layered LoRA
โมเดลพื้นฐาน 12B ตัวเดียว แต่คุณเปลี่ยนชุดความสามารถได้โดยการเสียบ LoRA ที่ต่างกัน — ต้องการความเข้าใจภาษาไทย ต้องการทำตามคำสั่ง หรือทำงานเฉพาะด้าน เลือกได้ตามงาน
Trilingual
เข้าใจไทย อังกฤษ จีน พร้อมกัน ภาษาหนึ่งไม่กลืนอีกภาษา รองรับ code-switching — การผสมภาษาในประโยคเดียว
Runs Locally
รองรับทั้งฝั่ง cloud (Hugging Face transformers) และบนเครื่อง Mac (MLX) ด้วย quantization Q4 ใช้ GPU แค่ 16GB — ข้อมูลคุณไม่ออกไปไหน
Commercial-Ready
Apache 2.0 — ดาวน์โหลด ใช้ แก้ไข และต่อยอดได้โดยไม่มีค่าใช้จ่ายหรือข้อผูกมัด ไม่ต้องขออนุญาต
Open Development
ทุกขั้นตอนเปิดเผยบน GitHub Discussions — สถาปัตยกรรม ข้อมูลที่ใช้ฝึก benchmark และความคืบหน้า คุณตรวจสอบและมีส่วนร่วมได้
Architecture
โมเดลพื้นฐานตัวเดียว + ส่วนขยาย LoRA หลายชั้น — เลือกความสามารถได้ตามงาน
ดูรายละเอียด →Nara AI 12B ตั้งต้นบน Gemma 4 12B CPT กำลังฝึก ฝึกต่อบนคลังภาษาไทย ~144M token เพื่อให้เข้าใจภาษาไทยเชิงลึก
SFT กำลังฝึก ปรับให้ตอบตามคำสั่ง (instruction following) สนทนา สรุป แปล
Agent วางแผน ฝึกให้ใช้เครื่องมือและทำตามขั้นตอน (tool-use, multi-step workflows)
Domain วางแผน ส่วนขยายเฉพาะโดเมน — กฎหมาย การแพทย์ การเงิน และอื่นๆ
Benchmarks
คะแนนที่วัดได้จริงจากส่วนขยายภาษาไทย — เน้นความเข้าใจอ่านภาษาไทย
ดู benchmark ทั้งหมด →* คะแนนวัดระหว่างการพัฒนา · น้ำหนักยังไม่เผยแพร่สาธารณะ · ดู methodology ที่หน้า benchmark
Use Cases
Nara AI ไม่ได้เป็นแค่ chatbot — มันคือ backbone สำหรับงานภาษาไทยทุกรูปแบบ
นำ Nara AI ไปใช้ในระบบค้นคืนเอกสาร (RAG) — ฝัง embeddings และตอบคำถามจากคลังเอกสารภาษาไทยของคุณ
สร้างแชทบอทภาษาไทยที่เข้าใจบริบท ใช้ LoRA sft เพื่อให้ตอบตามคำสั่งและสนทนาอย่างเป็นธรรมชาติ
สรุปเอกสารภาษาไทยยาวๆ — รายงาน บทความ หนังสือราชการ — ด้วย context window 32K tokens
สร้างเนื้อหาภาษาไทย — บทความ สคริปต์ โฆษณา — โดยอิงตามแนวทางการเขียนของแบรนด์คุณ
ใช้เป็นผู้ช่วยเขียนโค้ดที่เข้าใจภาษาไทย — อธิบายโค้ดเป็นไทย เขียน docstring ภาษาไทย หรือแปลง requirement เป็นโค้ด
ใช้เป็น backbone สำหรับงาน NLP ภาษาไทย — NER, sentiment, classification, translation — ผ่าน fine-tuning เฉพาะงาน
FAQ
ลงทะเบียนรับข่าวสาร ความคืบหน้า และประกาศเมื่อน้ำหนักโมเดลพร้อมปล่อย
หรือส่งอีเมลมาที่ hello@naralab.org