Хиймэл оюун ухаан компьютерийн яриаг хэрхэн илүү байгалийн болгож чадах вэ?

Агуулгын хүснэгт:

Хиймэл оюун ухаан компьютерийн яриаг хэрхэн илүү байгалийн болгож чадах вэ?
Хиймэл оюун ухаан компьютерийн яриаг хэрхэн илүү байгалийн болгож чадах вэ?
Anonim

Үндсэн санаанууд

  • Компаниуд компьютерээр үүсгэсэн яриаг илүү бодитой болгох арга замыг хайж олохоор уралдаж байна.
  • NVIDIA саяхан хиймэл оюун ухааныг өөрийн дуу хоолойгоор сургах боломжийг олгож, байгалийн ярианы дууг авах боломжтой хэрэгслүүдийг танилцууллаа.
  • Интонац, сэтгэл хөдлөл, хөгжим зэрэг нь компьютерийн дуу хоолойд дутагдаж байгаа шинж чанарууд гэж нэг шинжээч хэлэв.
Image
Image

Компьютерээр үүсгэсэн яриа удахгүй хүнийхээс илүү сонсогдож магадгүй.

Компьютерийн эд анги үйлдвэрлэгч NVIDIA саяхан хиймэл оюун ухааныг өөрийн дуу хоолойгоор сургах боломжийг олгож, байгалийн ярианы дууг авах боломжтой хэрэгслүүдийг танилцууллаа. Програм хангамж нь өөр хүний дуу хоолойг ашиглан нэг яригчийн үгийг дамжуулах боломжтой. Энэ нь компьютерийн яриаг илүү бодитой болгох шинэ түлхэлтийн нэг хэсэг юм.

"Дэвшилтэт дуут AI технологи нь хэрэглэгчдэд байгалийн жамаар ярих боломжийг олгож, олон асуултыг нэг өгүүлбэрт нэгтгэж, анхны асуулгын дэлгэрэнгүй мэдээллийг байнга давтах шаардлагагүй болгодог" гэж SoundHound-ийн яриа таних компанийн ерөнхий захирал Майкл Загорсек хэлэв., Lifewire-д өгсөн имэйл ярилцлагадаа хэлсэн.

"Одоо ихэнх дуут AI платформ дээр ашиглах боломжтой олон хэлийг нэмснээр дижитал дуут туслахыг илүү олон газарзүйн байршил, олон хүн амд ашиглах боломжтой болгож байна" гэж тэр нэмж хэлэв.

Робо ярианы өсөлт

Amazon-ын Alexa болон Apple-ийн Siri нь 10 жилийн өмнөх компьютерийн ярианаас хамаагүй дээр сонсогддог ч удахгүй жинхэнэ хүний дуу хоолой гэж андуурагдахгүй.

Хиймэл яриаг илүү натурал болгохын тулд NVIDIA-ийн текстээс ярианы судалгааны баг RAD-TTS загварыг боловсруулсан. Энэхүү систем нь хувь хүмүүст хэмнэл, аялгуу, тембр болон бусад хүчин зүйлс зэрэг дуу хоолойгоороо текстээс яриа (TTS) загварыг заах боломжийг олгодог.

Компани нь I Am AI видео цувралдаа илүү харилцан ярианы аятай дуут хүүрнэл бүтээхийн тулд шинэ загвараа ашигласан.

"Энэ интерфэйсийн тусламжтайгаар манай видео продюсер өөрөө видеоны скриптийг уншиж байхдаа бичлэг хийж, дараа нь хиймэл оюун ухааны загвар ашиглан яриагаа эмэгтэй өгүүлэгчийн дуу хоолой болгон хувиргах боломжтой. Энэхүү үндсэн өгүүллийг ашиглан продюсер хиймэл оюун ухааныг чиглүүлэх боломжтой. дууны жүжигчин-тодорхой үгсийг онцолж, өгүүллийн хурдыг өөрчлөхийн тулд видеоны өнгө аясыг илүү сайн илэрхийлэхийн тулд нэгтгэсэн яриаг өөрчлөх" гэж NVIDIA вэбсайтдаа бичжээ.

Түүнээс ч хэцүү

Компьютерээр үүсгэсэн яриаг байгалийн аятай болгох нь төвөгтэй асуудал гэж мэргэжилтнүүд үзэж байна.

"Түүний компьютерийн хувилбарыг бүтээхийн тулд та хэн нэгний дуу хоолойг хэдэн зуун цаг бичих хэрэгтэй" гэж Кукарелла текстээс ярианы программ хангамжийн компанийн гүйцэтгэх захирал Назим Рагимов Lifewire-д өгсөн цахим ярилцлагадаа хэлжээ. “Мөн бичлэг нь өндөр чанартай, мэргэжлийн студид бичигдсэн байх ёстой. Чанартай яриаг олон цаг ачаалж, боловсруулах тусам үр дүн нь илүү сайн байх болно."

Текстээс яриаг тоглоом тоглох, дууны бэрхшээлтэй хүмүүст туслах эсвэл хэрэглэгчдэд өөрсдийн дуу хоолойгоор хэл хооронд орчуулахад туслах зорилгоор ашиглаж болно.

Интонац, сэтгэл хөдлөл, хөгжим зэрэг нь компьютерийн хоолойд дутагдаж байгаа шинж чанарууд гэж Рагимов хэлэв.

Хэрвээ хиймэл оюун ухаан эдгээр дутуу холбоосуудыг нэмж чадвал компьютерийн бүтээсэн яриа нь "жинхэнэ жүжигчдийн дуу хоолойноос ялгагдахааргүй" болно гэж тэр нэмж хэлэв. "Энэ ажил хийгдэж байна. Бусад дуу хоолой радио хөтлөгчидтэй өрсөлдөх боломжтой болно. Удалгүй та дуулж, аудио ном унших чадвартай хоолойг харах болно."

Ярианы технологи нь өргөн хүрээний бизнесүүдэд илүү түгээмэл болж байна.

"Автомашины салбар нь илүү аюулгүй, илүү холбогдсон жолоодлогын туршлагыг бий болгохын тулд дуут хиймэл оюун ухааныг саяхан нэвтрүүлсэн" гэж Загорсек хэлэв.

"Түүнээс хойш брэндүүд хэрэглэгчийн туршлагыг сайжруулах арга замыг эрэлхийлж, бүтээгдэхүүн, үйлчилгээтэйгээ харилцахад илүү хялбар, аюулгүй, тохь тухтай, үр ашигтай, эрүүл ахуйн шаардлагад нийцсэн аргуудыг эрэлхийлж байгаа тул дуут туслахууд улам бүр түгээмэл болж байна."

Ерөнхийдөө дуут хиймэл оюун ухаан нь яриаг автоматаар таних (ASR) ашиглан яриаг текст болгон хөрвүүлж, дараа нь уг текстийг байгалийн хэлээр ойлгох (NLU) загварт оруулахаас эхэлдэг хоёр үе шаттай үйл явцын дотор асуултуудыг хариулт болгон хувиргадаг.

Image
Image

SoundHound-ийн арга нь яриаг бодит цаг хугацаанд хянахын тулд эдгээр хоёр алхмыг нэг процесс болгон нэгтгэдэг. Энэхүү техник нь дуут туслахуудад тухайн хүнийг ярьж дуусахаас өмнө хэрэглэгчийн асуусан асуултын утгыг ойлгох боломжийг олгодог гэж компани мэдэгджээ.

Компьютерийн ярианы ирээдүйн дэвшилтүүд, үүнд зөвхөн суулгагдсан (үүл холболт шаардлагагүй)-ээс хайбрид (суулгасан дээр нэмсэн үүлэн) болон зөвхөн үүлэн "холболт" хүртэлх төрөл бүрийн холболтын сонголтууд нь салбар бүрийн компаниудад илүү олон сонголт өгөх болно. зардал, нууцлал, боловсруулах хүчин чадлын хувьд "гэж Загореск хэлэв.

NVIDIA-ийн мэдээлснээр хиймэл оюун ухаантай загварууд нь дуу хоолойгоор ажиллахаас илүү гарсан.

"Текстээс яриаг тоглоом тоглох, дууны бэрхшээлтэй хүмүүст туслах эсвэл хэрэглэгчдэд өөрсдийн дуу хоолойгоор хэл хооронд орчуулга хийхэд ашиглаж болно" гэж компани бичжээ. "Энэ нь зөвхөн дууны аялгуу төдийгүй хоолойны ард байгаа сэтгэл хөдлөлийн илэрхийлэлд тохирсон дуучдын тоглолтыг ч сэргээж чадна."

Зөвлөмж болгож буй: