Үндсэн санаанууд
- Судлаачид хиймэл оюун ухаанд видеог үзэж, сонсох замаар шошголохыг зааж чадна гэжээ.
- AI систем нь визуал болон аудио өгөгдөл хооронд хуваалцсан ойлголтуудыг авахын тулд өгөгдлийг төлөөлж сурдаг.
-
Хүмүүс сурахад хүндрэлгүй ч компьютер ойлгоход хэцүү байдаг ойлголтыг хиймэл оюун ухаанд зааж сургах хүчин чармайлтын нэг хэсэг юм.
Хиймэл оюун ухааны шинэ систем (AI) нь таны видеог үзэж, сонсож, болж буй зүйлсийг шошголох боломжтой.
MIT-ийн судлаачид хиймэл оюун ухаанд видео болон аудио хооронд хуваалцсан үйлдлүүдийг барьж авах аргачлалыг боловсруулжээ. Жишээлбэл, тэдний арга нь видеон дээр уйлж буй хүүхдийн үйлдэл нь дууны клип дэх "уйлах" гэсэн үгтэй холбоотой болохыг ойлгож чадна. Энэ нь хүн сурахад ямар ч асуудалгүй ч компьютер ойлгоход хэцүү байдаг ойлголтуудыг хиймэл оюун ухаанд хэрхэн ойлгуулахыг заах хүчин чармайлтын нэг хэсэг юм.
"Хяналттай суралцах түгээмэл сургалтын парадигм нь сайн тайлбарласан, бүрэн гүйцэд өгөгдлийн багцтай үед сайн ажилладаг" гэж хиймэл оюун ухааны мэргэжилтэн Фил Виндер Lifewire-д цахим шуудангаар ярилцлага өгөхдөө хэлжээ. "Харамсалтай нь бодит ертөнц шинэ нөхцөл байдлыг харуулах муу зуршилтай байдаг тул өгөгдлийн багцууд бараг л бүрэн байдаггүй."
Илүү ухаалаг AI
Компьютерууд хүн шиг дуу, дүрс гэхээсээ илүү өгөгдлийг задлах шаардлагатай байдаг тул өдөр тутмын нөхцөл байдлыг тодорхойлоход бэрхшээлтэй байдаг. Машин нь зургийг "харах" үед тухайн зургийг зургийн ангилал зэрэг даалгаврыг гүйцэтгэхэд ашиглаж болох өгөгдөл болгон кодлох ёстой. Оролтууд нь видео, аудио клип, зураг гэх мэт олон форматтай байх үед хиймэл оюун ухаан гацаж болно.
"Энд байгаа гол сорилт бол машин яаж тэдгээр өөр өөр горимуудыг хооронд нь тааруулж чадах вэ? Хүмүүсийн хувьд энэ нь бидэнд хялбар байдаг" гэж MIT-ийн судлаач, энэ сэдвээр нийтлэл бичсэн анхны зохиолч Александр Лиу хэлэв. мэдээний хувилбар. "Бид машин харж байгаад хажуугаар нь явж буй машины дууг сонсдог бөгөөд эдгээр нь ижил зүйл гэдгийг бид мэднэ. Гэхдээ машин сургалтын хувьд энэ нь тийм ч хялбар биш юм."
Liu-ийн баг AI техникийг боловсруулсан бөгөөд энэ нь визуал болон аудио мэдээллийн хооронд хуваалцсан ойлголтуудыг авахын тулд өгөгдлийг төлөөлж сурдаг гэж хэлж байна. Энэ мэдлэгийг ашигласнаар тэдний машин сургалтын загвар нь видеон дээр тодорхой үйлдэл хаана явагдаж байгааг тодорхойлж, шошголох боломжтой.
Шинэ загвар нь видео болон тэдгээрийн харгалзах текстийн тайлбар зэрэг түүхий өгөгдлийг авч, видеон дээрх объект, үйлдлийн талаарх онцлог, ажиглалтыг задлан кодлодог. Дараа нь тэдгээр өгөгдлийн цэгүүдийг оруулах орон зай гэж нэрлэгддэг сүлжээнд дүрслэнэ. Загвар нь ижил төстэй өгөгдлийг сүлжээнд нэг цэг болгон нэгтгэдэг; Эдгээр өгөгдлийн цэгүүд буюу векторууд тус бүрийг тусдаа үгээр илэрхийлдэг.
Жишээлбэл, жонглёр хийж буй хүний видео клипийг "жонглёр" гэсэн шошготой вектортой дүрсэлж болно.
Судлаачид уг загварыг векторуудыг шошголоход ердөө 1000 үг ашиглахаар зохион бүтээсэн. Загвар нь ямар үйлдэл, үзэл баримтлалыг нэг вектор руу кодлохыг хүсч байгаагаа шийдэж болох боловч зөвхөн 1000 вектор ашиглах боломжтой. Загвар нь өгөгдлийг хамгийн сайн илэрхийлдэг гэж үзсэн үгсийг сонгодог.
"Хэрэв гахайн тухай видео байгаа бол загвар өмсөгч 1000 векторын аль нэгэнд нь "гахай" гэсэн үгийг оноож болно. Дараа нь, загвар өмсөгч хэн нэгэн аудио клипэнд "гахай" гэж хэлэхийг сонсвол, Үүнийг кодлохын тулд ижил векторыг ашиглах ёстой" гэж Лю тайлбарлав.
Таны видеонууд, код тайлагдсан
MIT-ийн хөгжүүлсэн шиг илүү сайн шошголох систем нь хиймэл оюун ухаан дахь гажуудлыг бууруулахад тусална гэж биометрийн Innovatrics фирмийн судалгаа, хөгжлийн хэлтсийн дарга Мариан Бесзедес Lifewire-д цахим шуудангаар ярилцлага өгөхдөө хэлэв. Бесзедес өгөгдлийн салбарынхан хиймэл оюун ухааны системийг үйлдвэрлэлийн процессын өнцгөөс харж болно гэж санал болгов.
"Систем нь түүхий өгөгдлийг оролт (түүхий эд) болгон хүлээн авч, урьдчилан боловсруулж, залгиж, шийдвэр гаргах эсвэл таамаглаж, гаралтын дүн шинжилгээ (бэлэн бүтээгдэхүүн) гаргадаг" гэж Бесзедес хэлэв. "Бид энэ үйл явцын урсгалыг "өгөгдлийн үйлдвэр" гэж нэрлэдэг бөгөөд бусад үйлдвэрлэлийн үйл явцын нэгэн адил энэ нь чанарын хяналтад хамрагдах ёстой. Өгөгдлийн салбар нь хиймэл оюун ухааны гажуудлыг чанарын асуудал гэж үзэх хэрэгтэй.
"Хэрэглэгчийн үүднээс авч үзвэл буруу шошготой өгөгдөл нь жишээлбэл, тодорхой зураг/видеонуудыг онлайнаар хайхыг илүү хэцүү болгодог" гэж Бесзедес нэмж хэлэв. "Зөв хөгжсөн хиймэл оюун ухааны тусламжтайгаар та шошгыг автоматаар, гар аргаар шошголохоос хамаагүй хурдан бөгөөд илүү төвийг сахисан байдлаар хийх боломжтой."
Гэхдээ MIT загварт зарим хязгаарлалт байсаар байна. Нэгд, тэдний судалгаа нэг дор хоёр эх сурвалжаас авсан мэдээлэлд төвлөрч байсан ч бодит ертөнцөд хүмүүс олон төрлийн мэдээлэлтэй нэгэн зэрэг тулгардаг гэж Лю хэлэв
"Ийм төрлийн өгөгдлийн багц дээр 1000 үг ажилладгийг бид мэднэ, гэхдээ үүнийг бодит ертөнцийн асуудалд нэгтгэж болох эсэхийг бид мэдэхгүй" гэж Лю нэмж хэлэв.
Массачусетсийн Технологийн Технологийн Техникийн Техникийн Техникийн Техникийн Техникийн Техникийн Техникийн Технологичдын хэлснээр тэдний шинэ техник нь ижил төстэй олон загвараас давуу юм. Хэрэв хиймэл оюуныг видеог ойлгоход сургаж чадвал та эцэст нь найзынхаа амралтын видеог үзэхээ больж, оронд нь компьютерээр хийсэн тайланг авах боломжтой.