اتصل بنا
تقنية

جدل حول استخدام أوبن إيه آي فيديوهات يوتيوب لتدريب "جي بي تي-4"

Apr 9, 2024
استخدمت شركة "أوبن إيه آي" أكثر من مليون ساعة من مقاطع فيديو يوتيوب لتدريب نموذج "جي بي تي-4″، وهو أحدث نماذجها اللغوية وأكثرها تطورا، الأمر الذي أثار جدلا حول المعايير القانونية والأخلاقية لاستخدام البيانات في تطوير نماذج الذكاء الاصطناعي التوليدي، وفقًا لتقرير من صحيفة نيويورك تايمز.
غوغل ذكرت أنها اطلعت على تقارير غير مؤكدة حول استخدام أوبن إيه آي محتوى يوتيوب بدون تصريح (شترستوك)

استخدمت شركة "أوبن إيه آي" أكثر من مليون ساعة من مقاطع فيديو يوتيوب لتدريب نموذج "جي بي تي-4″، وهو أحدث نماذجها اللغوية وأكثرها تطورا، الأمر الذي أثار جدلا حول المعايير القانونية والأخلاقية لاستخدام البيانات في تطوير نماذج الذكاء الاصطناعي التوليدي، وفقًا لتقرير من صحيفة نيويورك تايمز.

ويؤكد هذا الاكتشاف على التحدي الكبير الذي تواجهه شركات الذكاء الاصطناعي في الحصول على بيانات تدريب بجودة عالية لنماذجها، مما يدفعها إلى منطقة مثيرة للجدل فيما يتعلق بقوانين حقوق النشر ومطالبات الاستخدام العادل للبيانات.

وصرح مات براينت، المتحدث باسم غوغل، لموقع "ذا فيرج" أن الشركة اطلعت على تقارير غير مؤكدة حول نشاط أوبن إيه آي، مضيفا أن شروط الخدمة الخاصة بغوغل تحظر عمليات استخدام أو تنزيل محتوى يوتيوب غير المصرح بها.

غوغل نفسها تجمع أيضا مقاطع من يوتيوب، وفقا للتقرير، وذكر براينت في هذا السياق إن الشركة دربت نماذجها "على بعض محتوى يوتيوب، وفقا لاتفاقياتنا مع صانعي المحتوى على المنصة".

أدى السعي للحصول على مجموعات بيانات ضخمة ومتنوعة لتدريب تلك النماذج المتطورة إلى بحث شركة أوبن إيه آي عن استخدام أساليب مبتكرة لتغذية خوارزمياتها.

ووفقا للتقرير، طوّرت الشركة نموذج "ويسبر" (Whisper) لتفريغ المحتوى الصوتي بهدف تسهيل تدريب نموذجها التأسيسي "جي بي تي-4″، وذلك بالاستفادة من كميات هائلة من محتوى يوتيوب.

يثير هذا التصرف، الذي تدفعه الحاجة إلى الاحتفاظ بالميزة التنافسية وتعزيز أداء النموذج، تساؤلات حول قانونية وأخلاقيات استخدام المواد المحمية بحقوق الطبع والنشر دون إذن مسبق وصريح من المنصة مالكة المحتوى.

كما لا يقتصر مأزق الحصول على بيانات تدريب جيدة على أوبن إيه آي فقط، فهو يعكس توجها أوسع في هذا المجال إذ تقترب شهية مطوري أنظمة الذكاء الاصطناعي من تجاوز حدود الموارد المتاحة من تلك البيانات.

وقد أدى هذا إلى النظر في إستراتيجيات بديلة، تشمل تدريب النماذج على بيانات "اصطناعية" أنتجتها تلك النماذج نفسها، أو ما يسمى "التعلم المنهجي" الذي يتضمن تغذية النماذج ببيانات عالية الجودة بأسلوب مرتب على أمل أن تتمكن من إنشاء روابط أكثر ذكاءً بين المفاهيم باستخدام معلومات أقل بكثير، ولكن لم يختبر أي من هذه الإستراتيجيات حتى الآن، كما أشار تقرير آخر من صحيفة وول ستريت جورنال.

لذا، يظل الخيار الوحيد المتاح أمام الشركات هو استخدام أي شيء يمكن أن يجدوه، سواء حصلوا على إذن بذلك أم لا، واستنادا إلى الدعاوى القضائية المتعددة التي رفعت خلال العام الماضي، فإن هذا الاختيار سيزيد من تفاقم المشكلات والقضايا بين شركات التقنية المختلفة.

المصدر : نيويورك تايمز