تبدیل فعالیت‌های مغز به سخن

پژوهشگران دانشگاه کالیفرنیا، سان‌فرانسیسکو یک رابط مغز و رایانه توسعه دادند که با ثبت سیگنال‌های قشر حرکتی مغز می‌تواند فعالیت‌های مغز را به سخن تبدیل کند. این فناوری در دو مرحله کار می‌کند. مرحله نخست سیگنال‌های مغزی به حرکت مجرای صوتی، شامل فک، حنجره، لب‌ها و زبان، ترجمه می‌شود. در مرحله دوم، این حرکات به سخن تبدیل می‌شود. این رابط مغز و رایانه معلولان یا افراد دچار سکته مغزی که توانایی سخن گفتن ندارند را قادر می‌سازد تا با سرعت طبیعی (حدود۱۵۰ کلمه در دقیقه) صحبت کنند.

دو سال پیش یک مرد معلول ۶۴ ساله با آسیب نخاعی توانست از یک رابط مغز و رایانه (BCI) برای تایپ با سرعت ۸ کلمه در دقیقه استفاده کند. دانشمندان دانشگاه کالیفرنیا، سانفرانسیسکو نوع جدیدی از رابط‌های مغز و رایانه را به کمک شبکه‌های عصبی ارائه داده‌اند که افراد معلول یا سکته مغزی را قادر می‌سازد با سرعت طبیعی (به طور متوسط ۱۵۰ کلمه در دقیقه) صحبت کنند.

این فناوری با استفاده از یک فرآیند دو مرحله‌ای منحصر به فرد کار می‌کند. ابتدا، سیگنال‌های مغزی به حرکت مجرای صوتی، شامل فک، حنجره، لب‌ها و زبان، ترجمه می‌شود. در مرحله دوم، این حرکات به سخن تبدیل می‌شود. این سامانه نیاز به آرایه‌ای از الکترودها به اندازه کف دست دارد که به طور مستقیم روی مغز قرار می‌گیرد. نویسندگان مقاله می‌گویند این سامانه اثبات کرد که می‌توان گفتار طبیعی را از فعالیت مغز بازسازی کرد.

دیگر پژوهش‌ها برای تبدیل افکار به گفتار

ادوارد چانگ (Edward Chang) جراح مغز و اعصاب در دانشگاه کالیفرنیا و رهبر این پژوهش گفت: مطالعات بسیاری برای رمزگشایی صداها یا کلمات از فعالیت مغز انجام شده است. اما رمزگشایی افکار به تنهایی بسیار دشوار است. "ما تلاش می‌کنیم برای ایجاد صداها، حرکات مجرای صوتی را رمزگشایی کنیم نه رمزگشایی مستقیم کلمات از فعالیت‌های مغزی".

Marc Slutzkyاز دانشگاه Northwestern که در این پژوهش دخیل نبود، می‌گوید: "این مطالعه به زیبایی طراحی شده و به خوبی سیگنال‌های مغزی را به سخن تبدیل می‌کند». با این حال استفاده از این فناوری با چالش‌هایی همراه است. Slutzky می‌افزاید: «در حال حاضر دستگاه‌های وجود دارد که از الکترودهای بسیاری استفاده می‌کند (در اینجا از ۲۵۶ کانال استفاده شده). بنابراین موانعی وجود دارد. اما من اعتقاد دارم که این مشکلات در نهایت برطرف خواهد شد".

مقاله چانگ تازه‌ترین تلاشی است که از شبکه‌های عصبی برای تبدیل فعالیت‌های مغز به گفتار استفاده می‌کند. دو پژوهش مستقل دیگر، آزمایشگاه Slutzky در Northwestern و نیما مسگرانی در دانشگاه کلمبیا، نیز از شبکه‌های عصبی برای بازسازی گفتار از فعالیت مغز استفاده کردند. مطالعه حاضر متفاوت از این پژوهش‌ها است چرا که از تحلیل فعالیت‌ها در قشر حرکتی مغز استفاده می‌کند.

استفاده از الکترودها به صورت تهاجمی برای ثبت سیگنال‌های مغزی

هر یک از مطالعات اخیر، از جمله پژوهش چانگ، به الکترودهایی که از طریق جراحی رو یا درون مغز قرار میگیرند، متکی است. اگر چه فیس‌بوک ادعا کرده در حال توسعه یک فناوری غیر تهاجمی است که می‌تواند ۱۰۰ کلمه در دقیقه از مغز کاربر دریافت کند. کارشناسان معتقدند، الکترودهای بیرونی نمی‌توانند داده‌هایی با دقت لازم از مناطق کوچک مغز ارائه دهند. کنسرسیوم BrainGate، که مشابه چنین پژوهشی را با ثبت رکورد هشت کلمه در دقیقه در سال ۲۰۱۷ منتشر کرد، بر تراشه‌های مغزی تکیه دارد.

مراحل پژوهش چانگ

در مطالعه حاضر، چانگ و همکارانش اطلاعاتی را از یک آرایه از الکترودها که بر روی قشر حرکتی گفتاری پنج بیمار قرار داده شده بود، جمع‌آوری کردند. این پنج بیمار به علت بیماری صرع تحت درمان قرار داشتند. زمانی که بیماران با صدای بلند چند صد جمله را بیان کردند، سیگنال‌های مغزی آنها ثبت شد. جملات به گونه‌ای انتخاب شدند که شامل تمام آواهای زبان انگلیسی باشد.

سپس پژوهشگران یک شبکه عصبی را برای رمزگشایی سیگنال‌های مغزی بکار گرفتند. در اینجا سیگنال‌هایی با وضوح بالا که نشان دهنده حرکات مجرای صوتی بود استفاده شدند. در اصل مجرای صوتی امواج مغزی را تبدیل به یک مدل حرکتی فیزیکی می‌کند تا صدا تولید شود. مانند حرکت لب‌ها، زبان یا فک.

در نهایت، آنها از یک شبکه عصبی دوم برای تبدیل حرکات به یک سیگنال صوتی استفاده کردند و از داوطلبان خواستند که به آن گوش دهند. در آزمایشی با ۱۰۱ جمله، شنوندگان با استفاده از یک بانک کلمه، سخنان تولید شده را به خوبی تشخیص دادند. شنوندگان ۴۳ درصد جمله‌ها را با یک بانک واژگان ۲۵ کلمه و ۲۱ درصد جمله‌ها را با یک بانک ۵۰ کلمه‌ای به درستی تشخیص دادند. به طور کلی، حدود ۷۰ درصد کلمات به درستی ضبط شدند. چانگ می‌گوید: مرحله بعدی در این پژوهش ساخت دستگاه صوتی طبیعی‌تر و قابل درک است.

استفاده معلولین فاقد قدرت تکلم از رابط مغز و رایانه

در یک پژوهش جذاب، از یک شرکت کننده خواسته شد که جملات را بدون هیچ گونه صدایی بیان کند. رابط مغز و رایانه قادر به بیان جملات قابل فهمی بود. از این سامانه می‌توان برای افرادی که نمی‌توانند صحبت کنند، استفاده کرد.

رمز گشایی حرکات مجرای صوتی در افراد مختلف مشابه بود. این نشان می‌دهد که می‌توان یک نوع رمزگشای واحد برای همه افراد ایجاد کرد. چانگ گفت: "یک مجرای صوتی مصنوعی مدل شده بر اساس صدای یک فرد را می‌توان برای تولید گفتار از امواج مغزی فرد دیگر بکار برد"

یکی از محدودیت های عمده این مطالعه این بود که تنها افراد بدون معلولیت و با توانایی تکلم در آن شرکت داشتند. چانگ امیدوار است در آینده آزمایش‌های بالینی با افرادی که قادر به صحبت نیستند نیز انجام شود.