На что способна новая нейросеть GPT-4о, о которой все говорят
На что способна новая нейросеть GPT-4о, о которой все говорят
Компания OpenAI представила новую версию своего искусственного интеллекта – GPT-4 Omnia (GPT-4o). Это революционное обновление, которое наверняка разделит историю OpenAI на «до» и «после». Если раньше пользователи могли общаться с сервисом компании только в формате чат-бота, то теперь нейросеть может слышать и видеть людей, понимать эмоции и имитировать их сама. Благодаря GPT-4o ШИ OpenAI буквально ожил. Рассказывает, почему это одновременно и завораживает и пугает.
Почему так много хайпа?
GPT-4o представили вечером 13 мая, и новинка мгновенно произвела фурор – пятиминутное видео, в котором соучредитель OpenAI Грег Бауман общается с нейросетью, за ночь набрало полмиллиона просмотров. На YouTube-канале компании еще ни один клип не набирал популярность так быстро.
Чем же GPT-4o всех так поразила? Ну, как минимум тем, что она, по сути, стала тем же компьютерным помощником из фильмов и видеоигр, которые видят человека, комментируют происходящее, отпускают шутки и не только. Джарвис из «Железного человека», Кортана из Halo и, наконец, Саманта из фильма «Она», в котором герой Хоакина Феникса влюбляется в ИИ. Об этом в своем блоге заявил и сам основатель OpenAI Сэм Альтман.
«GPT-4o похож на ИИ из фильмов; и меня еще немного удивляет, что это реально», – написал он.
К слову, с Самантой у GPT-4o общего больше, чем просто ассоциация. Во-первых, в демонстрационных видео GPT-4o говорит голосом, очень похожим на голос Скарлетт Йоганссон, которая и озвучивала ИИ в «Она». Во-вторых, Альтман неоднократно говорил, что он большой поклонник этого фильма, а после презентации GPT-4o опубликовал в X (бывшем Twitter) короткое сообщение: «она».
Что умеет GPT-4o?
Прежде всего, стоит отметить улучшение работы ИИ с голосом. Она стала значительно быстрее, что позволяет общаться с сервисом в режиме реального времени – не нужно записывать голосовые сообщения, отправлять их на сервер и ждать ответа в виде другой аудиозаписи. Все происходит максимально нативно, по ощущениям, GPT-4o сейчас – лучший голосовой интерфейс для компьютера.
Синтез речи тоже оказался выше всех похвал. Судя по представленным компанией образцам, GPT-4o в этом плане значительно лучше Alexa от Google Assistant, Алису от «Яндекс» и тем более Siri от Apple. Язык GPT-4o звучит естественно: в нем нет присущих робоголосам перепадов интонаций.
Более того, новая нейросеть синтезирует правдоподобные возгласы и даже смех. От последнего, правда, бегут мурашки по коже: не потому, что он плохой, а наоборот – слишком правдоподобный.
Вторым большим достижением OpenAI стало включение зрения для нейросети. Запуская ИИ на смартфоне или компьютере, GPT-4o подключается к встроенной камере устройства и анализирует объекты в кадре.
К примеру, программа улавливает изменения в мимике человека и таким образом определяет эмоции собеседника не только по тембру голоса, но и по его лицу. Жесты, животные, одежда, мебель и многое другое подвергаются анализу, идентификации и интерпретации со стороны GPT-4o.
Дополняет имитацию личности в понимании сарказма и юмора. GPT-4o не только распознает шутки человека и игриво над ними хихикает, но и сама активно насмехается над собеседниками. Ничего, кроме шока, это при просмотре демонстрационных клипов от OpenAI не вызывает.
Какая польза GPT-4o?
Сценарии применения GPT-4o масса. Только OpenAI на презентации показала несколько десятков. Разработчики предлагают использовать новую нейросеть для развлечений, как собеседника, переводчика, образовательной платформы и не только. Например, в одном из демороликов GPT-4o играет с людьми в «Камень, ножницы, бумага», в другом – выступает в роли переводчика для двух людей, один из которых знает только испанский язык, а другой – только английский, в третьем – нейросеть. становится глазами для незрячего: человек водит объективом камеры, а AI подробно описывает объекты в кадре.
Кстати, в нейросеть в режиме реального времени можно скачивать не только видео с камеры, но и изображение с рабочего стола компьютера. В этом случае GPT-4o быстро проанализирует содержимое и сможет его прокомментировать.
К примеру, программисту сервис может подсказать, как оптимизировать код, художнику – как улучшить изображение, фотографу – как отретушировать снимок и т.д.
Если говорить об экономической перспективе GPT-4o, то можно провести некоторые связи с корпорацией Apple. Вообще, OpenAI никак не монетизирует ChatGPT, если не считать платный тариф за $20 в месяц, который нужен разве что корпоративным пользователям или большим энтузиастам. Однако скоро у OpenAI и ChatGPT появится крупный клиент в лице корпорации Apple.
Apple интегрирует ChatGPT и другие ШИ-инструменты GPT в iOS, iPadOS и macOS. Отдельно инсайдеры подчеркивают, что одна из версий GPT станет базой голосового ассистента Siri, над которым уже давно посмеиваются из-за его ничтожности. В свете этих событий становится очевидным, что GPT-4o – это готовый этап для той же Siri.
Если Apple сможет реализовать на iPhone хотя бы половину представленных функций GPT-4o, она мгновенно вырвется в авангард интеллектуальной потребительской техники.
Подробнее об интеграции ChatGPT в свои операционные системы Apple расскажет в июне 2024 года в рамках конференции разработчиков WWDC. Примечательно, что полноценный релиз GPT-4o также запланирован на июнь.
Это небезопасно?
В конце 2023 года совет директоров уволил с должности генерального директора OpenAI соучредителя компании Сэма Альтмана. Вскоре после разразившегося скандала Альтмана восстановили в должности, но спонтанное решение руководства компании до сих пор окутано тайной.
При этом известно, что одной из причин увольнения соучредителя OpenAI стала жалоба от нескольких сотрудников исследовательского отдела. В своем письме они заявили, что компания приблизилась к «мощному открытию в сфере ИИ, которое может угрожать человечеству». Подробности об открытиях не упоминались, но сообщали, что Альтман намерен коммерциализировать новую технологию, не осознавая последствий ее использования.
Неизвестно, является ли GPT-4o тем самым загадочным проектом OpenAI, но легко можно предположить, что да. Ведь кажется, что даже если люди не начнут массово влюбляться в свои смартфоны, то мошенники будут точно использовать новые голосовые возможности нейросети в преступных целях.
Некоторые эксперты считают, что сама GPT-4o не представляет большой опасности для людей в плане кибербезопасности, однако этого нельзя сказать о продуктах, которые будут появляться на базе разработок OpenAI.
Новый функционал демонстрирует то, что потенциально возможно с точки зрения технологий – генерацию реалистического голоса с правильными интонациями и эмоциями, причем практически в режиме реального времени. Учитывая, что развитие открытых инструментов в сфере генеративных нейросетей идет достаточно быстро, можно ожидать в будущем других аналогичных открытых решений, которые уже могут быть теоретически использованы злоумышленниками.
По мнению специалистов, представленные OpenAI обновления кажутся хоть и масштабными, но эволюционными, а не революционными. Так что с точки зрения кибербезопасности принципиально новых векторов угроз GPT-4o не прибавляет.