안녕, 인공지능, 대화하자.

안녕, 인공지능, 대화하자
메타, 구글 등이 음성 비서의 르네상스를 이끌고 있지만 사람들은 10년이 넘도록 이 기술이 멋지지 않다고 생각합니다.

“야, 메타, 사진 찍어줘”라고 말하면 메타의 안경이 사진을 찍습니다. 셔츠에 끼우는 초소형 컴퓨터인 Ai Pin은 외국어를 사용자의 모국어로 번역합니다. 인공 지능 화면에는 마이크를 통해 대화할 수 있는 가상 비서가 있습니다.

작년에 OpenAI는 음성으로 응답할 수 있도록 ChatGPT 챗봇을 업데이트했으며, 최근 구글은 안드로이드폰의 음성 비서를 대체하는 제미니를 출시했습니다.

대부분의 사람들이 컴퓨터와 대화하는 것이 멋쩍지 않다고 생각한 지 수년이 지난 지금, 기술 기업들은 음성 비서의 르네상스에 베팅하고 있습니다.

이번에는 성공할 수 있을까요? 그럴 수도 있지만 시간이 좀 걸릴 수도 있습니다.

지난 10년간 수행된 연구에 따르면 여전히 많은 사람들이 아마존의 Alexa, 애플의 Siri, 구글의 어시스턴트와 같은 음성 비서를 사용해 본 적이 없으며, 사용 경험이 있는 사람들 중 압도적인 다수가 공공장소에서 음성 비서와 대화하는 모습을 보이고 싶지 않다고 답했습니다.

저 역시 음성 비서를 거의 사용하지 않는데, 최근 카메라와 스피커가 내장되어 주변 환경에 대한 정보를 제공하는 메타의 안경을 사용해 본 결과 동물원에서 부모와 아이들 앞에서 컴퓨터와 대화하는 것이 여전히 어색하다는 결론을 내렸습니다.

과연 이런 상황이 정상적으로 느껴질 수 있을지 의문이 들었습니다. 얼마 전까지만 해도 블루투스 헤드셋을 끼고 전화 통화를 하면 사람들이 어색해 보였지만 이제는 누구나 그렇게 하죠. 공상 과학 영화에서처럼 많은 사람들이 걸어 다니며 컴퓨터와 대화하는 모습을 볼 수 있을까요?

디자인 전문가와 연구원들에게 이 질문을 던져본 결과, 새로운 인공지능 시스템이 음성 비서가 우리가 말하는 내용을 이해하고 실제로 도움을 주는 능력을 향상시킴에 따라 가까운 미래에 기기와 더 자주 대화하게 될 가능성이 높지만 공공장소에서 이를 실현하기까지는 아직 몇 년이 더 남았습니다.

지금부터 알아두세요.

음성 비서가 점점 더 똑똑해지는 이유

새로운 음성 어시스턴트는 휴대폰의 자동 완성 기능과 유사하게 통계와 복잡한 알고리즘을 사용하여 어떤 단어가 함께 속하는지 추측하는 생성형 인공 지능으로 구동됩니다. 따라서 한정된 질문 목록에만 응답할 수 있는 Siri나 Alexa와 같은 가상 비서보다 문맥을 사용하여 요청과 후속 질문을 더 잘 이해할 수 있습니다.

예를 들어 ChatGPT에 “다음 주 샌프란시스코에서 뉴욕으로 가는 항공편이 있나요?”라고 말한 다음 – 라고 질문하고 “그곳 날씨는 어때요?”, “무엇을 챙겨야 하나요?”라고 후속 질문을 하면 – 챗봇은 대화의 맥락을 이해하기 위해 단어와 단어를 연결하기 때문에 이러한 질문에 답할 수 있습니다. (뉴욕 타임즈는 작년에 저작권이 있는 뉴스 기사를 무단으로 사용하여 챗봇을 훈련시켰다는 이유로 OpenAI와 그 파트너인 Microsoft를 고소했습니다.)

“뉴욕 날씨가 어때요?”, “뉴욕 여행에 무엇을 챙겨야 하나요?” 등 특정 단어를 사용하지 않는 한, 프로그램된 명령과 질문 데이터베이스에 반응하는 Siri와 같은 구형 음성 비서는 실패할 것입니다.

전자의 대화는 사람들이 서로 대화하는 방식처럼 더 유동적으로 들립니다.

사람들이 시리나 알렉사와 같은 음성 비서를 포기한 가장 큰 이유는 컴퓨터가 질문의 대부분을 이해하지 못하고 어떤 질문이 효과가 있는지 알아내기 어려웠기 때문입니다.

Apple에 인수되기 전 Siri의 초기 버전을 개발한 연구소인 SRI의 음성 기술 책임자인 디미트라 버지리는 생성형 인공지능이 연구자들이 수년 동안 고민했던 많은 문제를 해결했다고 말합니다. 이 기술을 통해 음성 비서가 자연스러운 음성을 이해하고 유용한 답변으로 응답할 수 있게 되었다고 그녀는 말했습니다.

2014년 Siri 개발에 참여했으며 이 비서에 대해 노골적인 비판을 해온 전 애플 엔지니어 존 버키는 생성형 인공지능 덕분에 사람들이 컴퓨터의 도움을 더 쉽게 받을 수 있게 되었기 때문에 더 많은 사람들이 곧 비서와 대화하게 될 것이며, 더 많은 사람들이 그렇게 하기 시작하면 그것이 표준이 될 수 있다고 믿었다고 말했습니다.

“Siri는 아는 단어가 너무 많아서 한계가 있었습니다.”라고 그는 말합니다. “이제 더 나은 도구가 생겼습니다.”

하지만 새로운 인공지능 비서가 널리 채택되기까지는 새로운 문제가 발생하기 때문에 몇 년이 걸릴 수도 있습니다. ChatGPT, 구글의 제미니, 메타 AI를 포함한 챗봇은 정답을 알아낼 수 없어 무언가를 만들어내는 ‘환각’에 빠지기 쉽습니다. 이들은 웹에서 정보를 세고 요약하는 것과 같은 기본적인 작업에서 실수를 범했습니다.

음성 비서가 도움이 될 때와 그렇지 않을 때

음성 기술이 아무리 발전하더라도 키보드를 이용한 기존의 컴퓨터 상호작용을 대체하거나 대체할 수는 없을 것이라고 전문가들은 말합니다.

현재 사람들은 자동차 운전 중 지도 목적지 설정과 같이 혼자 있을 때 컴퓨터와 대화해야 하는 일부 상황에서 강력한 이유를 가지고 있습니다. 하지만 공공장소에서는 어시스턴트와 대화하는 것이 여전히 이상하게 보일 뿐만 아니라 비현실적인 경우가 더 많습니다. 식료품점에서 메타 안경을 쓰고 식료품 식별을 요청했을 때, 도청을 하던 쇼핑객이 “순무예요”라고 능청스럽게 대답한 적이 있습니다.

또한 기밀 업무용 이메일을 기차 안에서 다른 사람들에게 받아쓰기를 하고 싶지는 않을 것입니다. 마찬가지로 술집에서 음성 비서에게 문자 메시지를 큰 소리로 읽어달라고 부탁하는 것도 무례한 행동입니다.

“기술은 문제를 해결합니다.”라고 IBM과 제록스 PARC에서 근무한 제품 디자인 베테랑인 테드 셀커는 말합니다. “우리는 언제 문제를 해결하고, 언제 문제를 만들까요?”

하지만 컴퓨터와 대화하는 것이 다른 사람들에게 얼마나 이상하게 보일지 신경 쓰지 않을 정도로 큰 도움이 될 때가 있다고 리서치 회사인 Creative Strategies의 애널리스트인 Carolina Milanesi는 말합니다.

다음 사무실 회의 장소로 걸어가는 동안 음성 비서에게 만나게 될 사람들에 대한 브리핑을 요청하는 것도 도움이 될 것입니다. 등산로를 걷다가 음성 어시스턴트에게 어디로 향해야 하는지 물어보는 것이 멈춰서서 지도를 꺼내 보는 것보다 더 빠를 수 있습니다. 박물관을 방문했을 때 음성 어시스턴트가 보고 있는 그림에 대한 역사 수업을 들려준다면 더할 나위 없이 좋을 것입니다. 이러한 애플리케이션 중 일부는 이미 새로운 인공지능 기술로 개발되고 있습니다.

저는 최신 음성 기반 제품 몇 가지를 테스트하면서 이러한 미래를 엿볼 수 있었습니다. 예를 들어 제가 메타 안경을 쓰고 빵을 만드는 모습을 동영상으로 촬영할 때 손이 바빠서 “야, 메타, 동영상 찍어줘”라고 말할 수 있어서 유용했습니다. 그리고 휴먼의 Ai Pin에게 할 일 목록을 음성으로 지시하는 것이 휴대폰 화면을 보는 것보다 더 편리했습니다.

매사추세츠 공과대학교 미디어 랩에서 수십 년 동안 음성 인터페이스를 연구한 크리스 슈만트는 “걸어 다니는 동안, 바로 그 순간이 최적의 순간”이라고 말합니다.

약 35년 전 최초의 휴대전화를 얼리 어답터로 사용했을 때, 그는 MIT 캠퍼스를 돌아다니며 전화 통화를 하는 자신을 사람들이 쳐다보았다고 회상했습니다. 지금은 이런 일이 일상적입니다.

저는 사람들이 외출할 때 가끔씩 컴퓨터와 통화하는 날이 올 것이라고 확신하지만, 그 시기는 매우 느리게 올 것입니다.

https://www.nytimes.com/2024/05/01/technology/personaltech/ai-voice-assistants.html