📄일반

카페를 바꾸는 AI 동업자들 | Biz1hour

AI 음성·번역·디자인·영상 도구를 활용해 카페의 주문속도, 다국어 메뉴, 포스터·영상 제작을 자동화한 실전 사례와 적용 팁을 담았다.

·16분 읽기
카페를 바꾸는 AI 동업자들 | Biz1hour

월요일 새벽, 마포 골목의 카페 ‘맞은편’은 셔터를 올리기 전부터 불이 켜져 있었다. 사장 민지는 에스프레소를 내려놓고 휴대폰으로 허깅페이스의 주간 트렌드를 훑었다. “대본만 넘기면 전문 성우급 팟캐스트요?” 그녀가 소리 내어 중얼거렸다. 전날 밤 만든 신메뉴 ‘흑임자 라떼’의 스토리를 어떻게 아침 출근길 손님들에게 들려줄지 고민하던 참이었다. 오늘도 인공지능은 광고비 대신 시간을 벌어주고, 기술 대신 목소리를 빌려주는 동업자처럼 화면 속에서 손을 흔들고 있었다. 가장 먼저 눈에 들어온 건 마이크로소프트의 VibeVoice였다. 단순히 문자 읽어주는 도구가 아니라, 말맛을 아는 성우처럼 대본의 숨을 고르고, 단어 사이에 여백을 만들어냈다. “고맙습니다”라는 두 글자가 흥분, 안도, 반가움으로 각기 다른 결을 갖는 순간 민지는 깨달았다. 그동안 가게의 목소리는 늘 민지 자신이었지만, 손님은 제각각이었고 맥락도 달랐다. 월요일 8시의 ‘서둘러요’와 토요일 오후의 ‘천천히’는 같은 문장이 되어선 안 된다. VibeVoice로 안내 멘트를 세 가지 버전으로 만들었다.

카페를 바꾸는 AI 동업자들 음식·카페 voice assistant 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 voice assistant 관련 이미지

출근길엔 템포를 빠르게, 점심시간엔 산뜻하게, 저녁엔 약간 낮고 따뜻한 톤으로. QR 메뉴판 상단에 “오늘의 목소리 듣기” 버튼을 붙였더니, 주문 속도가 빨라지고 실수도 줄었다. 브랜드의 색은 로고나 인테리어만이 아니라, ‘말 걸어오는 방식’이라는 사실을 새삼 배우는 아침이었다. 민지는 곧바로 다음 실험으로 넘어갔다. 여행객이 많은 주말이면 중국어와 일본어 주문이 늘었는데, 번역 앱으로는 미묘한 뉘앙스가 늘 아쉬웠다. 텐센트의 Hunyuan-MT-7B가 커뮤니티에서 화제가 된 이유가 바로 그 뉘앙스였다. “고소한”을 단지 ‘nutty’로 넘기지 않고, 한국식 ‘고소함’이 갖는 쌀과 깨의 온도를 문장에 살짝 얹어준다. 민지는 메뉴 설명을 세 언어로 자동 변환해 디지털 메뉴판에 띄웠다. 흑임자 라떼 아래에는 “입안에서 부드럽게 퍼지는 깨의 향”이라는 문장이 각 언어로 매끄럽게 놓였다. 손님은 고개를 끄덕였고, 바리스타는 설명을 줄였다. 번역은 더 이상 걸림돌이 아니라, ‘손님에게 먼저 말을 거는 매대’가 되었다.

카페를 바꾸는 AI 동업자들 음식·카페 multilingual menu 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 multilingual menu 관련 이미지

오후, 가게 한쪽 벽에 붙일 포스터를 만들 차례였다. 디자이너에게 의뢰하면 최소 며칠, 수정은 또 며칠. 민지는 OpenBMB의 MiniCPM-V-4.5를 스마트폰에서 열었다. 사진을 올리고, 문장을 붙이고, “라떼 사이즈 비교를 보기 좋게”라고 설명하자 이미지를 읽고 글을 맞춰 배치한다. 이 작은 모델이 놀라운 건 속도와 예의였다. 무거운 서버가 없어도, 손바닥 위에서 이미지 이해와 문장 정리가 한 번에 끝났다. “이건 마치 울트라북 같다”는 리뷰를 떠올리며 민지는 웃었다. 점심 시간 전에 포스터 파일이 완성되고, 프린터가 돌아가는 동안 그녀는 주방 쪽 재고 사진을 찍어 재고표를 자동으로 만들어 달라고 시켰다. 바쁜 날, 사람 대신 디테일을 챙겨주는 동료가 생긴 기분이었다. 창작의 영역으로 넘어오면 이야기는 더 재밌어진다. 동네 밴드 ‘브루잉보이즈’가 주말 라이브를 하기로 했는데, 뮤직비디오가 필요하다고 했다.

카페를 바꾸는 AI 동업자들 음식·카페 menu translation 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 menu translation 관련 이미지

예산은 빡빡하고 일정은 더 빡빡했다. 여기서 Wan2.2 S2V가 등장한다. 음원 한 트랙과 공연 사진 몇 장만 던져주면 음악의 비트에 맞춰 숏폼 뮤직비디오가 뚝딱 나온다. 소리와 영상의 리듬이 맞아떨어지는 순간, 밴드의 곡이 낯선 알고리즘에게도 호기심을 얻는다. “침실에서 MTV급”이라는 표현이 과장이 아닌 이유다. 민지는 그 영상으로 인스타 릴스를 올렸고, 공연 전 예약 좌석이 일찌감치 채워졌다. 썸네일은 또 하나의 전쟁터다. 바이트댄스의 USO FLUX는 스타일의 연금술사처럼 기존 이미지를 다른 질감으로 갈아 끼운다. “한옥의 처마 + 네온사인 무드” 같은 무모한 주문에도 화면은 설득력 있게 응답했다. 주말 야간 영업을 알리는 포스터에 그 이미지를 얹자, 댓글 속 반응이 달라졌다.

카페를 바꾸는 AI 동업자들 음식·카페 poster design 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 poster design 관련 이미지

“이 집은 시각 언어가 있다”는 말이 붙었다. 알고 보면 민지가 만든 게 아니라, 민지의 취향을 배운 AI가 함께 만든 것이다. 이쯤 되면 우리는 인정해야 한다. 도구를 넘어 동업자다. 영업을 살리고, 스토리를 빚고, 손님의 시간을 아껴주는 파트너. 민지는 마지막으로 ‘맞은편 라디오’를 시작했다. VibeVoice 엔진을 활용한 팟캐스트 생성기로 하루 10분짜리 에피소드를 찍어냈다. 월요일엔 원두 이야기, 수요일엔 게스트로 ‘도넛 장인’을 초대했다. 물론 실제 도넛 장인은 바쁘다. 대신 “따뜻하고 유쾌한 장인의 말투”라는 가상 게스트 옵션으로 대화를 꾸렸다.

카페를 바꾸는 AI 동업자들 음식·카페 short-form video 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 short-form video 관련 이미지

청취자는 그것이 진짜인지 묻지 않았다. 중요한 건 진정성 있는 정보와 리듬이었다. 에피소드를 듣고 찾아온 손님이 “라디오에서 들은 시나몬슈가 도넛 있나요?”라고 묻는 순간, 민지는 ‘음성 브랜딩’이 간판보다 강할 수 있음을 체감했다. 이쯤에서 소상공인의 현실적인 질문이 고개를 든다. “좋다, 그런데 무엇부터?” 첫 주에는 목소리를 정리하자. 사장 본인의 톤을 기준으로 세 가지 버전을 만든다. 밝음 70%/속도 빠름, 중립 50%/속도 보통, 차분 30%/속도 느림. 가게의 하루 동선을 생각하며 언제 어떤 목소리를 쓸지 시간표를 짠다. 공지, 메뉴 추천, 후기 요청 같은 대본은 길게 쓰지 말고 한 문단씩 쪼개서 실험한다. 같은 문장을 두 가지 감정으로 만들어 A/B 테스트처럼 써본다.

카페를 바꾸는 AI 동업자들 음식·카페 marketing 자동화 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 marketing 자동화 관련 이미지

일주일 뒤 주문 정확도, 체류 시간, 팁, 팔로워 증가 같은 작은 지표를 기록하면 목소리는 금세 ‘브랜드 자산’이 된다. 둘째 주엔 번역을 붙이자. 전체 메뉴를 한 번에 다 하지 말고, 단가가 높고 설명이 어려운 메뉴 다섯 개부터. 번역은 글자 수보다 힌트를 살리는 데 집중한다. “깨의 향” “입안에서 부드럽게” 같은 촉각 단어를 남기면 언어가 바뀌어도 맛의 그림이 유지된다. 외국어 댓글이 달리면 그 문장을 그대로 학습시켜서 다음 공지에 반영한다. 번역은 비용이 아니라, 샘플을 늘려가는 탐색이다. 셋째 주엔 이미지와 영상의 손을 잡자. 매장에서 찍은 햇살 좋은 컷 한 장, 손이 움직이는 컷 한 장만 있어도 충분하다. Wan2.2로 음악에 맞춘 12초짜리 비디오를 만들고, USO FLUX로 썸네일 스타일을 세 가지로 뽑는다.

카페를 바꾸는 AI 동업자들 음식·카페 소상공인 technology 관련 이미지
카페를 바꾸는 AI 동업자들 음식·카페 소상공인 technology 관련 이미지

올릴 때는 같은 문구라도 세 개의 영상에 각각 다른 감정을 얹는다. 달달함, 시원함, 든든함. 어느 감정이 객단가를 끌어올리는지, 어느 감정이 재방문을 부르는지 데이터가 말해줄 것이다. 여기까지 읽은 누군가는 이렇게 반문할지 모른다. “그럼 진짜 창작자는 어디에 있나?” 대답은 의외로 간단하다. 방향과 취향, 그리고 맥락을 붙이는 사람이 바로 창작자다. AI는 공장의 컨베이어 벨트를 돌리는 대신, 당신의 취향을 대량 생산 가능한 언어로 번역해 준다. 당신이 ‘왜 이 가게를 하는지’를 문장과 이미지, 목소리로 반복해 증명할수록 동업자는 더 똑똑해지고, 더 당신답게 만든다. 결국 사람 손이 닿아야 하는 건 ‘무엇을 만들지’가 아니라 ‘무엇을 지킬지’다. 모조와 도용의 경계를 넘지 않도록, 살아 있는 인물의 고유 음색을 무단으로 흉내 내지 않도록, 우리만의 원칙을 세우는 일 말이다.

기술적인 팁도 하나 덧붙인다. 음성은 30분짜리 담백한 녹음만 있어도 ‘브랜드 보이스’의 씨앗이 된다. 너무 또렷하게 읽으려 하지 말고, 손님에게 말하듯 끊어 읽자. 잡음이 들어가도 괜찮다. 그 잡음이 공간의 온도를 전한다. 이미지는 오전과 오후, 형광등과 자연광처럼 서로 다른 조명으로 두 장씩 촬영하자. 멀티모달 모델은 그 차이를 배워서 썸네일과 포스터에 적절한 톤을 자동 추천한다. 번역은 메뉴 이름은 직역, 설명은 의역이 기본이다. 명사에는 신뢰를, 형용사에는 상상을 배분하면 된다. 저녁이 되어 문을 닫을 때, 민지는 하루 종일 함께 일한 팀원을 떠올렸다.

바리스타 지영, 알바생 태윤, 그리고 화면 속 동업자들. 그들은 감정을 이해하고, 상황을 읽고, 반복을 싫어했다. 무엇보다 민지가 좋아하는 방식으로 일하려고 노력했다. 르네상스가 거창한 선언이 아니라 동네 가게 한 칸에서 시작될 수 있다면, 그 이유는 간단하다. 도구가 아니라 동료라 부르는 순간, 우리는 일을 다르게 설계하기 때문이다. 다음 주에 민지가 할 일은 아마 이것일 것이다. 라디오의 오프닝을 6초 줄이고, 외국인 손님이 자주 묻는 질문을 세 문장으로 늘이며, 낮 12시엔 씩 웃는 톤을 조금 덜고 4시에 다시 올리는 것. 그리고 일기장 마지막 줄에 짧게 적는 것. “오늘도 AI와 잘 지냈다. 덕분에 손님과 더 오래 이야기했다.” 그 문장이 바로 새로운 주간 리포트이며, 이 동네의 디지털 르네상스는 그렇게 생활이 된다.

공유하기:

📚 이런 글도 읽어보세요