4-3 New Sora 활용법과 현업 사용전략
1. New Sora 주요 기능
1) 핵심 기능
- Text-to-Video
- 텍스트 프롬프트로 영상 생성
- 최대 15초 영상(Plus), 25초 (Pro 스토리보드)
- 해상도: 480p ~ 1080p (Plus: 720p까지만 가능)
- Audio 통합
- 음성, 음향효과, 배경음악 자동 생성
- 프롬프트로 ‘자연스러운 대화’, ‘경쾌한 BGM’ 등 지정 가능
- 무음 영상도 선택 가능
- Storyboard (Beta)
- 프레임별 타임스탬프 지정
- 장면 단위 세밀한 구성
- Image-to-Video
- 이미지 업로드 → 영상으로 변환
- 단, 사람 얼굴 이미지 업로드는 차단됨
- 딥페이크, 초상권 등의 문제 발생을 사전 차단하기 위한 조치
- Cameo
- 단, App 버전에서는 Cameo 기능을 활용하여 사용자 본인의 얼굴을 등록해, 본인이 등장하는 영상을 생성할 수 있음
- Cameo에는 ‘본인’ 얼굴만 1개 등록 가능
- Remix&Stitching
- 다른 사람 영상 재해석
- 여러 클립 연결
2) New Sora의 단점
- 동일 인물 유지 불가능
- 프롬프트가 미묘하면 엉뚱한 동작이 생성됨
- 극단적인 촬영 기법(POV, 미러샷 등)은 실패 가능성 존재
- 실제 음악 삽입 불가 (분위기 묘사만 가능)
2. New Sora 활용법
1) Sora 2가 영상을 만드는 방식 이해하기
- Sora는 텍스트 프롬프트를 기반으로 아래 다섯 가지 축을 통합적으로 해석합니다.
- 장면(Scene)
- 행동(Action)
- 카메라(Camera)
- 분위기(Mood)
- 오디오(Audio)
→ Sora는 ‘전체적 일관성’을 중요하게 생각합니다.
2) Sora가 잘 이해하는 표현
- 물리적 환경: “A coffee shop with warm morning sunlight”
- 카메라: “Starts with a close-up and slowly zooms out”
- 분위기: “Cinematic, soft bokeh background”
- 행동: “She gently picks up the cup and smiles softly”
3) Sora가 잘 이해하지 못하는 표현
- “느낌만 있는 추상적 표현”
- → 예: “행복한 톤, 밝은 감정”만 쓰면 정확성이 떨어짐
- “관객의 해석이 필요한 은유적 표현”
- → 예: “행복이 꽃처럼 피어나는 장면”
- “불가능한 액션 조합”
- → 예: 실내인데 ‘강한 바람이 부는 장면’ 요청
4) 영상 프롬프트 구조: Scene–Action–Camera–Mood-Audio
- Scene (장면) : 장면은 ‘어디에서 무엇이 벌어지는지’를 설명하는 단계
- 실내/실외
- 빛의 방향
- 배경 환경
- 시간대
- 소품
- Action (행동) : 인물의 움직임, 사물의 동작, 환경의 변화 등을 묘사하는 단계
- 인물 묘사의 핵심은 ‘느낌’
- 동일 인물 고정이 불가능하므로, “20대 여성”, “부드러운 미소”, “자연스러운 메이크업”같은 인물 분위기묘사에 집중
- 손동작, 표정, 시선, 리액션, 속도감 (slow motion)
- Camera (카메라) : 촬영 방식 자체를 지정하는 것
- 카메라 샷 종류
- Close-up (클로즈업) : 얼굴, 손, 제품 등 디테일 강조에 사용.
- Medium Shot (반신) : 표정과 제스처가 동시에 강조됨.
- Full Shot (전신) : 환경+인물 관계가 잘 드러남.
- 카메라 무빙
- zoom in: 집중
- zoom out: 공간 확장
- Pan
- 좌우 회전
- 풍경, 실내 소개
- Tilt
- 위아래 움직임
- 시선 전환, 공간 층위 강조
- Steadycam
- 부드럽게 이동
- 광고, 영화풍 영상에 적합
- Mood (분위기) : 영상의 감정·무드를 결정
- 색감(Palette)
- Warm tone
- Cool tone
- Pastel tone
- 조명 분위기
- soft natural daylight
- golden hour light
- dramatic lighting
- soft shadows
- bokeh background
5) CUT TO 사용법
- 'CUT TO’란?
- 다음 화면으로 전환될 때에 환기하는 프롬프트
- Sora는 CUT TO 없이도 ‘연속된 카메라 무빙’으로 장면을 처리할 수 있음
- CUT TO를 넣는 게 좋은 상황
- 장면 전환이 명확할 때
- 쇼트(컷)의 역할이 바뀔 때
- 시간 전환
- CUT TO를 넣지 않아야 할 상황
- 자연스러운 행동의 연속
- 카메라 무빙으로 처리 가능한 경우
- 감정 흐름을 끊고 싶지 않을 때
3. New Sora로 오디오 생성하기
1) New Sora로 구현 가능한 영역
- 프롬프트 안에서 배경음/음악/효과음/대사를 텍스트로 지시할 수 있음
- “잔잔한 피아노 BGM”, “카페 환경음”, “발자국 소리가 크게 들리게” 같은 질감·역할·분위기 중심 제어가 가능
2) New Sora로 구현 불가능한 영역
- 사용자 BGM 파일 업로드 → 그대로 쓰기
- 미디처럼 정확한 BPM, 키, 코드 진행까지 세밀하게 컨트롤하는 건 어려움
- “배경음악 볼륨 -5dB, 효과음 +3dB” 같은 믹싱 레벨 수치 제어는 불가
- “정확히 3.2초에 총소리, 4.8초에 차 소리” 이런 타임코드 단위 제어는 제한적
3) 오디오 추가 된 프롬프트 기본 구조
- Scene – Action – Camera – Mood + Audio (Music / SFX / Voice)
4) 오디오 레이어에 꼭 들어가야 할 4가지
- 배경 카테고리
- background music / ambience / environmental sounds / sound effects / dialogue
- 성격·장르
- lo-fi, piano, acoustic guitar, orchestral, ambient, upbeat, emotional, cinematic 등
- 역할/존재감
- subtle / soft / in the background / dominant / almost no music
- 제한/금지 조건
- “no background music, only ambience”
- “no dialogue, only sound effects and ambient noise”
5) 배경음악(BGM) 제어하기
- 실무에서는 장면마다 BGM 전략이 다릅니다.
- 감성 브랜디드 영상 → BGM 필수, SFX는 서브
- 제품 튜토리얼 → BGM은 최소, 나레이션/대사 중심
- 자막 기반 숏폼 광고 → BGM 중간, 효과음은 ‘딱!’ 정도로만
-BGM 유/무 설정하기
-장르·악기·템포 분위기를 지정하는 법
- Sora 2는 오디오 전용 모델이 아님
- BPM 120, D 메이저, 4/4 박자’ 같은 음악이론 용어보다
- 실제 사용자가 원하는 느낌으로 적는 게 더 잘 구현
- lo-fi, piano, ambient, upbeat pop 같이 장르+악기+느낌으로 설명
- BGM와 다른 소리의 균형 제어하기
- 숫자(5% 등)로 볼륨 제어는 못 하지만, 프롬프트에서 ‘우선순위’를 지정 가능
6) 효과음(SFX) 제어하기
- 환경 사운드스케이프
- 도시 소음, 카페 웅성거림, 새소리, 바람, 파도 등
- 행동 기반 SFX
- 발자국, 문 닫히는 소리, 컵 부딪히는 소리, 메이크업 도구 닿는 소리 등
- 이벤트/임팩트 SFX
- ‘땅!’ ‘딱!’ 같은 전환 효과, 제품 등장 순간의 강조음 등
7) 행동 기반 SFX 기획하기
- 동작 단위마다 무슨 소리가 날지 상상해서 작성
- coffee, lipstick 같은 키워드에 어울리는 소리를 한두 개씩 붙임
8) 임팩트 SFX (전환/CTA용) 기획하기
- 임팩트 SFX란 마케팅 영상에서 자주 쓰는 효과음
- 화면 전환 시 “딱!”
- 가격/문구 강조 시 “퓽!”
- 로고 등장 시 “쨘!”
- 전환/로고/텍스트 등장 시점에 맞는 효과음을 설명하면, 그 타이밍 근처에 상응하는 SFX를 얹어주는 식으로 동작
4. New Sora로 대사/목소리 생성하기
- 말이 없는 영상으로 만들고 싶다면?
- 광고/브랜드 필름에서 자주 있는 케이스
- no dialogue를 명시하지 않으면, 모델이 인물 입을 움직이며 알 수 없는 말소리를 만들어낼 수도 있음
No spoken dialogue at all, only soft background music and natural ambience.
- 내레이션 중심
A calm female narrator speaks in Korean, clearly explaining the benefits of the product, with very soft background music underneath.
- 인물 대화 중심
The woman quietly talks to a friend about how gentle the lipstick feels, in a natural conversational tone, with light café ambience and no strong background music.
-언어, 톤, 감정까지 지정 가능
She speaks in Korean with a warm, friendly tone, sounding relaxed and happy.
Two friends speak in Spanish, laughing and talking quickly in an excited tone.
5. ChatGPT 영상 프롬프트
너는 지금부터 Sora 2 영상 프롬프트 전문가야.
내가 입력하는 장면 설명을 바탕으로, Sora 2가 영상과 오디오를 함께 만들 수 있도록 프롬프트를 구조화해줘.
[브랜드 정보]
- 브랜드명: [브랜드명]
- 제품/서비스: [제품명]
- 타깃 고객: [연령대, 성별, 관심사]
- 핵심 메시지: [전달하고 싶은 내용]
- 톤앤매너: [친근한/전문적/유머러스/감성적 등]
[장면 설명]
1) 훅 (0–3초)
화면:
대사:
2) 메시지 (3–8초)
화면:
대사:
3) 전환 (8–12초)
화면:
대사:
4) CTA (12–15초)
화면:
대사:
아래 규칙을 반드시 지켜서 출력해.
[1] 프롬프트는 다음 5단계 구조로 생성해.
- Scene (장면 설명: 장소, 시간대, 조명, 분위기)
- Action (인물/사물의 행동, 감정, 표정)
- Camera (카메라 타입, 움직임, 전환 방식)
- Mood (전체적인 분위기, 색감, 텍스처, 질감)
- Audio (배경음악, 환경음, 효과음, 대사 여부)
[2] Sora 2 오디오 모델 특성을 반영해 Audio 단계는 반드시 포함해.
- 배경음악(BGM)의 존재 여부
- 음악 장르·악기·느낌(예: lo-fi, warm piano, ambient)
- 환경음(예: café ambience, street ambience)
- 효과음(SFX) (예: footsteps, cup clinking, lipstick click)
- 대사 또는 no-dialogue 여부 명확히
[3] 영상은 5~10초 기준으로 자연스러운 '한 장면 또는 장면 흐름'이 되도록 구성해줘.
[4] 카메라 워크는 구체적이어야 해.
- close-up / medium shot / full shot
- zoom in/out
- slow pan/tilt
- smooth transition
- continuous shot
[5] 절대 모호하게 만들지 마.
'좋은 분위기', '멋진 샷' 같은 추상 표현 금지.
[6] 최종 출력 형식:
- 최종 통합 Sora2 프롬프트 (자연스러운 문장 1~2단락)
- (원하면) Scene/Action/Camera/Mood/Audio 5단계도 함께 보여줘.
위 규칙에 맞춰 Sora 2에 바로 넣을 수 있는 고품질 프롬프트를 생성해줘.
6. Sora의 단점: 동일 인물 유지 불가능
1) 왜 이런 문제가 생기나요?
- 랜덤 합성 방식
- Sora는 ‘20대 여성’이라는 조건에 맞는 임의의 얼굴을 매번 새로 만듦
- 특정 얼굴을 기억하는 기능 없음
- 디테일을 추가한다면 가능할까?
- 프롬프트를 상세하게 넣어 원하는 얼굴의 느낌을 구현할 수 있음
- ‘아몬드형 눈, 부드러운 미소, 복숭아색 입술’ 같은 디테일 추가
- 그러나 비슷한 느낌의 얼굴일 뿐, 다른 사람이 뽑힐 확률이 몹시 높음
→ 해당 조합에 맞는 임의의 얼굴을 매번 새로 조합하는 확률 게임
- Cameo 기능의 오해
- Cameo는 본인 얼굴만 등록 가능
- 생성된 캐릭터는 Cameo로 등록 불가
- 다른 사람 얼굴도 등록 불가
2) Sora로 구현 불가능한 것들
- 동일 모델이 반복 등장하는 광고 시리즈
- 브랜드 마스코트 모델 영상 시리즈
- 동일 인물 Before-After 비교 영상
7. Sora 현업 실전 활용 전략
1) 비슷한 인물 여러 명 뽑기 용도
- 가장 실용적인 활용법
- 동일 인물이 아니라 비슷한 페르소나를 가진 다양한 사람들이 제품을 사용하는 느낌으로 활용
- 장점
- 동일 인물 유지 실패를 오히려 강점으로
- 다양성 메시지 전달
- 여러 소재 빠르게 확보
2) B-roll & 배경 영상 생성
- B-roll이란?
- 메인 영상을 보조하는 배경 영상 (제품 클로즈업, 분위기 샷, 전환 장면)
3) 회성 감성 광고
- 활용 적합한 광고 유형
- 브랜드 인트로 영상 (15초)
- 신제품 출시 티저
- 시즌 캠페인 오프닝
- 이벤트 프로모션
- 한정 할인 광고
- 이벤트 공지 영상
- 감성 광고
- 브랜드 스토리
- 가치 전달 영상
8. HeyGen
1) HeyGen이란?
- 개발사: HeyGen
- 특징: 아바타 기반 영상 생성
- 핵심: 동일 인물 100% 보장
- 가격
- 무료: 한 달에 3분 영상 3개, 720p 추출 가능, 3개의 아바타 IV 영상 생성 가능
- 유료: $29/월 (20분)
2) 활용 사례
- 제품 설명 영상
- 동일한 브랜드 앰버서더가 여러 제품 소개
- 시리즈 콘텐츠
- 브랜드 채널
- 동일 캐릭터가 지속적으로 등장하는 채널
- 교육 콘텐츠
- 동일 강사가 반복 등장
9. [실습] 브랜드 영상 제작하기
[과제] 아래 브랜드를 1개 선택하거나, 실제 브랜드를 선택하여 브랜드 영상을 제작하세요.
브랜드 1: “퓨어슬립” (수면 베개 브랜드)
브랜드 2: “플랜티” (실내 공기정화 식물 브랜드)
브랜드 3: “마이보이스” (온라인 보이스 트레이닝 서비스)
STEP 1: ChatGPT로 프롬프트 생성 다음 프롬프트를 활용하세요.
너는 지금부터 Sora 2 영상 프롬프트 전문가야.
내가 입력하는 장면 설명을 바탕으로, Sora 2가 영상과 오디오를 함께 만들 수 있도록 프롬프트를 구조화해줘.
[브랜드 정보]
브랜드:
제품:
목표:
[장면 설명]
1) 훅 (0–3초)
2) 메시지 (3–8초)
3) 전환 (8–12초)
4) CTA (12–15초)
아래 규칙을 반드시 지켜서 출력해.
[1] 프롬프트는 다음 5단계 구조로 생성해.
- Scene (장면 설명: 장소, 시간대, 조명, 분위기)
- Action (인물/사물의 행동, 감정, 표정)
- Camera (카메라 타입, 움직임, 전환 방식)
- Mood (전체적인 분위기, 색감, 텍스처, 질감)
- Audio (배경음악, 환경음, 효과음, 대사 여부)
[2] Sora 2 오디오 모델 특성을 반영해 Audio 단계는 반드시 포함해.
- 배경음악(BGM)의 존재 여부
- 음악 장르·악기·느낌(예: lo-fi, warm piano, ambient)
- 환경음(예: café ambience, street ambience)
- 효과음(SFX) (예: footsteps, cup clinking, lipstick click)
- 대사 또는 no-dialogue 여부 명확히
[3] 영상은 5~10초 기준으로 자연스러운 '한 장면 또는 장면 흐름'이 되도록 구성해줘.
[4] 카메라 워크는 구체적이어야 해.
- close-up / medium shot / full shot
- zoom in/out
- slow pan/tilt
- smooth transition
- continuous shot
[5] 절대 모호하게 만들지 마.
'좋은 분위기', '멋진 샷' 같은 추상 표현 금지.
[6] 최종 출력 형식:
- 최종 통합 Sora2 프롬프트 (자연스러운 문장 1~2단락)
- (원하면) Scene/Action/Camera/Mood/Audio 5단계도 함께 보여줘.
위 규칙에 맞춰 Sora 2에 바로 넣을 수 있는 고품질 프롬프트를 생성해줘.
STEP 2: Sora로 영상 생성
※ 본 글은 학습을 목적으로 작성된 게시물로, 특정 브랜드·제품·서비스명이 언급될 수 있습니다. 이는 순수한 예시일 뿐이며, 상업적 목적은 전혀 없음을 밝힙니다.