4-3 New Sora 활용법과 현업 사용전략

내일배움캠프 강의/강의 : AI를 활용한 광고 콘텐츠 제작

4-3 New Sora 활용법과 현업 사용전략

pjye 2026. 2. 6. 20:45

1. New Sora 주요 기능
1) 핵심 기능

- Text-to-Video

텍스트 프롬프트로 영상 생성
최대 15초 영상(Plus), 25초 (Pro 스토리보드)
해상도: 480p ~ 1080p (Plus: 720p까지만 가능)

- Audio 통합

음성, 음향효과, 배경음악 자동 생성
프롬프트로 ‘자연스러운 대화’, ‘경쾌한 BGM’ 등 지정 가능
무음 영상도 선택 가능

- Storyboard (Beta)

프레임별 타임스탬프 지정
장면 단위 세밀한 구성

- Image-to-Video

이미지 업로드 → 영상으로 변환
단, 사람 얼굴 이미지 업로드는 차단됨
딥페이크, 초상권 등의 문제 발생을 사전 차단하기 위한 조치

- Cameo

단, App 버전에서는 Cameo 기능을 활용하여 사용자 본인의 얼굴을 등록해, 본인이 등장하는 영상을 생성할 수 있음
Cameo에는 ‘본인’ 얼굴만 1개 등록 가능

- Remix&Stitching

다른 사람 영상 재해석
여러 클립 연결

2) New Sora의 단점

동일 인물 유지 불가능
프롬프트가 미묘하면 엉뚱한 동작이 생성됨
극단적인 촬영 기법(POV, 미러샷 등)은 실패 가능성 존재
실제 음악 삽입 불가 (분위기 묘사만 가능)

2. New Sora 활용법

1) Sora 2가 영상을 만드는 방식 이해하기

- Sora는 텍스트 프롬프트를 기반으로 아래 다섯 가지 축을 통합적으로 해석합니다.

장면(Scene)
행동(Action)
카메라(Camera)
분위기(Mood)
오디오(Audio)

→ Sora는 ‘전체적 일관성’을 중요하게 생각합니다.

2) Sora가 잘 이해하는 표현

물리적 환경: “A coffee shop with warm morning sunlight”
카메라: “Starts with a close-up and slowly zooms out”
분위기: “Cinematic, soft bokeh background”
행동: “She gently picks up the cup and smiles softly”

3) Sora가 잘 이해하지 못하는 표현

“느낌만 있는 추상적 표현”
→ 예: “행복한 톤, 밝은 감정”만 쓰면 정확성이 떨어짐
“관객의 해석이 필요한 은유적 표현”
→ 예: “행복이 꽃처럼 피어나는 장면”
“불가능한 액션 조합”
→ 예: 실내인데 ‘강한 바람이 부는 장면’ 요청

4) 영상 프롬프트 구조: Scene–Action–Camera–Mood-Audio

- Scene (장면) : 장면은 ‘어디에서 무엇이 벌어지는지’를 설명하는 단계

실내/실외
빛의 방향
배경 환경
시간대
소품

- Action (행동) : 인물의 움직임, 사물의 동작, 환경의 변화 등을 묘사하는 단계

인물 묘사의 핵심은 ‘느낌’
동일 인물 고정이 불가능하므로, “20대 여성”, “부드러운 미소”, “자연스러운 메이크업”같은 인물 분위기묘사에 집중
손동작, 표정, 시선, 리액션, 속도감 (slow motion)

- Camera (카메라) : 촬영 방식 자체를 지정하는 것

카메라 샷 종류
- Close-up (클로즈업) : 얼굴, 손, 제품 등 디테일 강조에 사용.
- Medium Shot (반신) : 표정과 제스처가 동시에 강조됨.
- Full Shot (전신) : 환경+인물 관계가 잘 드러남.
카메라 무빙
- zoom in: 집중
- zoom out: 공간 확장
Pan
- 좌우 회전
- 풍경, 실내 소개
Tilt
- 위아래 움직임
- 시선 전환, 공간 층위 강조
Steadycam
- 부드럽게 이동
- 광고, 영화풍 영상에 적합

- Mood (분위기) : 영상의 감정·무드를 결정

색감(Palette)
- Warm tone
- Cool tone
- Pastel tone

조명 분위기
- soft natural daylight
- golden hour light
- dramatic lighting
- soft shadows
- bokeh background

5) CUT TO 사용법

- 'CUT TO’란?

다음 화면으로 전환될 때에 환기하는 프롬프트
Sora는 CUT TO 없이도 ‘연속된 카메라 무빙’으로 장면을 처리할 수 있음

- CUT TO를 넣는 게 좋은 상황

장면 전환이 명확할 때
쇼트(컷)의 역할이 바뀔 때
시간 전환

- CUT TO를 넣지 않아야 할 상황

자연스러운 행동의 연속
카메라 무빙으로 처리 가능한 경우
감정 흐름을 끊고 싶지 않을 때

3. New Sora로 오디오 생성하기

1) New Sora로 구현 가능한 영역

프롬프트 안에서 배경음/음악/효과음/대사를 텍스트로 지시할 수 있음
“잔잔한 피아노 BGM”, “카페 환경음”, “발자국 소리가 크게 들리게” 같은 질감·역할·분위기 중심 제어가 가능

2) New Sora로 구현 불가능한 영역

사용자 BGM 파일 업로드 → 그대로 쓰기
미디처럼 정확한 BPM, 키, 코드 진행까지 세밀하게 컨트롤하는 건 어려움
“배경음악 볼륨 -5dB, 효과음 +3dB” 같은 믹싱 레벨 수치 제어는 불가
“정확히 3.2초에 총소리, 4.8초에 차 소리” 이런 타임코드 단위 제어는 제한적

3) 오디오 추가 된 프롬프트 기본 구조

Scene – Action – Camera – Mood + Audio (Music / SFX / Voice)

4) 오디오 레이어에 꼭 들어가야 할 4가지

- 배경 카테고리

background music / ambience / environmental sounds / sound effects / dialogue

- 성격·장르

lo-fi, piano, acoustic guitar, orchestral, ambient, upbeat, emotional, cinematic 등

- 역할/존재감

subtle / soft / in the background / dominant / almost no music

- 제한/금지 조건

“no background music, only ambience”
“no dialogue, only sound effects and ambient noise”

5) 배경음악(BGM) 제어하기

- 실무에서는 장면마다 BGM 전략이 다릅니다.

감성 브랜디드 영상 → BGM 필수, SFX는 서브
제품 튜토리얼 → BGM은 최소, 나레이션/대사 중심
자막 기반 숏폼 광고 → BGM 중간, 효과음은 ‘딱!’ 정도로만

-BGM 유/무 설정하기

-장르·악기·템포 분위기를 지정하는 법

Sora 2는 오디오 전용 모델이 아님
BPM 120, D 메이저, 4/4 박자’ 같은 음악이론 용어보다
실제 사용자가 원하는 느낌으로 적는 게 더 잘 구현
lo-fi, piano, ambient, upbeat pop 같이 장르+악기+느낌으로 설명

- BGM와 다른 소리의 균형 제어하기

숫자(5% 등)로 볼륨 제어는 못 하지만, 프롬프트에서 ‘우선순위’를 지정 가능

6) 효과음(SFX) 제어하기

- 환경 사운드스케이프

도시 소음, 카페 웅성거림, 새소리, 바람, 파도 등

- 행동 기반 SFX

발자국, 문 닫히는 소리, 컵 부딪히는 소리, 메이크업 도구 닿는 소리 등

- 이벤트/임팩트 SFX

‘땅!’ ‘딱!’ 같은 전환 효과, 제품 등장 순간의 강조음 등

7) 행동 기반 SFX 기획하기

동작 단위마다 무슨 소리가 날지 상상해서 작성
coffee, lipstick 같은 키워드에 어울리는 소리를 한두 개씩 붙임

8) 임팩트 SFX (전환/CTA용) 기획하기

임팩트 SFX란 마케팅 영상에서 자주 쓰는 효과음
- 화면 전환 시 “딱!”
- 가격/문구 강조 시 “퓽!”
- 로고 등장 시 “쨘!”
전환/로고/텍스트 등장 시점에 맞는 효과음을 설명하면, 그 타이밍 근처에 상응하는 SFX를 얹어주는 식으로 동작

4. New Sora로 대사/목소리 생성하기

- 말이 없는 영상으로 만들고 싶다면?

광고/브랜드 필름에서 자주 있는 케이스
no dialogue를 명시하지 않으면, 모델이 인물 입을 움직이며 알 수 없는 말소리를 만들어낼 수도 있음

No spoken dialogue at all, only soft background music and natural ambience.

- 내레이션 중심

A calm female narrator speaks in Korean, clearly explaining the benefits of the product, with very soft background music underneath.

- 인물 대화 중심

The woman quietly talks to a friend about how gentle the lipstick feels, in a natural conversational tone, with light café ambience and no strong background music.

-언어, 톤, 감정까지 지정 가능

She speaks in Korean with a warm, friendly tone, sounding relaxed and happy.

Two friends speak in Spanish, laughing and talking quickly in an excited tone.

5. ChatGPT 영상 프롬프트

너는 지금부터 Sora 2 영상 프롬프트 전문가야.
내가 입력하는 장면 설명을 바탕으로, Sora 2가 영상과 오디오를 함께 만들 수 있도록 프롬프트를 구조화해줘.

[브랜드 정보]
- 브랜드명: [브랜드명]
- 제품/서비스: [제품명]
- 타깃 고객: [연령대, 성별, 관심사]
- 핵심 메시지: [전달하고 싶은 내용]
- 톤앤매너: [친근한/전문적/유머러스/감성적 등]

[장면 설명]
1) 훅 (0–3초)
화면:
대사:

2) 메시지 (3–8초)
화면:
대사:

3) 전환 (8–12초)
화면:
대사:

4) CTA (12–15초)
화면:
대사:

아래 규칙을 반드시 지켜서 출력해.

[1] 프롬프트는 다음 5단계 구조로 생성해.
- Scene (장면 설명: 장소, 시간대, 조명, 분위기)
- Action (인물/사물의 행동, 감정, 표정)
- Camera (카메라 타입, 움직임, 전환 방식)
- Mood (전체적인 분위기, 색감, 텍스처, 질감)
- Audio (배경음악, 환경음, 효과음, 대사 여부)

[2] Sora 2 오디오 모델 특성을 반영해 Audio 단계는 반드시 포함해.
- 배경음악(BGM)의 존재 여부
- 음악 장르·악기·느낌(예: lo-fi, warm piano, ambient)
- 환경음(예: café ambience, street ambience)
- 효과음(SFX) (예: footsteps, cup clinking, lipstick click)
- 대사 또는 no-dialogue 여부 명확히

[3] 영상은 5~10초 기준으로 자연스러운 '한 장면 또는 장면 흐름'이 되도록 구성해줘.

[4] 카메라 워크는 구체적이어야 해.
- close-up / medium shot / full shot
- zoom in/out
- slow pan/tilt
- smooth transition
- continuous shot

[5] 절대 모호하게 만들지 마.
'좋은 분위기', '멋진 샷' 같은 추상 표현 금지.

[6] 최종 출력 형식:
- 최종 통합 Sora2 프롬프트 (자연스러운 문장 1~2단락)
- (원하면) Scene/Action/Camera/Mood/Audio 5단계도 함께 보여줘.

위 규칙에 맞춰 Sora 2에 바로 넣을 수 있는 고품질 프롬프트를 생성해줘.

6. Sora의 단점: 동일 인물 유지 불가능

1) 왜 이런 문제가 생기나요?

- 랜덤 합성 방식

Sora는 ‘20대 여성’이라는 조건에 맞는 임의의 얼굴을 매번 새로 만듦
특정 얼굴을 기억하는 기능 없음

- 디테일을 추가한다면 가능할까?

프롬프트를 상세하게 넣어 원하는 얼굴의 느낌을 구현할 수 있음
‘아몬드형 눈, 부드러운 미소, 복숭아색 입술’ 같은 디테일 추가
그러나 비슷한 느낌의 얼굴일 뿐, 다른 사람이 뽑힐 확률이 몹시 높음

→ 해당 조합에 맞는 임의의 얼굴을 매번 새로 조합하는 확률 게임

- Cameo 기능의 오해

Cameo는 본인 얼굴만 등록 가능
생성된 캐릭터는 Cameo로 등록 불가
다른 사람 얼굴도 등록 불가

2) Sora로 구현 불가능한 것들

동일 모델이 반복 등장하는 광고 시리즈
브랜드 마스코트 모델 영상 시리즈
동일 인물 Before-After 비교 영상

7. Sora 현업 실전 활용 전략

1) 비슷한 인물 여러 명 뽑기 용도

- 가장 실용적인 활용법

동일 인물이 아니라 비슷한 페르소나를 가진 다양한 사람들이 제품을 사용하는 느낌으로 활용

- 장점

동일 인물 유지 실패를 오히려 강점으로
다양성 메시지 전달
여러 소재 빠르게 확보

2) B-roll & 배경 영상 생성

- B-roll이란?

메인 영상을 보조하는 배경 영상 (제품 클로즈업, 분위기 샷, 전환 장면)

3) 회성 감성 광고

- 활용 적합한 광고 유형

브랜드 인트로 영상 (15초)
- 신제품 출시 티저
- 시즌 캠페인 오프닝
이벤트 프로모션
- 한정 할인 광고
- 이벤트 공지 영상
감성 광고
- 브랜드 스토리
- 가치 전달 영상

8. HeyGen

1) HeyGen이란?

개발사: HeyGen
특징: 아바타 기반 영상 생성
핵심: 동일 인물 100% 보장
가격
- 무료: 한 달에 3분 영상 3개, 720p 추출 가능, 3개의 아바타 IV 영상 생성 가능
- 유료: $29/월 (20분)

2) 활용 사례

- 제품 설명 영상

동일한 브랜드 앰버서더가 여러 제품 소개
시리즈 콘텐츠

- 브랜드 채널

동일 캐릭터가 지속적으로 등장하는 채널

- 교육 콘텐츠

동일 강사가 반복 등장

9. [실습] 브랜드 영상 제작하기

[과제] 아래 브랜드를 1개 선택하거나, 실제 브랜드를 선택하여 브랜드 영상을 제작하세요.

브랜드 1: “퓨어슬립” (수면 베개 브랜드)

브랜드 2: “플랜티” (실내 공기정화 식물 브랜드)

브랜드 3: “마이보이스” (온라인 보이스 트레이닝 서비스)

STEP 1: ChatGPT로 프롬프트 생성 다음 프롬프트를 활용하세요.

너는 지금부터 Sora 2 영상 프롬프트 전문가야.
내가 입력하는 장면 설명을 바탕으로, Sora 2가 영상과 오디오를 함께 만들 수 있도록 프롬프트를 구조화해줘.

[브랜드 정보]
브랜드: 
제품: 
목표: 

[장면 설명]
1) 훅 (0–3초)
2) 메시지 (3–8초)
3) 전환 (8–12초)
4) CTA (12–15초)

아래 규칙을 반드시 지켜서 출력해.

[1] 프롬프트는 다음 5단계 구조로 생성해.
- Scene (장면 설명: 장소, 시간대, 조명, 분위기)
- Action (인물/사물의 행동, 감정, 표정)
- Camera (카메라 타입, 움직임, 전환 방식)
- Mood (전체적인 분위기, 색감, 텍스처, 질감)
- Audio (배경음악, 환경음, 효과음, 대사 여부)

[2] Sora 2 오디오 모델 특성을 반영해 Audio 단계는 반드시 포함해.
- 배경음악(BGM)의 존재 여부
- 음악 장르·악기·느낌(예: lo-fi, warm piano, ambient)
- 환경음(예: café ambience, street ambience)
- 효과음(SFX) (예: footsteps, cup clinking, lipstick click)
- 대사 또는 no-dialogue 여부 명확히

[3] 영상은 5~10초 기준으로 자연스러운 '한 장면 또는 장면 흐름'이 되도록 구성해줘.

[4] 카메라 워크는 구체적이어야 해.
- close-up / medium shot / full shot
- zoom in/out
- slow pan/tilt
- smooth transition
- continuous shot

[5] 절대 모호하게 만들지 마.
'좋은 분위기', '멋진 샷' 같은 추상 표현 금지.

[6] 최종 출력 형식:
- 최종 통합 Sora2 프롬프트 (자연스러운 문장 1~2단락)
- (원하면) Scene/Action/Camera/Mood/Audio 5단계도 함께 보여줘.

위 규칙에 맞춰 Sora 2에 바로 넣을 수 있는 고품질 프롬프트를 생성해줘.

STEP 2: Sora로 영상 생성

※ 본 글은 학습을 목적으로 작성된 게시물로, 특정 브랜드·제품·서비스명이 언급될 수 있습니다. 이는 순수한 예시일 뿐이며, 상업적 목적은 전혀 없음을 밝힙니다.