프로덕트 매니저 Study
대학생이면 요긴하겠다, 클로바노트
해 니
2022. 8. 17. 22:35
음성을 녹음해서 텍스트로 변환해주는 앱
소개페이지 https://clovanote.naver.com/
#대학생이면 매우 요긴하게 쓸 수 있겠다
- 음성을 녹음해서 텍스트로 변환해주는 기능을 제공한다.
- 부가기능: 북마크 설정, 시간 설정해서 메모 기록, 줌 연동해서 기록, 노트공유
- 계정 당 최대 600분, 유료화를 요청하는 리뷰가 간혹 보인다.
- 대화, 인터뷰, 강연 을 녹음했을 때 텍스트로 변환 정확도가 98%정도로 매우 높다.
- 4명 일상대화, 남자 2명 대화에서 같은 사람이 말한 것으로 인식하는 경우가 있다.
- 주변 잡음을 제거해주어 비교적 깔끔하게 정리된다.
- 영어는 한국어에 비해 정확도가 떨어지는 것 같다.
#소중한 내 자료들, 과연 안전할까
- 비식별 보관처리하지만, 5년이나 보관하게 되고 비식별에 관계없이 주요 정보일 경우 기록되는 것을 원하지 않는다.
- 5년이나 보관하는 법적 근거가 있는지 궁금하다. 우리도 라이더 정산 정보만 5년 보관이 가능한데...
- 회사 업무에서는 활용할 수 없을 것 같다.
- 클로바노트 약관 내용
-
서비스 품질 향상을 위한 이용자 데이터 수집
이용자는 클로바노트를 통해 생성 및 저장 중인 녹음 파일을 언제든지 청취하거나 삭제할 수 있습니다. 네이버는 이용자의 사전 승인 없이 클로바노트에 저장 중인 녹음 파일에 접근 또는 사용하지 않습니다. 다만, 아래의 내용에 선택 동의하신 경우, 음성 인식 향상과 같은 과학적 연구를 목적으로 개인정보를 수집 및 이용합니다.
1. 수집항목: 녹음 파일, 클로바노트 이용기록(메모, 음성종류, 편집데이터, 등록단어 등)
2. 이용 목적: 음성 인식 기술의 향상을 위한 연구 데이터 활용, 클로바노트 성능 향상
3. 보관기간
- 음성 인식 기술의 연구를 위해 수집한 녹음 파일은 수집 후 7일 이내에 계정과의 연동을 끊는 방식으로 비식별 처리하여 보관하며, 5년간 보관 후 파기합니다.
- 클로바노트 이용기록은 서비스 성능 향상을 목적으로 서비스 이용기간 동안 보관 후 파기합니다.
4. 동의 거부권
정보주체는 본 동의를 거부할 권리가 있으며, 미동의 시에도 불이익은 없습니다.
#어떤 기술일까
-
- 'AI 회의실'은 회의실 내 설치된 AI스피커 '클로바 클락'은 녹음된 내용을 텍스트로 바꿔주는 클로바의 서비스 '클로바노트'와 연동돼 있다. 회의가 끝나면 클로바노트로 정리된 회의록을 모든 참석자들에게 공유 가능하다.
- 회의록 요약과 실시간 변환·번역 기능 추가 예정
- 1년 만인 지난해 11월 가입자 수 100만명을 돌파
- 기술
- ‘빅모델(초대규모 AI·초거대 언어모델이라고도 함)’이라고 표현하는 거대한 모델을 만드는 기법이 개발되기 시작했다. 그래서 기존 음성인식 엔진과 굉장히 큰 격차를 내면서 인식률이 많이 올라가게 됐다.
- 기존 딥러닝은 모델을 학습하려면 음성 파일이 있고 그 파일 안에 사람이 뭐라고 말했는지 텍스트도 같이 있어야 했다. 그래서 대량의 음성 데이터가 있어도 그걸 가지고 딥러닝 학습을 바로 할 수가 없었다. 전사 작업(말소리를 음성 문자로 옮겨 적는 작업)이 필요했는데 굉장히 시간과 비용이 많이 들어 학습에 사용할 수 있는 수많은 데이터를 모으는 게 쉽지 않다. 근데 데이터가 많지 않으면 큰 모델을 디자인할 수 없다. 그리고 큰 모델을 만들수록 그걸 학습하기 위해 더 많은 데이터가 필요하다. 두뇌 용량이 커지면 그걸 학습하는 데 또 많은 데이터가 필요해지고, 많은 데이터를 학습하면 더 잘할 수 있는 것과 같은 논리다.
클로바노트에 적용한 빅모델은 모델 자체도 훨씬 더 커졌고, 모델을 학습할 때 텍스트없이 음성 파일만 가지고 있어도 된다. ‘프리 트레인드 모델(PRE-TRAINED MODEL)’이라는 것을 만들 수 있어서다. 빅모델은 내부에 작은 두 개의 모델이 존재한다. 하나가 프리 트레인드 모델, 하나가 ‘파인튜닝(Fine-tuning)’. 파인튜닝은 전사한 스크립트가 더해져 좀 더 잘 튜닝되는 단계다.
- https://www.bloter.net/newsView/blt202203110047
728x90
반응형