[책요약]파이썬으로 배우는 응용텍스트 분석(CH1.언어와 계산)


파이썬으로 배우는 응용텍스트 분석(CH1.언어와 계산) P1 ~ P20까지


(내생각) 최근들어 텍스트 데이터를 어떻게 활용할지 대한 고민이 많고 그래서 정량적인 데이터 이외의 분석을 도전해 보려한다.


CH1. 언어와 계산

  • 자연어 처리를 활용하여 텍스트 데이터와 오디오 데이터를 이해하는 애플리케이션이 필수품이 됨

데이터 과학 패러다임

  • 현재의 데이터 과학 패러다임 : 데이터과학팀->간부->기술지도력->개발팀->제품
  • 더 나은 패러다임 : 데이터과학개발팀->제품

언어 인식 제품

  • Yelpy Insights의 예 : 정서 분석이나 병치(collocation:단어가 함꼐 나타나는 경향) 기술 및 검색 기술을 조합해 검토 선별 어플 ex. 어떤 식당이 입맛에 적합한지 도움
  • 스택오버플로, 넷플릭스, 아마존, 유튜브 : 태그 추천
  • 리버브(Reverb) : Wordnik이라는 용어집으로 훈련해 둔 맞춤식 뉴스 판독기 제공
  • 슬랙(Slack) : 챗봇으로 자동 상호 작용
  • 구글의 스마트 리플라이 : 답장하려는 이메일 텍스트 기반 답변 제안
  • 텍스트라, 아이메시지 : 다음 입력할 내용 예측 및 맞춤법 오류 자동 변환
  • 알렉사, 시리, 구글 어시스턴트 : 음성 인식 가상 비서

데이터 제품 파이프라인

  • 표준 데이터 제품 파이프라인 : 구축단계, 배포단계의 반복 과정 (p6참고)
  • 견고한 언어 인식 머신러닝 파이프라인 : 언어적 특성 고려 (p7참고)

3중 모델 선택

  • 3중 모델 선택 : 자동으로 모델을 구축하는 기법은 충분히 나오지 않음 -> 반복과정을 한차례 거친 후 평가해서 최적으로 조합하면 해결 가능
  • 모델군(관심 대상에 대한 변수의 관계를 설명), 모델 양식(알고리즘, 하이퍼파라미터), 적합모델(예측할 모델)

데이터로서의 언어

  • 비정형 데이터(예 : 언어)라고 해서 무작위 데이터인 것은 아니다. 언어적 속성들의 제약을 받아 이해하기 쉬워하는 면도 있다.
  • 맥락 특정 말뭉치(context-specific corpora)를 이용한 언어 모델 : 의미를 깊이 해석하지 않더라도 마치 지렛대 처럼 들어올릴수 있다.(ex. 자동처방, 뉴스요약)

언어의 계산 모델

  • 결국 추론할 수 있는 모델을 만드는 것이 임무
  • 언어 모델 정의 : 불완전한 구(phrase)를 입력받더라도 후속단어를 추론하는 것
  • 복잡도(perplexity, 난독성) : 엔트로피(불확실성/놀람정도)를 평가 ex1. 마녀가 ~를 타고 날아 갔다. (엔트로피 낮음) ex2. 나는 오늘 밤 내 ~와 저녁 식사를 할 거야. (엔트로피 높음)

언어 자질

ex. <뉴욕타임즈> 기사 남성형 단어/여성형 단어빈도 분석

맥락 자질

  • 정서 분석 : 평판, 메시지 극성, 반응을 분석할 수 있어서 매우 인기(긍정 단어 부정단어를 순진하게 나눈건 부정확하다. ex. sick)
  • 상황에 맞춰 단어의 현지화(localization) 고려
  • 단어 주머니 모델 : 단어와 함께 발생하는 빈도 평가, 동시출현, 엔그램 분석

구조적 자질

  • 언어 모델들과 텍스트 분석학은 전산언어학의 발전에 영향 받음
  • 의미는 언어 속으로 깊게 인코딩 되어 있어 추출해 내기 어렵다.
  • 의미분석(주제 의미 표현, 그래프 분석을 통해 통찰력 얻을수있음), 구문론(문장 형성 규칙), 형태론(사물의 형태, 성별, 시제 등)을 동원하면 언어의 의미라는 데이터를 추가할 수 있다.





© 2018. by statssy

Powered by statssy