Kosac 감성 사전 | [이것이 데이터 분석이다 With 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류 15131 좋은 평가 이 답변

당신은 주제를 찾고 있습니까 “kosac 감성 사전 – [이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류“? 다음 카테고리의 웹사이트 th.taphoamini.com 에서 귀하의 모든 질문에 답변해 드립니다: th.taphoamini.com/wiki. 바로 아래에서 답을 찾을 수 있습니다. 작성자 한빛미디어 이(가) 작성한 기사에는 조회수 2,601회 및 좋아요 36개 개의 좋아요가 있습니다.

Table of Contents

kosac 감성 사전 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 [이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류 – kosac 감성 사전 주제에 대한 세부정보를 참조하세요

※ 이 동영상은 『이것이 데이터 분석이다 with 파이썬』 책 내용을 토대로 제작되었습니다.
▶ 도서 자세히 보기 : http://www.hanbit.co.kr/store/books/look.php?p_code=B2717499992
▶ 질문하기 : 영상에 댓글을 달아주세요.
▶ 주요 내용
– 강남역 맛집 리뷰로 알아보는 감성 분류

kosac 감성 사전 주제에 대한 자세한 내용은 여기를 참조하세요.

딥러닝 모델의 정확도 향상을 위한 감성사전 기반 대용량 학습 …

감성사전으로는 많이 활용되고 있는. “KOSAC(한국어감성분석코퍼스). 감성사전1)[2]”과. “KNU 한국어 감성사전2)[3]”을 이용해 학습데이터를. 구축하였다. 감성사전을 통해 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.koreascience.or.kr

Date Published: 1/25/2021

View: 5106

웹툰 승격 확률 예측 시스템 프로젝트 – kosac사전을 이용한 …

먼저 kosac 한국어 감정사전을 이용하여 분석해봤고 긍정 부정 분류가 예상처럼 잘되지 않아서 다음으로는 수기로 긍정부정 라벨링을 달아주고 머신 …

+ 여기에 더 보기

Source: codingstudyroom.tistory.com

Date Published: 10/10/2022

View: 730

mrlee23/KoreanSentimentAnalyzer: 한국어 감성 분석기 – GitHub

KOSAC에서 제공하는 plarity.csv 데이터를 이용해서 감성분석을 한다. 해당 데이터를 로드한 후 한글 텍스트를 형태소 분석기로 파싱한 후 감성 사전에 해당하는 감성 …

+ 여기를 클릭

Source: github.com

Date Published: 9/28/2021

View: 9847

[AI_BM과정] 3일차 : 자연어처리 (빈도분석/감성분석) – COOKIE

1) 사전을 이용한 감성분석. – 문서에 긍정적 단어가 나타나면 +1, … 감성 분석 사전의 구축은 쉽지 않음 … 서울대학교 KOSAC (Korean Sentiment Analysis Corpus).

+ 여기에 표시

Source: pungdaeng.tistory.com

Date Published: 8/22/2022

View: 1710

korean-sentiment-analyzer v0.0.1 – npm.io

감성사전은 [http://word.snu.ac.kr/kosac/data/lexicon.zip] 다운받을 수 있다. 사용된 패키지. [https://github.com/konlpy/konlpy] :: 꼬꼬마 형태소 분석기 서버를 …

+ 자세한 내용은 여기를 클릭하십시오

Source: npm.io

Date Published: 2/12/2022

View: 5733

드라마 리뷰 속성별 감성분류 방법 – CHOSUN

사전기반의 감성분석은 데이터 문장에서 감정 단어를 추출하고 이를 감성사전 이용 … KOSAC(한국어감성분석코퍼스) 감성사전은 서울대학교에서 개발한 한글의 말뭉치 …

+ 더 읽기

Source: oak.chosun.ac.kr

Date Published: 8/23/2021

View: 8277

기업 재무분석을 위한 한국어 감성사전 구축

기존 감성사전을 분석하였을 때, 한국어 기반으로 개발한 KOSAC과 KNU(군산대) 감성사전은 일반용이라는 약점을 가지며, Harvard IV(HV)와 Loughran and McDonald(LM)(2011 …

+ 여기에 보기

Source: www.e-kjfs.org

Date Published: 7/26/2022

View: 9443

기업 재무분석을 위한 한국어 감성사전 구축 – 한국학술지인용색인

기존 감성사전을 분석하였을 때, 한국어 기반으로 개발한 KOSAC과 KNU(군산대) 감성사전은 일반용이라는 약점을 가지며, Harvard IV(HV)와 Loughran and McDonald(LM)(2011 …

+ 여기에 보기

Source: www.kci.go.kr

Date Published: 12/15/2021

View: 9406

감성 사전을 활용한 감성분석

감성 사전을 활용한 감성분석 Sentiment Indicators p−n P o l a r i t y … 해당 사전은 서울대 컴퓨터 언어학과에서 만든 KOSAC 기반의 Korean …

+ 여기에 자세히 보기

Source: replet.tistory.com

Date Published: 5/30/2021

View: 882

Current Issue – Korean Institute of Information Technology

텍스트 마이닝을 활용한 SMU 감성 사전 구현 및 신조어 감성 분석 연구 … 기존에 구축되어 널리 활용되는 한국어 감성 사전에는 KOSAC[2]과 KNU …

+ 자세한 내용은 여기를 클릭하십시오

Source: ki-it.com

Date Published: 9/2/2022

View: 1945

주제와 관련된 이미지 kosac 감성 사전

주제와 관련된 더 많은 사진을 참조하십시오 [이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

[이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류
[이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류

주제에 대한 기사 평가 kosac 감성 사전

  • Author: 한빛미디어
  • Views: 조회수 2,601회
  • Likes: 좋아요 36개
  • Date Published: 2020. 11. 17.
  • Video Url link: https://www.youtube.com/watch?v=KzIc3TDN9JY

웹툰 승격 확률 예측 시스템 프로젝트

728×90

728×90

웹툰 승격 확률 예측 프로젝트에서 댓글을 가지고 긍정 부정 감정분석을 진행했어요.

먼저 kosac 한국어 감정사전을 이용하여 분석해봤고 긍정 부정 분류가 예상처럼 잘되지 않아서 다음으로는 수기로 긍정부정 라벨링을 달아주고 머신러닝을 돌려봤는데 훈련데이터의 수가 너무 적어서 정확도가 낮게 나오더라구요.

그래서 마지막으로 직접 긍정 부정 단어사전을 만들어서 머신러닝을 진행 했습니다.

티스토리에는 1. kosac 사전 사용 2. 수기 라벨링 3. 직접만든 단어사전 시행 착오를 전부 작성할 예정이고

이 글에서는 1. kosac 사전 사용을 적을 거에요.

import numpy as np import pandas as pd

댓글 데이터가 10mb가 넘어서 업로드 할수가 없네요 ㅠㅠ

먼저 데이터를 불러옵니다

저는 크롤링하고 csv파일로 저장하면서 필요없는 컬럼이 추가되어 drop으로 제거해 줬어요

# 데이터 수집 comment = pd.read_csv(“전처리후데이터/댓글데이터fin.csv”, encoding=”cp949″) comment.drop(‘Unnamed: 0’, axis=1, inplace = True)

kosac사전의 형태소가 kkma형태소를 사용해야 맞아서 시간이 너무 오래걸리더라구요.

댓글 데이터가 38만개라 예상소요시간이 며칠이나 걸린다더라구요…

따라서 웹툰 회차별로 댓글 10개만 샘플로 뽑아서 38만개중 총 2만 4천개만 분석해보기로 했습니다.

아래코드는 웹툰 회차별 댓글 10개만 샘플로 뽑는 코드에요.

sample이라는 함수를 써서 데이터에서 샘플을 뽑았어요.

여기서 n=10은 10개만 뽑는다는 의미에요.

replace=False는 복원추출을 허용하지 않겠다는 의미에요.

그리고 어떤 웹툰은 한화에 댓글이 10개 미만일 수 도 있어서 예외처리로 샘플 10개를 뽑을수없어서 오류가 나면 모든 댓글을 다 가져오게 작성했어요.

sampleList = pd.Series(dtype= object) # listCom = comment[‘웹툰제목’].unique()[11:] # 각웹툰 1화마다 10개 댓글만 뽑기 name = [] # 웹툰 제목 view = [] # 회차 for i in comment[‘웹툰제목’].unique(): for j in range(1, 6): boolean1 = comment[“웹툰제목”] == i boolean2 = comment[“회차”] == j com1 = comment.loc[boolean1&boolean2, “댓글”] try: # 웹툰 한화당 10개 댓글만 샘플링하여 가져오기 sam = com1.sample(n=10, replace=False) sampleList = pd.concat([sampleList, sam], axis = 0) for random in range(0, 10): name.append(i) view.append(j) except: # 웹툰 한화가 10개 미만일경우 전부 가져오기 if len(com1) != 0: sampleList = pd.concat([sampleList, com1], axis = 0) for random in range(0, len(com1)): name.append(i) view.append(j)

위에서 샘플로 뽑은 댓글이에요

댓글만 보면 어떤 웹툰의 몇화 댓글인지 알수가 없어서 웹툰 제목과 회차를 묶어 데이터프레임으로 만들어 주었어요.

dd = {“웹툰제목” : name, “회차” : view, “추출된댓글” : sampleList} Sample = pd.DataFrame(dd) Sample

저는 이제 2만 4천개의 단어도 kkma형태소 분석기를 이용하면 분석시간이 너무 오래걸려서 팀원들이랑 나눠서 돌렸어요. 따라서 팀원들에게 나눠서 돌리게 하려구 csv파일로 만들어 줬습니다.

Sample.to_csv(“Sample최종.csv”, encoding=””)

반응형

그리고 긍정부정 라벨링을 달아주기 위해 kosac사전을 가져옵니다.

# 감정사전 kosac = pd.read_csv(“data/polarity.csv”) kosac

아까 만들어준 샘플 데이터인데요. 샘플데이터에 감정점수라는 컬럼을 만들어주고 모두 값을 0으로 줬어요.

그리고 댓글데이터만 total이라는 변수에 담아줬습니다.

kkma = Kkma() sampledata = pd.read_csv(“Sample최종.csv”, encoding=”cp949″) sampledata[‘감정점수’] = 0 total = sampledata[“추출된댓글”] total

아래 코드는 댓글데이터에서 kosac사전에 있는 단어를 발견하면 max.value컬럼을 확인하여 POS면 긍정에 +1

NEG면 부정에 +1을 하여 긍정단어 갯수 부정 단어갯수를 구하고 위에서 만들어준 감정점수라는 컬럼에 0을 긍정단어개수 – 부정 단어 개수로 바꿔 주었어요.

aa = “” for k in range(0, len(total)): characters = “ㅋㄱ” try: aa = ”.join( x for x in total[k] if x not in characters) data = kkma.pos(aa, join=True) except: data = kkma.pos(total[k], join=True) print(data) count_POS = 0 count_NEG = 0 i = 0 while i < len(data): for j in range(0, len(kosac)): if data[i] == kosac.iloc[j, 0]: try: if data[i+1] == kosac.iloc[j+1, 0].split(";")[1]: if data[i+2] == kosac.iloc[j+2, 0].split(";")[2]: print(f"단어: {kosac.iloc[j+2, 0]}, 긍부정:{kosac.loc[j+2, 'max.value']}") i += 3 if kosac.loc[j+2, 'max.value'] == 'POS': count_POS += 1 elif kosac.loc[j+2, 'max.value'] == 'NEG': count_NEG += 1 break else: print(f"단어: {kosac.iloc[j+1, 0]}, 긍부정:{kosac.loc[j+1, 'max.value']}") i += 2 if kosac.loc[j+1, 'max.value'] == 'POS': count_POS += 1 elif kosac.loc[j+1, 'max.value'] == 'NEG': count_NEG += 1 break else: print(f"단어: {kosac.iloc[j, 0]}, 긍부정:{kosac.loc[j, 'max.value']}") i += 1 if kosac.loc[j, 'max.value'] == 'POS': count_POS += 1 elif kosac.loc[j, 'max.value'] == 'NEG': count_NEG += 1 break except: print("") elif data[i] != kosac.iloc[j, 0] and j == len(kosac)-1: i += 1 print(f"긍정개수: {count_POS}, 부정개수: {count_NEG}") sampledata.iloc[k, 4] = count_POS - count_NEG kosac 사전 일부 그리고 kosac사전을 보면 위에처럼 가/ 가되/ 가되ㄴ/ 가되ㄹ/ 가되어...이렇게 같은 가여도 뒤에 뭐가 오는지에 따라 나눠져 있어요. 그래서 위의 반복문에서 저걸 비교하게 조전문을 짰어요. 예를들어 ) 댓글을 형태소 분석한후 만약 가/JKC가 있으면 되/VV가 있는지 보고 되/VV가 있으면 ㄹ/ETM이 있는지 확인합니다. 그리고 중간중간에 있는 print문은 반복문이 잘돌아가는지 확인하기 위해 넣어줬습니다. pirnt 출력 결과중 일부 그러면 아래와 같이 감정점수가 나와요. 안타깝게도 댓글과 감정점수를 비교해 봤는데 감정점수랑 댓글이 너무 맞지 않았어요. 그래서 이건 그냥 버렸답니다. kosac사전을 쓰고 느낀점은 이사전은 단순히 긍정 부정 갯수를 카운트 하면 안되고 특정 조사와 명사가 같이오면 긍정에서 부정이 되거나 부정에서 긍정으로 변한다거나 어미에 따라 앞까지는 긍정이었지만 부정어미가 붙어서 부정이 된다던가 그런걸 일일히 설정해주면 좋은 결과가 나올거 같아요. 아쉽게도 저는 국문학과를 나오지 않았고 한국어 형태소의 감정을 세세하게 짤만큼 한글을 공부하지 않아서 KOSAC사전을 쓰는건 포기하고 다음으로는 직접 하나하나 라벨링을 다는 방법과 긍정단어 부정 단어 단어사전을 직접 만드는 방법 이렇게 2가지를 같이 진행했어요. 다음 내용은 다음글에서 작성하겠습니다. 이글은 광주인공지능학원(스마트인재개발원)에서 진행된 프로젝트 내용입니다. https://www.smhrd.or.kr/ 728x90 728x90

mrlee23/KoreanSentimentAnalyzer: 한국어 감성 분석기

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

BM과정] 3일차 : 자연어처리 (빈도분석/감성분석)

[2] 빈도분석

1. 데이터

네이버 영화 데이터

– 200,000 건의 영화평 데이터

– label : 1은 긍정(9-10점), 0는 부정(1-4점)

→ 네이버 영화평 중 5-8점은 걍 버림. 중립감정이 없어 아쉬운 자료

2. 인코딩

ksc5601 : 현재 잘 사용x 오래됨

euc-kr : ksc5601 확장한것

ANSI : AMERICAN NATIONAL STANDARD INSTITUTE : euc-kr 약간 확장판

cp949(ms949) : euc-kr과 거의 같다

3. 그래프로 시각화 하는 이유

– 중요한 것만 알면 되기 때문에

– 개략적으로 경향성, 주요 패턴을 보기 위해

– 직관적으로 전체 데이터를 이해하고자 하는 것이 목적!

– 전체데이터를 다 못 그린다고 어려워할 필요는 없습니다!

4. 워드클라우드는 중앙에서 바깥쪽으로 나가는 형태

하지만 전체적인 내용이 긍정인지는 모르는 상태

ㅋㅋㅋㅋ/진짜 등은 부정의 의미를 담기도 한다

axis = off 축의 선을 보여주지 않는다는 의미

[3] 감성분석(Sentiment Analysis)

1. 사전을 이용한 감성분석

1) 사전을 이용한 감성분석

– 문서에 긍정적 단어가 나타나면 +1, 부정적 단어가 나타나면 -1을 쓰는 것과 같은 방법으로 감성점수를 계산

– 감성점수 > 0 이면 긍정적인 문서,

감성점수 < 0 이면 부정적인 문서, 감성점수 = 0 이면 중립적인 문서로 봄 - Sigmoid 함수를 이용하여 값을 0~1 사이로 정규화 하는 방법도 있음 - 모델을 만들지 않아도 된다. (모델에 들어가는 훈련데이터가 필요하지 않다, 많은 데이터가 필요하지 않다) 2) 감성사전 구축 - 감성 분석 사전의 구축은 쉽지 않음 - 문장 내 어휘의 도메인에 따라 감정 어휘의 극성(긍정, 부정, 중립)이 바뀜 예) [치솟다] 주가가 치솟다 (긍정) 부채가 치솟다 (부정) 3) 감정어의 종류 - 감정어 : happy / joy / sadness / anger 등 → 엄격한 의미에서 극성이 잘 바뀌지 않는다 → 수가 매우 적다 한국어의 경우 450개 정도이나, 이보다 훨씬 적은 단어들이 사용된다. 왜냐하면 대부분의 단어들이 노발대발하다, 분기탱천하다, 노엽다, 성나다 등 잘 쓰지 않는 단어가 많기 때문이다! 예외) surprise 계열 놀라다 : 왜 놀랐는지 의미가 모호함 도둑이 들어와서 놀랐다 군대 간 아들이 집에 있어서 놀랐다 - 평가어 냉장고가 깨끗하다 → 부정적일 수 있음 먹을게 없다는 의미 맥락에 따라 극성이 바뀔 수 있지만, 많은 사람들이 토론을 해서 의견일치를 볼 수있는 정도임. 합의판정을 하여 긍정인지 부정인지 결정해 태깅을 한다. - 감정어를 기본으로 하면서, 도메인별로 평가어를 예외 처리하며 구축해야 한다. 통상적으로는 감정어와 평가어를 모두 긍부정어로 통칭하여 언급한다. 그러나 분석 이름으로는 “감성분석“이라는 표현을 많이 사용한다. 4) 가중치 설정 • 실제 사용되는 감정어 및 긍부정어는 적은 수 • ‘아주, 매우, 조금, 별로’와 같은 정도 부사에 의하여 정도성이 설정됨 5) 한국어 감성사전 - 공개된 감정사전이지만, 전적으로 의지하기 어렵다 • 김은영(2004), “국어 감정동사 연구”, 전남대학교 박사학위논문 의미영역별로 464개 감정동사가 논문 내에 분류되어 있음 • 연세대학교 오픈한글 http://openhangul.com/restrict API 방식으로 접근하나, 최근 서비스 중단 • 서울대학교 KOSAC (Korean Sentiment Analysis Corpus) http://word.snu.ac.kr/kosac/corpus.php 이메일로 요청 후 받아야 한다 • 군산대학교 팀의 KNU 한국어 감성사전 http://dilab.kunsan.ac.kr/knusl.html SentiWord_Dict.txt가 감성사전 (15,000 목록) 형태소 분석이 잘 되어 있지 않음 6) 영어 감성사전 • Hu and Liu 의 6789 어휘 감성어휘사전 https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html • Andrea Esuli 팀의 100,000 어휘 SentiWordNet http://sentiwordnet.isti.cnr.it/ • Erik Cambria 팀의 100,000 어휘 SenticNet http://sentic.net/about/ 2. 머신러닝을 이용한 감성분석 1) 문서 행렬(DTM, Document Term Matrix) 2) tf-idf 3. 딥러닝을 이용한 감성분석

기업 재무분석을 위한 한국어 감성사전 구축 *

This paper was supported by the research fund of the National Research Foundation of Korea (NRF-2019S1A5A2A03038389).

Corresponding Author. Address: School of Business Administration, Dankook University, 152 Jukjeon-ro, Suji-gu, Yongin-si, Gyeonggi-do, Korea, 16890; E-mail: [email protected] ; Tel: +82-31-8005-3437; Fax: +82-31-8021-7208.

본 연구는 기업 재무분석에 적합한 한국어 감성사전을 검증하고 구축하는 것을 목적으로 하고 있다. 기존 감성사전을 분석하였을 때, 한국어 기반으로 개발한 KOSAC과 KNU(군산대) 감성사전은 일반용이라는 약점을 가지며, Harvard IV(HV)와 Loughran and McDonald(LM)(2011) 는 영어를 단순 번역하였다는 단점을 지니고 있다. 본 연구는 이를 보완한 한국어 금융 감성사전(KOSELF, Korean Sentiment Lexicon for Finance)을 새롭게 구축하여 제시하였다. 감성사전을 검증하기 위해 한경 컨센서스에서 제공하는 2016년부터 2018년까지 한국에서 발행된 약 2만 개의 애널리스트 보고서 자료를 사용하였다. 보고서 별로 5개 감성사전을 통해 계산한 부정어, 긍정어 비율 등의 감성변수와 목표주가 및 추천의견 변경과의 관계를 검증하였다. 본 연구에서 새롭게 구축한 KOSELF 감성변수는 애널리스트 목표주가 및 추천의견 변경과 유의미한 관계를 가졌으며, 나머지 4개의 감성사전을 통해 계산한 변수들을 추가하였을 때도 우수한 성과를 보여주었다. 본 연구는 재무, 금융 분야에서 활용할 수 있는 한국어 감성사전을 제안하였다는 점에서 의의를 지닌다.

This study aims to verify and establish a Korean sentiment lexicon suitable for corporate financial analysis. When analyzing existing sentiment lexicons, the KOSAC and KNU (Kunsan University) dictionaries developed based on Korean are weak because they are used for general purposes. The Harvard IV and Loughran and McDonald (2011) have the disadvantage of being translated from English. In this study, the Korean Sentiment Lexicon for Finance (KOSELF) is constructed and presented. To verify its usefulness, text data from about 20,000 analyst reports published in Korea from 2016 to 2018 are collected from the Hankyung Consensus web page. After calculating the sentiment variables of negative and positive word frequency using five sentiment lexicons for each report, the recommendation and target price changes are regressed on these sentiment variables. The sentiment variables from the newly-constructed KOSELF in this study have a significant relationship with the analyst’s recommendation and target price change. Even when the sentiment variables calculated through the other four sentiment lexicons are added, it shows better performance. Our work has practical significance in that it proposes a Korean sentiment dictionary that can be used for finance.

Keywords:

대안으로 한국어의 특성을 살린 새로운 감성 사전을 개발하는 것을 생각할 수 있다. 이미 이러한 노력들은 이미 진행되어 왔다. Shin et al.(2016a) 은 SentiWordNet을 기반으로 감성 어휘를 추출한 후 한국어 Deco 사전을 확장하는 방식으로 DecoSelex라는 감성사전을 구축 하였다. 하지만 구축된 DecoSelex 감성 사전은 현재 공개되고 있지 않다. 오픈 한글( http://openhangul.com/restrict )은 집단지성을 사용하여 참여자가 단어에 대해 긍정, 부정, 중립을 투표하고 누적함으로 단어에 대한 감성 정보를 제공해주는 오픈 서비스로 다양한 분양의 감성사전을 제공하였지만, 이 역시 지금은 오픈 서비스의 한계적인 문제로 운영 중단된 상태이다 ( An and Kim, 2015 ). KOSAC(Korean Sentiment Analysis Corpus)은 서울대에서 개발한 말뭉치를 사용한 한국어 감성사전으로, 형태소 단위의 감정 특성을 제공하는 것이 특징이다 ( Shin et al., 2012 ; Shin et al., 2016b ). KNU-한국어 감성사전은 군산대에서 개발한 감성사전으로, 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 긍정과 부정으로 분류하였다. 이 사전은 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 제공하고 있으며, SentiWordNet, SenticNet 등 외부 소스를 활용하여 감성 어휘를 확장하고 온라인 상 사용되는 신조어, 이모티콘도 포함하고 있는 것이 특징이다( Park et al., 2018 ). 본 연구는 현재 일반인에게 공개되어 사용 가능한 KOSAC과 KNU-한국어 감성사전 2개를 모두 사용하여 기업재무 분석에서의 활용도를 검증하였다.

가장 널리 활용되는 영어 감성사전은 SentiWordNet이다. 이는 워드넷(WordNet)의 synset이라 불리우는 유의어 집합에 대해, 해당 단어의 유의어, 반의어로 집합을 확장한 후, 단어들을 분류기로 학습하여 긍정, 부정, 객관성에 대한 값을 부여하였다( Baccianella et al., 2010 ). 하지만 재무 분야에서 Harvard IV에서 제공하는 긍정어와 부정어 리스트를 사용하여 감성을 측정한 연구들이 더 많다( Tetlock, 2007 ; Tetlock et al., 2008 ). Harvard IV은 하버드 대학에서 개발한 일반적 용도의 감성사전으로 긍정(positive), 부정(negative) 외에도 즐거움(pleasure), 고통(pain), 선(virture), 악(vice) 등 여러 감성 목록을 제공하고 있다. 재무분석에서는 보통 긍정과 부정 두 범주를 주로 사용하며, 여기여 더해서 강한(strong)과 약한(week), 능동적(active)과 수동적 (passive) 범주에 해당하는 단어들도 함께 사용하기도 한다.

둘째는 머신러닝 방법론이다. Antweiler and Frank(2004) 는 Yahoo! Finance와 Raging Bull의 메시지 보드 텍스트를 나이브 베이지 알고리즘(Naive Bayes algorithm)을 사용하여 호황신호(bullishness signal) 변수를 계산하였으며, 이 변수가 시장 변동성을 예측할 수 있음을 보여주었다. Li(2010) 과 Li et al.(2013) 는 나이브 베이지안 머신러닝 알고리즘을 사용하여 10-K 보고서의 Management Discussion and Analysis(MD&A) 섹션을 분석하여 기업의 미래예견 지수와 기업을 둘러싸고 있는 경쟁의 정도를 측정하였다. Buehlmaier and Whited(2018) 은 기업 연차보고서의 텍스트를 분석하여 기업의 자금조달 제약(financial constraint)을 측정하는 변수를 산출한 뒤, 이 변수를 사용하여 자금조달 제약이 심한 기업일수록 주가 수익률이 높아짐을 보여주었다.

빅데이터 기술의 향상에 따라 재무학에서도 텍스트를 분석하기 시작한 연구들이 나오고 있다. 텍스트 어조를 다루고 있는 연구는 크게 두 가지로 구분된다. 첫째는 긍정어, 부정어 등의 단어사전을 만들 후, 해당 단어가 문서에서 발생하는 빈도수를 이용하여 측정하는 방식이다. Tetlock(2007) 은 Wall Street Journal(WSJ) 컬럼의 텍스트 어조를 정량적으로 측정하였으며, 비관적 어조가 이 후의 주식시장의 하락을 예측하며, 비관적 어조가 특이하게 낮거나 높은 후에 시장 거래량이 증가함을 발견하였다. Tetlock et al.(2008) 은 WSJ과 Dow Jones News Service(DJNS)에서 개별 기업에 관한 부정적 단어들을 추적하여 변수를 산출하였다. 이 뉴스들의 부정적 어조가 회사이익과 주가의 하락을 예측하였으며, 특히 뉴스가 회사의 본질가치와 연관되어 있을 때 가장 강한 예측력을 보였다. Loughran and McDonald(2011) 는 금융시장의 특수성으로 인해 일반 사전의 목록을 사용하면 정확성에 문제가 있을 수 있음 제시하였다. 그들은 금융 분야에 특화된 영문 단어목록을 제시하고, 이를 사용하면 정확성을 높일 수 있음을 보여주었다. 이후 Chen et al.(2014) , Garca(2013) 는 이 단어목록을 재무 분야의 텍스트 분석에 활용하였다.

나중에 강건성 검증을 위해 추천의견 변경도 벤치마크로 사용하였다. 추천의견을 사용하기 위해 다음과 같이 방법으로 계량화하였다. 추천의견을 매도, 비중축소, 중립, 매수, 적극매수의 5개 범위로 구분하였으며, 각 범주에 대해 매도 = 1, 비중축소 = 2, 중립 = 3, 매수 = 4, 적극매수 = 5 값을 임의로 부여하였다. 추천 투자등급은 증권사마다 차이가 존재하지만, Lee and Choi (2003) , Kim and Eum(2006) , Kim(2010) 의 분류방식을 그대로 차용하였다.

애널리스트 보고서의 텍스트는 실제 분석에 사용하기 이전 다음과 같은 전처리 과정을 거쳤다. 먼저 텍스트에 존재하는 특수문자 및 영문자, 숫자를 모두 제거하였다. 다음으로 향후 감성사전 단어와 애널리스트 보고서 내 본문과의 비교를 위해 토큰화(tokenizing)하였으며, 결과적으로 문장을 단어 및 형태소 기준으로 분리하였다. 토큰화는 한국어 자연어 처리를 위한 형태소 분석기로 널리 사용되어지는 KoNLPy(Korean NLP in Python)에 포함된 Komoran(KOrean MORphological ANalyzer) 형태소 분석 모듈을 사용하였다. KoNLPy( Park and Cho, 2014 )는 서울대학교에서 한국어 정보처리를 위해 개발된 파이썬 패키지로, 형태소 분석을 통해 문장을 형태소 단위로 토큰화하고 각 토큰에 해당하는 품사(명사, 동사, 수사 등)를 함께 태그하여 반환한다. 기초적인 분석 단계에서 형태소 분석 및 품사 태깅(tagging) 과정을 실시하지 않고 본문 즉, 애널리스트 보고서 원문 자체와 감성사전 내 등록 단어를 직접적으로 비교할 수 있을 것이다. 그러나 이 경우 단어 본래의 의미를 손실하여 단순히 음절 자체의 존재여부를 비교하는 문제가 발생한다. 예를 들어 LM사전의 ‘비하(degradation)’의 단어는 사전에서 부정적 감성을 가지는 키워드이나, 본문 내 단순 출현여부만을 집계할 시 ‘준비하고’라는 의미적으로 일치하지 않는 어절에서 단어의 부정적 감성이 추출되는 문제가 발생한다. 따라서 형태소 분석을 통해 ‘준비/NNG(일반명사) + 하/XSV(동사 파생 접미사) + 고/EC(연결 어미)’와 같이 어절을 형태소 단위로 분할함으로써 이러한 오집계를 방지하고자 하였다. 이와 유사하게 다수의 선행연구( An and Kim, 2015 ; Lee, 2011 )에서 이러한 감성어 사전을 활용한 감성 추출을 위해 형태소 분석이 선행되어야 함을 언급하고 있다.

(4) Δ T P R C i = α 0 + α 1 O P N i + α 2 C o n t r o l V a r i a b l e s + ϵ i

References

1. An J, Kim H. W. 2015;Building a Korean Sentiment Lexicon Using Collective Intelligence. Journal of Intelligence and Information Systems 21(2):49–67.

2. Antweiler W, Frank M. Z. 2004;Is All That Talk Just Noise?The Information Content of Internet Stock Message Boards. The Journal of Finance 59(3):1259–1294.

3. Baccianella S, Esuli A, Sebastiani F. 2010;SentiWordNet 3.0:An enhanced lexical resource for sentiment analysis and opinion mining. Proceedings of the International Conference on Language Resources and Evaluation 10(2010):2200–2204.

4. Buehlmaier M. M. M, Whited T. M. 2018;Are Financial Constraints Priced?Evidence from Textual Analysis. The Review of Financial Studies 31(7):2693–2728.

5. Chen H, De P, Hu Y. J, Hwang B. H. 2014;Wisdom of Crowds:The Value of Stock Opinions Transmitted Through Social Media. The Review of Financial Studies 27(5):1367–1403.

6. Garca D. 2013;Sentiment during Recessions. The Journal of Finance 68(3):1267–1300.

7. Kim D. S, Eum S. S. 2006;The Impact of Analysts’Revisions in Their Stock Recommendation and Target Prices on Stock Prices. Asia-Pacific Journal of Financial Studies 35(2):75–108.

8. Kim S. S. 2010;Analyst Recommendation Change and Fund Performance in Korea Fund Stock Market. Korean Journal of Business Administration 23(3):1351–1370.

9. Kim Y. H, Kang H. G, Lee J. K. 2018;Can Big Data Forecast North Korean Military Aggression? Defence and Peace Economics 29(6):666–683.

10. Kim Y, Joh S. W. 2019;Text Analysis for IPO firms in Korea:Analysis of Korean Texts in Registration Statements via Machine Learning. Korean Journal of Financial Studies 48(2):215–235.

11. Lee E, Park C. G. 2019;Does Adoption of K-IFRS Increase Upward Bias in Analysts’Earnings Forecasts? The Korean Journal of Financial Management 36(1):179–205.

12. Lee J. S. 2011;Three-Step Probabilistic Model for Korean Morphological Analysis. Journal of KIISE:Softward and Applications 38(5):257–268.

13. Lee W. H, Choi S. M. 2003;The Effect of Changes in Analysts’Investment Recommendation Ranking on Stock Returns and Trading Volumes. Journal of Korean Securities Association 32:1–44.

14. Li F. 2010;The Information Content of Forward-Looking Statements in Corporate Filings-A Naïve Bayesian Machine Learning Approach. Journal of Accounting Research 48(5):1049–1102.

15. Li F, Lundholm R, Minnis M. 2013;A Measure of Competition Based on 10-K Filings. Journal of Accounting Research 51(2):399–436.

16. Loughran T, McDonald B. 2011;When Is a Liability Not a Liability?Textual Analysis, Dictionaries, and 10-Ks. The Journal of Finance 66(1):35–65.

17. Park E. J, Cho S. 2014;KoNLPy:Korean Natural Language Processing in Python. Proceedings of the 26th Annual Conference on Human and Cognitive Language Technology :133–136.

18. Park S. M, Na C. W, Choi M. S, Lee D. H, On B. W. 2018;KNU Korean Sentiment Lexicon:Bi-LSTM-based Method for Building a Korean Sentiment Lexicon. Journal of Intelligence and Information Systems 24(4):219–240.

19. Shin D. H, Cho D. H, Nam J. S. 2016a;Building the Korean Sentiment Lexicon DecoSelex for Sentiment Analysis. Journal of Korealex 28:75–111.

20. Shin H. P, Kim M. H, Park S. Z. 2016b;Modality-based Sentiment Analysis through the Utilization of the Korean Sentiment Analysis Corpus. Eoneohag 74:93–114.

21. Shin H, Kim M, Jo Y. M, Jang H, Andrew C. 2012;Annotation Sceheme for Constructing Sentiment Corpus in Korean. Proceedings of the 26th Pacific Asia Conference on Language, Information and Computation :181–190.

22. Tetlock P. C. 2007;Giving Content to Investor Sentiment:The Role of Media in the Stock Market. The Journal of Finance 62(3):1139–1168.

23. Tetlock P. C, Tsechansky M. S, Macskassy S. 2008;More Than Words:Quantifying Language to Measure Firms’Fundamentals. The Journal of Finance 63(3):1437–1467.

기업 재무분석을 위한 한국어 감성사전 구축

본 연구는 기업 재무분석에 적합한 한국어 감성사전을 검증하고 구축하는 것을 목적으로 하고 있다. 기존 감성사전을 분석하였을 때, 한국어 기반으로 개발한 KOSAC과 KNU(군산대) 감성사전은 일반용이라는 약점을 가지며, Harvard IV(HV)와 Loughran and McDonald(LM)(2011)는 영어를 단순 번역하였다는 단점을 지니고 있다. 본 연구는 이를 보완한 한국어 금융 감성사전(KOSELF, Korean Sentiment Lexicon for Finance)을 새롭게 구축하여 제시하였다. 감성사전을 검증하기 위해 한경 컨센서스에서제공하는 2016년부터 2018년까지 한국에서 발행된 약 2만 개의 애널리스트 보고서 자료를 사용하였다. 보고서 별로 5개 감성사전을 통해 계산한 부정어, 긍정어 비율 등의 감성변수와 목표주가 및 추천의견변경과의 관계를 검증하였다. 본 연구에서 새롭게 구축한 KOSELF 감성변수는 애널리스트 목표주가및 추천의견 변경과 유의미한 관계를 가졌으며, 나머지 4개의 감성사전을 통해 계산한 변수들을추가하였을 때도 우수한 성과를 보여주었다. 본 연구는 재무, 금융 분야에서 활용할 수 있는 한국어감성사전을 제안하였다는 점에서 의의를 지닌다.

This study aims to verify and establish a Korean sentiment lexicon suitable for corporate financial analysis. When analyzing existing sentiment lexicons, the KOSAC and KNU (Kunsan University) dictionaries developed based on Korean are weak because they are used for general purposes. The Harvard IV and Loughran and McDonald (2011) have the disadvantage of being translated from English. In this study, the Korean Sentiment Lexicon for Finance (KOSELF) is constructed and presented. To verify its usefulness, text data from about 20,000 analyst reports published in Korea from 2016 to 2018 are collected from the Hankyung Consensus web page. After calculating the sentiment variables of negative and positive word frequency using five sentiment lexicons for each report, the recommendation and target price changes are regressed on these sentiment variables. The sentiment variables from the newly-constructed KOSELF in this study have a significant relationship with the analyst’s recommendation and target price change. Even when the sentiment variables calculated through the other four sentiment lexicons are added, it shows better performance. Our work has practical significance in that it proposes a Korean sentiment dictionary that can be used for finance.

RePLeT-Textmining, Sentiment, Topic Modeling, Word2Vec

Classes ‘tbl_df’, ‘tbl’ and ‘data.frame’: 206 obs. of 5 variables: $ : chr “1” “2” “3” “4” … $ a***** : chr “ㅁ**” “ㅋ**” “녹***” “맥****” … $ date : chr “2015.04.18 05:18” “2015.04.18 07:26” “2015.04.18 10:55” “2015.04.18 11:10” … $ desc : chr “첫부분만 읽고서는 그저 그러뉴변명하려는 줄 알고 짜증부터 났네요. 방청품질이 미국과 동일하다고 두괄식으로 결론부터 쓰시는게 좋을”| __truncated__ “이제까지 내수 수출 차별한건 사실이고 방청말고 내부사양에 다른 장난질을 쳤을 가능성이 있다는 것도 인정 하신다는 말씀이죠? 참 대”| __truncated__ ” 이분 최소한 난독증…진실한 소통의 시작..응원합니다 ” ” 맞는 부분 있습니다.. 내수외 북미용이 다릅니다. 씨트프레임도 달라요..ㅋㅋ 제조해 봐서… ㅋㅋ ” … $ article_POS: chr “첫/MDT;부분/NNG;만/JX;읽/VV;고서/ECD;는/JX;그저/MAG;그/VV;러/ECD;뉴/NNG;변명/NNG;하/XSV;려는/ETD;줄/NNB;알/VV;고/ECE;짜증/NNG;”| __truncated__ “이제/NNG;까지/JX;내수/NNG;수출/NNG;차별/NNG;하/XSV;ㄴ/ETD;것/NNB;은/JKS;사실/NNG;이/VCP;고/ECE;방청/NNG;말/VV;고/ECE;내부/NNG;”| __truncated__ “이분/NNG;최소/NNG;하/XSV;ㄴ/ETD;난독/NNG;증/NNG;…/SE;진실/NNG;하/XSV;ㄴ/ETD;소통/NNG;의/JKG;시작/NNG;../SW;응원/NNG;하/XSV;ㅂ”| __truncated__ “맞/VV;는/ETD;부분/NNG;있/VV;습니다/EFN;../SW;내수/NNG;외/NNB;북미/NNG;용/XSN;이/JKS;다르/VV;ㅂ니다/EFN;./SF;씨트/UN;프레임/NNG;”| __truncated__ …

Korean Institute of Information Technology

Abstract

With the development of the Internet, the rate of creation and extinction of newly coined words is increasing rapidly. Newly-coined words have the social problem of being an obstacle to inter-generational communication. Therefore, this study established a system for analyzing coined words to give opportunities for smooth communication to groups who are not familiar with them. The analysis system of this study provides simultaneous frequent words, category analysis and emotional value visualization for newly coined words that occur in the Internet community, social media, etc. In particular, Sookmyung Women’s Univ (SMU) emotional dictionary was established by providing a methodology for extending the existing emotional dictionary to newly coined words in analyzing emotional values. The SMU emotional dictionary presented in this study for sentences containing newly coined words has enabled more accurate emotional analysis than the existing emotional dictionaries.

키워드에 대한 정보 kosac 감성 사전

다음은 Bing에서 kosac 감성 사전 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

See also  더블 캐스팅 무료 다시 보기 | 집콕이 무료할 때? 방구석1열 [더블캐스팅] 뮤지컬 풀무대 All Day 스트리밍 #집에서함께해요 126 개의 자세한 답변
See also  트레비 스캇 조던 | 가품에 현타온다 - 트래비스 스캇 X 프라그먼트 조던1 로우 (Air Jordan 1 Travis Scott X Fragment Real Vs Fake) 23597 명이 이 답변을 좋아했습니다

See also  현대 자동차 계약 조회 | 올뉴아반떼 사전계약하신분들 팁입니다. 서비스등 정리해 봤습니다. 417 개의 새로운 답변이 업데이트되었습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 [이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류

  • 데이터 분석
  • 데이터 과학
  • 데이터
  • 데이터과학자
  • 데이터분석가
  • 파이썬
  • python
  • datascientist
  • datascience
  • data
  • 데이터분석 배우기
  • 데이터분석 책
  • 데이터 과학 책
  • 데이터 분석 책 추천
  • 데이터 분석 기초
  • 데이터 분석 강의
  • 데이터 분석 강좌
  • 데이터 분석 입문
  • 데이터 분석 무료 강의
  • 윤기태
[이것이 #데이터 #분석이다 #with #파이썬_17] #강남역 #맛집 #리뷰로 #알아보는 #감성 #분류


YouTube에서 kosac 감성 사전 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 [이것이 데이터 분석이다 with 파이썬_17] 강남역 맛집 리뷰로 알아보는 감성 분류 | kosac 감성 사전, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment