[토이플젝/Python] 유튜브 댓글분석 프로그램 개발AI감정분석, CSV, 워드클라우드, 형태소분석
페이지 정보
작성자 Sonny 작성일24-11-22 08:08 조회2회 댓글0건관련링크
본문
안녕하세요~파이썬 워드클라우드 코딩이 생소하고 어려워 간단한 데이터 시각화조차 주저하고 계신 분들을 위해 오늘은 오로지 Chat GPT만을 활용하여 워드클라우드 그리고 네트워크 시각화를 해볼까 합니다~! 데이터 수집 (ft. 키프리스)이번에 분석해볼 데이터는 특허 심판 데이터입니다. 데이터를 얻기 위해서는 키프리스로 접속해줍니다.키프리스 홈페이지 상단에 위치한 심판"탭에 들어가서 검색창에 RD(청구일자)=[20230101 ~ 20240916]에 입력하시고, 스마트 검색 창을 열어서 권리구분은 특허로 한정하고, 당사자구분은 당사자계로 한정해서 검색을 하면 1,240건의 데이터가 도출됩니다. 이후 오른쪽 메뉴창에 온라인 다운로드를 눌러주시면 위와 같은 창이 열리는데요. 빨간색 네모박스에 있는 사항을 클릭 및 체크 표시해주시고, 같은 창의 오른쪽 하단을 보시면 파일 생성"이라는 버튼이 있습니다. 해당 버튼을 클릭하면 바로 아래에 다운로드라는 버튼이 생기는데요. 다운로드 버튼을 클릭하면 1,240건의 심판 데이터 엑셀 파일이 다운로드 됩니다.다운받은 파일을 열어 제대로 데이터가 있는지 한번 확인해주시고, 이제 본격적으로 Chat GPT로 해당 데이터를 전처리하고 시각화를 해보겠습니다. 아래에 해당 데이터를 첨부해드리니 직접 분석을 해보고 싶으신 분은 다운받으시고 아래의 글을 참고하셔서 실습해보시길 바랍니다. 데이터 EDA (ft. Excel AI GPTs)현재 저는 Chat GPT 유료 버전을 사용하고 있는데요. 유료 버전을 사용하면 다른 사용자들이 만들어놓은 GPTs를 이용할 수 있다는 장점이 있습니다. 아쉽게도 무료 버전에서는 GPTs를 사용할 순 없다는 점 워드클라우드 참고 바랍니다. (GPTs는 일종의 플러그인 기능이라고 생각하시면 될 거 같습니다.)많고 많은 GPTs 중에서 엑셀 데이터 처리 및 분석에 특화된 Excel AI"라는 GPTs로 데이터 전처리 그리고 간단한 분석까지 진행해보겠습니다.전처리를 하기 전에 첨부해준 데이터가 어떤 유형의 데이터로 구성되어 있는지 GPT에게 물어보겠습니다.오호.. 첨부해준 데이터가 어떠한 유형의 데이터인지 꽤 잘 파악하고 있는 것 같습니다.이번에는 심판 건수와 심판 종류 현황에 대해서 시각화를 수행해보겠습니다. 23년 1월 그리고 2월에 약 200여건이 넘는 심판 건수를 기록하다가 23년 3월 이후부터는 감소하는 추세를 보여주고 있네요.심판 종류로는 권리범위확인 심판(소극적)이 제일 많이 발생했고 무효 심판이 뒤를 이어오고 있습니다.그리고 심판이 가장 많이 발생한 물품으로는 벤즈이미다졸, DPP IV 억제제 제형, 제2형 당뇨병 치료용 약제학적 조성물 그리고 에피나코나졸 등으로 확인되었습니다.물품명칭"컬럼 내 텍스트 워드클라우드 시각화 (ft. Excel AI GPTs)Chat GPT에게 워드클라우드 시각화를 지시했을 때, 한글의 경우 폰트 파일을 넣어주지 않으면 글자가 깨져서 보이더라구요. 그래서 저는 무료 폰트 파일(.ttf 형식)을 다운받아서 프롬프팅과 동시에 폰트 파일을 첨부해서 지시를 하니 아래와 같은 결과를 보여줬습니다. (무료 폰트 파일을 다운로드 받을 수 있는 링크는 아래에 첨부하였으니 참고해주세요~)1. 2023년 1월 ~ 2023년 12월 (물품명칭"컬럼의 텍스트 기반으로 워드클라우드 시각화)23년도 심판 데이터 내 워드클라우드 물품명칭의 텍스트를 월별로 워드클라우드 시각화를 해보니 23년도 11월을 제외하고는 주로 바이오 분야의 물품과 관련된 심판이 주를 이룬 것 같습니다.2. 2024년 1월 ~ 2024년 8월 (물품명칭"컬럼의 텍스트 기반으로 워드클라우드 시각화)24년도에도 바이오 분야의 물품들이 보이긴 하지만 이차전지, 열교환기 그리고 가죽 라미네이팅 등 보다 다양한 물품들과 관련된 특허 심판이 이루어지고 있는 것을 볼 수 있었습니다.물론 불용어 처리를 꼼꼼하게 하ㅈㅣ않고 약식으로 진행한 것이라 결과물의 설득력이 다소 떨어지지만 빠르게 월별 키워드를 파악해야할 때는 좋을 것 같습니다..! 무료 폰트 다운로드 링크 ↓서울 서체의 사용 Tip, 디자인파일 다운로드, 서울한강체, 서울남산체, 서울서체 비교, 서울 한강체의 특징, 서울남산체의 특징 정보데이터 전처리 ① - wide형에서 long형으로 데이터 형태 변환 (ft. Excel AI GPTs)이제 데이터 전처리를 해볼까요? 다운받은 심판 데이터 내 IPC 컬럼을 보시면 하나의 셀에 IPC 코드가 모두 들어있는 것을 볼 수 있는데요. 이러한 wide형 데이터를 하나의 셀에 하나의 IPC코드가 들어가 있는 long형 데이터로 바꿔보겠습니다.만들어준 데이터를 다운받아 확인해보니 정확히 제가 원했던 형태로 데이터를 만들어주었습니다!long형 데이터로 만들어진 상태에서 IPC코드의 빈도 현황을 파악해보겠습니다.빨간색 네모박스 부분을 클릭해보면 전체 코드별 빈도수를 볼 수 있는데요.살펴보니 1,240건의 심판과 관련하여 1,330개의 IPC코드가 포함되어 있네요.간단히 IPC코드 빈도수 워드클라우드 Top10에 대한 시각화를 해보니 상위 6위까지의 IPC 코드 빈도수가 다른 IPC 코드의 빈도수 대비 특히 높은 것 같네요.IPC 코드별 기술내용 매칭 및 간단한 인사이트 도출 (ft. Excel AI GPTs)위에서 long형으로 변환해준 이유는 사실 지난번 cj바이오사이언스 포스팅 때처럼 각 IPC코드에 맞는 기술 내용을 매칭해주기 위해서 였는데요.그때와 마찬가지로 같은 작업을 진행해보겠습니다. 다행히 이번에는 IPC코드 기재 양식이 동일해서 추가로 전처리를 수행할 필욘 없을 것 같습니다.작업이 완료되었습니다. 결과물을 한번 확인해볼까요?파일을 열어보니 IPC코드별 기술내용 매칭이 얼핏 봤을땐 잘 수행된 것 같군요. 그러면 매칭이 제대로 되었는지 몇 개의 데이터에 대해서만 검증을 해보도록 하죠.A61K9/28 .. 당의정피복된 환제 또는 정제 [2006.01]IPC 분류표 중 일부A61P1/04 . 궤양, 위염, 역류성 식도염용 의약, 예. 제산제, 산분비 억제제, 점막 보호제 [2006.01]IPC 분류표 중 일부C07D405/12 .. 사슬 결합으로서 이종원자를 함유하는 사슬에 의하여 결합하고 있는 것 [2006.01]IPC 분류표 중 일부C07D409/12 .. 사슬 결합으로서 이종원자를 함유하는 사슬에 의하여 결합하고 있는 것 [2006.01]IPC 분류표 중 일부A61K31/4184 ..... 탄소환과 축합한 것, 예. 벤즈이미다졸 [2006.01]IPC 분류표 중 일부랜덤으로 5개 정도만 확인해보니 모두 제대로 매칭이 되었습니다.
댓글목록
등록된 댓글이 없습니다.