Data_DBLP-Journals_Python

2757 단어
본문에 사용된 가방
import re
import sys
from collections import defaultdict
import numpy as np
import pylab as plt
import matplotlib.cm as cm
import statsmodels.api as sm
from os import listdir
import json

본고는 AMiner가 발표한 DBLP 컴퓨터 과학 문헌 데이터를 사용하고 기본적인 분석 사고방식과 코드와DataAPS-Journals_파이썬은 한 문장이 일치합니다.유일한 차이점은 데이터 형식이 다르다는 것이다. 데이터에 논문 길이의 정보가 없고 인용문 데이터와 논문 기본 정보도 일치하지 않는 것이 많다. 그래서 데이터 집합이 비교적 작고 모든 하위 분야를 합치면 모두 13만 논문과 40만 인용 기록이 있다.
데이터를 읽으려면 다음과 같이 하십시오.
path='/Users/csid/Documents/bigdata/DBLP_Citation_2014_May/domains/'
Q={}
Cdata=[]
C=defaultdict(lambda:[0,0]) #paper doi : (cite n papers, been cited by n papers)
for p in listdir(path):
    if p=='.DS_Store':
        continue
    flushPrint(p)
    paper={}
    c=[]
    with open(path+p,'rb') as f:
        for line in f:
            try:
                if len(line.split('#')) > 1:
                    c.append(line)
                else:
                    nAuthor = len(c[1].split(','))
                    year = digitalize(c[2])
                    doi = digitalize(c[4])
                    for i in c[5:]:
                        nc = digitalize(i)
                        if nc:
                            Cdata.append([doi,nc])
                            C[doi][0]+=1
                            C[nc][1]+=1
                    paper[doi]=[year,nAuthor]
                    c=[]
            except:
                pass
    Q[p]=paper

P=defaultdict(lambda:{})
for j in Q:
    for i in Q[j]:
        if i in C:
            P[j][i]=Q[j][i]+C[i]

다음 분석은 APS 저널에 대한 분석과 거의 일치하기 때문에 코드를 보여주지 않습니다.
그림 1.컴퓨터 잡지는 해마다 문장 수를 발표한다.창간 연도를 표기하다.
그림2.컴퓨터 잡지의 역대 문장 평균 저자수.
그림 3.컴퓨터 잡지의 역대 문장은 평균 다른 문장을 인용한다.
그림 4.컴퓨터 잡지의 역대 문장 평균 인용 횟수.
각 그림을 종합해 보면 APS 잡지 기사의 평균 저자 수와 인용 수가 계속 증가하는 것은 과학 연구가 점점 팀워크에 의존하고 과학 연구 공헌을 하는 것이 전문 지식에 대한 비축 요구도 점점 높아지고 있음을 나타낸다.
존재 관계 발견
![Eq. 1][1] [1]: http://latex.codecogs.com/svg.latex?W\sim{N^{\gamma}}
그 중에서 W는 인용 총수, N은 문장 총수이다.
그림 5.컴퓨터 잡지의 총 문장수와 총 인용수의 관계.오른쪽 아래에 서로 다른 간행물의gamma계수를 표시하였다.
하나의 네트워크를 고려하면 노드는 논문이고 연결은 논문 간의 상호 인용 관계이다. 이런 네트워크를 과학 인용 네트워크라고 할 수 있다.위의 그림에서 우리는 체인이 노드의 수량보다 빨리 성장하고 전체 체인의 수량과 전체 노드의 수량 사이에는 Eq.1과 같은 幂律 관계가 항상 구성된다는 것을 발견했다.
동시에 아직도 관계가 있음을 발견하다
![Eq. 2][2] [2]: http://latex.codecogs.com/svg.latex?M\sim{e^{-\delta{t}}}
여기서 M은 참조되는 수량이고 t는 시간입니다.
그림 6.컴퓨터 잡지의 연대별 문장 인용수는 시간의 분포를 뛰어넘는다.오른쪽 상단에 서로 다른 시기의델타 계수를 표시하였다.
위의 그림에서 보듯이 우리는 문장 인용의 빈도가 시간의 경계가 커지면 항상 지수 방식으로 빠르게 쇠퇴하지만 이 쇠퇴 속도는 느려지는 것을 발견했다.물리학자들은 더욱 빠른 연구 발견을 끊임없이 인용하는데 이것은 인류 사회가 발전함에 따라 과학자들이 기존의 지식에 대한 검증과 재구성의 폭이 끊임없이 증가하고 있음을 설명한다.흥미로운 것은 같은 쇠퇴 속도가 늦어지고 있지만 컴퓨터 논문의 쇠퇴 속도는 물리 논문보다 훨씬 빠르다는 것이다.

좋은 웹페이지 즐겨찾기