Heim  >  Fragen und Antworten  >  Hauptteil

python – So ermitteln Sie die Anzahl der weitergeleiteten Weibo-Beiträge und die Anzahl der ursprünglichen Weibo-Beiträge eines Benutzers auf Sina Weibo

1. Problembeschreibung
Ich führe eine Analyse im Zusammenhang mit Weibo-Trollen durch und muss das Verhältnis der weitergeleiteten Weibo-Beiträge und das Verhältnis der ursprünglichen Weibo-Beiträge von Weibo-Benutzern ermitteln, d. h. die Anzahl der Benutzer, die die Weibo-Beiträge anderer Personen weiterleiten /die Anzahl aller Weibo-Beiträge.

Nachdem ich die Literatur durchgesehen hatte, stellte ich fest, dass die Papiere vieler Leute diese Art von Daten enthalten, aber ich weiß nicht, wie ich sie erhalten kann.

Ich habe herausgefunden, dass man sowohl in der mobilen Version als auch in der PC-Version von Weibo Filter verwenden kann, um das weitergeleitete Weibo einer Person zu finden, aber als ich auf diese Weise in der mobilen Version gefiltert habe, waren die zurückgegebenen Ergebnisse leer.

Was die in der Computerversion erhaltenen Ergebnisse betrifft, ist die Summe der Anzahl der weitergeleiteten Weibo und der Anzahl der ursprünglichen Weibo offensichtlich viel kleiner als die Gesamtzahl der Weibo.

2. Hilfe benötigt
(1) Gibt es ein Problem mit der Suchmaschine von Sina Weibo? (2) Kann ich die Anzahl der ursprünglichen Weibo-Beiträge einer Person und die Anzahl der weitergeleiteten Weibo-Beiträge sowohl über die API als auch über den Crawler ermitteln? Dürfen. (Verwenden Sie nicht die Gesamtzahl der Weibos – die Anzahl der ursprünglichen Weibos, da diese auch unsichtbare Weibos umfasst.)

伊谢尔伦伊谢尔伦2712 Tage vor803

Antworte allen(1)Ich werde antworten

  • 高洛峰

    高洛峰2017-05-18 10:48:47

    我开源了一个分布式的微博爬虫,该项目最初是做关于热门微博转发的分析(和我本身工作相关)。后来经过我多次修改,加了很多新的功能,并把它开源出来了。关于第一个问题,微博的搜索引擎是否有问题,我觉得有可能是它刻意为之,因为比如像用户关注和用户粉丝,微博系统就只会限制返回5页数据,像按地方搜索用户,也只会返回几万条数据。也有可能是由于有些微博你没权限查看,而它搜出来的结果是你有权限查看的。
    你说的第二个问题,不可见微博肯定是拿不到的,爬虫只能拿到普通用户能看见的微博数据,这个我也是在代码中实现了。因为私有微博的话,肯定微博系统不会展示的,API应该也拿不到。因为微博这么大的公司,还是得保护一下用户隐私吧。
    移动端你通过搜索接口搜索返回为空的原因,其实可能是因为微博刻意这么做的。你可以仔细调研一下,会发现PC端的信息比移动端的微博信息丰富得多。所以如果要做爬虫,且要求数据全面,肯定得从PC端入手。

    Antwort
    0
  • StornierenAntwort